/home/sanchitgandhi/hf/lib/python3.8/site-packages/chex/_src/pytypes.py:37: FutureWarning: jax.tree_structure is deprecated, and will be removed in a future release. Use jax.tree_util.tree_structure instead.
  PyTreeDef = type(jax.tree_structure(None))
wandb: Currently logged in as: sanchit-gandhi. Use `wandb login --relogin` to force relogin
wandb: wandb version 0.13.2 is available!  To upgrade, please run:
wandb:  $ pip install wandb --upgrade
wandb: Tracking run with wandb version 0.12.18
wandb: Run data is saved locally in /home/sanchitgandhi/train-flax-wav2vec2-2-bart-large-voxpopuli-black-box/wandb/run-20220908_090454-q13mjl8e
wandb: Run `wandb offline` to turn off syncing.
wandb: Syncing run flax-wav2vec2-2-bart-large-voxpopuli-black-box
wandb: ⭐️ View project at https://wandb.ai/sanchit-gandhi/voxpopuli
wandb: 🚀 View run at https://wandb.ai/sanchit-gandhi/voxpopuli/runs/q13mjl8e
INFO:__main__:Training/evaluation parameters FlaxSeq2SeqTrainingArguments(
_n_gpu=-1,
adafactor=False,
adam_beta1=0.9,
adam_beta2=0.999,
adam_epsilon=1e-08,
auto_find_batch_size=False,
bf16=False,
bf16_full_eval=False,
data_seed=None,
dataloader_drop_last=False,
dataloader_num_workers=0,
dataloader_pin_memory=True,
ddp_bucket_cap_mb=None,
ddp_find_unused_parameters=None,
debug=,
deepspeed=None,
disable_tqdm=None,
do_eval=True,
do_predict=True,
do_train=True,
eval_accumulation_steps=None,
eval_delay=0,
eval_steps=10000,
evaluation_strategy=no,
final_generation_max_length=200,
final_generation_num_beams=5,
fp16=False,
fp16_backend=auto,
fp16_full_eval=False,
fp16_opt_level=O1,
fsdp=,
fsdp_min_num_params=0,
fsdp_transformer_layer_cls_to_wrap=None,
full_determinism=False,
generation_length_penalty=1.2,
generation_max_length=200,
generation_num_beams=5,
gradient_accumulation_steps=1,
gradient_checkpointing=True,
greater_is_better=None,
group_by_length=False,
half_precision_backend=auto,
hub_model_id=None,
hub_private_repo=False,
hub_strategy=every_save,
hub_token=<HUB_TOKEN>,
ignore_data_skip=False,
include_inputs_for_metrics=False,
jit_mode_eval=False,
label_names=None,
label_smoothing_factor=0.0,
learning_rate=0.0001,
length_column_name=length,
load_best_model_at_end=False,
local_rank=-1,
log_level=passive,
log_level_replica=passive,
log_on_each_node=True,
logging_dir=None,
logging_first_step=False,
logging_nan_inf_filter=True,
logging_steps=25,
logging_strategy=steps,
lr_scheduler_type=linear,
matmul_precision=default,
max_grad_norm=1.0,
max_steps=50000,
metric_for_best_model=None,
mp_parameters=,
no_cuda=False,
num_train_epochs=3.0,
optim=adamw_hf,
output_dir=./flax-wav2vec2-2-bart-large-voxpopuli-black-box,
overwrite_output_dir=True,
past_index=-1,
per_device_eval_batch_size=1,
per_device_train_batch_size=8,
precision=full,
predict_with_generate=True,
prediction_loss_only=False,
push_to_hub=True,
push_to_hub_model_id=None,
push_to_hub_organization=None,
push_to_hub_token=<PUSH_TO_HUB_TOKEN>,
ray_scope=last,
remove_unused_columns=True,
report_to=None,
resume_from_checkpoint=None,
run_name=None,
save_on_each_node=False,
save_steps=10000,
save_strategy=steps,
save_total_limit=None,
seed=42,
sharded_ddp=,
skip_memory_metrics=True,
sortish_sampler=False,
tf32=None,
torchdynamo=None,
tpu_metrics_debug=False,
tpu_num_cores=None,
use_ipex=False,
use_legacy_prediction_loop=False,
warmup_ratio=0.0,
warmup_steps=500,
weight_decay=0.0,
xpu_backend=None,
)
INFO:__main__:JAX devices: 8, matmul precision: default
WARNING:datasets.builder:Reusing dataset voxpopuli (/home/sanchitgandhi/cache/huggingface/datasets/polinaeterna___voxpopuli/en/1.3.0/8b39f6ff8dd8ced6def21f53eb18fbfd9701047d67b6c9da17f47f36ebedb4f8)
WARNING:datasets.builder:Reusing dataset voxpopuli (/home/sanchitgandhi/cache/huggingface/datasets/polinaeterna___voxpopuli/en/1.3.0/8b39f6ff8dd8ced6def21f53eb18fbfd9701047d67b6c9da17f47f36ebedb4f8)
WARNING:datasets.builder:Reusing dataset voxpopuli (/home/sanchitgandhi/cache/huggingface/datasets/polinaeterna___voxpopuli/en/1.3.0/8b39f6ff8dd8ced6def21f53eb18fbfd9701047d67b6c9da17f47f36ebedb4f8)
loading configuration file https://huggingface.co/sanchit-gandhi/flax-wav2vec2-2-bart-large-scan/resolve/main/config.json from cache at /home/sanchitgandhi/.cache/huggingface/transformers/e6d3af8a2b6624d8adf8fc289717c121400164223b3e51d49b639aa34d1d3048.c9a58c9120361b7b034a0136cc74d5dce009e745c4cc111c255d5f3d0a9e2fd9
/home/sanchitgandhi/transformers/src/transformers/configuration_utils.py:368: UserWarning: Passing `gradient_checkpointing` to a config initialization is deprecated and will be removed in v5 Transformers. Using `model.gradient_checkpointing_enable()` instead, or if you are using the `Trainer` API, pass `gradient_checkpointing=True` in your `TrainingArguments`.
  warnings.warn(
Model config SpeechEncoderDecoderConfig {
  "_name_or_path": "sanchit-gandhi/flax-wav2vec2-2-bart-large-scan",
  "architectures": [
    "SpeechEncoderDecoderModel"
  ],
  "decoder": {
    "_name_or_path": "",
    "activation_dropout": 0.1,
    "activation_function": "gelu",
    "add_bias_logits": false,
    "add_cross_attention": true,
    "add_final_layer_norm": false,
    "architectures": [
      "BartModel"
    ],
    "attention_dropout": 0.1,
    "bad_words_ids": null,
    "bos_token_id": 0,
    "chunk_size_feed_forward": 0,
    "classif_dropout": 0.1,
    "classifier_dropout": 0.0,
    "cross_attention_hidden_size": null,
    "d_model": 1024,
    "decoder_attention_heads": 16,
    "decoder_ffn_dim": 4096,
    "decoder_layerdrop": 0.0,
    "decoder_layers": 12,
    "decoder_start_token_id": 2,
    "diversity_penalty": 0.0,
    "do_sample": false,
    "dropout": 0.1,
    "early_stopping": true,
    "encoder_attention_heads": 16,
    "encoder_ffn_dim": 4096,
    "encoder_layerdrop": 0.0,
    "encoder_layers": 12,
    "encoder_no_repeat_ngram_size": 0,
    "eos_token_id": 2,
    "exponential_decay_length_penalty": null,
    "finetuning_task": null,
    "forced_bos_token_id": 0,
    "forced_eos_token_id": 2,
    "fuse_matmuls": false,
    "gradient_checkpointing": true,
    "id2label": {
      "0": "LABEL_0",
      "1": "LABEL_1",
      "2": "LABEL_2"
    },
    "init_std": 0.02,
    "is_decoder": true,
    "is_encoder_decoder": false,
    "label2id": {
      "LABEL_0": 0,
      "LABEL_1": 1,
      "LABEL_2": 2
    },
    "length_penalty": 1.0,
    "max_length": 20,
    "max_position_embeddings": 1024,
    "min_length": 0,
    "model_type": "bart",
    "no_repeat_ngram_size": 3,
    "normalize_before": false,
    "num_beam_groups": 1,
    "num_beams": 4,
    "num_hidden_layers": 12,
    "num_return_sequences": 1,
    "output_attentions": false,
    "output_hidden_states": false,
    "output_scores": false,
    "pad_token_id": 1,
    "prefix": null,
    "problem_type": null,
    "pruned_heads": {},
    "remove_invalid_values": false,
    "repetition_penalty": 1.0,
    "return_dict": true,
    "return_dict_in_generate": false,
    "scale_embedding": false,
    "sep_token_id": null,
    "task_specific_params": {
      "summarization": {
        "length_penalty": 1.0,
        "max_length": 128,
        "min_length": 12,
        "num_beams": 4
      },
      "summarization_cnn": {
        "length_penalty": 2.0,
        "max_length": 142,
        "min_length": 56,
        "num_beams": 4
      },
      "summarization_xsum": {
        "length_penalty": 1.0,
        "max_length": 62,
        "min_length": 11,
        "num_beams": 6
      }
    },
    "temperature": 1.0,
    "tf_legacy_loss": false,
    "tie_encoder_decoder": false,
    "tie_word_embeddings": true,
    "tokenizer_class": null,
    "top_k": 50,
    "top_p": 1.0,
    "torch_dtype": "float32",
    "torchscript": false,
    "transformers_version": "4.21.0.dev0",
    "typical_p": 1.0,
    "use_bfloat16": false,
    "use_cache": true,
    "use_scan": true,
    "vocab_size": 50265
  },
  "decoder_start_token_id": 0,
  "encoder": {
    "_name_or_path": "",
    "activation_dropout": 0.1,
    "adapter_kernel_size": 3,
    "adapter_stride": 2,
    "add_adapter": true,
    "add_cross_attention": false,
    "apply_spec_augment": true,
    "architectures": [
      "Wav2Vec2ForPreTraining"
    ],
    "attention_dropout": 0.1,
    "bad_words_ids": null,
    "bos_token_id": 1,
    "chunk_size_feed_forward": 0,
    "classifier_proj_size": 256,
    "codevector_dim": 768,
    "contrastive_logits_temperature": 0.1,
    "conv_bias": true,
    "conv_dim": [
      512,
      512,
      512,
      512,
      512,
      512,
      512
    ],
    "conv_kernel": [
      10,
      3,
      3,
      3,
      3,
      2,
      2
    ],
    "conv_stride": [
      5,
      2,
      2,
      2,
      2,
      2,
      2
    ],
    "cross_attention_hidden_size": null,
    "ctc_loss_reduction": "sum",
    "ctc_zero_infinity": false,
    "decoder_start_token_id": null,
    "diversity_loss_weight": 0.1,
    "diversity_penalty": 0.0,
    "do_sample": false,
    "do_stable_layer_norm": true,
    "early_stopping": false,
    "encoder_no_repeat_ngram_size": 0,
    "eos_token_id": 2,
    "exponential_decay_length_penalty": null,
    "feat_extract_activation": "gelu",
    "feat_extract_dropout": 0.0,
    "feat_extract_norm": "layer",
    "feat_proj_dropout": 0.0,
    "feat_quantizer_dropout": 0.0,
    "final_dropout": 0.0,
    "finetuning_task": null,
    "forced_bos_token_id": null,
    "forced_eos_token_id": null,
    "fuse_matmuls": false,
    "gradient_checkpointing": true,
    "hidden_act": "gelu",
    "hidden_dropout": 0.1,
    "hidden_dropout_prob": 0.1,
    "hidden_size": 1024,
    "id2label": {
      "0": "LABEL_0",
      "1": "LABEL_1"
    },
    "initializer_range": 0.02,
    "intermediate_size": 4096,
    "is_decoder": false,
    "is_encoder_decoder": false,
    "label2id": {
      "LABEL_0": 0,
      "LABEL_1": 1
    },
    "layer_norm_eps": 1e-05,
    "layerdrop": 0.0,
    "length_penalty": 1.0,
    "mask_feature_length": 10,
    "mask_feature_min_masks": 0,
    "mask_feature_prob": 0.0,
    "mask_time_length": 10,
    "mask_time_min_masks": 2,
    "mask_time_prob": 0.1,
    "max_length": 20,
    "min_length": 0,
    "model_type": "wav2vec2",
    "no_repeat_ngram_size": 0,
    "num_adapter_layers": 3,
    "num_attention_heads": 16,
    "num_beam_groups": 1,
    "num_beams": 1,
    "num_codevector_groups": 2,
    "num_codevectors_per_group": 320,
    "num_conv_pos_embedding_groups": 16,
    "num_conv_pos_embeddings": 128,
    "num_feat_extract_layers": 7,
    "num_hidden_layers": 24,
    "num_negatives": 100,
    "num_return_sequences": 1,
    "output_attentions": false,
    "output_hidden_size": 1024,
    "output_hidden_states": false,
    "output_scores": false,
    "pad_token_id": 0,
    "prefix": null,
    "problem_type": null,
    "proj_codevector_dim": 768,
    "pruned_heads": {},
    "remove_invalid_values": false,
    "repetition_penalty": 1.0,
    "return_dict": true,
    "return_dict_in_generate": false,
    "sep_token_id": null,
    "task_specific_params": null,
    "tdnn_dilation": [
      1,
      2,
      3,
      1,
      1
    ],
    "tdnn_dim": [
      512,
      512,
      512,
      512,
      1500
    ],
    "tdnn_kernel": [
      5,
      3,
      3,
      1,
      1
    ],
    "temperature": 1.0,
    "tf_legacy_loss": false,
    "tie_encoder_decoder": false,
    "tie_word_embeddings": true,
    "tokenizer_class": null,
    "top_k": 50,
    "top_p": 1.0,
    "torch_dtype": null,
    "torchscript": false,
    "transformers_version": "4.21.0.dev0",
    "typical_p": 1.0,
    "use_bfloat16": false,
    "use_scan": true,
    "use_weighted_layer_sum": false,
    "vocab_size": 32,
    "xvector_output_dim": 512
  },
  "eos_token_id": 2,
  "is_encoder_decoder": true,
  "max_length": 40,
  "model_type": "speech-encoder-decoder",
  "pad_token_id": 1,
  "processor_class": "Wav2Vec2Processor",
  "tie_word_embeddings": false,
  "transformers_version": null,
  "use_cache": false
}

loading feature extractor configuration file https://huggingface.co/sanchit-gandhi/flax-wav2vec2-2-bart-large-scan/resolve/main/preprocessor_config.json from cache at /home/sanchitgandhi/.cache/huggingface/transformers/bc2232c616201c7d3d66ba3f6a7d1186306134838dfb19786149f0e16122787d.bbc1eb890a39c82e710a893223b8452ac5b78e8b57083b2f893aa7dc59d4ed69
Feature extractor Wav2Vec2FeatureExtractor {
  "do_normalize": true,
  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
  "feature_size": 1,
  "padding_side": "right",
  "padding_value": 0.0,
  "return_attention_mask": true,
  "sampling_rate": 16000
}

loading file https://huggingface.co/sanchit-gandhi/flax-wav2vec2-2-bart-large-scan/resolve/main/vocab.json from cache at /home/sanchitgandhi/.cache/huggingface/transformers/86c0de13925d1534934e540ff4c9dd778f49761b4eaf59dae3335a4f6690a814.bfdcc444ff249bca1a95ca170ec350b442f81804d7df3a95a2252217574121d7
loading file https://huggingface.co/sanchit-gandhi/flax-wav2vec2-2-bart-large-scan/resolve/main/merges.txt from cache at /home/sanchitgandhi/.cache/huggingface/transformers/7cf4fc91891684e1177d1c519689e4c310ebdec965e00d6e45134bb9227ab01b.f5b91da9e34259b8f4d88dbc97c740667a0e8430b96314460cdb04e86d4fc435
loading file https://huggingface.co/sanchit-gandhi/flax-wav2vec2-2-bart-large-scan/resolve/main/tokenizer.json from cache at /home/sanchitgandhi/.cache/huggingface/transformers/c02f3f3009bfacaa24cfead1d0f7fbf4fc2fb5f8092f68703449f02aa3a28e03.393fa6a095aa312a3cce4d5263e471bd94ec0215e6c63448a6464d59ff900814
loading file https://huggingface.co/sanchit-gandhi/flax-wav2vec2-2-bart-large-scan/resolve/main/added_tokens.json from cache at None
loading file https://huggingface.co/sanchit-gandhi/flax-wav2vec2-2-bart-large-scan/resolve/main/special_tokens_map.json from cache at /home/sanchitgandhi/.cache/huggingface/transformers/505d61b8f6e05764b5aec1483bfdd13a310681a5af54957263604323be3bbabf.a11ebb04664c067c8fe5ef8f8068b0f721263414a26058692f7b2e4ba2a1b342
loading file https://huggingface.co/sanchit-gandhi/flax-wav2vec2-2-bart-large-scan/resolve/main/tokenizer_config.json from cache at /home/sanchitgandhi/.cache/huggingface/transformers/ff79c23164eac352d7f9651f3c3774a962ce80f81460d9e17d689235fa34ee80.0e8b2b497f91e23302894a5c1f19ced6334b0abd450a7bce75a67bf0f9ee5c54
loading weights file https://huggingface.co/sanchit-gandhi/flax-wav2vec2-2-bart-large-scan/resolve/main/flax_model.msgpack from cache at /home/sanchitgandhi/.cache/huggingface/transformers/1279dc21f7dd9ed546f166e7e445e068b2672ddfa5386b2e3a3a973b8d668365.8e03496bb6919447aeb468483249e7b65dfb59c42989be9787af0aa6aa9b3f50
tcmalloc: large alloc 2353618944 bytes == 0xa19b0000 @  0x7f0edf2a6680 0x7f0edf2c7824 0x5fb391 0x64be71 0x5c6366 0x4f3b9e 0x651588 0x505a63 0x56bbfa 0x569dba 0x50bca0 0x56cc1f 0x569dba 0x5f6eb3 0x56bacd 0x569dba 0x6902a7 0x67f951 0x67f9cf 0x67fa71 0x681b97 0x6b9d32 0x6ba0bd 0x7f0edf0b90b3 0x5fc5fe
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
All model checkpoint weights were used when initializing FlaxSpeechEncoderDecoderModel.

All the weights of FlaxSpeechEncoderDecoderModel were initialized from the model checkpoint at sanchit-gandhi/flax-wav2vec2-2-bart-large-scan.
If your task is similar to the task the model of the checkpoint was trained on, you can already use FlaxSpeechEncoderDecoderModel for predictions without further training.
/home/sanchitgandhi/transformers/src/transformers/modeling_flax_utils.py:904: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  param_dtypes = jax.tree_map(lambda x: x.dtype, state)
WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/sanchitgandhi/cache/huggingface/datasets/polinaeterna___voxpopuli/en/1.3.0/8b39f6ff8dd8ced6def21f53eb18fbfd9701047d67b6c9da17f47f36ebedb4f8/cache-fb5fd5dfa8aea4e5.arrow
WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/sanchitgandhi/cache/huggingface/datasets/polinaeterna___voxpopuli/en/1.3.0/8b39f6ff8dd8ced6def21f53eb18fbfd9701047d67b6c9da17f47f36ebedb4f8/cache-e2933449fdeea96a.arrow
WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/sanchitgandhi/cache/huggingface/datasets/polinaeterna___voxpopuli/en/1.3.0/8b39f6ff8dd8ced6def21f53eb18fbfd9701047d67b6c9da17f47f36ebedb4f8/cache-ca0120d6c29116f1.arrow
WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/sanchitgandhi/cache/huggingface/datasets/polinaeterna___voxpopuli/en/1.3.0/8b39f6ff8dd8ced6def21f53eb18fbfd9701047d67b6c9da17f47f36ebedb4f8/cache-8a5eb85627df79b1.arrow
WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/sanchitgandhi/cache/huggingface/datasets/polinaeterna___voxpopuli/en/1.3.0/8b39f6ff8dd8ced6def21f53eb18fbfd9701047d67b6c9da17f47f36ebedb4f8/cache-4c39282db57ba962.arrow
WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/sanchitgandhi/cache/huggingface/datasets/polinaeterna___voxpopuli/en/1.3.0/8b39f6ff8dd8ced6def21f53eb18fbfd9701047d67b6c9da17f47f36ebedb4f8/cache-f9a1acfe373833a8.arrow
WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/sanchitgandhi/cache/huggingface/datasets/polinaeterna___voxpopuli/en/1.3.0/8b39f6ff8dd8ced6def21f53eb18fbfd9701047d67b6c9da17f47f36ebedb4f8/cache-424b904bf98fad64.arrow
WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/sanchitgandhi/cache/huggingface/datasets/polinaeterna___voxpopuli/en/1.3.0/8b39f6ff8dd8ced6def21f53eb18fbfd9701047d67b6c9da17f47f36ebedb4f8/cache-f96755fa6046ca2e.arrow
WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/sanchitgandhi/cache/huggingface/datasets/polinaeterna___voxpopuli/en/1.3.0/8b39f6ff8dd8ced6def21f53eb18fbfd9701047d67b6c9da17f47f36ebedb4f8/cache-580b2563a982c19b.arrow
WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/sanchitgandhi/cache/huggingface/datasets/polinaeterna___voxpopuli/en/1.3.0/8b39f6ff8dd8ced6def21f53eb18fbfd9701047d67b6c9da17f47f36ebedb4f8/cache-9806a482376c6730.arrow
WARNING:datasets.arrow_dataset:Loading cached processed dataset at /home/sanchitgandhi/cache/huggingface/datasets/polinaeterna___voxpopuli/en/1.3.0/8b39f6ff8dd8ced6def21f53eb18fbfd9701047d67b6c9da17f47f36ebedb4f8/cache-b270bba7252ddff9.arrow
run_flax_speech_recognition_seq2seq.py:1052: FutureWarning: load_metric is deprecated and will be removed in the next major version of datasets. Use 'evaluate.load' instead, from the new library 🤗 Evaluate: https://huggingface.co/docs/evaluate
  wer_metric = load_metric("wer")
Feature extractor saved in ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/preprocessor_config.json
tokenizer config file saved in ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/tokenizer_config.json
Special tokens file saved in ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/special_tokens_map.json
Configuration saved in ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/config.json
loading feature extractor configuration file ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/preprocessor_config.json
loading configuration file ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/config.json
/home/sanchitgandhi/transformers/src/transformers/configuration_utils.py:368: UserWarning: Passing `gradient_checkpointing` to a config initialization is deprecated and will be removed in v5 Transformers. Using `model.gradient_checkpointing_enable()` instead, or if you are using the `Trainer` API, pass `gradient_checkpointing=True` in your `TrainingArguments`.
  warnings.warn(
Model config SpeechEncoderDecoderConfig {
  "_name_or_path": "./flax-wav2vec2-2-bart-large-voxpopuli-black-box",
  "architectures": [
    "SpeechEncoderDecoderModel"
  ],
  "decoder": {
    "_name_or_path": "",
    "activation_dropout": 0.2,
    "activation_function": "gelu",
    "add_bias_logits": false,
    "add_cross_attention": true,
    "add_final_layer_norm": false,
    "architectures": [
      "BartModel"
    ],
    "attention_dropout": 0.1,
    "bad_words_ids": null,
    "bos_token_id": 0,
    "chunk_size_feed_forward": 0,
    "classif_dropout": 0.1,
    "classifier_dropout": 0.0,
    "cross_attention_hidden_size": null,
    "d_model": 1024,
    "decoder_attention_heads": 16,
    "decoder_ffn_dim": 4096,
    "decoder_layerdrop": 0.0,
    "decoder_layers": 12,
    "decoder_start_token_id": 2,
    "diversity_penalty": 0.0,
    "do_sample": false,
    "dropout": 0.2,
    "early_stopping": true,
    "encoder_attention_heads": 16,
    "encoder_ffn_dim": 4096,
    "encoder_layerdrop": 0.0,
    "encoder_layers": 12,
    "encoder_no_repeat_ngram_size": 0,
    "eos_token_id": 2,
    "exponential_decay_length_penalty": null,
    "finetuning_task": null,
    "forced_bos_token_id": 0,
    "forced_eos_token_id": 2,
    "fuse_matmuls": false,
    "gradient_checkpointing": true,
    "id2label": {
      "0": "LABEL_0",
      "1": "LABEL_1",
      "2": "LABEL_2"
    },
    "init_std": 0.02,
    "is_decoder": true,
    "is_encoder_decoder": false,
    "label2id": {
      "LABEL_0": 0,
      "LABEL_1": 1,
      "LABEL_2": 2
    },
    "length_penalty": 1.0,
    "max_length": 20,
    "max_position_embeddings": 1024,
    "min_length": 0,
    "model_type": "bart",
    "no_repeat_ngram_size": 3,
    "normalize_before": false,
    "num_beam_groups": 1,
    "num_beams": 4,
    "num_hidden_layers": 12,
    "num_return_sequences": 1,
    "output_attentions": false,
    "output_hidden_states": false,
    "output_scores": false,
    "pad_token_id": 1,
    "prefix": null,
    "problem_type": null,
    "pruned_heads": {},
    "remove_invalid_values": false,
    "repetition_penalty": 1.0,
    "return_dict": true,
    "return_dict_in_generate": false,
    "scale_embedding": false,
    "sep_token_id": null,
    "task_specific_params": {
      "summarization": {
        "length_penalty": 1.0,
        "max_length": 128,
        "min_length": 12,
        "num_beams": 4
      },
      "summarization_cnn": {
        "length_penalty": 2.0,
        "max_length": 142,
        "min_length": 56,
        "num_beams": 4
      },
      "summarization_xsum": {
        "length_penalty": 1.0,
        "max_length": 62,
        "min_length": 11,
        "num_beams": 6
      }
    },
    "temperature": 1.0,
    "tf_legacy_loss": false,
    "tie_encoder_decoder": false,
    "tie_word_embeddings": true,
    "tokenizer_class": null,
    "top_k": 50,
    "top_p": 1.0,
    "torch_dtype": "float32",
    "torchscript": false,
    "transformers_version": "4.21.0.dev0",
    "typical_p": 1.0,
    "use_bfloat16": false,
    "use_cache": true,
    "use_scan": true,
    "vocab_size": 50265
  },
  "decoder_start_token_id": 0,
  "encoder": {
    "_name_or_path": "",
    "activation_dropout": 0.2,
    "adapter_kernel_size": 3,
    "adapter_stride": 2,
    "add_adapter": true,
    "add_cross_attention": false,
    "apply_spec_augment": true,
    "architectures": [
      "Wav2Vec2ForPreTraining"
    ],
    "attention_dropout": 0.1,
    "bad_words_ids": null,
    "bos_token_id": 1,
    "chunk_size_feed_forward": 0,
    "classifier_proj_size": 256,
    "codevector_dim": 768,
    "contrastive_logits_temperature": 0.1,
    "conv_bias": true,
    "conv_dim": [
      512,
      512,
      512,
      512,
      512,
      512,
      512
    ],
    "conv_kernel": [
      10,
      3,
      3,
      3,
      3,
      2,
      2
    ],
    "conv_stride": [
      5,
      2,
      2,
      2,
      2,
      2,
      2
    ],
    "cross_attention_hidden_size": null,
    "ctc_loss_reduction": "sum",
    "ctc_zero_infinity": false,
    "decoder_start_token_id": null,
    "diversity_loss_weight": 0.1,
    "diversity_penalty": 0.0,
    "do_sample": false,
    "do_stable_layer_norm": true,
    "early_stopping": false,
    "encoder_no_repeat_ngram_size": 0,
    "eos_token_id": 2,
    "exponential_decay_length_penalty": null,
    "feat_extract_activation": "gelu",
    "feat_extract_dropout": 0.0,
    "feat_extract_norm": "layer",
    "feat_proj_dropout": 0.2,
    "feat_quantizer_dropout": 0.0,
    "final_dropout": 0.0,
    "finetuning_task": null,
    "forced_bos_token_id": null,
    "forced_eos_token_id": null,
    "fuse_matmuls": false,
    "gradient_checkpointing": true,
    "hidden_act": "gelu",
    "hidden_dropout": 0.2,
    "hidden_dropout_prob": 0.1,
    "hidden_size": 1024,
    "id2label": {
      "0": "LABEL_0",
      "1": "LABEL_1"
    },
    "initializer_range": 0.02,
    "intermediate_size": 4096,
    "is_decoder": false,
    "is_encoder_decoder": false,
    "label2id": {
      "LABEL_0": 0,
      "LABEL_1": 1
    },
    "layer_norm_eps": 1e-05,
    "layerdrop": 0.0,
    "length_penalty": 1.0,
    "mask_feature_length": 10,
    "mask_feature_min_masks": 0,
    "mask_feature_prob": 0.0,
    "mask_time_length": 10,
    "mask_time_min_masks": 2,
    "mask_time_prob": 0.1,
    "max_length": 20,
    "min_length": 0,
    "model_type": "wav2vec2",
    "no_repeat_ngram_size": 0,
    "num_adapter_layers": 3,
    "num_attention_heads": 16,
    "num_beam_groups": 1,
    "num_beams": 1,
    "num_codevector_groups": 2,
    "num_codevectors_per_group": 320,
    "num_conv_pos_embedding_groups": 16,
    "num_conv_pos_embeddings": 128,
    "num_feat_extract_layers": 7,
    "num_hidden_layers": 24,
    "num_negatives": 100,
    "num_return_sequences": 1,
    "output_attentions": false,
    "output_hidden_size": 1024,
    "output_hidden_states": false,
    "output_scores": false,
    "pad_token_id": 0,
    "prefix": null,
    "problem_type": null,
    "proj_codevector_dim": 768,
    "pruned_heads": {},
    "remove_invalid_values": false,
    "repetition_penalty": 1.0,
    "return_dict": true,
    "return_dict_in_generate": false,
    "sep_token_id": null,
    "task_specific_params": null,
    "tdnn_dilation": [
      1,
      2,
      3,
      1,
      1
    ],
    "tdnn_dim": [
      512,
      512,
      512,
      512,
      1500
    ],
    "tdnn_kernel": [
      5,
      3,
      3,
      1,
      1
    ],
    "temperature": 1.0,
    "tf_legacy_loss": false,
    "tie_encoder_decoder": false,
    "tie_word_embeddings": true,
    "tokenizer_class": null,
    "top_k": 50,
    "top_p": 1.0,
    "torch_dtype": null,
    "torchscript": false,
    "transformers_version": "4.21.0.dev0",
    "typical_p": 1.0,
    "use_bfloat16": false,
    "use_scan": true,
    "use_weighted_layer_sum": false,
    "vocab_size": 32,
    "xvector_output_dim": 512
  },
  "eos_token_id": 2,
  "is_encoder_decoder": true,
  "max_length": 40,
  "model_type": "speech-encoder-decoder",
  "pad_token_id": 1,
  "processor_class": "Wav2Vec2Processor",
  "tie_word_embeddings": false,
  "transformers_version": null,
  "use_cache": false
}

loading feature extractor configuration file ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/preprocessor_config.json
Feature extractor Wav2Vec2FeatureExtractor {
  "do_normalize": true,
  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
  "feature_size": 1,
  "padding_side": "right",
  "padding_value": 0.0,
  "return_attention_mask": true,
  "sampling_rate": 16000
}

Didn't find file ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/added_tokens.json. We won't load it.
loading file ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/vocab.json
loading file ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/merges.txt
loading file ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/tokenizer.json
loading file None
loading file ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/special_tokens_map.json
loading file ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/tokenizer_config.json
WARNING:__main__:Unable to display metrics through TensorBoard because the package is not installed: Please run `pip install tensorboard` to enable.
/home/sanchitgandhi/train-flax-wav2vec2-2-bart-large-voxpopuli-black-box/./flax-wav2vec2-2-bart-large-voxpopuli-black-box is already a clone of https://huggingface.co/sanchit-gandhi/flax-wav2vec2-2-bart-large-voxpopuli-black-box. Make sure you pull the latest changes with `repo.git_pull()`.
WARNING:huggingface_hub.repository:/home/sanchitgandhi/train-flax-wav2vec2-2-bart-large-voxpopuli-black-box/./flax-wav2vec2-2-bart-large-voxpopuli-black-box is already a clone of https://huggingface.co/sanchit-gandhi/flax-wav2vec2-2-bart-large-voxpopuli-black-box. Make sure you pull the latest changes with `repo.git_pull()`.
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/optax/_src/transform.py:319: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  mu = jax.tree_map(  # First moment
/home/sanchitgandhi/hf/lib/python3.8/site-packages/optax/_src/transform.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  nu = jax.tree_map(jnp.zeros_like, params)  # Second moment
INFO:__main__:***** Running training *****
INFO:__main__:  Num examples = 167029
INFO:__main__:  Num Epochs = 20
INFO:__main__:  Instantaneous batch size per device = 8
INFO:__main__:  Num gradient accumulation steps = 1
INFO:__main__:  Total train batch size (w. parallel & distributed) = 64
INFO:__main__:  Total optimization steps = 50000
INFO:__main__:  Gradient checkpointing: True
INFO:__main__:  Use scan: True
INFO:__main__:  Fuse matmuls: False
Epoch ... (1/20):   0% 0/20 [00:00<?, ?it/s]
Training...:   0% 0/2609 [00:00<?, ?it/s][A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:25: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:1266: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  grad = jax.tree_map(lambda g: g / total_samples, grad)
run_flax_speech_recognition_seq2seq.py:1267: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/optax/_src/linear_algebra.py:29: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  sum([jnp.sum(numerics.abs_sq(x)) for x in jax.tree_leaves(updates)]))
run_flax_speech_recognition_seq2seq.py:399: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  grads = jax.tree_map(lambda t: (t / g_norm) * casted_max_grad_norm, grads)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/optax/_src/transform.py:82: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(
/home/sanchitgandhi/hf/lib/python3.8/site-packages/optax/_src/transform.py:99: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(
/home/sanchitgandhi/hf/lib/python3.8/site-packages/optax/_src/transform.py:106: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda t: t / bias_correction.astype(t.dtype), moment)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/optax/_src/transform.py:331: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  updates = jax.tree_map(
/home/sanchitgandhi/hf/lib/python3.8/site-packages/optax/_src/transform.py:610: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  updates = jax.tree_map(
/home/sanchitgandhi/hf/lib/python3.8/site-packages/optax/_src/transform.py:647: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  updates = jax.tree_map(
/home/sanchitgandhi/hf/lib/python3.8/site-packages/optax/_src/update.py:42: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(
run_flax_speech_recognition_seq2seq.py:1277: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  layer_grad_norm = jax.tree_map(jnp.linalg.norm, grad)
run_flax_speech_recognition_seq2seq.py:1286: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  layer_param_norm = jax.tree_map(jnp.linalg.norm, new_state.params)

Training...:   0% 1/2609 [01:07<48:56:15, 67.55s/it][A
Training...:   0% 2/2609 [02:09<46:35:59, 64.35s/it][A
Training...:   0% 3/2609 [03:09<44:59:21, 62.15s/it][A
Training...:   0% 4/2609 [03:15<29:00:57, 40.10s/it][A
Training...:   0% 5/2609 [04:13<33:43:05, 46.62s/it][A
Training...:   0% 6/2609 [04:19<23:41:10, 32.76s/it][A
Training...:   0% 7/2609 [04:25<17:16:38, 23.90s/it][A
Training...:   0% 8/2609 [05:24<25:18:56, 35.04s/it][A
Training...:   0% 9/2609 [05:29<18:37:40, 25.79s/it][A
Training...:   0% 10/2609 [05:34<14:01:02, 19.42s/it][A
Training...:   0% 11/2609 [06:36<23:20:34, 32.35s/it][A
Training...:   0% 12/2609 [06:41<17:18:53, 24.00s/it][A
Training...:   0% 13/2609 [06:45<13:05:08, 18.15s/it][A
Training...:   1% 14/2609 [07:45<22:10:24, 30.76s/it][A
Training...:   1% 15/2609 [07:50<16:27:03, 22.83s/it][A
Training...:   1% 16/2609 [07:54<12:24:31, 17.23s/it][A
Training...:   1% 17/2609 [07:58<9:33:43, 13.28s/it] [A
Training...:   1% 18/2609 [08:02<7:33:10, 10.49s/it][A
Training...:   1% 19/2609 [09:00<17:41:47, 24.60s/it][A
Training...:   1% 20/2609 [09:03<13:11:16, 18.34s/it][A
Training...:   1% 21/2609 [09:07<10:02:18, 13.96s/it][A
Training...:   1% 22/2609 [09:11<7:50:51, 10.92s/it] [A
Training...:   1% 23/2609 [09:14<6:13:34,  8.67s/it][A
Training...:   1% 24/2609 [10:12<16:52:18, 23.50s/it][A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:61: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x[0], tree)
                                            
                                                     [AEpoch ... (1/20):   0% 0/20 [10:22<?, ?it/s]
Training...:   1% 24/2609 [10:16<16:52:18, 23.50s/it][A
Training...:   1% 25/2609 [10:16<12:38:00, 17.60s/it][A
Training...:   1% 26/2609 [10:19<9:31:26, 13.27s/it] [A
Training...:   1% 27/2609 [10:22<7:18:45, 10.20s/it][A
Training...:   1% 28/2609 [10:25<5:44:33,  8.01s/it][A
Training...:   1% 29/2609 [10:28<4:38:16,  6.47s/it][A
Training...:   1% 30/2609 [11:25<15:24:37, 21.51s/it][A
Training...:   1% 31/2609 [11:28<11:21:54, 15.87s/it][A
Training...:   1% 32/2609 [11:30<8:30:42, 11.89s/it] [A
Training...:   1% 33/2609 [11:33<6:29:39,  9.08s/it][A
Training...:   1% 34/2609 [11:35<5:03:42,  7.08s/it][A
Training...:   1% 35/2609 [11:37<4:02:17,  5.65s/it][A
Training...:   1% 36/2609 [12:33<14:45:22, 20.65s/it][A
Training...:   1% 37/2609 [12:35<10:47:23, 15.10s/it][A
Training...:   1% 38/2609 [12:37<7:59:16, 11.18s/it] [A
Training...:   1% 39/2609 [12:39<6:00:32,  8.42s/it][A
Training...:   2% 40/2609 [12:41<4:36:08,  6.45s/it][A
Training...:   2% 41/2609 [12:43<3:36:24,  5.06s/it][A
Training...:   2% 42/2609 [13:39<14:33:08, 20.41s/it][A
Training...:   2% 43/2609 [13:41<10:31:18, 14.76s/it][A
Training...:   2% 44/2609 [13:42<7:40:41, 10.78s/it] [A
Training...:   2% 45/2609 [13:44<5:39:54,  7.95s/it][A
Training...:   2% 46/2609 [13:45<4:13:54,  5.94s/it][A
Training...:   2% 47/2609 [13:46<3:12:04,  4.50s/it][A
Training...:   2% 48/2609 [14:39<13:39:47, 19.21s/it][A
Training...:   2% 49/2609 [14:40<9:43:25, 13.67s/it] [A                                            
                                                    [AEpoch ... (1/20):   0% 0/20 [14:47<?, ?it/s]
Training...:   2% 49/2609 [14:41<9:43:25, 13.67s/it][A
Training...:   2% 50/2609 [14:41<6:59:31,  9.84s/it][A
Training...:   2% 51/2609 [14:48<6:27:00,  9.08s/it][A
Training...:   2% 52/2609 [14:56<6:09:48,  8.68s/it][A
Training...:   2% 53/2609 [15:03<5:44:35,  8.09s/it][A
Training...:   2% 54/2609 [15:09<5:21:15,  7.54s/it][A
Training...:   2% 55/2609 [15:15<5:01:35,  7.08s/it][A
Training...:   2% 56/2609 [15:21<4:44:39,  6.69s/it][A
Training...:   2% 57/2609 [15:26<4:30:29,  6.36s/it][A
Training...:   2% 58/2609 [15:32<4:17:20,  6.05s/it][A
Training...:   2% 59/2609 [15:37<4:06:58,  5.81s/it][A
Training...:   2% 60/2609 [15:42<3:56:51,  5.58s/it][A
Training...:   2% 61/2609 [15:47<3:48:45,  5.39s/it][A
Training...:   2% 62/2609 [15:52<3:40:07,  5.19s/it][A
Training...:   2% 63/2609 [15:56<3:32:18,  5.00s/it][A
Training...:   2% 64/2609 [16:01<3:25:48,  4.85s/it][A
Training...:   2% 65/2609 [16:05<3:18:42,  4.69s/it][A
Training...:   3% 66/2609 [16:09<3:13:26,  4.56s/it][A
Training...:   3% 67/2609 [16:14<3:08:19,  4.44s/it][A
Training...:   3% 68/2609 [16:18<3:01:57,  4.30s/it][A
Training...:   3% 69/2609 [16:21<2:56:36,  4.17s/it][A
Training...:   3% 70/2609 [16:25<2:51:36,  4.06s/it][A
Training...:   3% 71/2609 [16:29<2:47:19,  3.96s/it][A
Training...:   3% 72/2609 [16:32<2:42:07,  3.83s/it][A
Training...:   3% 73/2609 [16:36<2:37:43,  3.73s/it][A
Training...:   3% 74/2609 [16:39<2:33:31,  3.63s/it][A                                            
                                                    [AEpoch ... (1/20):   0% 0/20 [16:49<?, ?it/s]
Training...:   3% 74/2609 [16:43<2:33:31,  3.63s/it][A
Training...:   3% 75/2609 [16:43<2:36:24,  3.70s/it][A
Training...:   3% 76/2609 [16:46<2:29:46,  3.55s/it][A
Training...:   3% 77/2609 [16:50<2:24:28,  3.42s/it][A
Training...:   3% 78/2609 [16:53<2:18:54,  3.29s/it][A
Training...:   3% 79/2609 [16:55<2:14:35,  3.19s/it][A
Training...:   3% 80/2609 [16:58<2:10:34,  3.10s/it][A
Training...:   3% 81/2609 [17:01<2:06:44,  3.01s/it][A
Training...:   3% 82/2609 [17:04<2:02:04,  2.90s/it][A
Training...:   3% 83/2609 [17:06<1:58:09,  2.81s/it][A
Training...:   3% 84/2609 [17:09<1:53:45,  2.70s/it][A
Training...:   3% 85/2609 [17:11<1:49:59,  2.61s/it][A
Training...:   3% 86/2609 [17:14<1:46:51,  2.54s/it][A
Training...:   3% 87/2609 [17:16<1:43:14,  2.46s/it][A
Training...:   3% 88/2609 [17:18<1:39:25,  2.37s/it][A
Training...:   3% 89/2609 [17:20<1:35:16,  2.27s/it][A
Training...:   3% 90/2609 [17:22<1:31:17,  2.17s/it][A
Training...:   3% 91/2609 [17:24<1:26:52,  2.07s/it][A
Training...:   4% 92/2609 [17:26<1:22:35,  1.97s/it][A
Training...:   4% 93/2609 [17:27<1:18:41,  1.88s/it][A
Training...:   4% 94/2609 [17:29<1:14:28,  1.78s/it][A
Training...:   4% 95/2609 [17:30<1:10:04,  1.67s/it][A
Training...:   4% 96/2609 [17:32<1:04:46,  1.55s/it][A
Training...:   4% 97/2609 [17:33<59:40,  1.43s/it]  [A
Training...:   4% 98/2609 [17:34<54:18,  1.30s/it][A
Training...:   4% 99/2609 [17:34<48:10,  1.15s/it][A                                            
                                                  [AEpoch ... (1/20):   0% 0/20 [17:41<?, ?it/s]
Training...:   4% 99/2609 [17:35<48:10,  1.15s/it][A
Training...:   4% 100/2609 [17:35<44:59,  1.08s/it][A
Training...:   4% 101/2609 [17:43<2:03:18,  2.95s/it][A
Training...:   4% 102/2609 [17:50<2:55:22,  4.20s/it][A
Training...:   4% 103/2609 [17:57<3:27:02,  4.96s/it][A
Training...:   4% 104/2609 [18:03<3:44:06,  5.37s/it][A
Training...:   4% 105/2609 [18:09<3:53:24,  5.59s/it][A
Training...:   4% 106/2609 [18:15<3:55:28,  5.64s/it][A
Training...:   4% 107/2609 [18:20<3:54:00,  5.61s/it][A
Training...:   4% 108/2609 [18:26<3:50:01,  5.52s/it][A
Training...:   4% 109/2609 [18:31<3:46:18,  5.43s/it][A
Training...:   4% 110/2609 [18:36<3:40:04,  5.28s/it][A
Training...:   4% 111/2609 [18:41<3:34:31,  5.15s/it][A
Training...:   4% 112/2609 [18:45<3:28:51,  5.02s/it][A
Training...:   4% 113/2609 [18:50<3:22:58,  4.88s/it][A
Training...:   4% 114/2609 [18:54<3:16:38,  4.73s/it][A
Training...:   4% 115/2609 [18:58<3:10:53,  4.59s/it][A
Training...:   4% 116/2609 [19:03<3:06:01,  4.48s/it][A
Training...:   4% 117/2609 [19:07<3:00:58,  4.36s/it][A
Training...:   5% 118/2609 [19:11<2:55:47,  4.23s/it][A
Training...:   5% 119/2609 [19:15<2:51:15,  4.13s/it][A
Training...:   5% 120/2609 [19:18<2:46:43,  4.02s/it][A
Training...:   5% 121/2609 [19:22<2:41:41,  3.90s/it][A
Training...:   5% 122/2609 [19:26<2:38:03,  3.81s/it][A
Training...:   5% 123/2609 [19:29<2:34:16,  3.72s/it][A
Training...:   5% 124/2609 [19:33<2:30:16,  3.63s/it][A                                            
                                                     [AEpoch ... (1/20):   0% 0/20 [19:42<?, ?it/s]
Training...:   5% 124/2609 [19:36<2:30:16,  3.63s/it][A
Training...:   5% 125/2609 [19:36<2:33:29,  3.71s/it][A
Training...:   5% 126/2609 [19:40<2:27:00,  3.55s/it][A
Training...:   5% 127/2609 [19:43<2:21:46,  3.43s/it][A
Training...:   5% 128/2609 [19:46<2:16:57,  3.31s/it][A
Training...:   5% 129/2609 [19:49<2:12:33,  3.21s/it][A
Training...:   5% 130/2609 [19:52<2:08:02,  3.10s/it][A
Training...:   5% 131/2609 [19:54<2:04:03,  3.00s/it][A
Training...:   5% 132/2609 [19:57<1:59:37,  2.90s/it][A
Training...:   5% 133/2609 [20:00<1:55:08,  2.79s/it][A
Training...:   5% 134/2609 [20:02<1:51:00,  2.69s/it][A
Training...:   5% 135/2609 [20:04<1:47:07,  2.60s/it][A
Training...:   5% 136/2609 [20:07<1:42:46,  2.49s/it][A
Training...:   5% 137/2609 [20:09<1:39:01,  2.40s/it][A
Training...:   5% 138/2609 [20:11<1:35:09,  2.31s/it][A
Training...:   5% 139/2609 [20:13<1:31:29,  2.22s/it][A
Training...:   5% 140/2609 [20:15<1:27:21,  2.12s/it][A
Training...:   5% 141/2609 [20:17<1:23:29,  2.03s/it][A
Training...:   5% 142/2609 [20:18<1:19:26,  1.93s/it][A
Training...:   5% 143/2609 [20:20<1:15:25,  1.84s/it][A
Training...:   6% 144/2609 [20:21<1:11:06,  1.73s/it][A
Training...:   6% 145/2609 [20:23<1:06:47,  1.63s/it][A
Training...:   6% 146/2609 [20:24<1:02:16,  1.52s/it][A
Training...:   6% 147/2609 [20:25<57:32,  1.40s/it]  [A
Training...:   6% 148/2609 [20:26<52:08,  1.27s/it][A
Training...:   6% 149/2609 [20:27<46:06,  1.12s/it][A                                            
                                                   [AEpoch ... (1/20):   0% 0/20 [20:34<?, ?it/s]
Training...:   6% 149/2609 [20:28<46:06,  1.12s/it][A
Training...:   6% 150/2609 [20:28<42:54,  1.05s/it][A
Training...:   6% 151/2609 [20:35<1:57:33,  2.87s/it][A
Training...:   6% 152/2609 [20:42<2:48:28,  4.11s/it][A
Training...:   6% 153/2609 [20:49<3:19:34,  4.88s/it][A
Training...:   6% 154/2609 [20:55<3:37:17,  5.31s/it][A
Training...:   6% 155/2609 [21:01<3:46:35,  5.54s/it][A
Training...:   6% 156/2609 [21:07<3:50:18,  5.63s/it][A
Training...:   6% 157/2609 [21:13<3:50:10,  5.63s/it][A
Training...:   6% 158/2609 [21:18<3:47:55,  5.58s/it][A
Training...:   6% 159/2609 [21:23<3:44:09,  5.49s/it][A
Training...:   6% 160/2609 [21:28<3:38:39,  5.36s/it][A
Training...:   6% 161/2609 [21:33<3:33:12,  5.23s/it][A
Training...:   6% 162/2609 [21:38<3:29:23,  5.13s/it][A
Training...:   6% 163/2609 [21:43<3:24:59,  5.03s/it][A
Training...:   6% 164/2609 [21:48<3:20:11,  4.91s/it][A
Training...:   6% 165/2609 [21:52<3:13:55,  4.76s/it][A
Training...:   6% 166/2609 [21:56<3:06:58,  4.59s/it][A
Training...:   6% 167/2609 [22:00<3:01:02,  4.45s/it][A
Training...:   6% 168/2609 [22:04<2:55:37,  4.32s/it][A
Training...:   6% 169/2609 [22:08<2:50:44,  4.20s/it][A
Training...:   7% 170/2609 [22:12<2:45:02,  4.06s/it][A
Training...:   7% 171/2609 [22:16<2:40:07,  3.94s/it][A
Training...:   7% 172/2609 [22:19<2:35:42,  3.83s/it][A
Training...:   7% 173/2609 [22:23<2:31:02,  3.72s/it][A
Training...:   7% 174/2609 [22:26<2:26:53,  3.62s/it][A                                            
                                                     [AEpoch ... (1/20):   0% 0/20 [22:36<?, ?it/s]
Training...:   7% 174/2609 [22:30<2:26:53,  3.62s/it][A
Training...:   7% 175/2609 [22:30<2:29:38,  3.69s/it][A
Training...:   7% 176/2609 [22:33<2:23:37,  3.54s/it][A
Training...:   7% 177/2609 [22:36<2:18:37,  3.42s/it][A
Training...:   7% 178/2609 [22:39<2:13:36,  3.30s/it][A
Training...:   7% 179/2609 [22:42<2:08:28,  3.17s/it][A
Training...:   7% 180/2609 [22:45<2:03:54,  3.06s/it][A
Training...:   7% 181/2609 [22:48<1:59:26,  2.95s/it][A
Training...:   7% 182/2609 [22:50<1:55:09,  2.85s/it][A
Training...:   7% 183/2609 [22:53<1:51:11,  2.75s/it][A
Training...:   7% 184/2609 [22:55<1:46:50,  2.64s/it][A
Training...:   7% 185/2609 [22:57<1:43:05,  2.55s/it][A
Training...:   7% 186/2609 [23:00<1:39:33,  2.47s/it][A
Training...:   7% 187/2609 [23:02<1:36:23,  2.39s/it][A
Training...:   7% 188/2609 [23:04<1:32:35,  2.29s/it][A
Training...:   7% 189/2609 [23:06<1:29:00,  2.21s/it][A
Training...:   7% 190/2609 [23:08<1:24:45,  2.10s/it][A
Training...:   7% 191/2609 [23:10<1:20:22,  1.99s/it][A
Training...:   7% 192/2609 [23:11<1:16:20,  1.90s/it][A
Training...:   7% 193/2609 [23:13<1:12:05,  1.79s/it][A
Training...:   7% 194/2609 [23:14<1:07:35,  1.68s/it][A
Training...:   7% 195/2609 [23:16<1:02:30,  1.55s/it][A
Training...:   8% 196/2609 [23:17<57:29,  1.43s/it]  [A
Training...:   8% 197/2609 [23:18<52:43,  1.31s/it][A
Training...:   8% 198/2609 [23:19<47:22,  1.18s/it][A
Training...:   8% 199/2609 [23:19<41:28,  1.03s/it][A                                            
                                                   [AEpoch ... (1/20):   0% 0/20 [24:20<?, ?it/s]
Training...:   8% 199/2609 [24:14<41:28,  1.03s/it][A
Training...:   8% 200/2609 [24:14<11:23:28, 17.02s/it][A
Training...:   8% 201/2609 [24:21<9:24:47, 14.07s/it] [A
Training...:   8% 202/2609 [24:28<8:07:27, 12.15s/it][A
Training...:   8% 203/2609 [24:35<7:03:18, 10.56s/it][A
Training...:   8% 204/2609 [24:42<6:12:02,  9.28s/it][A
Training...:   8% 205/2609 [24:48<5:33:36,  8.33s/it][A
Training...:   8% 206/2609 [24:54<5:04:21,  7.60s/it][A
Training...:   8% 207/2609 [24:59<4:40:54,  7.02s/it][A
Training...:   8% 208/2609 [25:05<4:23:28,  6.58s/it][A
Training...:   8% 209/2609 [25:10<4:07:54,  6.20s/it][A
Training...:   8% 210/2609 [25:15<3:54:33,  5.87s/it][A
Training...:   8% 211/2609 [25:20<3:43:07,  5.58s/it][A
Training...:   8% 212/2609 [25:25<3:33:54,  5.35s/it][A
Training...:   8% 213/2609 [25:30<3:24:55,  5.13s/it][A
Training...:   8% 214/2609 [25:34<3:18:14,  4.97s/it][A
Training...:   8% 215/2609 [25:38<3:10:26,  4.77s/it][A
Training...:   8% 216/2609 [25:43<3:03:42,  4.61s/it][A
Training...:   8% 217/2609 [25:47<2:57:32,  4.45s/it][A
Training...:   8% 218/2609 [25:51<2:52:00,  4.32s/it][A
Training...:   8% 219/2609 [25:55<2:47:08,  4.20s/it][A
Training...:   8% 220/2609 [25:59<2:42:31,  4.08s/it][A
Training...:   8% 221/2609 [26:02<2:38:05,  3.97s/it][A
Training...:   9% 222/2609 [26:06<2:33:43,  3.86s/it][A
Training...:   9% 223/2609 [26:09<2:29:36,  3.76s/it][A
Training...:   9% 224/2609 [26:13<2:26:06,  3.68s/it][A                                            
                                                     [AEpoch ... (1/20):   0% 0/20 [26:23<?, ?it/s]
Training...:   9% 224/2609 [26:17<2:26:06,  3.68s/it][A
Training...:   9% 225/2609 [26:17<2:27:51,  3.72s/it][A
Training...:   9% 226/2609 [26:20<2:22:03,  3.58s/it][A
Training...:   9% 227/2609 [26:23<2:16:03,  3.43s/it][A
Training...:   9% 228/2609 [26:26<2:10:12,  3.28s/it][A
Training...:   9% 229/2609 [26:29<2:05:42,  3.17s/it][A
Training...:   9% 230/2609 [26:32<2:01:12,  3.06s/it][A
Training...:   9% 231/2609 [26:34<1:56:17,  2.93s/it][A
Training...:   9% 232/2609 [26:37<1:52:15,  2.83s/it][A
Training...:   9% 233/2609 [26:39<1:48:12,  2.73s/it][A
Training...:   9% 234/2609 [26:42<1:44:26,  2.64s/it][A
Training...:   9% 235/2609 [26:44<1:40:59,  2.55s/it][A
Training...:   9% 236/2609 [26:46<1:37:51,  2.47s/it][A
Training...:   9% 237/2609 [26:49<1:34:49,  2.40s/it][A
Training...:   9% 238/2609 [26:51<1:31:23,  2.31s/it][A
Training...:   9% 239/2609 [26:53<1:27:49,  2.22s/it][A
Training...:   9% 240/2609 [26:55<1:24:08,  2.13s/it][A
Training...:   9% 241/2609 [26:56<1:19:52,  2.02s/it][A
Training...:   9% 242/2609 [26:58<1:16:12,  1.93s/it][A
Training...:   9% 243/2609 [27:00<1:12:13,  1.83s/it][A
Training...:   9% 244/2609 [27:01<1:08:17,  1.73s/it][A
Training...:   9% 245/2609 [27:03<1:03:48,  1.62s/it][A
Training...:   9% 246/2609 [27:04<59:23,  1.51s/it]  [A
Training...:   9% 247/2609 [27:05<54:49,  1.39s/it][A
Training...:  10% 248/2609 [27:06<49:36,  1.26s/it][A
Training...:  10% 249/2609 [27:07<43:31,  1.11s/it][A                                            
                                                   [AEpoch ... (1/20):   0% 0/20 [27:14<?, ?it/s]
Training...:  10% 249/2609 [27:08<43:31,  1.11s/it][A
Training...:  10% 250/2609 [27:08<40:47,  1.04s/it][A
Training...:  10% 251/2609 [27:15<1:54:38,  2.92s/it][A
Training...:  10% 252/2609 [27:22<2:43:20,  4.16s/it][A
Training...:  10% 253/2609 [27:29<3:12:01,  4.89s/it][A
Training...:  10% 254/2609 [27:35<3:29:18,  5.33s/it][A
Training...:  10% 255/2609 [27:41<3:38:25,  5.57s/it][A
Training...:  10% 256/2609 [27:47<3:40:06,  5.61s/it][A
Training...:  10% 257/2609 [27:52<3:38:37,  5.58s/it][A
Training...:  10% 258/2609 [27:58<3:35:48,  5.51s/it][A
Training...:  10% 259/2609 [28:03<3:31:31,  5.40s/it][A
Training...:  10% 260/2609 [28:08<3:26:11,  5.27s/it][A
Training...:  10% 261/2609 [28:12<3:20:28,  5.12s/it][A
Training...:  10% 262/2609 [28:17<3:16:20,  5.02s/it][A
Training...:  10% 263/2609 [28:22<3:10:22,  4.87s/it][A
Training...:  10% 264/2609 [28:26<3:04:57,  4.73s/it][A
Training...:  10% 265/2609 [28:30<2:59:17,  4.59s/it][A
Training...:  10% 266/2609 [28:35<2:53:49,  4.45s/it][A
Training...:  10% 267/2609 [28:39<2:48:30,  4.32s/it][A
Training...:  10% 268/2609 [28:42<2:43:41,  4.20s/it][A
Training...:  10% 269/2609 [28:46<2:38:49,  4.07s/it][A
Training...:  10% 270/2609 [28:50<2:34:21,  3.96s/it][A
Training...:  10% 271/2609 [28:54<2:29:54,  3.85s/it][A
Training...:  10% 272/2609 [28:57<2:25:55,  3.75s/it][A
Training...:  10% 273/2609 [29:00<2:21:39,  3.64s/it][A
Training...:  11% 274/2609 [29:04<2:17:45,  3.54s/it][A                                            
                                                     [AEpoch ... (1/20):   0% 0/20 [29:13<?, ?it/s]
Training...:  11% 274/2609 [29:07<2:17:45,  3.54s/it][A
Training...:  11% 275/2609 [29:07<2:19:41,  3.59s/it][A
Training...:  11% 276/2609 [29:11<2:14:21,  3.46s/it][A
Training...:  11% 277/2609 [29:14<2:09:32,  3.33s/it][A
Training...:  11% 278/2609 [29:17<2:04:49,  3.21s/it][A
Training...:  11% 279/2609 [29:19<2:00:26,  3.10s/it][A
Training...:  11% 280/2609 [29:22<1:57:00,  3.01s/it][A
Training...:  11% 281/2609 [29:25<1:52:45,  2.91s/it][A
Training...:  11% 282/2609 [29:27<1:49:04,  2.81s/it][A
Training...:  11% 283/2609 [29:30<1:45:28,  2.72s/it][A
Training...:  11% 284/2609 [29:32<1:41:38,  2.62s/it][A
Training...:  11% 285/2609 [29:35<1:37:29,  2.52s/it][A
Training...:  11% 286/2609 [29:37<1:34:23,  2.44s/it][A
Training...:  11% 287/2609 [29:39<1:30:54,  2.35s/it][A
Training...:  11% 288/2609 [29:41<1:27:06,  2.25s/it][A
Training...:  11% 289/2609 [29:43<1:23:37,  2.16s/it][A
Training...:  11% 290/2609 [29:45<1:20:13,  2.08s/it][A
Training...:  11% 291/2609 [29:47<1:16:21,  1.98s/it][A
Training...:  11% 292/2609 [29:48<1:12:40,  1.88s/it][A
Training...:  11% 293/2609 [29:50<1:08:34,  1.78s/it][A
Training...:  11% 294/2609 [29:51<1:04:37,  1.67s/it][A
Training...:  11% 295/2609 [29:53<59:52,  1.55s/it]  [A
Training...:  11% 296/2609 [29:54<55:34,  1.44s/it][A
Training...:  11% 297/2609 [29:55<50:24,  1.31s/it][A
Training...:  11% 298/2609 [29:56<44:50,  1.16s/it][A
Training...:  11% 299/2609 [29:56<39:44,  1.03s/it][A                                            
                                                   [AEpoch ... (1/20):   0% 0/20 [30:03<?, ?it/s]
Training...:  11% 299/2609 [29:57<39:44,  1.03s/it][A
Training...:  11% 300/2609 [29:57<37:00,  1.04it/s][A
Training...:  12% 301/2609 [30:04<1:48:43,  2.83s/it][A
Training...:  12% 302/2609 [30:11<2:36:27,  4.07s/it][A
Training...:  12% 303/2609 [30:18<3:06:16,  4.85s/it][A
Training...:  12% 304/2609 [30:24<3:22:45,  5.28s/it][A
Training...:  12% 305/2609 [30:30<3:29:15,  5.45s/it][A
Training...:  12% 306/2609 [30:36<3:32:52,  5.55s/it][A
Training...:  12% 307/2609 [30:41<3:32:33,  5.54s/it][A
Training...:  12% 308/2609 [30:47<3:31:01,  5.50s/it][A
Training...:  12% 309/2609 [30:52<3:26:24,  5.38s/it][A
Training...:  12% 310/2609 [30:57<3:21:39,  5.26s/it][A
Training...:  12% 311/2609 [31:02<3:16:38,  5.13s/it][A
Training...:  12% 312/2609 [31:06<3:11:38,  5.01s/it][A
Training...:  12% 313/2609 [31:11<3:06:20,  4.87s/it][A
Training...:  12% 314/2609 [31:15<3:00:54,  4.73s/it][A
Training...:  12% 315/2609 [31:20<2:55:04,  4.58s/it][A
Training...:  12% 316/2609 [31:24<2:50:16,  4.46s/it][A
Training...:  12% 317/2609 [31:28<2:45:18,  4.33s/it][A
Training...:  12% 318/2609 [31:32<2:40:36,  4.21s/it][A
Training...:  12% 319/2609 [31:35<2:35:43,  4.08s/it][A
Training...:  12% 320/2609 [31:39<2:31:08,  3.96s/it][A
Training...:  12% 321/2609 [31:43<2:26:23,  3.84s/it][A
Training...:  12% 322/2609 [31:46<2:22:19,  3.73s/it][A
Training...:  12% 323/2609 [31:50<2:17:51,  3.62s/it][A
Training...:  12% 324/2609 [31:53<2:14:14,  3.53s/it][A                                            
                                                     [AEpoch ... (1/20):   0% 0/20 [32:03<?, ?it/s]
Training...:  12% 324/2609 [31:57<2:14:14,  3.53s/it][A
Training...:  12% 325/2609 [31:57<2:16:31,  3.59s/it][A
Training...:  12% 326/2609 [32:00<2:11:22,  3.45s/it][A
Training...:  13% 327/2609 [32:03<2:06:32,  3.33s/it][A
Training...:  13% 328/2609 [32:06<2:02:38,  3.23s/it][A
Training...:  13% 329/2609 [32:09<1:59:43,  3.15s/it][A
Training...:  13% 330/2609 [32:11<1:55:24,  3.04s/it][A
Training...:  13% 331/2609 [32:14<1:51:14,  2.93s/it][A
Training...:  13% 332/2609 [32:17<1:47:06,  2.82s/it][A
Training...:  13% 333/2609 [32:19<1:42:51,  2.71s/it][A
Training...:  13% 334/2609 [32:22<1:39:07,  2.61s/it][A
Training...:  13% 335/2609 [32:24<1:35:58,  2.53s/it][A
Training...:  13% 336/2609 [32:26<1:32:59,  2.45s/it][A
Training...:  13% 337/2609 [32:28<1:29:24,  2.36s/it][A
Training...:  13% 338/2609 [32:30<1:25:53,  2.27s/it][A
Training...:  13% 339/2609 [32:32<1:22:11,  2.17s/it][A
Training...:  13% 340/2609 [32:34<1:19:14,  2.10s/it][A
Training...:  13% 341/2609 [32:36<1:15:35,  2.00s/it][A
Training...:  13% 342/2609 [32:38<1:12:13,  1.91s/it][A
Training...:  13% 343/2609 [32:39<1:08:20,  1.81s/it][A
Training...:  13% 344/2609 [32:41<1:04:13,  1.70s/it][A
Training...:  13% 345/2609 [32:42<59:45,  1.58s/it]  [A
Training...:  13% 346/2609 [32:43<55:26,  1.47s/it][A
Training...:  13% 347/2609 [32:44<50:49,  1.35s/it][A
Training...:  13% 348/2609 [32:45<45:54,  1.22s/it][A
Training...:  13% 349/2609 [32:46<40:30,  1.08s/it][A                                            
                                                   [AEpoch ... (1/20):   0% 0/20 [32:53<?, ?it/s]
Training...:  13% 349/2609 [32:47<40:30,  1.08s/it][A
Training...:  13% 350/2609 [32:47<37:56,  1.01s/it][A
Training...:  13% 351/2609 [32:54<1:49:30,  2.91s/it][A
Training...:  13% 352/2609 [33:01<2:38:41,  4.22s/it][A
Training...:  14% 353/2609 [33:08<3:05:52,  4.94s/it][A
Training...:  14% 354/2609 [33:14<3:21:57,  5.37s/it][A
Training...:  14% 355/2609 [33:21<3:30:06,  5.59s/it][A
Training...:  14% 356/2609 [33:26<3:33:10,  5.68s/it][A
Training...:  14% 357/2609 [33:32<3:32:21,  5.66s/it][A
Training...:  14% 358/2609 [33:37<3:29:39,  5.59s/it][A
Training...:  14% 359/2609 [33:43<3:24:32,  5.45s/it][A
Training...:  14% 360/2609 [33:48<3:20:05,  5.34s/it][A
Training...:  14% 361/2609 [33:53<3:14:20,  5.19s/it][A
Training...:  14% 362/2609 [33:57<3:09:19,  5.06s/it][A
Training...:  14% 363/2609 [34:02<3:03:18,  4.90s/it][A
Training...:  14% 364/2609 [34:06<2:57:42,  4.75s/it][A
Training...:  14% 365/2609 [34:10<2:52:06,  4.60s/it][A
Training...:  14% 366/2609 [34:15<2:47:04,  4.47s/it][A
Training...:  14% 367/2609 [34:19<2:42:16,  4.34s/it][A
Training...:  14% 368/2609 [34:23<2:37:31,  4.22s/it][A
Training...:  14% 369/2609 [34:26<2:32:40,  4.09s/it][A
Training...:  14% 370/2609 [34:30<2:28:41,  3.98s/it][A
Training...:  14% 371/2609 [34:34<2:24:20,  3.87s/it][A
Training...:  14% 372/2609 [34:37<2:20:23,  3.77s/it][A
Training...:  14% 373/2609 [34:41<2:15:39,  3.64s/it][A
Training...:  14% 374/2609 [34:44<2:12:06,  3.55s/it][A                                            
                                                     [AEpoch ... (1/20):   0% 0/20 [34:54<?, ?it/s]
Training...:  14% 374/2609 [34:48<2:12:06,  3.55s/it][A
Training...:  14% 375/2609 [34:48<2:14:02,  3.60s/it][A
Training...:  14% 376/2609 [34:51<2:10:14,  3.50s/it][A
Training...:  14% 377/2609 [34:54<2:05:14,  3.37s/it][A
Training...:  14% 378/2609 [34:57<2:01:27,  3.27s/it][A
Training...:  15% 379/2609 [35:00<1:57:35,  3.16s/it][A
Training...:  15% 380/2609 [35:03<1:53:55,  3.07s/it][A
Training...:  15% 381/2609 [35:06<1:50:14,  2.97s/it][A
Training...:  15% 382/2609 [35:08<1:47:06,  2.89s/it][A
Training...:  15% 383/2609 [35:11<1:44:24,  2.81s/it][A
Training...:  15% 384/2609 [35:13<1:42:19,  2.76s/it][A
Training...:  15% 385/2609 [35:16<1:38:51,  2.67s/it][A
Training...:  15% 386/2609 [35:18<1:35:53,  2.59s/it][A
Training...:  15% 387/2609 [35:21<1:33:01,  2.51s/it][A
Training...:  15% 388/2609 [35:23<1:29:46,  2.43s/it][A
Training...:  15% 389/2609 [35:25<1:26:35,  2.34s/it][A
Training...:  15% 390/2609 [35:27<1:22:58,  2.24s/it][A
Training...:  15% 391/2609 [35:29<1:19:20,  2.15s/it][A
Training...:  15% 392/2609 [35:31<1:15:53,  2.05s/it][A
Training...:  15% 393/2609 [35:32<1:10:46,  1.92s/it][A
Training...:  15% 394/2609 [35:34<1:06:02,  1.79s/it][A
Training...:  15% 395/2609 [35:35<1:01:17,  1.66s/it][A
Training...:  15% 396/2609 [35:36<56:27,  1.53s/it]  [A
Training...:  15% 397/2609 [35:38<51:39,  1.40s/it][A
Training...:  15% 398/2609 [35:38<46:11,  1.25s/it][A
Training...:  15% 399/2609 [35:39<40:32,  1.10s/it][A                                            
                                                   [AEpoch ... (1/20):   0% 0/20 [35:46<?, ?it/s]
Training...:  15% 399/2609 [35:40<40:32,  1.10s/it][A
Training...:  15% 400/2609 [35:40<37:36,  1.02s/it][A
Training...:  15% 401/2609 [35:47<1:46:37,  2.90s/it][A
Training...:  15% 402/2609 [35:54<2:32:07,  4.14s/it][A
Training...:  15% 403/2609 [36:01<2:57:51,  4.84s/it][A
Training...:  15% 404/2609 [36:07<3:13:55,  5.28s/it][A
Training...:  16% 405/2609 [36:13<3:21:16,  5.48s/it][A
Training...:  16% 406/2609 [36:19<3:24:58,  5.58s/it][A
Training...:  16% 407/2609 [36:24<3:23:06,  5.53s/it][A
Training...:  16% 408/2609 [36:30<3:20:49,  5.47s/it][A
Training...:  16% 409/2609 [36:35<3:16:27,  5.36s/it][A
Training...:  16% 410/2609 [36:40<3:12:16,  5.25s/it][A
Training...:  16% 411/2609 [36:45<3:07:05,  5.11s/it][A
Training...:  16% 412/2609 [36:49<3:03:19,  5.01s/it][A
Training...:  16% 413/2609 [36:54<2:58:39,  4.88s/it][A
Training...:  16% 414/2609 [36:58<2:55:21,  4.79s/it][A
Training...:  16% 415/2609 [37:03<2:50:00,  4.65s/it][A
Training...:  16% 416/2609 [37:07<2:45:00,  4.51s/it][A
Training...:  16% 417/2609 [37:11<2:40:01,  4.38s/it][A
Training...:  16% 418/2609 [37:15<2:35:45,  4.27s/it][A
Training...:  16% 419/2609 [37:19<2:31:34,  4.15s/it][A
Training...:  16% 420/2609 [37:23<2:27:29,  4.04s/it][A
Training...:  16% 421/2609 [37:26<2:23:39,  3.94s/it][A
Training...:  16% 422/2609 [37:30<2:19:52,  3.84s/it][A
Training...:  16% 423/2609 [37:33<2:15:31,  3.72s/it][A
Training...:  16% 424/2609 [37:37<2:11:44,  3.62s/it][A                                            
                                                     [AEpoch ... (1/20):   0% 0/20 [37:47<?, ?it/s]
Training...:  16% 424/2609 [37:41<2:11:44,  3.62s/it][A
Training...:  16% 425/2609 [37:41<2:13:46,  3.68s/it][A
Training...:  16% 426/2609 [37:44<2:08:52,  3.54s/it][A
Training...:  16% 427/2609 [37:47<2:03:46,  3.40s/it][A
Training...:  16% 428/2609 [37:50<1:59:39,  3.29s/it][A
Training...:  16% 429/2609 [37:53<1:55:26,  3.18s/it][A
Training...:  16% 430/2609 [37:56<1:51:34,  3.07s/it][A
Training...:  17% 431/2609 [37:58<1:47:27,  2.96s/it][A
Training...:  17% 432/2609 [38:01<1:43:45,  2.86s/it][A
Training...:  17% 433/2609 [38:04<1:39:43,  2.75s/it][A
Training...:  17% 434/2609 [38:06<1:37:00,  2.68s/it][A
Training...:  17% 435/2609 [38:08<1:33:24,  2.58s/it][A
Training...:  17% 436/2609 [38:11<1:30:21,  2.49s/it][A
Training...:  17% 437/2609 [38:13<1:26:47,  2.40s/it][A
Training...:  17% 438/2609 [38:15<1:23:31,  2.31s/it][A
Training...:  17% 439/2609 [38:17<1:19:50,  2.21s/it][A
Training...:  17% 440/2609 [38:19<1:16:56,  2.13s/it][A
Training...:  17% 441/2609 [38:21<1:13:22,  2.03s/it][A
Training...:  17% 442/2609 [38:22<1:10:04,  1.94s/it][A
Training...:  17% 443/2609 [38:24<1:06:26,  1.84s/it][A
Training...:  17% 444/2609 [38:26<1:02:24,  1.73s/it][A
Training...:  17% 445/2609 [38:27<58:37,  1.63s/it]  [A
Training...:  17% 446/2609 [38:28<54:05,  1.50s/it][A
Training...:  17% 447/2609 [38:29<50:15,  1.39s/it][A
Training...:  17% 448/2609 [38:30<45:35,  1.27s/it][A
Training...:  17% 449/2609 [38:31<40:06,  1.11s/it][A                                            
                                                   [AEpoch ... (1/20):   0% 0/20 [38:38<?, ?it/s]
Training...:  17% 449/2609 [38:32<40:06,  1.11s/it][A
Training...:  17% 450/2609 [38:32<37:42,  1.05s/it][A
Training...:  17% 451/2609 [38:39<1:45:59,  2.95s/it][A
Training...:  17% 452/2609 [38:46<2:30:14,  4.18s/it][A
Training...:  17% 453/2609 [38:53<2:56:07,  4.90s/it][A
Training...:  17% 454/2609 [38:59<3:11:42,  5.34s/it][A
Training...:  17% 455/2609 [39:05<3:19:37,  5.56s/it][A
Training...:  17% 456/2609 [39:11<3:23:01,  5.66s/it][A
Training...:  18% 457/2609 [39:17<3:21:58,  5.63s/it][A
Training...:  18% 458/2609 [39:22<3:19:30,  5.56s/it][A
Training...:  18% 459/2609 [39:27<3:15:55,  5.47s/it][A
Training...:  18% 460/2609 [39:33<3:11:29,  5.35s/it][A
Training...:  18% 461/2609 [39:37<3:05:38,  5.19s/it][A
Training...:  18% 462/2609 [39:42<3:01:03,  5.06s/it][A
Training...:  18% 463/2609 [39:47<2:55:28,  4.91s/it][A
Training...:  18% 464/2609 [39:51<2:51:13,  4.79s/it][A
Training...:  18% 465/2609 [39:55<2:45:39,  4.64s/it][A
Training...:  18% 466/2609 [40:00<2:41:14,  4.51s/it][A
Training...:  18% 467/2609 [40:04<2:36:30,  4.38s/it][A
Training...:  18% 468/2609 [40:08<2:33:26,  4.30s/it][A
Training...:  18% 469/2609 [40:12<2:28:39,  4.17s/it][A
Training...:  18% 470/2609 [40:15<2:24:25,  4.05s/it][A
Training...:  18% 471/2609 [40:19<2:19:23,  3.91s/it][A
Training...:  18% 472/2609 [40:23<2:15:58,  3.82s/it][A
Training...:  18% 473/2609 [40:26<2:12:08,  3.71s/it][A
Training...:  18% 474/2609 [40:30<2:08:50,  3.62s/it][A                                            
                                                     [AEpoch ... (1/20):   0% 0/20 [40:39<?, ?it/s]
Training...:  18% 474/2609 [40:33<2:08:50,  3.62s/it][A
Training...:  18% 475/2609 [40:33<2:11:07,  3.69s/it][A
Training...:  18% 476/2609 [40:37<2:06:51,  3.57s/it][A
Training...:  18% 477/2609 [40:40<2:02:22,  3.44s/it][A
Training...:  18% 478/2609 [40:43<1:58:13,  3.33s/it][A
Training...:  18% 479/2609 [40:46<1:53:26,  3.20s/it][A
Training...:  18% 480/2609 [40:49<1:49:49,  3.10s/it][A
Training...:  18% 481/2609 [40:51<1:45:41,  2.98s/it][A
Training...:  18% 482/2609 [40:54<1:42:21,  2.89s/it][A
Training...:  19% 483/2609 [40:57<1:38:32,  2.78s/it][A
Training...:  19% 484/2609 [40:59<1:35:00,  2.68s/it][A
Training...:  19% 485/2609 [41:01<1:31:10,  2.58s/it][A
Training...:  19% 486/2609 [41:04<1:28:04,  2.49s/it][A
Training...:  19% 487/2609 [41:06<1:24:18,  2.38s/it][A
Training...:  19% 488/2609 [41:08<1:21:16,  2.30s/it][A
Training...:  19% 489/2609 [41:10<1:17:25,  2.19s/it][A
Training...:  19% 490/2609 [41:12<1:14:09,  2.10s/it][A
Training...:  19% 491/2609 [41:13<1:10:39,  2.00s/it][A
Training...:  19% 492/2609 [41:15<1:07:14,  1.91s/it][A
Training...:  19% 493/2609 [41:17<1:03:46,  1.81s/it][A
Training...:  19% 494/2609 [41:18<1:00:01,  1.70s/it][A
Training...:  19% 495/2609 [41:20<56:37,  1.61s/it]  [A
Training...:  19% 496/2609 [41:21<52:32,  1.49s/it][A
Training...:  19% 497/2609 [41:22<48:07,  1.37s/it][A
Training...:  19% 498/2609 [41:23<43:07,  1.23s/it][A
Training...:  19% 499/2609 [41:23<37:33,  1.07s/it][A                                            
                                                   [AEpoch ... (1/20):   0% 0/20 [41:30<?, ?it/s]
Training...:  19% 499/2609 [41:24<37:33,  1.07s/it][A
Training...:  19% 500/2609 [41:24<35:00,  1.00it/s][A
Training...:  19% 501/2609 [41:31<1:40:19,  2.86s/it][A
Training...:  19% 502/2609 [41:38<2:23:40,  4.09s/it][A
Training...:  19% 503/2609 [41:45<2:50:50,  4.87s/it][A
Training...:  19% 504/2609 [41:52<3:06:57,  5.33s/it][A
Training...:  19% 505/2609 [41:58<3:15:50,  5.58s/it][A
Training...:  19% 506/2609 [42:04<3:18:46,  5.67s/it][A
Training...:  19% 507/2609 [42:09<3:16:18,  5.60s/it][A
Training...:  19% 508/2609 [42:14<3:13:00,  5.51s/it][A
Training...:  20% 509/2609 [42:19<3:08:04,  5.37s/it][A
Training...:  20% 510/2609 [42:24<3:04:50,  5.28s/it][A
Training...:  20% 511/2609 [42:29<3:00:33,  5.16s/it][A
Training...:  20% 512/2609 [42:34<2:55:44,  5.03s/it][A
Training...:  20% 513/2609 [42:39<2:50:24,  4.88s/it][A
Training...:  20% 514/2609 [42:43<2:45:20,  4.74s/it][A
Training...:  20% 515/2609 [42:47<2:39:38,  4.57s/it][A
Training...:  20% 516/2609 [42:51<2:35:08,  4.45s/it][A
Training...:  20% 517/2609 [42:55<2:29:46,  4.30s/it][A
Training...:  20% 518/2609 [42:59<2:25:57,  4.19s/it][A
Training...:  20% 519/2609 [43:03<2:21:15,  4.06s/it][A
Training...:  20% 520/2609 [43:07<2:17:49,  3.96s/it][A
Training...:  20% 521/2609 [43:10<2:13:22,  3.83s/it][A
Training...:  20% 522/2609 [43:14<2:10:23,  3.75s/it][A
Training...:  20% 523/2609 [43:17<2:06:59,  3.65s/it][A
Training...:  20% 524/2609 [43:21<2:03:33,  3.56s/it][A                                            
                                                     [AEpoch ... (1/20):   0% 0/20 [43:30<?, ?it/s]
Training...:  20% 524/2609 [43:24<2:03:33,  3.56s/it][A
Training...:  20% 525/2609 [43:24<2:04:37,  3.59s/it][A
Training...:  20% 526/2609 [43:27<2:00:03,  3.46s/it][A
Training...:  20% 527/2609 [43:30<1:54:49,  3.31s/it][A
Training...:  20% 528/2609 [43:33<1:52:21,  3.24s/it][A
Training...:  20% 529/2609 [43:36<1:47:01,  3.09s/it][A
Training...:  20% 530/2609 [43:39<1:44:00,  3.00s/it][A
Training...:  20% 531/2609 [43:42<1:39:40,  2.88s/it][A
Training...:  20% 532/2609 [43:44<1:36:21,  2.78s/it][A
Training...:  20% 533/2609 [43:46<1:32:25,  2.67s/it][A
Training...:  20% 534/2609 [43:49<1:29:35,  2.59s/it][A
Training...:  21% 535/2609 [43:51<1:26:16,  2.50s/it][A
Training...:  21% 536/2609 [43:53<1:23:11,  2.41s/it][A
Training...:  21% 537/2609 [43:55<1:19:21,  2.30s/it][A
Training...:  21% 538/2609 [43:57<1:16:42,  2.22s/it][A
Training...:  21% 539/2609 [43:59<1:13:12,  2.12s/it][A
Training...:  21% 540/2609 [44:01<1:10:01,  2.03s/it][A
Training...:  21% 541/2609 [44:03<1:06:45,  1.94s/it][A
Training...:  21% 542/2609 [44:05<1:03:35,  1.85s/it][A
Training...:  21% 543/2609 [44:06<1:00:09,  1.75s/it][A
Training...:  21% 544/2609 [44:07<56:41,  1.65s/it]  [A
Training...:  21% 545/2609 [44:09<53:25,  1.55s/it][A
Training...:  21% 546/2609 [44:10<49:58,  1.45s/it][A
Training...:  21% 547/2609 [44:11<46:03,  1.34s/it][A
Training...:  21% 548/2609 [44:12<41:40,  1.21s/it][A
Training...:  21% 549/2609 [44:13<36:34,  1.07s/it][A                                            
                                                   [AEpoch ... (1/20):   0% 0/20 [44:20<?, ?it/s]
Training...:  21% 549/2609 [44:14<36:34,  1.07s/it][A
Training...:  21% 550/2609 [44:14<34:26,  1.00s/it][A
Training...:  21% 551/2609 [44:21<1:37:35,  2.85s/it][A
Training...:  21% 552/2609 [44:28<2:20:23,  4.09s/it][A
Training...:  21% 553/2609 [44:34<2:47:25,  4.89s/it][A
Training...:  21% 554/2609 [44:41<3:03:48,  5.37s/it][A
Training...:  21% 555/2609 [44:47<3:10:57,  5.58s/it][A
Training...:  21% 556/2609 [44:53<3:13:09,  5.65s/it][A
Training...:  21% 557/2609 [44:58<3:12:04,  5.62s/it][A
Training...:  21% 558/2609 [45:04<3:10:36,  5.58s/it][A
Training...:  21% 559/2609 [45:09<3:05:30,  5.43s/it][A
Training...:  21% 560/2609 [45:14<3:01:04,  5.30s/it][A
Training...:  22% 561/2609 [45:19<2:54:56,  5.13s/it][A
Training...:  22% 562/2609 [45:23<2:50:52,  5.01s/it][A
Training...:  22% 563/2609 [45:28<2:45:17,  4.85s/it][A
Training...:  22% 564/2609 [45:32<2:40:15,  4.70s/it][A
Training...:  22% 565/2609 [45:36<2:34:52,  4.55s/it][A
Training...:  22% 566/2609 [45:41<2:30:35,  4.42s/it][A
Training...:  22% 567/2609 [45:45<2:25:54,  4.29s/it][A
Training...:  22% 568/2609 [45:48<2:22:17,  4.18s/it][A
Training...:  22% 569/2609 [45:52<2:18:01,  4.06s/it][A
Training...:  22% 570/2609 [45:56<2:14:39,  3.96s/it][A
Training...:  22% 571/2609 [46:00<2:10:40,  3.85s/it][A
Training...:  22% 572/2609 [46:03<2:06:59,  3.74s/it][A
Training...:  22% 573/2609 [46:06<2:03:08,  3.63s/it][A
Training...:  22% 574/2609 [46:10<1:59:47,  3.53s/it][A                                            
                                                     [AEpoch ... (1/20):   0% 0/20 [46:19<?, ?it/s]
Training...:  22% 574/2609 [46:13<1:59:47,  3.53s/it][A
Training...:  22% 575/2609 [46:13<2:01:07,  3.57s/it][A
Training...:  22% 576/2609 [46:17<1:56:55,  3.45s/it][A
Training...:  22% 577/2609 [46:19<1:51:26,  3.29s/it][A
Training...:  22% 578/2609 [46:22<1:47:36,  3.18s/it][A
Training...:  22% 579/2609 [46:25<1:43:10,  3.05s/it][A
Training...:  22% 580/2609 [46:28<1:40:12,  2.96s/it][A
Training...:  22% 581/2609 [46:30<1:36:06,  2.84s/it][A
Training...:  22% 582/2609 [46:33<1:33:19,  2.76s/it][A
Training...:  22% 583/2609 [46:35<1:29:53,  2.66s/it][A
Training...:  22% 584/2609 [46:38<1:27:33,  2.59s/it][A
Training...:  22% 585/2609 [46:40<1:24:23,  2.50s/it][A
Training...:  22% 586/2609 [46:42<1:21:31,  2.42s/it][A
Training...:  22% 587/2609 [46:44<1:18:02,  2.32s/it][A
Training...:  23% 588/2609 [46:47<1:15:35,  2.24s/it][A
Training...:  23% 589/2609 [46:48<1:12:24,  2.15s/it][A
Training...:  23% 590/2609 [46:50<1:09:16,  2.06s/it][A
Training...:  23% 591/2609 [46:52<1:05:56,  1.96s/it][A
Training...:  23% 592/2609 [46:54<1:02:37,  1.86s/it][A
Training...:  23% 593/2609 [46:55<59:09,  1.76s/it]  [A
Training...:  23% 594/2609 [46:57<55:17,  1.65s/it][A
Training...:  23% 595/2609 [46:58<51:26,  1.53s/it][A
Training...:  23% 596/2609 [46:59<47:39,  1.42s/it][A
Training...:  23% 597/2609 [47:00<43:57,  1.31s/it][A
Training...:  23% 598/2609 [47:01<39:47,  1.19s/it][A
Training...:  23% 599/2609 [47:02<35:07,  1.05s/it][A                                            
                                                   [AEpoch ... (1/20):   0% 0/20 [47:08<?, ?it/s]
Training...:  23% 599/2609 [47:03<35:07,  1.05s/it][A
Training...:  23% 600/2609 [47:03<33:00,  1.01it/s][A
Training...:  23% 601/2609 [47:10<1:37:32,  2.91s/it][A
Training...:  23% 602/2609 [47:17<2:20:25,  4.20s/it][A
Training...:  23% 603/2609 [47:24<2:44:16,  4.91s/it][A
Training...:  23% 604/2609 [47:30<2:58:23,  5.34s/it][A
Training...:  23% 605/2609 [47:36<3:04:36,  5.53s/it][A
Training...:  23% 606/2609 [47:42<3:06:15,  5.58s/it][A
Training...:  23% 607/2609 [47:47<3:04:41,  5.54s/it][A
Training...:  23% 608/2609 [47:53<3:02:45,  5.48s/it][A
Training...:  23% 609/2609 [47:58<2:58:44,  5.36s/it][A
Training...:  23% 610/2609 [48:03<2:55:13,  5.26s/it][A
Training...:  23% 611/2609 [48:07<2:50:50,  5.13s/it][A
Training...:  23% 612/2609 [48:12<2:46:53,  5.01s/it][A
Training...:  23% 613/2609 [48:17<2:41:23,  4.85s/it][A
Training...:  24% 614/2609 [48:21<2:37:48,  4.75s/it][A
Training...:  24% 615/2609 [48:25<2:32:57,  4.60s/it][A
Training...:  24% 616/2609 [48:30<2:29:26,  4.50s/it][A
Training...:  24% 617/2609 [48:34<2:25:21,  4.38s/it][A
Training...:  24% 618/2609 [48:38<2:22:30,  4.29s/it][A
Training...:  24% 619/2609 [48:42<2:18:37,  4.18s/it][A
Training...:  24% 620/2609 [48:46<2:14:56,  4.07s/it][A
Training...:  24% 621/2609 [48:49<2:10:41,  3.94s/it][A
Training...:  24% 622/2609 [48:53<2:08:28,  3.88s/it][A
Training...:  24% 623/2609 [48:56<2:04:01,  3.75s/it][A
Training...:  24% 624/2609 [49:00<2:00:40,  3.65s/it][A                                            
                                                     [AEpoch ... (1/20):   0% 0/20 [49:10<?, ?it/s]
Training...:  24% 624/2609 [49:04<2:00:40,  3.65s/it][A
Training...:  24% 625/2609 [49:04<2:01:53,  3.69s/it][A
Training...:  24% 626/2609 [49:07<1:57:35,  3.56s/it][A
Training...:  24% 627/2609 [49:10<1:53:05,  3.42s/it][A
Training...:  24% 628/2609 [49:13<1:49:26,  3.31s/it][A
Training...:  24% 629/2609 [49:16<1:44:55,  3.18s/it][A
Training...:  24% 630/2609 [49:19<1:41:43,  3.08s/it][A
Training...:  24% 631/2609 [49:21<1:37:42,  2.96s/it][A
Training...:  24% 632/2609 [49:24<1:34:46,  2.88s/it][A
Training...:  24% 633/2609 [49:27<1:30:48,  2.76s/it][A
Training...:  24% 634/2609 [49:29<1:27:38,  2.66s/it][A
Training...:  24% 635/2609 [49:31<1:23:56,  2.55s/it][A
Training...:  24% 636/2609 [49:34<1:21:15,  2.47s/it][A
Training...:  24% 637/2609 [49:36<1:17:37,  2.36s/it][A
Training...:  24% 638/2609 [49:38<1:14:30,  2.27s/it][A
Training...:  24% 639/2609 [49:40<1:11:03,  2.16s/it][A
Training...:  25% 640/2609 [49:42<1:08:14,  2.08s/it][A
Training...:  25% 641/2609 [49:43<1:05:12,  1.99s/it][A
Training...:  25% 642/2609 [49:45<1:02:02,  1.89s/it][A
Training...:  25% 643/2609 [49:47<58:52,  1.80s/it]  [A
Training...:  25% 644/2609 [49:48<55:22,  1.69s/it][A
Training...:  25% 645/2609 [49:49<51:40,  1.58s/it][A
Training...:  25% 646/2609 [49:51<47:47,  1.46s/it][A
Training...:  25% 647/2609 [49:52<43:46,  1.34s/it][A
Training...:  25% 648/2609 [49:52<39:20,  1.20s/it][A
Training...:  25% 649/2609 [49:53<34:31,  1.06s/it][A                                            
                                                   [AEpoch ... (1/20):   0% 0/20 [50:00<?, ?it/s]
Training...:  25% 649/2609 [49:54<34:31,  1.06s/it][A
Training...:  25% 650/2609 [49:54<32:15,  1.01it/s][A
Training...:  25% 651/2609 [50:01<1:32:57,  2.85s/it][A
Training...:  25% 652/2609 [50:08<2:14:06,  4.11s/it][A
Training...:  25% 653/2609 [50:15<2:36:25,  4.80s/it][A
Training...:  25% 654/2609 [50:21<2:50:42,  5.24s/it][A
Training...:  25% 655/2609 [50:27<2:56:28,  5.42s/it][A
Training...:  25% 656/2609 [50:33<3:00:03,  5.53s/it][A
Training...:  25% 657/2609 [50:38<2:59:00,  5.50s/it][A
Training...:  25% 658/2609 [50:43<2:57:37,  5.46s/it][A
Training...:  25% 659/2609 [50:49<2:54:24,  5.37s/it][A
Training...:  25% 660/2609 [50:54<2:50:50,  5.26s/it][A
Training...:  25% 661/2609 [50:58<2:46:07,  5.12s/it][A
Training...:  25% 662/2609 [51:03<2:42:14,  5.00s/it][A
Training...:  25% 663/2609 [51:08<2:37:17,  4.85s/it][A
Training...:  25% 664/2609 [51:12<2:33:33,  4.74s/it][A
Training...:  25% 665/2609 [51:16<2:28:31,  4.58s/it][A
Training...:  26% 666/2609 [51:20<2:24:55,  4.48s/it][A
Training...:  26% 667/2609 [51:24<2:19:48,  4.32s/it][A
Training...:  26% 668/2609 [51:28<2:16:29,  4.22s/it][A
Training...:  26% 669/2609 [51:32<2:11:56,  4.08s/it][A
Training...:  26% 670/2609 [51:36<2:08:28,  3.98s/it][A
Training...:  26% 671/2609 [51:39<2:04:39,  3.86s/it][A
Training...:  26% 672/2609 [51:43<2:01:45,  3.77s/it][A
Training...:  26% 673/2609 [51:46<1:57:38,  3.65s/it][A
Training...:  26% 674/2609 [51:50<1:55:14,  3.57s/it][A                                            
                                                     [AEpoch ... (1/20):   0% 0/20 [51:59<?, ?it/s]
Training...:  26% 674/2609 [51:54<1:55:14,  3.57s/it][A
Training...:  26% 675/2609 [51:54<1:56:23,  3.61s/it][A
Training...:  26% 676/2609 [51:57<1:52:20,  3.49s/it][A
Training...:  26% 677/2609 [52:00<1:46:44,  3.31s/it][A
Training...:  26% 678/2609 [52:03<1:43:38,  3.22s/it][A
Training...:  26% 679/2609 [52:05<1:38:59,  3.08s/it][A
Training...:  26% 680/2609 [52:08<1:36:04,  2.99s/it][A
Training...:  26% 681/2609 [52:11<1:32:06,  2.87s/it][A
Training...:  26% 682/2609 [52:13<1:29:19,  2.78s/it][A
Training...:  26% 683/2609 [52:16<1:25:35,  2.67s/it][A
Training...:  26% 684/2609 [52:18<1:22:52,  2.58s/it][A
Training...:  26% 685/2609 [52:20<1:19:29,  2.48s/it][A
Training...:  26% 686/2609 [52:23<1:16:58,  2.40s/it][A
Training...:  26% 687/2609 [52:25<1:14:20,  2.32s/it][A
Training...:  26% 688/2609 [52:27<1:11:27,  2.23s/it][A
Training...:  26% 689/2609 [52:29<1:08:09,  2.13s/it][A
Training...:  26% 690/2609 [52:30<1:05:05,  2.04s/it][A
Training...:  26% 691/2609 [52:32<1:01:56,  1.94s/it][A
Training...:  27% 692/2609 [52:34<58:35,  1.83s/it]  [A
Training...:  27% 693/2609 [52:35<55:09,  1.73s/it][A
Training...:  27% 694/2609 [52:37<51:36,  1.62s/it][A
Training...:  27% 695/2609 [52:38<48:18,  1.51s/it][A
Training...:  27% 696/2609 [52:39<44:51,  1.41s/it][A
Training...:  27% 697/2609 [52:40<41:28,  1.30s/it][A
Training...:  27% 698/2609 [52:41<37:41,  1.18s/it][A
Training...:  27% 699/2609 [52:42<33:46,  1.06s/it][A                                            
                                                   [AEpoch ... (1/20):   0% 0/20 [52:49<?, ?it/s]
Training...:  27% 699/2609 [52:43<33:46,  1.06s/it][A
Training...:  27% 700/2609 [52:43<32:17,  1.01s/it][A
Training...:  27% 701/2609 [52:50<1:31:37,  2.88s/it][A
Training...:  27% 702/2609 [52:57<2:11:19,  4.13s/it][A
Training...:  27% 703/2609 [53:04<2:34:59,  4.88s/it][A
Training...:  27% 704/2609 [53:10<2:49:07,  5.33s/it][A
Training...:  27% 705/2609 [53:16<2:55:03,  5.52s/it][A
Training...:  27% 706/2609 [53:22<2:57:04,  5.58s/it][A
Training...:  27% 707/2609 [53:27<2:54:57,  5.52s/it][A
Training...:  27% 708/2609 [53:32<2:52:34,  5.45s/it][A
Training...:  27% 709/2609 [53:37<2:48:02,  5.31s/it][A
Training...:  27% 710/2609 [53:42<2:44:46,  5.21s/it][A
Training...:  27% 711/2609 [53:47<2:40:05,  5.06s/it][A
Training...:  27% 712/2609 [53:52<2:36:25,  4.95s/it][A
Training...:  27% 713/2609 [53:56<2:31:26,  4.79s/it][A
Training...:  27% 714/2609 [54:01<2:28:46,  4.71s/it][A
Training...:  27% 715/2609 [54:05<2:24:00,  4.56s/it][A
Training...:  27% 716/2609 [54:09<2:19:54,  4.43s/it][A
Training...:  27% 717/2609 [54:13<2:15:15,  4.29s/it][A
Training...:  28% 718/2609 [54:17<2:12:35,  4.21s/it][A
Training...:  28% 719/2609 [54:21<2:07:48,  4.06s/it][A
Training...:  28% 720/2609 [54:24<2:04:52,  3.97s/it][A
Training...:  28% 721/2609 [54:28<2:00:25,  3.83s/it][A
Training...:  28% 722/2609 [54:31<1:57:22,  3.73s/it][A
Training...:  28% 723/2609 [54:35<1:53:06,  3.60s/it][A
Training...:  28% 724/2609 [54:38<1:50:16,  3.51s/it][A                                            
                                                     [AEpoch ... (1/20):   0% 0/20 [54:48<?, ?it/s]
Training...:  28% 724/2609 [54:42<1:50:16,  3.51s/it][A
Training...:  28% 725/2609 [54:42<1:51:17,  3.54s/it][A
Training...:  28% 726/2609 [54:45<1:48:37,  3.46s/it][A
Training...:  28% 727/2609 [54:48<1:43:41,  3.31s/it][A
Training...:  28% 728/2609 [54:51<1:40:13,  3.20s/it][A
Training...:  28% 729/2609 [54:53<1:36:13,  3.07s/it][A
Training...:  28% 730/2609 [54:56<1:33:33,  2.99s/it][A
Training...:  28% 731/2609 [54:59<1:29:55,  2.87s/it][A
Training...:  28% 732/2609 [55:01<1:26:57,  2.78s/it][A
Training...:  28% 733/2609 [55:04<1:23:51,  2.68s/it][A
Training...:  28% 734/2609 [55:06<1:20:57,  2.59s/it][A
Training...:  28% 735/2609 [55:09<1:17:52,  2.49s/it][A
Training...:  28% 736/2609 [55:11<1:15:23,  2.42s/it][A
Training...:  28% 737/2609 [55:13<1:12:31,  2.32s/it][A
Training...:  28% 738/2609 [55:15<1:09:15,  2.22s/it][A
Training...:  28% 739/2609 [55:17<1:06:30,  2.13s/it][A
Training...:  28% 740/2609 [55:19<1:03:24,  2.04s/it][A
Training...:  28% 741/2609 [55:20<1:00:18,  1.94s/it][A
Training...:  28% 742/2609 [55:22<57:22,  1.84s/it]  [A
Training...:  28% 743/2609 [55:23<54:16,  1.75s/it][A
Training...:  29% 744/2609 [55:25<51:05,  1.64s/it][A
Training...:  29% 745/2609 [55:26<47:52,  1.54s/it][A
Training...:  29% 746/2609 [55:27<44:37,  1.44s/it][A
Training...:  29% 747/2609 [55:28<41:11,  1.33s/it][A
Training...:  29% 748/2609 [55:29<37:43,  1.22s/it][A
Training...:  29% 749/2609 [55:30<33:50,  1.09s/it][A                                            
                                                   [AEpoch ... (1/20):   0% 0/20 [55:37<?, ?it/s]
Training...:  29% 749/2609 [55:31<33:50,  1.09s/it][A
Training...:  29% 750/2609 [55:31<32:02,  1.03s/it][A
Training...:  29% 751/2609 [55:38<1:30:21,  2.92s/it][A
Training...:  29% 752/2609 [55:45<2:08:02,  4.14s/it][A
Training...:  29% 753/2609 [55:52<2:30:00,  4.85s/it][A
Training...:  29% 754/2609 [55:58<2:44:47,  5.33s/it][A
Training...:  29% 755/2609 [56:04<2:50:21,  5.51s/it][A
Training...:  29% 756/2609 [56:10<2:53:53,  5.63s/it][A
Training...:  29% 757/2609 [56:16<2:52:30,  5.59s/it][A
Training...:  29% 758/2609 [56:21<2:50:42,  5.53s/it][A
Training...:  29% 759/2609 [56:26<2:47:12,  5.42s/it][A
Training...:  29% 760/2609 [56:31<2:43:10,  5.30s/it][A
Training...:  29% 761/2609 [56:36<2:37:23,  5.11s/it][A
Training...:  29% 762/2609 [56:41<2:33:13,  4.98s/it][A
Training...:  29% 763/2609 [56:45<2:28:14,  4.82s/it][A
Training...:  29% 764/2609 [56:49<2:24:21,  4.69s/it][A
Training...:  29% 765/2609 [56:54<2:19:22,  4.53s/it][A
Training...:  29% 766/2609 [56:58<2:15:07,  4.40s/it][A
Training...:  29% 767/2609 [57:02<2:10:23,  4.25s/it][A
Training...:  29% 768/2609 [57:06<2:07:44,  4.16s/it][A
Training...:  29% 769/2609 [57:09<2:03:25,  4.02s/it][A
Training...:  30% 770/2609 [57:13<2:00:28,  3.93s/it][A
Training...:  30% 771/2609 [57:17<1:56:47,  3.81s/it][A
Training...:  30% 772/2609 [57:20<1:54:08,  3.73s/it][A
Training...:  30% 773/2609 [57:23<1:50:16,  3.60s/it][A
Training...:  30% 774/2609 [57:27<1:47:33,  3.52s/it][A                                            
                                                     [AEpoch ... (1/20):   0% 0/20 [57:36<?, ?it/s]
Training...:  30% 774/2609 [57:30<1:47:33,  3.52s/it][A
Training...:  30% 775/2609 [57:30<1:50:07,  3.60s/it][A
Training...:  30% 776/2609 [57:34<1:47:11,  3.51s/it][A
Training...:  30% 777/2609 [57:37<1:42:55,  3.37s/it][A
Training...:  30% 778/2609 [57:40<1:39:23,  3.26s/it][A
Training...:  30% 779/2609 [57:43<1:35:00,  3.12s/it][A
Training...:  30% 780/2609 [57:45<1:32:07,  3.02s/it][A
Training...:  30% 781/2609 [57:48<1:28:38,  2.91s/it][A
Training...:  30% 782/2609 [57:51<1:25:40,  2.81s/it][A
Training...:  30% 783/2609 [57:53<1:22:14,  2.70s/it][A
Training...:  30% 784/2609 [57:55<1:19:18,  2.61s/it][A
Training...:  30% 785/2609 [57:58<1:16:19,  2.51s/it][A
Training...:  30% 786/2609 [58:00<1:13:50,  2.43s/it][A
Training...:  30% 787/2609 [58:02<1:11:01,  2.34s/it][A
Training...:  30% 788/2609 [58:04<1:08:02,  2.24s/it][A
Training...:  30% 789/2609 [58:06<1:05:13,  2.15s/it][A
Training...:  30% 790/2609 [58:08<1:02:22,  2.06s/it][A
Training...:  30% 791/2609 [58:10<59:43,  1.97s/it]  [A
Training...:  30% 792/2609 [58:11<56:37,  1.87s/it][A
Training...:  30% 793/2609 [58:13<53:35,  1.77s/it][A
Training...:  30% 794/2609 [58:14<50:32,  1.67s/it][A
Training...:  30% 795/2609 [58:16<47:08,  1.56s/it][A
Training...:  31% 796/2609 [58:17<43:43,  1.45s/it][A
Training...:  31% 797/2609 [58:18<40:19,  1.34s/it][A
Training...:  31% 798/2609 [58:19<36:50,  1.22s/it][A
Training...:  31% 799/2609 [58:20<32:42,  1.08s/it][A                                            
                                                   [AEpoch ... (1/20):   0% 0/20 [58:26<?, ?it/s]
Training...:  31% 799/2609 [58:20<32:42,  1.08s/it][A
Training...:  31% 800/2609 [58:20<30:55,  1.03s/it][A
Training...:  31% 801/2609 [58:28<1:28:40,  2.94s/it][A
Training...:  31% 802/2609 [58:35<2:04:56,  4.15s/it][A
Training...:  31% 803/2609 [58:41<2:27:12,  4.89s/it][A
Training...:  31% 804/2609 [58:48<2:40:31,  5.34s/it][A
Training...:  31% 805/2609 [58:54<2:46:31,  5.54s/it][A
Training...:  31% 806/2609 [59:00<2:49:36,  5.64s/it][A
Training...:  31% 807/2609 [59:05<2:48:49,  5.62s/it][A
Training...:  31% 808/2609 [59:11<2:47:47,  5.59s/it][A
Training...:  31% 809/2609 [59:16<2:44:26,  5.48s/it][A
Training...:  31% 810/2609 [59:21<2:41:10,  5.38s/it][A
Training...:  31% 811/2609 [59:26<2:35:45,  5.20s/it][A
Training...:  31% 812/2609 [59:31<2:32:12,  5.08s/it][A
Training...:  31% 813/2609 [59:35<2:26:53,  4.91s/it][A
Training...:  31% 814/2609 [59:40<2:23:32,  4.80s/it][A
Training...:  31% 815/2609 [59:44<2:18:35,  4.64s/it][A
Training...:  31% 816/2609 [59:48<2:15:29,  4.53s/it][A
Training...:  31% 817/2609 [59:52<2:10:43,  4.38s/it][A
Training...:  31% 818/2609 [59:56<2:07:49,  4.28s/it][A
Training...:  31% 819/2609 [1:00:00<2:02:55,  4.12s/it][A
Training...:  31% 820/2609 [1:00:04<2:00:02,  4.03s/it][A
Training...:  31% 821/2609 [1:00:08<1:55:40,  3.88s/it][A
Training...:  32% 822/2609 [1:00:11<1:52:35,  3.78s/it][A
Training...:  32% 823/2609 [1:00:14<1:48:27,  3.64s/it][A
Training...:  32% 824/2609 [1:00:18<1:46:11,  3.57s/it][A                                            
                                                       [AEpoch ... (1/20):   0% 0/20 [1:00:27<?, ?it/s]
Training...:  32% 824/2609 [1:00:22<1:46:11,  3.57s/it][A
Training...:  32% 825/2609 [1:00:22<1:47:37,  3.62s/it][A
Training...:  32% 826/2609 [1:00:25<1:45:02,  3.54s/it][A
Training...:  32% 827/2609 [1:00:28<1:40:20,  3.38s/it][A
Training...:  32% 828/2609 [1:00:31<1:36:58,  3.27s/it][A
Training...:  32% 829/2609 [1:00:34<1:33:10,  3.14s/it][A
Training...:  32% 830/2609 [1:00:37<1:30:11,  3.04s/it][A
Training...:  32% 831/2609 [1:00:39<1:27:13,  2.94s/it][A
Training...:  32% 832/2609 [1:00:42<1:24:35,  2.86s/it][A
Training...:  32% 833/2609 [1:00:44<1:21:48,  2.76s/it][A
Training...:  32% 834/2609 [1:00:47<1:19:23,  2.68s/it][A
Training...:  32% 835/2609 [1:00:49<1:16:42,  2.59s/it][A
Training...:  32% 836/2609 [1:00:52<1:14:09,  2.51s/it][A
Training...:  32% 837/2609 [1:00:54<1:11:48,  2.43s/it][A
Training...:  32% 838/2609 [1:00:56<1:09:01,  2.34s/it][A
Training...:  32% 839/2609 [1:00:58<1:05:35,  2.22s/it][A
Training...:  32% 840/2609 [1:01:00<1:02:24,  2.12s/it][A
Training...:  32% 841/2609 [1:01:02<59:32,  2.02s/it]  [A
Training...:  32% 842/2609 [1:01:03<56:28,  1.92s/it][A
Training...:  32% 843/2609 [1:01:05<53:43,  1.83s/it][A
Training...:  32% 844/2609 [1:01:06<50:28,  1.72s/it][A
Training...:  32% 845/2609 [1:01:08<47:20,  1.61s/it][A
Training...:  32% 846/2609 [1:01:09<43:33,  1.48s/it][A
Training...:  32% 847/2609 [1:01:10<39:58,  1.36s/it][A
Training...:  33% 848/2609 [1:01:11<36:08,  1.23s/it][A
Training...:  33% 849/2609 [1:01:12<31:48,  1.08s/it][A                                              
                                                     [AEpoch ... (1/20):   0% 0/20 [1:01:19<?, ?it/s]
Training...:  33% 849/2609 [1:01:13<31:48,  1.08s/it][A
Training...:  33% 850/2609 [1:01:13<29:59,  1.02s/it][A
Training...:  33% 851/2609 [1:01:20<1:27:45,  3.00s/it][A
Training...:  33% 852/2609 [1:01:27<2:02:55,  4.20s/it][A
Training...:  33% 853/2609 [1:01:34<2:22:22,  4.86s/it][A
Training...:  33% 854/2609 [1:01:40<2:34:35,  5.29s/it][A
Training...:  33% 855/2609 [1:01:46<2:39:46,  5.47s/it][A
Training...:  33% 856/2609 [1:01:51<2:41:58,  5.54s/it][A
Training...:  33% 857/2609 [1:01:57<2:40:42,  5.50s/it][A
Training...:  33% 858/2609 [1:02:02<2:39:41,  5.47s/it][A
Training...:  33% 859/2609 [1:02:07<2:36:09,  5.35s/it][A
Training...:  33% 860/2609 [1:02:12<2:33:41,  5.27s/it][A
Training...:  33% 861/2609 [1:02:17<2:28:36,  5.10s/it][A
Training...:  33% 862/2609 [1:02:22<2:24:56,  4.98s/it][A
Training...:  33% 863/2609 [1:02:26<2:20:01,  4.81s/it][A
Training...:  33% 864/2609 [1:02:31<2:16:59,  4.71s/it][A
Training...:  33% 865/2609 [1:02:35<2:12:41,  4.56s/it][A
Training...:  33% 866/2609 [1:02:39<2:09:35,  4.46s/it][A
Training...:  33% 867/2609 [1:02:43<2:05:31,  4.32s/it][A
Training...:  33% 868/2609 [1:02:47<2:03:10,  4.24s/it][A
Training...:  33% 869/2609 [1:02:51<1:58:56,  4.10s/it][A
Training...:  33% 870/2609 [1:02:55<1:56:04,  4.00s/it][A
Training...:  33% 871/2609 [1:02:58<1:52:08,  3.87s/it][A
Training...:  33% 872/2609 [1:03:02<1:49:43,  3.79s/it][A
Training...:  33% 873/2609 [1:03:05<1:45:52,  3.66s/it][A
Training...:  33% 874/2609 [1:03:09<1:43:04,  3.56s/it][A                                              
                                                       [AEpoch ... (1/20):   0% 0/20 [1:03:18<?, ?it/s]
Training...:  33% 874/2609 [1:03:12<1:43:04,  3.56s/it][A
Training...:  34% 875/2609 [1:03:12<1:43:47,  3.59s/it][A
Training...:  34% 876/2609 [1:03:16<1:40:57,  3.50s/it][A
Training...:  34% 877/2609 [1:03:19<1:36:28,  3.34s/it][A
Training...:  34% 878/2609 [1:03:22<1:33:39,  3.25s/it][A
Training...:  34% 879/2609 [1:03:24<1:30:10,  3.13s/it][A
Training...:  34% 880/2609 [1:03:27<1:27:43,  3.04s/it][A
Training...:  34% 881/2609 [1:03:30<1:24:58,  2.95s/it][A
Training...:  34% 882/2609 [1:03:33<1:22:46,  2.88s/it][A
Training...:  34% 883/2609 [1:03:35<1:19:51,  2.78s/it][A
Training...:  34% 884/2609 [1:03:38<1:17:16,  2.69s/it][A
Training...:  34% 885/2609 [1:03:40<1:14:11,  2.58s/it][A
Training...:  34% 886/2609 [1:03:42<1:11:44,  2.50s/it][A
Training...:  34% 887/2609 [1:03:45<1:09:06,  2.41s/it][A
Training...:  34% 888/2609 [1:03:47<1:06:21,  2.31s/it][A
Training...:  34% 889/2609 [1:03:49<1:03:47,  2.23s/it][A
Training...:  34% 890/2609 [1:03:51<1:01:10,  2.14s/it][A
Training...:  34% 891/2609 [1:03:52<58:15,  2.03s/it]  [A
Training...:  34% 892/2609 [1:03:54<55:31,  1.94s/it][A
Training...:  34% 893/2609 [1:03:56<52:52,  1.85s/it][A
Training...:  34% 894/2609 [1:03:57<50:54,  1.78s/it][A
Training...:  34% 895/2609 [1:03:59<47:30,  1.66s/it][A
Training...:  34% 896/2609 [1:04:00<44:07,  1.55s/it][A
Training...:  34% 897/2609 [1:04:01<40:58,  1.44s/it][A
Training...:  34% 898/2609 [1:04:02<37:13,  1.31s/it][A
Training...:  34% 899/2609 [1:04:03<32:30,  1.14s/it][A                                              
                                                     [AEpoch ... (1/20):   0% 0/20 [1:04:10<?, ?it/s]
Training...:  34% 899/2609 [1:04:04<32:30,  1.14s/it][A
Training...:  34% 900/2609 [1:04:04<30:02,  1.05s/it][A
Training...:  35% 901/2609 [1:04:11<1:24:36,  2.97s/it][A
Training...:  35% 902/2609 [1:04:18<1:58:11,  4.15s/it][A
Training...:  35% 903/2609 [1:04:25<2:17:59,  4.85s/it][A
Training...:  35% 904/2609 [1:04:31<2:29:45,  5.27s/it][A
Training...:  35% 905/2609 [1:04:37<2:34:43,  5.45s/it][A
Training...:  35% 906/2609 [1:04:43<2:37:08,  5.54s/it][A
Training...:  35% 907/2609 [1:04:48<2:36:26,  5.51s/it][A
Training...:  35% 908/2609 [1:04:53<2:35:31,  5.49s/it][A
Training...:  35% 909/2609 [1:04:58<2:31:28,  5.35s/it][A
Training...:  35% 910/2609 [1:05:03<2:28:51,  5.26s/it][A
Training...:  35% 911/2609 [1:05:08<2:23:54,  5.08s/it][A
Training...:  35% 912/2609 [1:05:13<2:20:39,  4.97s/it][A
Training...:  35% 913/2609 [1:05:17<2:15:38,  4.80s/it][A
Training...:  35% 914/2609 [1:05:22<2:12:35,  4.69s/it][A
Training...:  35% 915/2609 [1:05:26<2:07:43,  4.52s/it][A
Training...:  35% 916/2609 [1:05:30<2:04:41,  4.42s/it][A
Training...:  35% 917/2609 [1:05:34<2:00:42,  4.28s/it][A
Training...:  35% 918/2609 [1:05:38<1:57:47,  4.18s/it][A
Training...:  35% 919/2609 [1:05:42<1:53:32,  4.03s/it][A
Training...:  35% 920/2609 [1:05:45<1:51:11,  3.95s/it][A
Training...:  35% 921/2609 [1:05:49<1:47:28,  3.82s/it][A
Training...:  35% 922/2609 [1:05:52<1:45:18,  3.75s/it][A
Training...:  35% 923/2609 [1:05:56<1:41:38,  3.62s/it][A
Training...:  35% 924/2609 [1:05:59<1:39:31,  3.54s/it][A                                              
                                                       [AEpoch ... (1/20):   0% 0/20 [1:06:09<?, ?it/s]
Training...:  35% 924/2609 [1:06:03<1:39:31,  3.54s/it][A
Training...:  35% 925/2609 [1:06:03<1:40:49,  3.59s/it][A
Training...:  35% 926/2609 [1:06:06<1:37:31,  3.48s/it][A
Training...:  36% 927/2609 [1:06:09<1:33:44,  3.34s/it][A
Training...:  36% 928/2609 [1:06:12<1:30:51,  3.24s/it][A
Training...:  36% 929/2609 [1:06:15<1:27:08,  3.11s/it][A
Training...:  36% 930/2609 [1:06:18<1:24:18,  3.01s/it][A
Training...:  36% 931/2609 [1:06:20<1:21:03,  2.90s/it][A
Training...:  36% 932/2609 [1:06:23<1:18:38,  2.81s/it][A
Training...:  36% 933/2609 [1:06:25<1:16:10,  2.73s/it][A
Training...:  36% 934/2609 [1:06:28<1:13:29,  2.63s/it][A
Training...:  36% 935/2609 [1:06:30<1:10:45,  2.54s/it][A
Training...:  36% 936/2609 [1:06:32<1:07:52,  2.43s/it][A
Training...:  36% 937/2609 [1:06:34<1:05:01,  2.33s/it][A
Training...:  36% 938/2609 [1:06:37<1:02:29,  2.24s/it][A
Training...:  36% 939/2609 [1:06:38<59:38,  2.14s/it]  [A
Training...:  36% 940/2609 [1:06:40<56:56,  2.05s/it][A
Training...:  36% 941/2609 [1:06:42<54:17,  1.95s/it][A
Training...:  36% 942/2609 [1:06:44<51:37,  1.86s/it][A
Training...:  36% 943/2609 [1:06:45<49:08,  1.77s/it][A
Training...:  36% 944/2609 [1:06:47<46:25,  1.67s/it][A
Training...:  36% 945/2609 [1:06:48<43:30,  1.57s/it][A
Training...:  36% 946/2609 [1:06:49<40:13,  1.45s/it][A
Training...:  36% 947/2609 [1:06:50<36:37,  1.32s/it][A
Training...:  36% 948/2609 [1:06:51<32:43,  1.18s/it][A
Training...:  36% 949/2609 [1:06:52<28:46,  1.04s/it][A                                              
                                                     [AEpoch ... (1/20):   0% 0/20 [1:06:59<?, ?it/s]
Training...:  36% 949/2609 [1:06:53<28:46,  1.04s/it][A
Training...:  36% 950/2609 [1:06:53<27:11,  1.02it/s][A
Training...:  36% 951/2609 [1:07:00<1:17:17,  2.80s/it][A
Training...:  36% 952/2609 [1:07:07<1:51:56,  4.05s/it][A
Training...:  37% 953/2609 [1:07:13<2:11:59,  4.78s/it][A
Training...:  37% 954/2609 [1:07:19<2:24:32,  5.24s/it][A
Training...:  37% 955/2609 [1:07:25<2:29:47,  5.43s/it][A
Training...:  37% 956/2609 [1:07:31<2:33:07,  5.56s/it][A
Training...:  37% 957/2609 [1:07:37<2:32:34,  5.54s/it][A
Training...:  37% 958/2609 [1:07:42<2:30:43,  5.48s/it][A
Training...:  37% 959/2609 [1:07:47<2:27:32,  5.36s/it][A
Training...:  37% 960/2609 [1:07:52<2:24:21,  5.25s/it][A
Training...:  37% 961/2609 [1:07:57<2:19:48,  5.09s/it][A
Training...:  37% 962/2609 [1:08:01<2:16:50,  4.99s/it][A
Training...:  37% 963/2609 [1:08:06<2:12:37,  4.83s/it][A
Training...:  37% 964/2609 [1:08:10<2:09:08,  4.71s/it][A
Training...:  37% 965/2609 [1:08:15<2:04:28,  4.54s/it][A
Training...:  37% 966/2609 [1:08:19<2:01:08,  4.42s/it][A
Training...:  37% 967/2609 [1:08:23<1:56:40,  4.26s/it][A
Training...:  37% 968/2609 [1:08:26<1:53:34,  4.15s/it][A
Training...:  37% 969/2609 [1:08:30<1:49:52,  4.02s/it][A
Training...:  37% 970/2609 [1:08:34<1:48:01,  3.95s/it][A
Training...:  37% 971/2609 [1:08:37<1:44:15,  3.82s/it][A
Training...:  37% 972/2609 [1:08:41<1:41:46,  3.73s/it][A
Training...:  37% 973/2609 [1:08:44<1:38:46,  3.62s/it][A
Training...:  37% 974/2609 [1:08:48<1:36:37,  3.55s/it][A                                              
                                                       [AEpoch ... (1/20):   0% 0/20 [1:08:57<?, ?it/s]
Training...:  37% 974/2609 [1:08:51<1:36:37,  3.55s/it][A
Training...:  37% 975/2609 [1:08:51<1:37:49,  3.59s/it][A
Training...:  37% 976/2609 [1:08:55<1:34:03,  3.46s/it][A
Training...:  37% 977/2609 [1:08:58<1:30:05,  3.31s/it][A
Training...:  37% 978/2609 [1:09:01<1:27:59,  3.24s/it][A
Training...:  38% 979/2609 [1:09:03<1:24:22,  3.11s/it][A
Training...:  38% 980/2609 [1:09:06<1:21:45,  3.01s/it][A
Training...:  38% 981/2609 [1:09:09<1:18:29,  2.89s/it][A
Training...:  38% 982/2609 [1:09:11<1:16:16,  2.81s/it][A
Training...:  38% 983/2609 [1:09:14<1:13:20,  2.71s/it][A
Training...:  38% 984/2609 [1:09:16<1:10:45,  2.61s/it][A
Training...:  38% 985/2609 [1:09:19<1:08:12,  2.52s/it][A
Training...:  38% 986/2609 [1:09:21<1:05:42,  2.43s/it][A
Training...:  38% 987/2609 [1:09:23<1:03:10,  2.34s/it][A
Training...:  38% 988/2609 [1:09:25<1:00:21,  2.23s/it][A
Training...:  38% 989/2609 [1:09:27<57:48,  2.14s/it]  [A
Training...:  38% 990/2609 [1:09:29<55:20,  2.05s/it][A
Training...:  38% 991/2609 [1:09:30<52:56,  1.96s/it][A
Training...:  38% 992/2609 [1:09:32<50:19,  1.87s/it][A
Training...:  38% 993/2609 [1:09:34<47:43,  1.77s/it][A
Training...:  38% 994/2609 [1:09:35<45:06,  1.68s/it][A
Training...:  38% 995/2609 [1:09:36<42:25,  1.58s/it][A
Training...:  38% 996/2609 [1:09:38<39:37,  1.47s/it][A
Training...:  38% 997/2609 [1:09:39<36:32,  1.36s/it][A
Training...:  38% 998/2609 [1:09:40<33:12,  1.24s/it][A
Training...:  38% 999/2609 [1:09:40<29:25,  1.10s/it][A                                              
                                                     [AEpoch ... (1/20):   0% 0/20 [1:09:47<?, ?it/s]
Training...:  38% 999/2609 [1:09:41<29:25,  1.10s/it][A
Training...:  38% 1000/2609 [1:09:41<27:32,  1.03s/it][A
Training...:  38% 1001/2609 [1:09:48<1:15:52,  2.83s/it][A
Training...:  38% 1002/2609 [1:09:55<1:49:19,  4.08s/it][A
Training...:  38% 1003/2609 [1:10:02<2:08:32,  4.80s/it][A
Training...:  38% 1004/2609 [1:10:08<2:21:18,  5.28s/it][A
Training...:  39% 1005/2609 [1:10:14<2:28:00,  5.54s/it][A
Training...:  39% 1006/2609 [1:10:20<2:30:09,  5.62s/it][A
Training...:  39% 1007/2609 [1:10:26<2:29:00,  5.58s/it][A
Training...:  39% 1008/2609 [1:10:31<2:26:44,  5.50s/it][A
Training...:  39% 1009/2609 [1:10:36<2:22:59,  5.36s/it][A
Training...:  39% 1010/2609 [1:10:41<2:19:42,  5.24s/it][A
Training...:  39% 1011/2609 [1:10:46<2:15:50,  5.10s/it][A
Training...:  39% 1012/2609 [1:10:51<2:12:49,  4.99s/it][A
Training...:  39% 1013/2609 [1:10:55<2:08:48,  4.84s/it][A
Training...:  39% 1014/2609 [1:11:00<2:05:45,  4.73s/it][A
Training...:  39% 1015/2609 [1:11:04<2:01:26,  4.57s/it][A
Training...:  39% 1016/2609 [1:11:08<1:58:55,  4.48s/it][A
Training...:  39% 1017/2609 [1:11:12<1:54:28,  4.31s/it][A
Training...:  39% 1018/2609 [1:11:16<1:51:50,  4.22s/it][A
Training...:  39% 1019/2609 [1:11:20<1:48:12,  4.08s/it][A
Training...:  39% 1020/2609 [1:11:23<1:45:09,  3.97s/it][A
Training...:  39% 1021/2609 [1:11:27<1:41:32,  3.84s/it][A
Training...:  39% 1022/2609 [1:11:30<1:39:24,  3.76s/it][A
Training...:  39% 1023/2609 [1:11:34<1:36:54,  3.67s/it][A
Training...:  39% 1024/2609 [1:11:37<1:34:56,  3.59s/it][A                                              
                                                        [AEpoch ... (1/20):   0% 0/20 [1:11:47<?, ?it/s]
Training...:  39% 1024/2609 [1:11:41<1:34:56,  3.59s/it][A
Training...:  39% 1025/2609 [1:11:41<1:35:47,  3.63s/it][A
Training...:  39% 1026/2609 [1:11:44<1:31:48,  3.48s/it][A
Training...:  39% 1027/2609 [1:11:47<1:27:45,  3.33s/it][A
Training...:  39% 1028/2609 [1:11:50<1:25:11,  3.23s/it][A
Training...:  39% 1029/2609 [1:11:53<1:22:08,  3.12s/it][A
Training...:  39% 1030/2609 [1:11:56<1:19:04,  3.00s/it][A
Training...:  40% 1031/2609 [1:11:58<1:16:33,  2.91s/it][A
Training...:  40% 1032/2609 [1:12:01<1:13:55,  2.81s/it][A
Training...:  40% 1033/2609 [1:12:03<1:11:02,  2.70s/it][A
Training...:  40% 1034/2609 [1:12:06<1:08:15,  2.60s/it][A
Training...:  40% 1035/2609 [1:12:08<1:05:53,  2.51s/it][A
Training...:  40% 1036/2609 [1:12:10<1:03:26,  2.42s/it][A
Training...:  40% 1037/2609 [1:12:12<1:00:55,  2.33s/it][A
Training...:  40% 1038/2609 [1:12:14<58:32,  2.24s/it]  [A
Training...:  40% 1039/2609 [1:12:16<56:25,  2.16s/it][A
Training...:  40% 1040/2609 [1:12:18<53:51,  2.06s/it][A
Training...:  40% 1041/2609 [1:12:20<51:34,  1.97s/it][A
Training...:  40% 1042/2609 [1:12:22<48:51,  1.87s/it][A
Training...:  40% 1043/2609 [1:12:23<46:25,  1.78s/it][A
Training...:  40% 1044/2609 [1:12:25<43:44,  1.68s/it][A
Training...:  40% 1045/2609 [1:12:26<40:49,  1.57s/it][A
Training...:  40% 1046/2609 [1:12:27<38:05,  1.46s/it][A
Training...:  40% 1047/2609 [1:12:28<35:05,  1.35s/it][A
Training...:  40% 1048/2609 [1:12:29<31:42,  1.22s/it][A
Training...:  40% 1049/2609 [1:12:30<28:07,  1.08s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [1:12:37<?, ?it/s]
Training...:  40% 1049/2609 [1:12:31<28:07,  1.08s/it][A
Training...:  40% 1050/2609 [1:12:31<26:28,  1.02s/it][A
Training...:  40% 1051/2609 [1:12:38<1:14:12,  2.86s/it][A
Training...:  40% 1052/2609 [1:12:45<1:46:23,  4.10s/it][A
Training...:  40% 1053/2609 [1:12:52<2:05:15,  4.83s/it][A
Training...:  40% 1054/2609 [1:12:58<2:16:47,  5.28s/it][A
Training...:  40% 1055/2609 [1:13:04<2:20:46,  5.44s/it][A
Training...:  40% 1056/2609 [1:13:09<2:23:30,  5.54s/it][A
Training...:  41% 1057/2609 [1:13:15<2:22:31,  5.51s/it][A
Training...:  41% 1058/2609 [1:13:20<2:21:16,  5.46s/it][A
Training...:  41% 1059/2609 [1:13:25<2:17:47,  5.33s/it][A
Training...:  41% 1060/2609 [1:13:30<2:14:42,  5.22s/it][A
Training...:  41% 1061/2609 [1:13:35<2:10:21,  5.05s/it][A
Training...:  41% 1062/2609 [1:13:40<2:07:28,  4.94s/it][A
Training...:  41% 1063/2609 [1:13:44<2:03:00,  4.77s/it][A
Training...:  41% 1064/2609 [1:13:48<1:59:46,  4.65s/it][A
Training...:  41% 1065/2609 [1:13:52<1:55:29,  4.49s/it][A
Training...:  41% 1066/2609 [1:13:57<1:52:21,  4.37s/it][A
Training...:  41% 1067/2609 [1:14:00<1:48:09,  4.21s/it][A
Training...:  41% 1068/2609 [1:14:04<1:45:20,  4.10s/it][A
Training...:  41% 1069/2609 [1:14:08<1:42:09,  3.98s/it][A
Training...:  41% 1070/2609 [1:14:12<1:39:47,  3.89s/it][A
Training...:  41% 1071/2609 [1:14:15<1:36:45,  3.77s/it][A
Training...:  41% 1072/2609 [1:14:19<1:33:55,  3.67s/it][A
Training...:  41% 1073/2609 [1:14:22<1:30:54,  3.55s/it][A
Training...:  41% 1074/2609 [1:14:25<1:29:07,  3.48s/it][A                                              
                                                        [AEpoch ... (1/20):   0% 0/20 [1:14:35<?, ?it/s]
Training...:  41% 1074/2609 [1:14:29<1:29:07,  3.48s/it][A
Training...:  41% 1075/2609 [1:14:29<1:30:29,  3.54s/it][A
Training...:  41% 1076/2609 [1:14:32<1:26:57,  3.40s/it][A
Training...:  41% 1077/2609 [1:14:35<1:23:35,  3.27s/it][A
Training...:  41% 1078/2609 [1:14:38<1:20:57,  3.17s/it][A
Training...:  41% 1079/2609 [1:14:41<1:17:36,  3.04s/it][A
Training...:  41% 1080/2609 [1:14:43<1:14:59,  2.94s/it][A
Training...:  41% 1081/2609 [1:14:46<1:11:57,  2.83s/it][A
Training...:  41% 1082/2609 [1:14:48<1:09:14,  2.72s/it][A
Training...:  42% 1083/2609 [1:14:51<1:06:56,  2.63s/it][A
Training...:  42% 1084/2609 [1:14:53<1:04:35,  2.54s/it][A
Training...:  42% 1085/2609 [1:14:55<1:02:13,  2.45s/it][A
Training...:  42% 1086/2609 [1:14:57<59:59,  2.36s/it]  [A
Training...:  42% 1087/2609 [1:15:00<58:04,  2.29s/it][A
Training...:  42% 1088/2609 [1:15:02<55:39,  2.20s/it][A
Training...:  42% 1089/2609 [1:15:03<53:23,  2.11s/it][A
Training...:  42% 1090/2609 [1:15:05<51:09,  2.02s/it][A
Training...:  42% 1091/2609 [1:15:07<48:52,  1.93s/it][A
Training...:  42% 1092/2609 [1:15:09<46:42,  1.85s/it][A
Training...:  42% 1093/2609 [1:15:10<44:29,  1.76s/it][A
Training...:  42% 1094/2609 [1:15:12<41:53,  1.66s/it][A
Training...:  42% 1095/2609 [1:15:13<39:23,  1.56s/it][A
Training...:  42% 1096/2609 [1:15:14<36:44,  1.46s/it][A
Training...:  42% 1097/2609 [1:15:15<33:33,  1.33s/it][A
Training...:  42% 1098/2609 [1:15:16<30:05,  1.20s/it][A
Training...:  42% 1099/2609 [1:15:17<26:19,  1.05s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [1:15:24<?, ?it/s]
Training...:  42% 1099/2609 [1:15:18<26:19,  1.05s/it][A
Training...:  42% 1100/2609 [1:15:18<24:59,  1.01it/s][A
Training...:  42% 1101/2609 [1:15:25<1:10:57,  2.82s/it][A
Training...:  42% 1102/2609 [1:15:32<1:42:45,  4.09s/it][A
Training...:  42% 1103/2609 [1:15:38<2:00:10,  4.79s/it][A
Training...:  42% 1104/2609 [1:15:45<2:11:52,  5.26s/it][A
Training...:  42% 1105/2609 [1:15:50<2:15:33,  5.41s/it][A
Training...:  42% 1106/2609 [1:15:56<2:18:20,  5.52s/it][A
Training...:  42% 1107/2609 [1:16:02<2:17:54,  5.51s/it][A
Training...:  42% 1108/2609 [1:16:07<2:16:49,  5.47s/it][A
Training...:  43% 1109/2609 [1:16:12<2:13:42,  5.35s/it][A
Training...:  43% 1110/2609 [1:16:17<2:11:10,  5.25s/it][A
Training...:  43% 1111/2609 [1:16:22<2:07:10,  5.09s/it][A
Training...:  43% 1112/2609 [1:16:26<2:04:25,  4.99s/it][A
Training...:  43% 1113/2609 [1:16:31<2:00:22,  4.83s/it][A
Training...:  43% 1114/2609 [1:16:35<1:57:03,  4.70s/it][A
Training...:  43% 1115/2609 [1:16:39<1:52:56,  4.54s/it][A
Training...:  43% 1116/2609 [1:16:44<1:50:09,  4.43s/it][A
Training...:  43% 1117/2609 [1:16:48<1:46:08,  4.27s/it][A
Training...:  43% 1118/2609 [1:16:52<1:43:47,  4.18s/it][A
Training...:  43% 1119/2609 [1:16:55<1:40:01,  4.03s/it][A
Training...:  43% 1120/2609 [1:16:59<1:37:23,  3.92s/it][A
Training...:  43% 1121/2609 [1:17:02<1:34:01,  3.79s/it][A
Training...:  43% 1122/2609 [1:17:06<1:31:36,  3.70s/it][A
Training...:  43% 1123/2609 [1:17:09<1:28:47,  3.58s/it][A
Training...:  43% 1124/2609 [1:17:13<1:27:05,  3.52s/it][A                                              
                                                        [AEpoch ... (1/20):   0% 0/20 [1:17:22<?, ?it/s]
Training...:  43% 1124/2609 [1:17:16<1:27:05,  3.52s/it][A
Training...:  43% 1125/2609 [1:17:16<1:28:23,  3.57s/it][A
Training...:  43% 1126/2609 [1:17:19<1:25:31,  3.46s/it][A
Training...:  43% 1127/2609 [1:17:22<1:22:14,  3.33s/it][A
Training...:  43% 1128/2609 [1:17:25<1:19:58,  3.24s/it][A
Training...:  43% 1129/2609 [1:17:28<1:17:02,  3.12s/it][A
Training...:  43% 1130/2609 [1:17:31<1:14:30,  3.02s/it][A
Training...:  43% 1131/2609 [1:17:34<1:11:57,  2.92s/it][A
Training...:  43% 1132/2609 [1:17:36<1:09:23,  2.82s/it][A
Training...:  43% 1133/2609 [1:17:39<1:06:49,  2.72s/it][A
Training...:  43% 1134/2609 [1:17:41<1:04:18,  2.62s/it][A
Training...:  44% 1135/2609 [1:17:44<1:02:11,  2.53s/it][A
Training...:  44% 1136/2609 [1:17:46<59:52,  2.44s/it]  [A
Training...:  44% 1137/2609 [1:17:48<57:43,  2.35s/it][A
Training...:  44% 1138/2609 [1:17:50<55:31,  2.26s/it][A
Training...:  44% 1139/2609 [1:17:52<53:11,  2.17s/it][A
Training...:  44% 1140/2609 [1:17:54<50:52,  2.08s/it][A
Training...:  44% 1141/2609 [1:17:56<48:35,  1.99s/it][A
Training...:  44% 1142/2609 [1:17:57<46:07,  1.89s/it][A
Training...:  44% 1143/2609 [1:17:59<43:39,  1.79s/it][A
Training...:  44% 1144/2609 [1:18:00<41:13,  1.69s/it][A
Training...:  44% 1145/2609 [1:18:02<38:52,  1.59s/it][A
Training...:  44% 1146/2609 [1:18:03<36:12,  1.48s/it][A
Training...:  44% 1147/2609 [1:18:04<33:15,  1.37s/it][A
Training...:  44% 1148/2609 [1:18:05<30:00,  1.23s/it][A
Training...:  44% 1149/2609 [1:18:06<26:33,  1.09s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [1:18:13<?, ?it/s]
Training...:  44% 1149/2609 [1:18:07<26:33,  1.09s/it][A
Training...:  44% 1150/2609 [1:18:07<25:07,  1.03s/it][A
Training...:  44% 1151/2609 [1:18:14<1:08:54,  2.84s/it][A
Training...:  44% 1152/2609 [1:18:21<1:39:06,  4.08s/it][A
Training...:  44% 1153/2609 [1:18:27<1:56:29,  4.80s/it][A
Training...:  44% 1154/2609 [1:18:33<2:06:54,  5.23s/it][A
Training...:  44% 1155/2609 [1:18:39<2:11:22,  5.42s/it][A
Training...:  44% 1156/2609 [1:18:45<2:13:17,  5.50s/it][A
Training...:  44% 1157/2609 [1:18:50<2:12:32,  5.48s/it][A
Training...:  44% 1158/2609 [1:18:56<2:11:17,  5.43s/it][A
Training...:  44% 1159/2609 [1:19:01<2:08:36,  5.32s/it][A
Training...:  44% 1160/2609 [1:19:06<2:05:56,  5.22s/it][A
Training...:  44% 1161/2609 [1:19:10<2:01:57,  5.05s/it][A
Training...:  45% 1162/2609 [1:19:15<1:59:21,  4.95s/it][A
Training...:  45% 1163/2609 [1:19:19<1:55:24,  4.79s/it][A
Training...:  45% 1164/2609 [1:19:24<1:52:40,  4.68s/it][A
Training...:  45% 1165/2609 [1:19:28<1:48:35,  4.51s/it][A
Training...:  45% 1166/2609 [1:19:32<1:46:19,  4.42s/it][A
Training...:  45% 1167/2609 [1:19:36<1:42:31,  4.27s/it][A
Training...:  45% 1168/2609 [1:19:40<1:40:18,  4.18s/it][A
Training...:  45% 1169/2609 [1:19:44<1:37:00,  4.04s/it][A
Training...:  45% 1170/2609 [1:19:47<1:34:31,  3.94s/it][A
Training...:  45% 1171/2609 [1:19:51<1:31:05,  3.80s/it][A
Training...:  45% 1172/2609 [1:19:55<1:29:15,  3.73s/it][A
Training...:  45% 1173/2609 [1:19:58<1:26:38,  3.62s/it][A
Training...:  45% 1174/2609 [1:20:01<1:24:47,  3.55s/it][A                                              
                                                        [AEpoch ... (1/20):   0% 0/20 [1:20:11<?, ?it/s]
Training...:  45% 1174/2609 [1:20:05<1:24:47,  3.55s/it][A
Training...:  45% 1175/2609 [1:20:05<1:25:46,  3.59s/it][A
Training...:  45% 1176/2609 [1:20:08<1:22:33,  3.46s/it][A
Training...:  45% 1177/2609 [1:20:11<1:19:13,  3.32s/it][A
Training...:  45% 1178/2609 [1:20:14<1:16:13,  3.20s/it][A
Training...:  45% 1179/2609 [1:20:17<1:13:31,  3.08s/it][A
Training...:  45% 1180/2609 [1:20:20<1:11:02,  2.98s/it][A
Training...:  45% 1181/2609 [1:20:22<1:08:27,  2.88s/it][A
Training...:  45% 1182/2609 [1:20:25<1:06:36,  2.80s/it][A
Training...:  45% 1183/2609 [1:20:27<1:04:37,  2.72s/it][A
Training...:  45% 1184/2609 [1:20:30<1:02:29,  2.63s/it][A
Training...:  45% 1185/2609 [1:20:32<1:00:11,  2.54s/it][A
Training...:  45% 1186/2609 [1:20:34<57:53,  2.44s/it]  [A
Training...:  45% 1187/2609 [1:20:36<55:39,  2.35s/it][A
Training...:  46% 1188/2609 [1:20:38<53:27,  2.26s/it][A
Training...:  46% 1189/2609 [1:20:40<51:21,  2.17s/it][A
Training...:  46% 1190/2609 [1:20:42<49:12,  2.08s/it][A
Training...:  46% 1191/2609 [1:20:44<47:05,  1.99s/it][A
Training...:  46% 1192/2609 [1:20:46<44:50,  1.90s/it][A
Training...:  46% 1193/2609 [1:20:47<42:41,  1.81s/it][A
Training...:  46% 1194/2609 [1:20:49<40:25,  1.71s/it][A
Training...:  46% 1195/2609 [1:20:50<38:11,  1.62s/it][A
Training...:  46% 1196/2609 [1:20:52<35:35,  1.51s/it][A
Training...:  46% 1197/2609 [1:20:53<32:59,  1.40s/it][A
Training...:  46% 1198/2609 [1:20:54<29:59,  1.27s/it][A
Training...:  46% 1199/2609 [1:20:54<26:24,  1.12s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [1:21:01<?, ?it/s]
Training...:  46% 1199/2609 [1:20:55<26:24,  1.12s/it][A
Training...:  46% 1200/2609 [1:20:55<24:42,  1.05s/it][A
Training...:  46% 1201/2609 [1:21:02<1:07:22,  2.87s/it][A
Training...:  46% 1202/2609 [1:21:09<1:36:37,  4.12s/it][A
Training...:  46% 1203/2609 [1:21:16<1:54:14,  4.87s/it][A
Training...:  46% 1204/2609 [1:21:22<2:04:42,  5.33s/it][A
Training...:  46% 1205/2609 [1:21:28<2:08:57,  5.51s/it][A
Training...:  46% 1206/2609 [1:21:34<2:11:17,  5.61s/it][A
Training...:  46% 1207/2609 [1:21:40<2:09:53,  5.56s/it][A
Training...:  46% 1208/2609 [1:21:45<2:08:18,  5.50s/it][A
Training...:  46% 1209/2609 [1:21:50<2:05:32,  5.38s/it][A
Training...:  46% 1210/2609 [1:21:55<2:03:03,  5.28s/it][A
Training...:  46% 1211/2609 [1:22:00<1:59:06,  5.11s/it][A
Training...:  46% 1212/2609 [1:22:05<1:56:34,  5.01s/it][A
Training...:  46% 1213/2609 [1:22:09<1:52:32,  4.84s/it][A
Training...:  47% 1214/2609 [1:22:14<1:49:49,  4.72s/it][A
Training...:  47% 1215/2609 [1:22:18<1:46:07,  4.57s/it][A
Training...:  47% 1216/2609 [1:22:22<1:43:27,  4.46s/it][A
Training...:  47% 1217/2609 [1:22:26<1:39:40,  4.30s/it][A
Training...:  47% 1218/2609 [1:22:30<1:36:59,  4.18s/it][A
Training...:  47% 1219/2609 [1:22:34<1:33:25,  4.03s/it][A
Training...:  47% 1220/2609 [1:22:37<1:31:23,  3.95s/it][A
Training...:  47% 1221/2609 [1:22:41<1:28:11,  3.81s/it][A
Training...:  47% 1222/2609 [1:22:44<1:25:34,  3.70s/it][A
Training...:  47% 1223/2609 [1:22:47<1:22:33,  3.57s/it][A
Training...:  47% 1224/2609 [1:22:51<1:20:17,  3.48s/it][A                                              
                                                        [AEpoch ... (1/20):   0% 0/20 [1:23:00<?, ?it/s]
Training...:  47% 1224/2609 [1:22:54<1:20:17,  3.48s/it][A
Training...:  47% 1225/2609 [1:22:54<1:21:06,  3.52s/it][A
Training...:  47% 1226/2609 [1:22:57<1:18:07,  3.39s/it][A
Training...:  47% 1227/2609 [1:23:00<1:15:00,  3.26s/it][A
Training...:  47% 1228/2609 [1:23:03<1:12:24,  3.15s/it][A
Training...:  47% 1229/2609 [1:23:06<1:09:53,  3.04s/it][A
Training...:  47% 1230/2609 [1:23:09<1:08:18,  2.97s/it][A
Training...:  47% 1231/2609 [1:23:11<1:05:44,  2.86s/it][A
Training...:  47% 1232/2609 [1:23:14<1:03:55,  2.79s/it][A
Training...:  47% 1233/2609 [1:23:17<1:01:34,  2.68s/it][A
Training...:  47% 1234/2609 [1:23:19<59:18,  2.59s/it]  [A
Training...:  47% 1235/2609 [1:23:21<57:17,  2.50s/it][A
Training...:  47% 1236/2609 [1:23:23<55:38,  2.43s/it][A
Training...:  47% 1237/2609 [1:23:26<53:36,  2.34s/it][A
Training...:  47% 1238/2609 [1:23:28<51:34,  2.26s/it][A
Training...:  47% 1239/2609 [1:23:30<49:29,  2.17s/it][A
Training...:  48% 1240/2609 [1:23:31<47:15,  2.07s/it][A
Training...:  48% 1241/2609 [1:23:33<45:10,  1.98s/it][A
Training...:  48% 1242/2609 [1:23:35<43:05,  1.89s/it][A
Training...:  48% 1243/2609 [1:23:37<40:58,  1.80s/it][A
Training...:  48% 1244/2609 [1:23:38<38:42,  1.70s/it][A
Training...:  48% 1245/2609 [1:23:39<36:23,  1.60s/it][A
Training...:  48% 1246/2609 [1:23:41<33:45,  1.49s/it][A
Training...:  48% 1247/2609 [1:23:42<30:59,  1.37s/it][A
Training...:  48% 1248/2609 [1:23:43<28:13,  1.24s/it][A
Training...:  48% 1249/2609 [1:23:43<25:03,  1.11s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [1:23:50<?, ?it/s]
Training...:  48% 1249/2609 [1:23:44<25:03,  1.11s/it][A
Training...:  48% 1250/2609 [1:23:44<23:20,  1.03s/it][A
Training...:  48% 1251/2609 [1:23:51<1:04:04,  2.83s/it][A
Training...:  48% 1252/2609 [1:23:58<1:32:11,  4.08s/it][A
Training...:  48% 1253/2609 [1:24:05<1:48:45,  4.81s/it][A
Training...:  48% 1254/2609 [1:24:11<1:59:09,  5.28s/it][A
Training...:  48% 1255/2609 [1:24:17<2:04:24,  5.51s/it][A
Training...:  48% 1256/2609 [1:24:23<2:06:31,  5.61s/it][A
Training...:  48% 1257/2609 [1:24:29<2:05:45,  5.58s/it][A
Training...:  48% 1258/2609 [1:24:34<2:05:03,  5.55s/it][A
Training...:  48% 1259/2609 [1:24:39<2:01:26,  5.40s/it][A
Training...:  48% 1260/2609 [1:24:44<1:59:53,  5.33s/it][A
Training...:  48% 1261/2609 [1:24:49<1:55:33,  5.14s/it][A
Training...:  48% 1262/2609 [1:24:54<1:52:56,  5.03s/it][A
Training...:  48% 1263/2609 [1:24:58<1:48:49,  4.85s/it][A
Training...:  48% 1264/2609 [1:25:03<1:46:19,  4.74s/it][A
Training...:  48% 1265/2609 [1:25:07<1:42:34,  4.58s/it][A
Training...:  49% 1266/2609 [1:25:11<1:39:46,  4.46s/it][A
Training...:  49% 1267/2609 [1:25:15<1:36:24,  4.31s/it][A
Training...:  49% 1268/2609 [1:25:19<1:33:39,  4.19s/it][A
Training...:  49% 1269/2609 [1:25:23<1:30:37,  4.06s/it][A
Training...:  49% 1270/2609 [1:25:26<1:28:16,  3.96s/it][A
Training...:  49% 1271/2609 [1:25:30<1:24:57,  3.81s/it][A
Training...:  49% 1272/2609 [1:25:33<1:22:37,  3.71s/it][A
Training...:  49% 1273/2609 [1:25:37<1:20:09,  3.60s/it][A
Training...:  49% 1274/2609 [1:25:40<1:18:00,  3.51s/it][A                                              
                                                        [AEpoch ... (1/20):   0% 0/20 [1:25:50<?, ?it/s]
Training...:  49% 1274/2609 [1:25:44<1:18:00,  3.51s/it][A
Training...:  49% 1275/2609 [1:25:44<1:18:54,  3.55s/it][A
Training...:  49% 1276/2609 [1:25:47<1:15:32,  3.40s/it][A
Training...:  49% 1277/2609 [1:25:50<1:12:36,  3.27s/it][A
Training...:  49% 1278/2609 [1:25:53<1:10:04,  3.16s/it][A
Training...:  49% 1279/2609 [1:25:55<1:08:11,  3.08s/it][A
Training...:  49% 1280/2609 [1:25:58<1:05:55,  2.98s/it][A
Training...:  49% 1281/2609 [1:26:01<1:03:14,  2.86s/it][A
Training...:  49% 1282/2609 [1:26:03<1:00:55,  2.75s/it][A
Training...:  49% 1283/2609 [1:26:06<58:45,  2.66s/it]  [A
Training...:  49% 1284/2609 [1:26:08<56:43,  2.57s/it][A
Training...:  49% 1285/2609 [1:26:10<54:39,  2.48s/it][A
Training...:  49% 1286/2609 [1:26:13<52:50,  2.40s/it][A
Training...:  49% 1287/2609 [1:26:15<51:07,  2.32s/it][A
Training...:  49% 1288/2609 [1:26:17<49:02,  2.23s/it][A
Training...:  49% 1289/2609 [1:26:19<47:03,  2.14s/it][A
Training...:  49% 1290/2609 [1:26:20<44:58,  2.05s/it][A
Training...:  49% 1291/2609 [1:26:22<43:00,  1.96s/it][A
Training...:  50% 1292/2609 [1:26:24<40:59,  1.87s/it][A
Training...:  50% 1293/2609 [1:26:25<38:47,  1.77s/it][A
Training...:  50% 1294/2609 [1:26:27<36:32,  1.67s/it][A
Training...:  50% 1295/2609 [1:26:28<34:26,  1.57s/it][A
Training...:  50% 1296/2609 [1:26:29<32:00,  1.46s/it][A
Training...:  50% 1297/2609 [1:26:30<29:14,  1.34s/it][A
Training...:  50% 1298/2609 [1:26:31<26:07,  1.20s/it][A
Training...:  50% 1299/2609 [1:26:32<22:54,  1.05s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [1:26:39<?, ?it/s]
Training...:  50% 1299/2609 [1:26:33<22:54,  1.05s/it][A
Training...:  50% 1300/2609 [1:26:33<21:31,  1.01it/s][A
Training...:  50% 1301/2609 [1:26:40<1:00:39,  2.78s/it][A
Training...:  50% 1302/2609 [1:26:47<1:28:20,  4.06s/it][A
Training...:  50% 1303/2609 [1:26:53<1:44:28,  4.80s/it][A
Training...:  50% 1304/2609 [1:27:00<1:55:03,  5.29s/it][A
Training...:  50% 1305/2609 [1:27:06<1:58:47,  5.47s/it][A
Training...:  50% 1306/2609 [1:27:12<2:01:38,  5.60s/it][A
Training...:  50% 1307/2609 [1:27:17<2:00:45,  5.57s/it][A
Training...:  50% 1308/2609 [1:27:22<1:59:46,  5.52s/it][A
Training...:  50% 1309/2609 [1:27:28<1:56:58,  5.40s/it][A
Training...:  50% 1310/2609 [1:27:33<1:54:53,  5.31s/it][A
Training...:  50% 1311/2609 [1:27:37<1:51:16,  5.14s/it][A
Training...:  50% 1312/2609 [1:27:42<1:48:34,  5.02s/it][A
Training...:  50% 1313/2609 [1:27:47<1:44:27,  4.84s/it][A
Training...:  50% 1314/2609 [1:27:51<1:42:01,  4.73s/it][A
Training...:  50% 1315/2609 [1:27:55<1:38:29,  4.57s/it][A
Training...:  50% 1316/2609 [1:27:59<1:35:48,  4.45s/it][A
Training...:  50% 1317/2609 [1:28:03<1:32:36,  4.30s/it][A
Training...:  51% 1318/2609 [1:28:07<1:30:11,  4.19s/it][A
Training...:  51% 1319/2609 [1:28:11<1:27:04,  4.05s/it][A
Training...:  51% 1320/2609 [1:28:15<1:24:26,  3.93s/it][A
Training...:  51% 1321/2609 [1:28:18<1:21:28,  3.80s/it][A
Training...:  51% 1322/2609 [1:28:22<1:19:00,  3.68s/it][A
Training...:  51% 1323/2609 [1:28:25<1:16:33,  3.57s/it][A
Training...:  51% 1324/2609 [1:28:28<1:14:41,  3.49s/it][A                                              
                                                        [AEpoch ... (1/20):   0% 0/20 [1:28:38<?, ?it/s]
Training...:  51% 1324/2609 [1:28:32<1:14:41,  3.49s/it][A
Training...:  51% 1325/2609 [1:28:32<1:16:03,  3.55s/it][A
Training...:  51% 1326/2609 [1:28:35<1:13:11,  3.42s/it][A
Training...:  51% 1327/2609 [1:28:38<1:10:38,  3.31s/it][A
Training...:  51% 1328/2609 [1:28:41<1:08:30,  3.21s/it][A
Training...:  51% 1329/2609 [1:28:44<1:05:45,  3.08s/it][A
Training...:  51% 1330/2609 [1:28:47<1:03:24,  2.97s/it][A
Training...:  51% 1331/2609 [1:28:49<1:01:06,  2.87s/it][A
Training...:  51% 1332/2609 [1:28:52<58:56,  2.77s/it]  [A
Training...:  51% 1333/2609 [1:28:54<57:05,  2.68s/it][A
Training...:  51% 1334/2609 [1:28:57<55:23,  2.61s/it][A
Training...:  51% 1335/2609 [1:28:59<53:45,  2.53s/it][A
Training...:  51% 1336/2609 [1:29:01<51:48,  2.44s/it][A
Training...:  51% 1337/2609 [1:29:03<50:11,  2.37s/it][A
Training...:  51% 1338/2609 [1:29:05<48:20,  2.28s/it][A
Training...:  51% 1339/2609 [1:29:07<46:23,  2.19s/it][A
Training...:  51% 1340/2609 [1:29:09<44:13,  2.09s/it][A
Training...:  51% 1341/2609 [1:29:11<42:05,  1.99s/it][A
Training...:  51% 1342/2609 [1:29:13<40:16,  1.91s/it][A
Training...:  51% 1343/2609 [1:29:14<38:00,  1.80s/it][A
Training...:  52% 1344/2609 [1:29:16<35:58,  1.71s/it][A
Training...:  52% 1345/2609 [1:29:17<33:46,  1.60s/it][A
Training...:  52% 1346/2609 [1:29:18<31:16,  1.49s/it][A
Training...:  52% 1347/2609 [1:29:20<28:50,  1.37s/it][A
Training...:  52% 1348/2609 [1:29:20<26:10,  1.25s/it][A
Training...:  52% 1349/2609 [1:29:21<23:01,  1.10s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [1:29:28<?, ?it/s]
Training...:  52% 1349/2609 [1:29:22<23:01,  1.10s/it][A
Training...:  52% 1350/2609 [1:29:22<21:45,  1.04s/it][A
Training...:  52% 1351/2609 [1:29:29<59:29,  2.84s/it][A
Training...:  52% 1352/2609 [1:29:36<1:25:24,  4.08s/it][A
Training...:  52% 1353/2609 [1:29:43<1:40:18,  4.79s/it][A
Training...:  52% 1354/2609 [1:29:49<1:49:49,  5.25s/it][A
Training...:  52% 1355/2609 [1:29:55<1:53:39,  5.44s/it][A
Training...:  52% 1356/2609 [1:30:01<1:56:31,  5.58s/it][A
Training...:  52% 1357/2609 [1:30:06<1:55:26,  5.53s/it][A
Training...:  52% 1358/2609 [1:30:12<1:54:40,  5.50s/it][A
Training...:  52% 1359/2609 [1:30:17<1:51:35,  5.36s/it][A
Training...:  52% 1360/2609 [1:30:22<1:50:57,  5.33s/it][A
Training...:  52% 1361/2609 [1:30:27<1:48:14,  5.20s/it][A
Training...:  52% 1362/2609 [1:30:32<1:45:53,  5.10s/it][A
Training...:  52% 1363/2609 [1:30:36<1:42:55,  4.96s/it][A
Training...:  52% 1364/2609 [1:30:41<1:40:50,  4.86s/it][A
Training...:  52% 1365/2609 [1:30:45<1:37:41,  4.71s/it][A
Training...:  52% 1366/2609 [1:30:50<1:35:30,  4.61s/it][A
Training...:  52% 1367/2609 [1:30:54<1:32:11,  4.45s/it][A
Training...:  52% 1368/2609 [1:30:58<1:29:33,  4.33s/it][A
Training...:  52% 1369/2609 [1:31:02<1:26:24,  4.18s/it][A
Training...:  53% 1370/2609 [1:31:05<1:23:59,  4.07s/it][A
Training...:  53% 1371/2609 [1:31:09<1:21:06,  3.93s/it][A
Training...:  53% 1372/2609 [1:31:13<1:18:47,  3.82s/it][A
Training...:  53% 1373/2609 [1:31:16<1:16:21,  3.71s/it][A
Training...:  53% 1374/2609 [1:31:19<1:14:11,  3.60s/it][A                                              
                                                        [AEpoch ... (1/20):   0% 0/20 [1:31:29<?, ?it/s]
Training...:  53% 1374/2609 [1:31:23<1:14:11,  3.60s/it][A
Training...:  53% 1375/2609 [1:31:23<1:14:59,  3.65s/it][A
Training...:  53% 1376/2609 [1:31:26<1:11:10,  3.46s/it][A
Training...:  53% 1377/2609 [1:31:29<1:08:00,  3.31s/it][A
Training...:  53% 1378/2609 [1:31:32<1:05:09,  3.18s/it][A
Training...:  53% 1379/2609 [1:31:35<1:02:42,  3.06s/it][A
Training...:  53% 1380/2609 [1:31:37<1:00:31,  2.95s/it][A
Training...:  53% 1381/2609 [1:31:40<58:29,  2.86s/it]  [A
Training...:  53% 1382/2609 [1:31:43<56:35,  2.77s/it][A
Training...:  53% 1383/2609 [1:31:45<54:34,  2.67s/it][A
Training...:  53% 1384/2609 [1:31:47<52:42,  2.58s/it][A
Training...:  53% 1385/2609 [1:31:50<50:45,  2.49s/it][A
Training...:  53% 1386/2609 [1:31:52<49:03,  2.41s/it][A
Training...:  53% 1387/2609 [1:31:54<47:25,  2.33s/it][A
Training...:  53% 1388/2609 [1:31:56<45:23,  2.23s/it][A
Training...:  53% 1389/2609 [1:31:58<43:31,  2.14s/it][A
Training...:  53% 1390/2609 [1:32:00<41:49,  2.06s/it][A
Training...:  53% 1391/2609 [1:32:02<40:06,  1.98s/it][A
Training...:  53% 1392/2609 [1:32:03<38:15,  1.89s/it][A
Training...:  53% 1393/2609 [1:32:05<36:24,  1.80s/it][A
Training...:  53% 1394/2609 [1:32:06<34:23,  1.70s/it][A
Training...:  53% 1395/2609 [1:32:08<32:26,  1.60s/it][A
Training...:  54% 1396/2609 [1:32:09<30:17,  1.50s/it][A
Training...:  54% 1397/2609 [1:32:10<27:59,  1.39s/it][A
Training...:  54% 1398/2609 [1:32:11<25:17,  1.25s/it][A
Training...:  54% 1399/2609 [1:32:12<22:20,  1.11s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [1:32:19<?, ?it/s]
Training...:  54% 1399/2609 [1:32:13<22:20,  1.11s/it][A
Training...:  54% 1400/2609 [1:32:13<20:57,  1.04s/it][A
Training...:  54% 1401/2609 [1:32:20<57:03,  2.83s/it][A
Training...:  54% 1402/2609 [1:32:27<1:22:17,  4.09s/it][A
Training...:  54% 1403/2609 [1:32:33<1:37:10,  4.83s/it][A
Training...:  54% 1404/2609 [1:32:40<1:45:23,  5.25s/it][A
Training...:  54% 1405/2609 [1:32:45<1:48:52,  5.43s/it][A
Training...:  54% 1406/2609 [1:32:51<1:50:24,  5.51s/it][A
Training...:  54% 1407/2609 [1:32:56<1:49:17,  5.46s/it][A
Training...:  54% 1408/2609 [1:33:02<1:48:51,  5.44s/it][A
Training...:  54% 1409/2609 [1:33:07<1:47:20,  5.37s/it][A
Training...:  54% 1410/2609 [1:33:12<1:45:35,  5.28s/it][A
Training...:  54% 1411/2609 [1:33:17<1:41:52,  5.10s/it][A
Training...:  54% 1412/2609 [1:33:21<1:39:28,  4.99s/it][A
Training...:  54% 1413/2609 [1:33:26<1:35:28,  4.79s/it][A
Training...:  54% 1414/2609 [1:33:30<1:32:57,  4.67s/it][A
Training...:  54% 1415/2609 [1:33:34<1:29:40,  4.51s/it][A
Training...:  54% 1416/2609 [1:33:38<1:27:10,  4.38s/it][A
Training...:  54% 1417/2609 [1:33:42<1:24:13,  4.24s/it][A
Training...:  54% 1418/2609 [1:33:46<1:21:49,  4.12s/it][A
Training...:  54% 1419/2609 [1:33:50<1:19:11,  3.99s/it][A
Training...:  54% 1420/2609 [1:33:54<1:17:11,  3.90s/it][A
Training...:  54% 1421/2609 [1:33:57<1:14:36,  3.77s/it][A
Training...:  55% 1422/2609 [1:34:00<1:12:45,  3.68s/it][A
Training...:  55% 1423/2609 [1:34:04<1:10:16,  3.55s/it][A
Training...:  55% 1424/2609 [1:34:07<1:08:09,  3.45s/it][A                                              
                                                        [AEpoch ... (1/20):   0% 0/20 [1:34:17<?, ?it/s]
Training...:  55% 1424/2609 [1:34:11<1:08:09,  3.45s/it][A
Training...:  55% 1425/2609 [1:34:11<1:09:13,  3.51s/it][A
Training...:  55% 1426/2609 [1:34:14<1:06:24,  3.37s/it][A
Training...:  55% 1427/2609 [1:34:17<1:03:31,  3.22s/it][A
Training...:  55% 1428/2609 [1:34:19<1:01:07,  3.11s/it][A
Training...:  55% 1429/2609 [1:34:22<59:03,  3.00s/it]  [A
Training...:  55% 1430/2609 [1:34:25<56:46,  2.89s/it][A
Training...:  55% 1431/2609 [1:34:27<54:43,  2.79s/it][A
Training...:  55% 1432/2609 [1:34:30<52:42,  2.69s/it][A
Training...:  55% 1433/2609 [1:34:32<50:44,  2.59s/it][A
Training...:  55% 1434/2609 [1:34:34<48:56,  2.50s/it][A
Training...:  55% 1435/2609 [1:34:37<47:07,  2.41s/it][A
Training...:  55% 1436/2609 [1:34:39<45:25,  2.32s/it][A
Training...:  55% 1437/2609 [1:34:41<43:44,  2.24s/it][A
Training...:  55% 1438/2609 [1:34:43<42:00,  2.15s/it][A
Training...:  55% 1439/2609 [1:34:45<40:27,  2.07s/it][A
Training...:  55% 1440/2609 [1:34:46<38:46,  1.99s/it][A
Training...:  55% 1441/2609 [1:34:48<37:05,  1.91s/it][A
Training...:  55% 1442/2609 [1:34:50<35:26,  1.82s/it][A
Training...:  55% 1443/2609 [1:34:51<33:37,  1.73s/it][A
Training...:  55% 1444/2609 [1:34:53<31:41,  1.63s/it][A
Training...:  55% 1445/2609 [1:34:54<29:34,  1.52s/it][A
Training...:  55% 1446/2609 [1:34:55<27:16,  1.41s/it][A
Training...:  55% 1447/2609 [1:34:56<24:59,  1.29s/it][A
Training...:  56% 1448/2609 [1:34:57<22:27,  1.16s/it][A
Training...:  56% 1449/2609 [1:34:58<19:48,  1.02s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [1:35:04<?, ?it/s]
Training...:  56% 1449/2609 [1:34:58<19:48,  1.02s/it][A
Training...:  56% 1450/2609 [1:34:58<18:17,  1.06it/s][A
Training...:  56% 1451/2609 [1:35:06<54:12,  2.81s/it][A
Training...:  56% 1452/2609 [1:35:13<1:18:41,  4.08s/it][A
Training...:  56% 1453/2609 [1:35:19<1:34:27,  4.90s/it][A
Training...:  56% 1454/2609 [1:35:26<1:43:38,  5.38s/it][A
Training...:  56% 1455/2609 [1:35:32<1:46:48,  5.55s/it][A
Training...:  56% 1456/2609 [1:35:38<1:48:41,  5.66s/it][A
Training...:  56% 1457/2609 [1:35:43<1:47:20,  5.59s/it][A
Training...:  56% 1458/2609 [1:35:49<1:45:59,  5.53s/it][A
Training...:  56% 1459/2609 [1:35:54<1:43:22,  5.39s/it][A
Training...:  56% 1460/2609 [1:35:59<1:41:30,  5.30s/it][A
Training...:  56% 1461/2609 [1:36:03<1:38:00,  5.12s/it][A
Training...:  56% 1462/2609 [1:36:08<1:35:25,  4.99s/it][A
Training...:  56% 1463/2609 [1:36:13<1:31:54,  4.81s/it][A
Training...:  56% 1464/2609 [1:36:17<1:29:38,  4.70s/it][A
Training...:  56% 1465/2609 [1:36:21<1:26:30,  4.54s/it][A
Training...:  56% 1466/2609 [1:36:25<1:24:17,  4.42s/it][A
Training...:  56% 1467/2609 [1:36:29<1:21:35,  4.29s/it][A
Training...:  56% 1468/2609 [1:36:33<1:19:18,  4.17s/it][A
Training...:  56% 1469/2609 [1:36:37<1:16:22,  4.02s/it][A
Training...:  56% 1470/2609 [1:36:41<1:14:28,  3.92s/it][A
Training...:  56% 1471/2609 [1:36:44<1:11:57,  3.79s/it][A
Training...:  56% 1472/2609 [1:36:47<1:09:54,  3.69s/it][A
Training...:  56% 1473/2609 [1:36:51<1:07:35,  3.57s/it][A
Training...:  56% 1474/2609 [1:36:54<1:05:40,  3.47s/it][A                                              
                                                        [AEpoch ... (1/20):   0% 0/20 [1:37:04<?, ?it/s]
Training...:  56% 1474/2609 [1:36:58<1:05:40,  3.47s/it][A
Training...:  57% 1475/2609 [1:36:58<1:06:27,  3.52s/it][A
Training...:  57% 1476/2609 [1:37:01<1:03:50,  3.38s/it][A
Training...:  57% 1477/2609 [1:37:04<1:01:17,  3.25s/it][A
Training...:  57% 1478/2609 [1:37:07<59:04,  3.13s/it]  [A
Training...:  57% 1479/2609 [1:37:09<57:17,  3.04s/it][A
Training...:  57% 1480/2609 [1:37:12<55:16,  2.94s/it][A
Training...:  57% 1481/2609 [1:37:15<53:17,  2.83s/it][A
Training...:  57% 1482/2609 [1:37:17<51:38,  2.75s/it][A
Training...:  57% 1483/2609 [1:37:20<50:02,  2.67s/it][A
Training...:  57% 1484/2609 [1:37:22<48:24,  2.58s/it][A
Training...:  57% 1485/2609 [1:37:24<46:41,  2.49s/it][A
Training...:  57% 1486/2609 [1:37:26<44:49,  2.39s/it][A
Training...:  57% 1487/2609 [1:37:29<43:20,  2.32s/it][A
Training...:  57% 1488/2609 [1:37:31<41:36,  2.23s/it][A
Training...:  57% 1489/2609 [1:37:33<39:57,  2.14s/it][A
Training...:  57% 1490/2609 [1:37:34<38:15,  2.05s/it][A
Training...:  57% 1491/2609 [1:37:36<36:32,  1.96s/it][A
Training...:  57% 1492/2609 [1:37:38<34:45,  1.87s/it][A
Training...:  57% 1493/2609 [1:37:39<33:10,  1.78s/it][A
Training...:  57% 1494/2609 [1:37:41<31:15,  1.68s/it][A
Training...:  57% 1495/2609 [1:37:42<29:20,  1.58s/it][A
Training...:  57% 1496/2609 [1:37:43<27:14,  1.47s/it][A
Training...:  57% 1497/2609 [1:37:44<24:57,  1.35s/it][A
Training...:  57% 1498/2609 [1:37:45<22:26,  1.21s/it][A
Training...:  57% 1499/2609 [1:37:46<19:43,  1.07s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [1:37:53<?, ?it/s]
Training...:  57% 1499/2609 [1:37:47<19:43,  1.07s/it][A
Training...:  57% 1500/2609 [1:37:47<18:34,  1.00s/it][A
Training...:  58% 1501/2609 [1:37:54<52:10,  2.83s/it][A
Training...:  58% 1502/2609 [1:38:01<1:14:35,  4.04s/it][A
Training...:  58% 1503/2609 [1:38:07<1:27:22,  4.74s/it][A
Training...:  58% 1504/2609 [1:38:14<1:36:09,  5.22s/it][A
Training...:  58% 1505/2609 [1:38:19<1:39:06,  5.39s/it][A
Training...:  58% 1506/2609 [1:38:25<1:40:25,  5.46s/it][A
Training...:  58% 1507/2609 [1:38:30<1:39:28,  5.42s/it][A
Training...:  58% 1508/2609 [1:38:36<1:39:02,  5.40s/it][A
Training...:  58% 1509/2609 [1:38:41<1:36:54,  5.29s/it][A
Training...:  58% 1510/2609 [1:38:46<1:35:18,  5.20s/it][A
Training...:  58% 1511/2609 [1:38:50<1:31:59,  5.03s/it][A
Training...:  58% 1512/2609 [1:38:55<1:29:55,  4.92s/it][A
Training...:  58% 1513/2609 [1:38:59<1:26:52,  4.76s/it][A
Training...:  58% 1514/2609 [1:39:04<1:24:30,  4.63s/it][A
Training...:  58% 1515/2609 [1:39:08<1:21:40,  4.48s/it][A
Training...:  58% 1516/2609 [1:39:12<1:19:21,  4.36s/it][A
Training...:  58% 1517/2609 [1:39:16<1:17:07,  4.24s/it][A
Training...:  58% 1518/2609 [1:39:20<1:15:04,  4.13s/it][A
Training...:  58% 1519/2609 [1:39:23<1:12:40,  4.00s/it][A
Training...:  58% 1520/2609 [1:39:27<1:10:55,  3.91s/it][A
Training...:  58% 1521/2609 [1:39:31<1:08:38,  3.79s/it][A
Training...:  58% 1522/2609 [1:39:34<1:06:56,  3.69s/it][A
Training...:  58% 1523/2609 [1:39:37<1:04:56,  3.59s/it][A
Training...:  58% 1524/2609 [1:39:41<1:03:14,  3.50s/it][A                                              
                                                        [AEpoch ... (1/20):   0% 0/20 [1:39:50<?, ?it/s]
Training...:  58% 1524/2609 [1:39:44<1:03:14,  3.50s/it][A
Training...:  58% 1525/2609 [1:39:44<1:04:06,  3.55s/it][A
Training...:  58% 1526/2609 [1:39:48<1:01:55,  3.43s/it][A
Training...:  59% 1527/2609 [1:39:51<59:49,  3.32s/it]  [A
Training...:  59% 1528/2609 [1:39:54<57:24,  3.19s/it][A
Training...:  59% 1529/2609 [1:39:56<55:06,  3.06s/it][A
Training...:  59% 1530/2609 [1:39:59<53:05,  2.95s/it][A
Training...:  59% 1531/2609 [1:40:02<51:11,  2.85s/it][A
Training...:  59% 1532/2609 [1:40:04<49:15,  2.74s/it][A
Training...:  59% 1533/2609 [1:40:07<47:29,  2.65s/it][A
Training...:  59% 1534/2609 [1:40:09<45:39,  2.55s/it][A
Training...:  59% 1535/2609 [1:40:11<44:15,  2.47s/it][A
Training...:  59% 1536/2609 [1:40:13<42:34,  2.38s/it][A
Training...:  59% 1537/2609 [1:40:15<41:07,  2.30s/it][A
Training...:  59% 1538/2609 [1:40:17<39:21,  2.21s/it][A
Training...:  59% 1539/2609 [1:40:19<37:46,  2.12s/it][A
Training...:  59% 1540/2609 [1:40:21<36:05,  2.03s/it][A
Training...:  59% 1541/2609 [1:40:23<34:33,  1.94s/it][A
Training...:  59% 1542/2609 [1:40:24<32:55,  1.85s/it][A
Training...:  59% 1543/2609 [1:40:26<31:18,  1.76s/it][A
Training...:  59% 1544/2609 [1:40:28<29:38,  1.67s/it][A
Training...:  59% 1545/2609 [1:40:29<27:43,  1.56s/it][A
Training...:  59% 1546/2609 [1:40:30<25:48,  1.46s/it][A
Training...:  59% 1547/2609 [1:40:31<23:47,  1.34s/it][A
Training...:  59% 1548/2609 [1:40:32<21:30,  1.22s/it][A
Training...:  59% 1549/2609 [1:40:33<19:03,  1.08s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [1:40:40<?, ?it/s]
Training...:  59% 1549/2609 [1:40:34<19:03,  1.08s/it][A
Training...:  59% 1550/2609 [1:40:34<18:05,  1.02s/it][A
Training...:  59% 1551/2609 [1:40:41<49:35,  2.81s/it][A
Training...:  59% 1552/2609 [1:40:48<1:11:37,  4.07s/it][A
Training...:  60% 1553/2609 [1:40:54<1:25:19,  4.85s/it][A
Training...:  60% 1554/2609 [1:41:01<1:33:22,  5.31s/it][A
Training...:  60% 1555/2609 [1:41:07<1:36:19,  5.48s/it][A
Training...:  60% 1556/2609 [1:41:13<1:38:52,  5.63s/it][A
Training...:  60% 1557/2609 [1:41:18<1:38:15,  5.60s/it][A
Training...:  60% 1558/2609 [1:41:24<1:37:24,  5.56s/it][A
Training...:  60% 1559/2609 [1:41:29<1:34:53,  5.42s/it][A
Training...:  60% 1560/2609 [1:41:34<1:33:41,  5.36s/it][A
Training...:  60% 1561/2609 [1:41:39<1:30:26,  5.18s/it][A
Training...:  60% 1562/2609 [1:41:43<1:28:25,  5.07s/it][A
Training...:  60% 1563/2609 [1:41:48<1:25:52,  4.93s/it][A
Training...:  60% 1564/2609 [1:41:53<1:23:48,  4.81s/it][A
Training...:  60% 1565/2609 [1:41:57<1:21:03,  4.66s/it][A
Training...:  60% 1566/2609 [1:42:01<1:19:30,  4.57s/it][A
Training...:  60% 1567/2609 [1:42:05<1:16:38,  4.41s/it][A
Training...:  60% 1568/2609 [1:42:09<1:14:36,  4.30s/it][A
Training...:  60% 1569/2609 [1:42:13<1:12:24,  4.18s/it][A
Training...:  60% 1570/2609 [1:42:17<1:10:26,  4.07s/it][A
Training...:  60% 1571/2609 [1:42:21<1:07:54,  3.93s/it][A
Training...:  60% 1572/2609 [1:42:24<1:05:48,  3.81s/it][A
Training...:  60% 1573/2609 [1:42:28<1:03:45,  3.69s/it][A
Training...:  60% 1574/2609 [1:42:31<1:01:51,  3.59s/it][A                                              
                                                        [AEpoch ... (1/20):   0% 0/20 [1:42:41<?, ?it/s]
Training...:  60% 1574/2609 [1:42:35<1:01:51,  3.59s/it][A
Training...:  60% 1575/2609 [1:42:35<1:02:51,  3.65s/it][A
Training...:  60% 1576/2609 [1:42:38<1:00:41,  3.53s/it][A
Training...:  60% 1577/2609 [1:42:41<58:38,  3.41s/it]  [A
Training...:  60% 1578/2609 [1:42:44<56:22,  3.28s/it][A
Training...:  61% 1579/2609 [1:42:47<54:13,  3.16s/it][A
Training...:  61% 1580/2609 [1:42:50<52:17,  3.05s/it][A
Training...:  61% 1581/2609 [1:42:52<50:37,  2.95s/it][A
Training...:  61% 1582/2609 [1:42:55<48:50,  2.85s/it][A
Training...:  61% 1583/2609 [1:42:58<47:06,  2.75s/it][A
Training...:  61% 1584/2609 [1:43:00<45:23,  2.66s/it][A
Training...:  61% 1585/2609 [1:43:02<43:53,  2.57s/it][A
Training...:  61% 1586/2609 [1:43:05<42:13,  2.48s/it][A
Training...:  61% 1587/2609 [1:43:07<40:31,  2.38s/it][A
Training...:  61% 1588/2609 [1:43:09<38:54,  2.29s/it][A
Training...:  61% 1589/2609 [1:43:11<37:13,  2.19s/it][A
Training...:  61% 1590/2609 [1:43:13<35:42,  2.10s/it][A
Training...:  61% 1591/2609 [1:43:15<33:59,  2.00s/it][A
Training...:  61% 1592/2609 [1:43:16<32:18,  1.91s/it][A
Training...:  61% 1593/2609 [1:43:18<30:39,  1.81s/it][A
Training...:  61% 1594/2609 [1:43:19<28:59,  1.71s/it][A
Training...:  61% 1595/2609 [1:43:21<27:05,  1.60s/it][A
Training...:  61% 1596/2609 [1:43:22<25:13,  1.49s/it][A
Training...:  61% 1597/2609 [1:43:23<23:17,  1.38s/it][A
Training...:  61% 1598/2609 [1:43:24<21:11,  1.26s/it][A
Training...:  61% 1599/2609 [1:43:25<18:43,  1.11s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [1:43:32<?, ?it/s]
Training...:  61% 1599/2609 [1:43:26<18:43,  1.11s/it][A
Training...:  61% 1600/2609 [1:43:26<17:36,  1.05s/it][A
Training...:  61% 1601/2609 [1:43:33<47:50,  2.85s/it][A
Training...:  61% 1602/2609 [1:43:40<1:09:10,  4.12s/it][A
Training...:  61% 1603/2609 [1:43:47<1:22:11,  4.90s/it][A
Training...:  61% 1604/2609 [1:43:53<1:28:56,  5.31s/it][A
Training...:  62% 1605/2609 [1:43:59<1:30:56,  5.43s/it][A
Training...:  62% 1606/2609 [1:44:04<1:32:22,  5.53s/it][A
Training...:  62% 1607/2609 [1:44:10<1:31:06,  5.46s/it][A
Training...:  62% 1608/2609 [1:44:15<1:30:11,  5.41s/it][A
Training...:  62% 1609/2609 [1:44:20<1:27:40,  5.26s/it][A
Training...:  62% 1610/2609 [1:44:25<1:25:49,  5.15s/it][A
Training...:  62% 1611/2609 [1:44:29<1:22:53,  4.98s/it][A
Training...:  62% 1612/2609 [1:44:34<1:20:49,  4.86s/it][A
Training...:  62% 1613/2609 [1:44:38<1:17:54,  4.69s/it][A
Training...:  62% 1614/2609 [1:44:42<1:15:42,  4.57s/it][A
Training...:  62% 1615/2609 [1:44:46<1:13:00,  4.41s/it][A
Training...:  62% 1616/2609 [1:44:50<1:10:49,  4.28s/it][A
Training...:  62% 1617/2609 [1:44:54<1:08:29,  4.14s/it][A
Training...:  62% 1618/2609 [1:44:58<1:06:36,  4.03s/it][A
Training...:  62% 1619/2609 [1:45:02<1:04:31,  3.91s/it][A
Training...:  62% 1620/2609 [1:45:05<1:02:42,  3.80s/it][A
Training...:  62% 1621/2609 [1:45:09<1:00:46,  3.69s/it][A
Training...:  62% 1622/2609 [1:45:12<59:28,  3.62s/it]  [A
Training...:  62% 1623/2609 [1:45:15<57:45,  3.51s/it][A
Training...:  62% 1624/2609 [1:45:18<55:59,  3.41s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [1:45:28<?, ?it/s]
Training...:  62% 1624/2609 [1:45:22<55:59,  3.41s/it][A
Training...:  62% 1625/2609 [1:45:22<56:48,  3.46s/it][A
Training...:  62% 1626/2609 [1:45:25<54:19,  3.32s/it][A
Training...:  62% 1627/2609 [1:45:28<52:08,  3.19s/it][A
Training...:  62% 1628/2609 [1:45:31<50:17,  3.08s/it][A
Training...:  62% 1629/2609 [1:45:34<48:48,  2.99s/it][A
Training...:  62% 1630/2609 [1:45:36<47:18,  2.90s/it][A
Training...:  63% 1631/2609 [1:45:39<45:34,  2.80s/it][A
Training...:  63% 1632/2609 [1:45:41<44:08,  2.71s/it][A
Training...:  63% 1633/2609 [1:45:44<42:39,  2.62s/it][A
Training...:  63% 1634/2609 [1:45:46<41:10,  2.53s/it][A
Training...:  63% 1635/2609 [1:45:48<39:47,  2.45s/it][A
Training...:  63% 1636/2609 [1:45:50<38:22,  2.37s/it][A
Training...:  63% 1637/2609 [1:45:53<37:01,  2.29s/it][A
Training...:  63% 1638/2609 [1:45:55<35:27,  2.19s/it][A
Training...:  63% 1639/2609 [1:45:56<33:58,  2.10s/it][A
Training...:  63% 1640/2609 [1:45:58<32:27,  2.01s/it][A
Training...:  63% 1641/2609 [1:46:00<30:57,  1.92s/it][A
Training...:  63% 1642/2609 [1:46:02<29:25,  1.83s/it][A
Training...:  63% 1643/2609 [1:46:03<27:47,  1.73s/it][A
Training...:  63% 1644/2609 [1:46:04<26:05,  1.62s/it][A
Training...:  63% 1645/2609 [1:46:06<24:35,  1.53s/it][A
Training...:  63% 1646/2609 [1:46:07<22:48,  1.42s/it][A
Training...:  63% 1647/2609 [1:46:08<20:58,  1.31s/it][A
Training...:  63% 1648/2609 [1:46:09<19:00,  1.19s/it][A
Training...:  63% 1649/2609 [1:46:10<16:44,  1.05s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [1:46:16<?, ?it/s]
Training...:  63% 1649/2609 [1:46:10<16:44,  1.05s/it][A
Training...:  63% 1650/2609 [1:46:10<15:41,  1.02it/s][A
Training...:  63% 1651/2609 [1:46:18<45:20,  2.84s/it][A
Training...:  63% 1652/2609 [1:46:25<1:05:20,  4.10s/it][A
Training...:  63% 1653/2609 [1:46:31<1:17:08,  4.84s/it][A
Training...:  63% 1654/2609 [1:46:38<1:25:04,  5.34s/it][A
Training...:  63% 1655/2609 [1:46:44<1:27:47,  5.52s/it][A
Training...:  63% 1656/2609 [1:46:49<1:29:21,  5.63s/it][A
Training...:  64% 1657/2609 [1:46:55<1:28:17,  5.56s/it][A
Training...:  64% 1658/2609 [1:47:00<1:27:28,  5.52s/it][A
Training...:  64% 1659/2609 [1:47:05<1:25:13,  5.38s/it][A
Training...:  64% 1660/2609 [1:47:10<1:23:29,  5.28s/it][A
Training...:  64% 1661/2609 [1:47:15<1:20:54,  5.12s/it][A
Training...:  64% 1662/2609 [1:47:20<1:18:55,  5.00s/it][A
Training...:  64% 1663/2609 [1:47:24<1:16:36,  4.86s/it][A
Training...:  64% 1664/2609 [1:47:29<1:14:49,  4.75s/it][A
Training...:  64% 1665/2609 [1:47:33<1:12:20,  4.60s/it][A
Training...:  64% 1666/2609 [1:47:37<1:10:35,  4.49s/it][A
Training...:  64% 1667/2609 [1:47:41<1:08:16,  4.35s/it][A
Training...:  64% 1668/2609 [1:47:45<1:06:31,  4.24s/it][A
Training...:  64% 1669/2609 [1:47:49<1:04:20,  4.11s/it][A
Training...:  64% 1670/2609 [1:47:53<1:02:54,  4.02s/it][A
Training...:  64% 1671/2609 [1:47:57<1:00:54,  3.90s/it][A
Training...:  64% 1672/2609 [1:48:00<59:07,  3.79s/it]  [A
Training...:  64% 1673/2609 [1:48:04<57:18,  3.67s/it][A
Training...:  64% 1674/2609 [1:48:07<55:34,  3.57s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [1:48:17<?, ?it/s]
Training...:  64% 1674/2609 [1:48:11<55:34,  3.57s/it][A
Training...:  64% 1675/2609 [1:48:11<56:44,  3.64s/it][A
Training...:  64% 1676/2609 [1:48:14<54:21,  3.50s/it][A
Training...:  64% 1677/2609 [1:48:17<51:51,  3.34s/it][A
Training...:  64% 1678/2609 [1:48:20<49:46,  3.21s/it][A
Training...:  64% 1679/2609 [1:48:23<47:49,  3.09s/it][A
Training...:  64% 1680/2609 [1:48:25<46:03,  2.98s/it][A
Training...:  64% 1681/2609 [1:48:28<44:25,  2.87s/it][A
Training...:  64% 1682/2609 [1:48:30<43:06,  2.79s/it][A
Training...:  65% 1683/2609 [1:48:33<41:36,  2.70s/it][A
Training...:  65% 1684/2609 [1:48:35<39:58,  2.59s/it][A
Training...:  65% 1685/2609 [1:48:38<38:35,  2.51s/it][A
Training...:  65% 1686/2609 [1:48:40<37:07,  2.41s/it][A
Training...:  65% 1687/2609 [1:48:42<35:47,  2.33s/it][A
Training...:  65% 1688/2609 [1:48:44<34:25,  2.24s/it][A
Training...:  65% 1689/2609 [1:48:46<33:04,  2.16s/it][A
Training...:  65% 1690/2609 [1:48:48<31:38,  2.07s/it][A
Training...:  65% 1691/2609 [1:48:50<30:03,  1.96s/it][A
Training...:  65% 1692/2609 [1:48:51<28:33,  1.87s/it][A
Training...:  65% 1693/2609 [1:48:53<27:04,  1.77s/it][A
Training...:  65% 1694/2609 [1:48:54<25:27,  1.67s/it][A
Training...:  65% 1695/2609 [1:48:55<23:52,  1.57s/it][A
Training...:  65% 1696/2609 [1:48:57<22:11,  1.46s/it][A
Training...:  65% 1697/2609 [1:48:58<20:30,  1.35s/it][A
Training...:  65% 1698/2609 [1:48:59<18:30,  1.22s/it][A
Training...:  65% 1699/2609 [1:48:59<16:17,  1.07s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [1:49:06<?, ?it/s]
Training...:  65% 1699/2609 [1:49:00<16:17,  1.07s/it][A
Training...:  65% 1700/2609 [1:49:00<15:16,  1.01s/it][A
Training...:  65% 1701/2609 [1:49:07<42:07,  2.78s/it][A
Training...:  65% 1702/2609 [1:49:14<1:01:13,  4.05s/it][A
Training...:  65% 1703/2609 [1:49:21<1:11:59,  4.77s/it][A
Training...:  65% 1704/2609 [1:49:27<1:18:28,  5.20s/it][A
Training...:  65% 1705/2609 [1:49:33<1:21:04,  5.38s/it][A
Training...:  65% 1706/2609 [1:49:38<1:22:32,  5.48s/it][A
Training...:  65% 1707/2609 [1:49:44<1:21:41,  5.43s/it][A
Training...:  65% 1708/2609 [1:49:49<1:21:00,  5.40s/it][A
Training...:  66% 1709/2609 [1:49:54<1:18:54,  5.26s/it][A
Training...:  66% 1710/2609 [1:49:59<1:17:10,  5.15s/it][A
Training...:  66% 1711/2609 [1:50:03<1:14:25,  4.97s/it][A
Training...:  66% 1712/2609 [1:50:08<1:12:40,  4.86s/it][A
Training...:  66% 1713/2609 [1:50:12<1:10:05,  4.69s/it][A
Training...:  66% 1714/2609 [1:50:17<1:08:25,  4.59s/it][A
Training...:  66% 1715/2609 [1:50:21<1:06:22,  4.45s/it][A
Training...:  66% 1716/2609 [1:50:25<1:04:38,  4.34s/it][A
Training...:  66% 1717/2609 [1:50:29<1:02:34,  4.21s/it][A
Training...:  66% 1718/2609 [1:50:33<1:01:11,  4.12s/it][A
Training...:  66% 1719/2609 [1:50:37<59:40,  4.02s/it]  [A
Training...:  66% 1720/2609 [1:50:40<58:28,  3.95s/it][A
Training...:  66% 1721/2609 [1:50:44<56:47,  3.84s/it][A
Training...:  66% 1722/2609 [1:50:47<55:05,  3.73s/it][A
Training...:  66% 1723/2609 [1:50:51<53:04,  3.59s/it][A
Training...:  66% 1724/2609 [1:50:54<51:19,  3.48s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [1:51:03<?, ?it/s]
Training...:  66% 1724/2609 [1:50:57<51:19,  3.48s/it][A
Training...:  66% 1725/2609 [1:50:57<51:46,  3.51s/it][A
Training...:  66% 1726/2609 [1:51:00<49:25,  3.36s/it][A
Training...:  66% 1727/2609 [1:51:03<47:37,  3.24s/it][A
Training...:  66% 1728/2609 [1:51:06<45:43,  3.11s/it][A
Training...:  66% 1729/2609 [1:51:09<44:04,  3.01s/it][A
Training...:  66% 1730/2609 [1:51:12<42:44,  2.92s/it][A
Training...:  66% 1731/2609 [1:51:14<41:15,  2.82s/it][A
Training...:  66% 1732/2609 [1:51:17<39:45,  2.72s/it][A
Training...:  66% 1733/2609 [1:51:19<38:36,  2.64s/it][A
Training...:  66% 1734/2609 [1:51:22<37:17,  2.56s/it][A
Training...:  67% 1735/2609 [1:51:24<35:58,  2.47s/it][A
Training...:  67% 1736/2609 [1:51:26<34:35,  2.38s/it][A
Training...:  67% 1737/2609 [1:51:28<33:16,  2.29s/it][A
Training...:  67% 1738/2609 [1:51:30<31:51,  2.19s/it][A
Training...:  67% 1739/2609 [1:51:32<30:28,  2.10s/it][A
Training...:  67% 1740/2609 [1:51:34<29:06,  2.01s/it][A
Training...:  67% 1741/2609 [1:51:35<27:48,  1.92s/it][A
Training...:  67% 1742/2609 [1:51:37<26:32,  1.84s/it][A
Training...:  67% 1743/2609 [1:51:39<25:15,  1.75s/it][A
Training...:  67% 1744/2609 [1:51:40<23:58,  1.66s/it][A
Training...:  67% 1745/2609 [1:51:41<22:35,  1.57s/it][A
Training...:  67% 1746/2609 [1:51:43<21:08,  1.47s/it][A
Training...:  67% 1747/2609 [1:51:44<19:31,  1.36s/it][A
Training...:  67% 1748/2609 [1:51:45<17:35,  1.23s/it][A
Training...:  67% 1749/2609 [1:51:45<15:32,  1.08s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [1:51:52<?, ?it/s]
Training...:  67% 1749/2609 [1:51:46<15:32,  1.08s/it][A
Training...:  67% 1750/2609 [1:51:46<14:42,  1.03s/it][A
Training...:  67% 1751/2609 [1:51:53<40:41,  2.85s/it][A
Training...:  67% 1752/2609 [1:52:00<58:24,  4.09s/it][A
Training...:  67% 1753/2609 [1:52:07<1:08:50,  4.83s/it][A
Training...:  67% 1754/2609 [1:52:13<1:15:12,  5.28s/it][A
Training...:  67% 1755/2609 [1:52:19<1:17:27,  5.44s/it][A
Training...:  67% 1756/2609 [1:52:25<1:18:59,  5.56s/it][A
Training...:  67% 1757/2609 [1:52:30<1:18:11,  5.51s/it][A
Training...:  67% 1758/2609 [1:52:36<1:17:36,  5.47s/it][A
Training...:  67% 1759/2609 [1:52:41<1:16:01,  5.37s/it][A
Training...:  67% 1760/2609 [1:52:46<1:14:39,  5.28s/it][A
Training...:  67% 1761/2609 [1:52:51<1:12:04,  5.10s/it][A
Training...:  68% 1762/2609 [1:52:55<1:10:22,  4.98s/it][A
Training...:  68% 1763/2609 [1:53:00<1:08:05,  4.83s/it][A
Training...:  68% 1764/2609 [1:53:04<1:06:12,  4.70s/it][A
Training...:  68% 1765/2609 [1:53:08<1:03:50,  4.54s/it][A
Training...:  68% 1766/2609 [1:53:12<1:02:00,  4.41s/it][A
Training...:  68% 1767/2609 [1:53:16<1:00:02,  4.28s/it][A
Training...:  68% 1768/2609 [1:53:20<58:33,  4.18s/it]  [A
Training...:  68% 1769/2609 [1:53:24<56:26,  4.03s/it][A
Training...:  68% 1770/2609 [1:53:28<55:03,  3.94s/it][A
Training...:  68% 1771/2609 [1:53:31<53:14,  3.81s/it][A
Training...:  68% 1772/2609 [1:53:35<51:51,  3.72s/it][A
Training...:  68% 1773/2609 [1:53:38<50:12,  3.60s/it][A
Training...:  68% 1774/2609 [1:53:41<48:39,  3.50s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [1:53:51<?, ?it/s]
Training...:  68% 1774/2609 [1:53:45<48:39,  3.50s/it][A
Training...:  68% 1775/2609 [1:53:45<49:24,  3.55s/it][A
Training...:  68% 1776/2609 [1:53:48<47:14,  3.40s/it][A
Training...:  68% 1777/2609 [1:53:51<45:26,  3.28s/it][A
Training...:  68% 1778/2609 [1:53:54<43:46,  3.16s/it][A
Training...:  68% 1779/2609 [1:53:57<42:32,  3.08s/it][A
Training...:  68% 1780/2609 [1:54:00<41:09,  2.98s/it][A
Training...:  68% 1781/2609 [1:54:02<39:52,  2.89s/it][A
Training...:  68% 1782/2609 [1:54:05<38:40,  2.81s/it][A
Training...:  68% 1783/2609 [1:54:07<37:16,  2.71s/it][A
Training...:  68% 1784/2609 [1:54:10<36:07,  2.63s/it][A
Training...:  68% 1785/2609 [1:54:12<34:58,  2.55s/it][A
Training...:  68% 1786/2609 [1:54:14<33:49,  2.47s/it][A
Training...:  68% 1787/2609 [1:54:17<32:36,  2.38s/it][A
Training...:  69% 1788/2609 [1:54:19<31:22,  2.29s/it][A
Training...:  69% 1789/2609 [1:54:21<30:01,  2.20s/it][A
Training...:  69% 1790/2609 [1:54:23<28:36,  2.10s/it][A
Training...:  69% 1791/2609 [1:54:24<27:11,  2.00s/it][A
Training...:  69% 1792/2609 [1:54:26<25:52,  1.90s/it][A
Training...:  69% 1793/2609 [1:54:28<24:37,  1.81s/it][A
Training...:  69% 1794/2609 [1:54:29<23:12,  1.71s/it][A
Training...:  69% 1795/2609 [1:54:30<21:57,  1.62s/it][A
Training...:  69% 1796/2609 [1:54:32<20:31,  1.51s/it][A
Training...:  69% 1797/2609 [1:54:33<19:02,  1.41s/it][A
Training...:  69% 1798/2609 [1:54:34<17:16,  1.28s/it][A
Training...:  69% 1799/2609 [1:54:35<15:24,  1.14s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [1:54:42<?, ?it/s]
Training...:  69% 1799/2609 [1:54:36<15:24,  1.14s/it][A
Training...:  69% 1800/2609 [1:54:36<14:29,  1.07s/it][A
Training...:  69% 1801/2609 [1:54:43<38:26,  2.86s/it][A
Training...:  69% 1802/2609 [1:54:50<55:09,  4.10s/it][A
Training...:  69% 1803/2609 [1:54:56<1:04:46,  4.82s/it][A
Training...:  69% 1804/2609 [1:55:03<1:10:52,  5.28s/it][A
Training...:  69% 1805/2609 [1:55:09<1:14:01,  5.52s/it][A
Training...:  69% 1806/2609 [1:55:14<1:15:03,  5.61s/it][A
Training...:  69% 1807/2609 [1:55:20<1:14:04,  5.54s/it][A
Training...:  69% 1808/2609 [1:55:25<1:13:01,  5.47s/it][A
Training...:  69% 1809/2609 [1:55:30<1:11:15,  5.34s/it][A
Training...:  69% 1810/2609 [1:55:35<1:09:27,  5.22s/it][A
Training...:  69% 1811/2609 [1:55:40<1:07:12,  5.05s/it][A
Training...:  69% 1812/2609 [1:55:44<1:05:28,  4.93s/it][A
Training...:  69% 1813/2609 [1:55:49<1:03:31,  4.79s/it][A
Training...:  70% 1814/2609 [1:55:53<1:01:43,  4.66s/it][A
Training...:  70% 1815/2609 [1:55:57<59:45,  4.52s/it]  [A
Training...:  70% 1816/2609 [1:56:02<58:11,  4.40s/it][A
Training...:  70% 1817/2609 [1:56:05<56:25,  4.27s/it][A
Training...:  70% 1818/2609 [1:56:09<54:30,  4.13s/it][A
Training...:  70% 1819/2609 [1:56:13<52:41,  4.00s/it][A
Training...:  70% 1820/2609 [1:56:17<51:26,  3.91s/it][A
Training...:  70% 1821/2609 [1:56:20<49:59,  3.81s/it][A
Training...:  70% 1822/2609 [1:56:24<48:44,  3.72s/it][A
Training...:  70% 1823/2609 [1:56:27<47:25,  3.62s/it][A
Training...:  70% 1824/2609 [1:56:30<46:02,  3.52s/it][A                                              
                                                      [AStep... (25 | Loss: 7.871833324432373, Learning Rate: 4.800000169780105e-06, Gradient Norm: 104.11970520019531)
Step... (50 | Loss: 5.049310207366943, Learning Rate: 9.800001862458885e-06, Gradient Norm: 17.654083251953125)
Step... (75 | Loss: 5.286715030670166, Learning Rate: 1.479999627918005e-05, Gradient Norm: 19.131637573242188)
Step... (100 | Loss: 4.325052261352539, Learning Rate: 1.979999797185883e-05, Gradient Norm: 10.312579154968262)
Step... (125 | Loss: 4.7374267578125, Learning Rate: 2.479999966453761e-05, Gradient Norm: 4.423763751983643)
Step... (150 | Loss: 3.7720320224761963, Learning Rate: 2.9799994081258774e-05, Gradient Norm: 9.540271759033203)
Step... (175 | Loss: 4.334738254547119, Learning Rate: 3.480000304989517e-05, Gradient Norm: 3.6569533348083496)
Step... (200 | Loss: 3.4776995182037354, Learning Rate: 3.979999746661633e-05, Gradient Norm: 18.23244285583496)
Step... (225 | Loss: 4.1894121170043945, Learning Rate: 4.479999915929511e-05, Gradient Norm: 3.4450483322143555)
Step... (250 | Loss: 3.6607768535614014, Learning Rate: 4.980000085197389e-05, Gradient Norm: 7.9453349113464355)
Step... (275 | Loss: 3.9946000576019287, Learning Rate: 5.480000254465267e-05, Gradient Norm: 3.101062059402466)
Step... (300 | Loss: 3.1998417377471924, Learning Rate: 5.980000423733145e-05, Gradient Norm: 7.657363414764404)
Step... (325 | Loss: 4.065008640289307, Learning Rate: 6.479999865405262e-05, Gradient Norm: 4.472968578338623)
Step... (350 | Loss: 3.308302879333496, Learning Rate: 6.98000003467314e-05, Gradient Norm: 6.131535053253174)
Step... (375 | Loss: 4.024227142333984, Learning Rate: 7.480000203941017e-05, Gradient Norm: 3.080310106277466)
Step... (400 | Loss: 3.0513410568237305, Learning Rate: 7.980000373208895e-05, Gradient Norm: 6.573770523071289)
Step... (425 | Loss: 3.8827285766601562, Learning Rate: 8.480000542476773e-05, Gradient Norm: 3.163078784942627)
Step... (450 | Loss: 3.257915735244751, Learning Rate: 8.97999998414889e-05, Gradient Norm: 5.606322765350342)
Step... (475 | Loss: 3.8539962768554688, Learning Rate: 9.480000881012529e-05, Gradient Norm: 2.898601531982422)
Step... (500 | Loss: 2.9348483085632324, Learning Rate: 9.980000322684646e-05, Gradient Norm: 5.529844760894775)
Step... (525 | Loss: 3.677812337875366, Learning Rate: 9.995151776820421e-05, Gradient Norm: 2.6941709518432617)
Step... (550 | Loss: 2.882337808609009, Learning Rate: 9.990100807044655e-05, Gradient Norm: 4.624731063842773)
Step... (575 | Loss: 3.744121789932251, Learning Rate: 9.98505056486465e-05, Gradient Norm: 2.68440580368042)
Step... (600 | Loss: 2.9176559448242188, Learning Rate: 9.980000322684646e-05, Gradient Norm: 5.1507697105407715)
Step... (625 | Loss: 3.727553367614746, Learning Rate: 9.97494935290888e-05, Gradient Norm: 2.675100088119507)
Step... (650 | Loss: 2.965069532394409, Learning Rate: 9.969899110728875e-05, Gradient Norm: 4.863868236541748)
Step... (675 | Loss: 3.4802958965301514, Learning Rate: 9.96484886854887e-05, Gradient Norm: 2.496880054473877)
Step... (700 | Loss: 2.6440019607543945, Learning Rate: 9.959797898773104e-05, Gradient Norm: 4.93119478225708)
Step... (725 | Loss: 3.5189406871795654, Learning Rate: 9.954747656593099e-05, Gradient Norm: 2.6228225231170654)
Step... (750 | Loss: 2.6599574089050293, Learning Rate: 9.949696686817333e-05, Gradient Norm: 5.1545867919921875)
Step... (775 | Loss: 3.5804214477539062, Learning Rate: 9.944646444637328e-05, Gradient Norm: 2.628016471862793)
Step... (800 | Loss: 2.443218946456909, Learning Rate: 9.939595474861562e-05, Gradient Norm: 4.824881553649902)
Step... (825 | Loss: 3.446500301361084, Learning Rate: 9.934545232681558e-05, Gradient Norm: 2.5699594020843506)
Step... (850 | Loss: 2.4033517837524414, Learning Rate: 9.929494262905791e-05, Gradient Norm: 4.646893501281738)
Step... (875 | Loss: 3.331528663635254, Learning Rate: 9.924444020725787e-05, Gradient Norm: 2.5301921367645264)
Step... (900 | Loss: 2.2411632537841797, Learning Rate: 9.91939305095002e-05, Gradient Norm: 4.616653919219971)
Step... Epoch ... (1/20):   0% 0/20 [1:56:40<?, ?it/s]
Training...:  70% 1824/2609 [1:56:34<46:02,  3.52s/it][A(925 | Loss: 3.1566712856292725, Learning Rate: 9.914342808770016e-05, Gradient Norm: 2.6268727779388428)
Step... (950 | Loss: 2.276998996734619, Learning Rate: 9.909292566590011e-05, Gradient Norm: 4.947849750518799)
Step... (975 | Loss: 3.0310068130493164, Learning Rate: 9.904241596814245e-05, Gradient Norm: 2.5489394664764404)
Step... (1000 | Loss: 2.1873481273651123, Learning Rate: 9.89919135463424e-05, Gradient Norm: 4.924456596374512)
Step... (1025 | Loss: 2.8906376361846924, Learning Rate: 9.894141112454236e-05, Gradient Norm: 2.6485438346862793)
Step... (1050 | Loss: 1.8789976835250854, Learning Rate: 9.88909014267847e-05, Gradient Norm: 4.647075176239014)
Step... (1075 | Loss: 2.7605533599853516, Learning Rate: 9.884039900498465e-05, Gradient Norm: 3.2784676551818848)
Step... (1100 | Loss: 1.7644048929214478, Learning Rate: 9.87898965831846e-05, Gradient Norm: 6.50864839553833)
Step... (1125 | Loss: 2.4540371894836426, Learning Rate: 9.873938688542694e-05, Gradient Norm: 3.00469708442688)
Step... (1150 | Loss: 1.5448096990585327, Learning Rate: 9.868888446362689e-05, Gradient Norm: 5.873599529266357)
Step... (1175 | Loss: 2.3172640800476074, Learning Rate: 9.863838204182684e-05, Gradient Norm: 3.688783884048462)
Step... (1200 | Loss: 1.4742028713226318, Learning Rate: 9.858787234406918e-05, Gradient Norm: 4.905779838562012)
Step... (1225 | Loss: 2.1759445667266846, Learning Rate: 9.853736992226914e-05, Gradient Norm: 2.842747449874878)
Step... (1250 | Loss: 1.4128506183624268, Learning Rate: 9.848686750046909e-05, Gradient Norm: 4.318273067474365)
Step... (1275 | Loss: 1.8861119747161865, Learning Rate: 9.843635780271143e-05, Gradient Norm: 3.052926540374756)
Step... (1300 | Loss: 1.3994905948638916, Learning Rate: 9.838585538091138e-05, Gradient Norm: 4.682466983795166)
Step... (1325 | Loss: 1.49032723903656, Learning Rate: 9.833535295911133e-05, Gradient Norm: 2.8103647232055664)
Step... (1350 | Loss: 1.1779989004135132, Learning Rate: 9.828484326135367e-05, Gradient Norm: 5.377133369445801)
Step... (1375 | Loss: 1.3235201835632324, Learning Rate: 9.823434083955362e-05, Gradient Norm: 2.5752978324890137)
Step... (1400 | Loss: 1.730828881263733, Learning Rate: 9.818383841775358e-05, Gradient Norm: 5.338137149810791)
Step... (1425 | Loss: 1.1584757566452026, Learning Rate: 9.813332871999592e-05, Gradient Norm: 2.9425125122070312)
Step... (1450 | Loss: 1.3963863849639893, Learning Rate: 9.808282629819587e-05, Gradient Norm: 4.606812953948975)
Step... (1475 | Loss: 1.071231484413147, Learning Rate: 9.803232387639582e-05, Gradient Norm: 2.4042468070983887)
Step... (1500 | Loss: 1.0958048105239868, Learning Rate: 9.798181417863816e-05, Gradient Norm: 4.316399097442627)
Step... (1525 | Loss: 0.7700478434562683, Learning Rate: 9.793131175683811e-05, Gradient Norm: 2.157078504562378)
Step... (1550 | Loss: 0.8929508924484253, Learning Rate: 9.788080933503807e-05, Gradient Norm: 3.896101474761963)
Step... (1575 | Loss: 0.8178567886352539, Learning Rate: 9.78302996372804e-05, Gradient Norm: 2.168384552001953)
Step... (1600 | Loss: 0.9102727174758911, Learning Rate: 9.777979721548036e-05, Gradient Norm: 4.045568466186523)
Step... (1625 | Loss: 0.7407071590423584, Learning Rate: 9.772929479368031e-05, Gradient Norm: 2.0125820636749268)
Step... (1650 | Loss: 1.2200000286102295, Learning Rate: 9.767878509592265e-05, Gradient Norm: 4.0442795753479)
Step... (1675 | Loss: 0.648834228515625, Learning Rate: 9.76282826741226e-05, Gradient Norm: 2.122062921524048)
Step... (1700 | Loss: 1.0156464576721191, Learning Rate: 9.757778025232255e-05, Gradient Norm: 3.985163927078247)
Step... (1725 | Loss: 0.5706683397293091, Learning Rate: 9.75272705545649e-05, Gradient Norm: 1.855928897857666)
Step... (1750 | Loss: 0.785653293132782, Learning Rate: 9.747676813276485e-05, Gradient Norm: 3.5801401138305664)
Step... (1775 | Loss: 0.5791796445846558, Learning Rate: 9.74262657109648e-05, Gradient Norm: 1.6961368322372437)
Step... (1800 | Loss: 0.9881638288497925, Learning Rate: 9.737575601320714e-05, Gradient
 Norm: 4.065474987030029)
Training...:  70% 1825/2609 [1:56:34<46:50,  3.59s/it][A
Training...:  70% 1826/2609 [1:56:37<45:28,  3.48s/it][A
Training...:  70% 1827/2609 [1:56:41<43:53,  3.37s/it][A
Training...:  70% 1828/2609 [1:56:43<41:50,  3.21s/it][A
Training...:  70% 1829/2609 [1:56:46<40:24,  3.11s/it][A
Training...:  70% 1830/2609 [1:56:49<38:50,  2.99s/it][A
Training...:  70% 1831/2609 [1:56:52<37:31,  2.89s/it][A
Training...:  70% 1832/2609 [1:56:54<36:19,  2.80s/it][A
Training...:  70% 1833/2609 [1:56:57<35:05,  2.71s/it][A
Training...:  70% 1834/2609 [1:56:59<33:49,  2.62s/it][A
Training...:  70% 1835/2609 [1:57:01<32:32,  2.52s/it][A
Training...:  70% 1836/2609 [1:57:04<31:21,  2.43s/it][A
Training...:  70% 1837/2609 [1:57:06<30:11,  2.35s/it][A
Training...:  70% 1838/2609 [1:57:08<29:04,  2.26s/it][A
Training...:  70% 1839/2609 [1:57:10<27:50,  2.17s/it][A
Training...:  71% 1840/2609 [1:57:12<26:40,  2.08s/it][A
Training...:  71% 1841/2609 [1:57:13<25:37,  2.00s/it][A
Training...:  71% 1842/2609 [1:57:15<24:36,  1.93s/it][A
Training...:  71% 1843/2609 [1:57:17<23:23,  1.83s/it][A
Training...:  71% 1844/2609 [1:57:18<22:05,  1.73s/it][A
Training...:  71% 1845/2609 [1:57:20<20:47,  1.63s/it][A
Training...:  71% 1846/2609 [1:57:21<19:24,  1.53s/it][A
Training...:  71% 1847/2609 [1:57:22<17:55,  1.41s/it][A
Training...:  71% 1848/2609 [1:57:23<16:21,  1.29s/it][A
Training...:  71% 1849/2609 [1:57:24<14:25,  1.14s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [1:57:31<?, ?it/s]
Training...:  71% 1849/2609 [1:57:25<14:25,  1.14s/it][A
Training...:  71% 1850/2609 [1:57:25<13:34,  1.07s/it][A
Training...:  71% 1851/2609 [1:57:32<36:04,  2.86s/it][A
Training...:  71% 1852/2609 [1:57:39<52:02,  4.13s/it][A
Training...:  71% 1853/2609 [1:57:46<1:01:34,  4.89s/it][A
Training...:  71% 1854/2609 [1:57:52<1:07:06,  5.33s/it][A
Training...:  71% 1855/2609 [1:57:58<1:09:07,  5.50s/it][A
Training...:  71% 1856/2609 [1:58:04<1:10:26,  5.61s/it][A
Training...:  71% 1857/2609 [1:58:09<1:10:08,  5.60s/it][A
Training...:  71% 1858/2609 [1:58:15<1:09:50,  5.58s/it][A
Training...:  71% 1859/2609 [1:58:20<1:07:39,  5.41s/it][A
Training...:  71% 1860/2609 [1:58:25<1:07:07,  5.38s/it][A
Training...:  71% 1861/2609 [1:58:30<1:05:05,  5.22s/it][A
Training...:  71% 1862/2609 [1:58:35<1:02:55,  5.05s/it][A
Training...:  71% 1863/2609 [1:58:39<1:00:33,  4.87s/it][A
Training...:  71% 1864/2609 [1:58:44<58:42,  4.73s/it]  [A
Training...:  71% 1865/2609 [1:58:48<56:31,  4.56s/it][A
Training...:  72% 1866/2609 [1:58:52<55:08,  4.45s/it][A
Training...:  72% 1867/2609 [1:58:56<53:15,  4.31s/it][A
Training...:  72% 1868/2609 [1:59:00<51:28,  4.17s/it][A
Training...:  72% 1869/2609 [1:59:04<49:51,  4.04s/it][A
Training...:  72% 1870/2609 [1:59:07<48:16,  3.92s/it][A
Training...:  72% 1871/2609 [1:59:11<46:49,  3.81s/it][A
Training...:  72% 1872/2609 [1:59:14<45:30,  3.70s/it][A
Training...:  72% 1873/2609 [1:59:17<43:58,  3.59s/it][A
Training...:  72% 1874/2609 [1:59:21<42:33,  3.47s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [1:59:30<?, ?it/s]
Training...:  72% 1874/2609 [1:59:24<42:33,  3.47s/it][A
Training...:  72% 1875/2609 [1:59:24<43:26,  3.55s/it][A
Training...:  72% 1876/2609 [1:59:27<41:40,  3.41s/it][A
Training...:  72% 1877/2609 [1:59:30<39:53,  3.27s/it][A
Training...:  72% 1878/2609 [1:59:33<38:22,  3.15s/it][A
Training...:  72% 1879/2609 [1:59:36<36:58,  3.04s/it][A
Training...:  72% 1880/2609 [1:59:39<35:48,  2.95s/it][A
Training...:  72% 1881/2609 [1:59:41<34:37,  2.85s/it][A
Training...:  72% 1882/2609 [1:59:44<33:15,  2.75s/it][A
Training...:  72% 1883/2609 [1:59:46<32:02,  2.65s/it][A
Training...:  72% 1884/2609 [1:59:49<31:03,  2.57s/it][A
Training...:  72% 1885/2609 [1:59:51<29:54,  2.48s/it][A
Training...:  72% 1886/2609 [1:59:53<28:54,  2.40s/it][A
Training...:  72% 1887/2609 [1:59:55<27:57,  2.32s/it][A
Training...:  72% 1888/2609 [1:59:57<26:44,  2.23s/it][A
Training...:  72% 1889/2609 [1:59:59<25:34,  2.13s/it][A
Training...:  72% 1890/2609 [2:00:01<24:27,  2.04s/it][A
Training...:  72% 1891/2609 [2:00:03<23:12,  1.94s/it][A
Training...:  73% 1892/2609 [2:00:04<22:02,  1.84s/it][A
Training...:  73% 1893/2609 [2:00:06<20:46,  1.74s/it][A
Training...:  73% 1894/2609 [2:00:07<19:40,  1.65s/it][A
Training...:  73% 1895/2609 [2:00:09<18:23,  1.55s/it][A
Training...:  73% 1896/2609 [2:00:10<17:03,  1.43s/it][A
Training...:  73% 1897/2609 [2:00:11<15:41,  1.32s/it][A
Training...:  73% 1898/2609 [2:00:12<14:14,  1.20s/it][A
Training...:  73% 1899/2609 [2:00:13<12:43,  1.08s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:00:19<?, ?it/s]
Training...:  73% 1899/2609 [2:00:13<12:43,  1.08s/it][A
Training...:  73% 1900/2609 [2:00:13<11:58,  1.01s/it][A
Training...:  73% 1901/2609 [2:00:20<33:08,  2.81s/it][A
Training...:  73% 1902/2609 [2:00:28<48:02,  4.08s/it][A
Training...:  73% 1903/2609 [2:00:34<56:20,  4.79s/it][A
Training...:  73% 1904/2609 [2:00:40<1:02:16,  5.30s/it][A
Training...:  73% 1905/2609 [2:00:46<1:04:47,  5.52s/it][A
Training...:  73% 1906/2609 [2:00:52<1:06:14,  5.65s/it][A
Training...:  73% 1907/2609 [2:00:58<1:05:11,  5.57s/it][A
Training...:  73% 1908/2609 [2:01:03<1:04:18,  5.50s/it][A
Training...:  73% 1909/2609 [2:01:08<1:02:32,  5.36s/it][A
Training...:  73% 1910/2609 [2:01:13<1:01:13,  5.26s/it][A
Training...:  73% 1911/2609 [2:01:18<59:21,  5.10s/it]  [A
Training...:  73% 1912/2609 [2:01:23<58:12,  5.01s/it][A
Training...:  73% 1913/2609 [2:01:27<56:15,  4.85s/it][A
Training...:  73% 1914/2609 [2:01:32<54:35,  4.71s/it][A
Training...:  73% 1915/2609 [2:01:36<52:35,  4.55s/it][A
Training...:  73% 1916/2609 [2:01:40<51:01,  4.42s/it][A
Training...:  73% 1917/2609 [2:01:44<49:17,  4.27s/it][A
Training...:  74% 1918/2609 [2:01:48<47:48,  4.15s/it][A
Training...:  74% 1919/2609 [2:01:51<46:11,  4.02s/it][A
Training...:  74% 1920/2609 [2:01:55<45:09,  3.93s/it][A
Training...:  74% 1921/2609 [2:01:59<43:49,  3.82s/it][A
Training...:  74% 1922/2609 [2:02:02<42:38,  3.72s/it][A
Training...:  74% 1923/2609 [2:02:06<41:25,  3.62s/it][A
Training...:  74% 1924/2609 [2:02:09<40:21,  3.53s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:02:19<?, ?it/s]
Training...:  74% 1924/2609 [2:02:13<40:21,  3.53s/it][A
Training...:  74% 1925/2609 [2:02:13<40:54,  3.59s/it][A
Training...:  74% 1926/2609 [2:02:16<39:02,  3.43s/it][A
Training...:  74% 1927/2609 [2:02:19<37:33,  3.30s/it][A
Training...:  74% 1928/2609 [2:02:22<36:03,  3.18s/it][A
Training...:  74% 1929/2609 [2:02:24<34:44,  3.07s/it][A
Training...:  74% 1930/2609 [2:02:27<33:37,  2.97s/it][A
Training...:  74% 1931/2609 [2:02:30<32:26,  2.87s/it][A
Training...:  74% 1932/2609 [2:02:32<31:24,  2.78s/it][A
Training...:  74% 1933/2609 [2:02:35<30:18,  2.69s/it][A
Training...:  74% 1934/2609 [2:02:37<29:19,  2.61s/it][A
Training...:  74% 1935/2609 [2:02:40<28:28,  2.54s/it][A
Training...:  74% 1936/2609 [2:02:42<27:31,  2.45s/it][A
Training...:  74% 1937/2609 [2:02:44<26:36,  2.38s/it][A
Training...:  74% 1938/2609 [2:02:46<25:39,  2.29s/it][A
Training...:  74% 1939/2609 [2:02:48<24:38,  2.21s/it][A
Training...:  74% 1940/2609 [2:02:50<23:32,  2.11s/it][A
Training...:  74% 1941/2609 [2:02:52<22:31,  2.02s/it][A
Training...:  74% 1942/2609 [2:02:54<21:28,  1.93s/it][A
Training...:  74% 1943/2609 [2:02:55<20:22,  1.84s/it][A
Training...:  75% 1944/2609 [2:02:57<19:06,  1.72s/it][A
Training...:  75% 1945/2609 [2:02:58<17:58,  1.62s/it][A
Training...:  75% 1946/2609 [2:02:59<16:39,  1.51s/it][A
Training...:  75% 1947/2609 [2:03:00<15:27,  1.40s/it][A
Training...:  75% 1948/2609 [2:03:01<14:07,  1.28s/it][A
Training...:  75% 1949/2609 [2:03:02<12:30,  1.14s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:03:09<?, ?it/s]
Training...:  75% 1949/2609 [2:03:03<12:30,  1.14s/it][A
Training...:  75% 1950/2609 [2:03:03<11:47,  1.07s/it][A
Training...:  75% 1951/2609 [2:03:10<31:43,  2.89s/it][A
Training...:  75% 1952/2609 [2:03:17<44:49,  4.09s/it][A
Training...:  75% 1953/2609 [2:03:24<52:20,  4.79s/it][A
Training...:  75% 1954/2609 [2:03:30<57:01,  5.22s/it][A
Training...:  75% 1955/2609 [2:03:36<58:32,  5.37s/it][A
Training...:  75% 1956/2609 [2:03:41<59:29,  5.47s/it][A
Training...:  75% 1957/2609 [2:03:47<58:55,  5.42s/it][A
Training...:  75% 1958/2609 [2:03:52<58:20,  5.38s/it][A
Training...:  75% 1959/2609 [2:03:57<56:40,  5.23s/it][A
Training...:  75% 1960/2609 [2:04:02<55:26,  5.13s/it][A
Training...:  75% 1961/2609 [2:04:06<53:21,  4.94s/it][A
Training...:  75% 1962/2609 [2:04:11<52:14,  4.84s/it][A
Training...:  75% 1963/2609 [2:04:15<50:19,  4.67s/it][A
Training...:  75% 1964/2609 [2:04:19<48:46,  4.54s/it][A
Training...:  75% 1965/2609 [2:04:23<46:55,  4.37s/it][A
Training...:  75% 1966/2609 [2:04:27<45:30,  4.25s/it][A
Training...:  75% 1967/2609 [2:04:31<44:21,  4.15s/it][A
Training...:  75% 1968/2609 [2:04:35<42:59,  4.02s/it][A
Training...:  75% 1969/2609 [2:04:39<41:47,  3.92s/it][A
Training...:  76% 1970/2609 [2:04:42<40:45,  3.83s/it][A
Training...:  76% 1971/2609 [2:04:46<39:36,  3.72s/it][A
Training...:  76% 1972/2609 [2:04:49<38:22,  3.62s/it][A
Training...:  76% 1973/2609 [2:04:52<37:35,  3.55s/it][A
Training...:  76% 1974/2609 [2:04:56<37:00,  3.50s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:05:05<?, ?it/s]
Training...:  76% 1974/2609 [2:04:59<37:00,  3.50s/it][A
Training...:  76% 1975/2609 [2:04:59<37:24,  3.54s/it][A
Training...:  76% 1976/2609 [2:05:02<35:35,  3.37s/it][A
Training...:  76% 1977/2609 [2:05:05<34:07,  3.24s/it][A
Training...:  76% 1978/2609 [2:05:08<32:50,  3.12s/it][A
Training...:  76% 1979/2609 [2:05:11<31:36,  3.01s/it][A
Training...:  76% 1980/2609 [2:05:14<30:33,  2.91s/it][A
Training...:  76% 1981/2609 [2:05:16<29:33,  2.82s/it][A
Training...:  76% 1982/2609 [2:05:19<28:34,  2.74s/it][A
Training...:  76% 1983/2609 [2:05:21<27:33,  2.64s/it][A
Training...:  76% 1984/2609 [2:05:24<26:35,  2.55s/it][A
Training...:  76% 1985/2609 [2:05:26<25:35,  2.46s/it][A
Training...:  76% 1986/2609 [2:05:28<24:34,  2.37s/it][A
Training...:  76% 1987/2609 [2:05:30<23:30,  2.27s/it][A
Training...:  76% 1988/2609 [2:05:32<22:30,  2.18s/it][A
Training...:  76% 1989/2609 [2:05:34<21:27,  2.08s/it][A
Training...:  76% 1990/2609 [2:05:36<20:29,  1.99s/it][A
Training...:  76% 1991/2609 [2:05:37<19:34,  1.90s/it][A
Training...:  76% 1992/2609 [2:05:39<18:41,  1.82s/it][A
Training...:  76% 1993/2609 [2:05:40<17:41,  1.72s/it][A
Training...:  76% 1994/2609 [2:05:42<16:35,  1.62s/it][A
Training...:  76% 1995/2609 [2:05:43<15:35,  1.52s/it][A
Training...:  77% 1996/2609 [2:05:44<14:24,  1.41s/it][A
Training...:  77% 1997/2609 [2:05:45<13:11,  1.29s/it][A
Training...:  77% 1998/2609 [2:05:46<11:50,  1.16s/it][A
Training...:  77% 1999/2609 [2:05:47<10:28,  1.03s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:05:54<?, ?it/s]
Training...:  77% 1999/2609 [2:05:48<10:28,  1.03s/it][A
Training...:  77% 2000/2609 [2:05:48<09:55,  1.02it/s][A
Training...:  77% 2001/2609 [2:05:55<28:14,  2.79s/it][A
Training...:  77% 2002/2609 [2:06:02<40:56,  4.05s/it][A
Training...:  77% 2003/2609 [2:06:08<48:14,  4.78s/it][A
Training...:  77% 2004/2609 [2:06:14<53:03,  5.26s/it][A
Training...:  77% 2005/2609 [2:06:20<54:56,  5.46s/it][A
Training...:  77% 2006/2609 [2:06:26<56:24,  5.61s/it][A
Training...:  77% 2007/2609 [2:06:32<56:19,  5.61s/it][A
Training...:  77% 2008/2609 [2:06:37<55:39,  5.56s/it][A
Training...:  77% 2009/2609 [2:06:43<54:28,  5.45s/it][A
Training...:  77% 2010/2609 [2:06:48<53:41,  5.38s/it][A
Training...:  77% 2011/2609 [2:06:53<51:56,  5.21s/it][A
Training...:  77% 2012/2609 [2:06:57<50:26,  5.07s/it][A
Training...:  77% 2013/2609 [2:07:02<48:45,  4.91s/it][A
Training...:  77% 2014/2609 [2:07:07<47:43,  4.81s/it][A
Training...:  77% 2015/2609 [2:07:11<46:08,  4.66s/it][A
Training...:  77% 2016/2609 [2:07:15<44:44,  4.53s/it][A
Training...:  77% 2017/2609 [2:07:19<43:00,  4.36s/it][A
Training...:  77% 2018/2609 [2:07:23<41:38,  4.23s/it][A
Training...:  77% 2019/2609 [2:07:27<40:19,  4.10s/it][A
Training...:  77% 2020/2609 [2:07:30<38:59,  3.97s/it][A
Training...:  77% 2021/2609 [2:07:34<37:37,  3.84s/it][A
Training...:  78% 2022/2609 [2:07:37<36:22,  3.72s/it][A
Training...:  78% 2023/2609 [2:07:41<35:06,  3.60s/it][A
Training...:  78% 2024/2609 [2:07:44<34:12,  3.51s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:07:54<?, ?it/s]
Training...:  78% 2024/2609 [2:07:48<34:12,  3.51s/it][A
Training...:  78% 2025/2609 [2:07:48<34:34,  3.55s/it][A
Training...:  78% 2026/2609 [2:07:51<32:59,  3.40s/it][A
Training...:  78% 2027/2609 [2:07:54<31:39,  3.26s/it][A
Training...:  78% 2028/2609 [2:07:57<30:34,  3.16s/it][A
Training...:  78% 2029/2609 [2:07:59<29:28,  3.05s/it][A
Training...:  78% 2030/2609 [2:08:02<28:36,  2.97s/it][A
Training...:  78% 2031/2609 [2:08:05<27:37,  2.87s/it][A
Training...:  78% 2032/2609 [2:08:07<26:43,  2.78s/it][A
Training...:  78% 2033/2609 [2:08:10<25:56,  2.70s/it][A
Training...:  78% 2034/2609 [2:08:12<24:58,  2.61s/it][A
Training...:  78% 2035/2609 [2:08:15<24:16,  2.54s/it][A
Training...:  78% 2036/2609 [2:08:17<23:23,  2.45s/it][A
Training...:  78% 2037/2609 [2:08:19<22:31,  2.36s/it][A
Training...:  78% 2038/2609 [2:08:21<21:36,  2.27s/it][A
Training...:  78% 2039/2609 [2:08:23<20:40,  2.18s/it][A
Training...:  78% 2040/2609 [2:08:25<19:47,  2.09s/it][A
Training...:  78% 2041/2609 [2:08:27<18:51,  1.99s/it][A
Training...:  78% 2042/2609 [2:08:28<17:59,  1.90s/it][A
Training...:  78% 2043/2609 [2:08:30<17:12,  1.82s/it][A
Training...:  78% 2044/2609 [2:08:31<16:14,  1.72s/it][A
Training...:  78% 2045/2609 [2:08:33<15:11,  1.62s/it][A
Training...:  78% 2046/2609 [2:08:34<14:06,  1.50s/it][A
Training...:  78% 2047/2609 [2:08:35<13:00,  1.39s/it][A
Training...:  78% 2048/2609 [2:08:36<11:45,  1.26s/it][A
Training...:  79% 2049/2609 [2:08:37<10:20,  1.11s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:08:44<?, ?it/s]
Training...:  79% 2049/2609 [2:08:38<10:20,  1.11s/it][A
Training...:  79% 2050/2609 [2:08:38<09:41,  1.04s/it][A
Training...:  79% 2051/2609 [2:08:45<26:00,  2.80s/it][A
Training...:  79% 2052/2609 [2:08:52<37:49,  4.08s/it][A
Training...:  79% 2053/2609 [2:08:58<44:23,  4.79s/it][A
Training...:  79% 2054/2609 [2:09:05<48:29,  5.24s/it][A
Training...:  79% 2055/2609 [2:09:10<49:49,  5.40s/it][A
Training...:  79% 2056/2609 [2:09:16<50:46,  5.51s/it][A
Training...:  79% 2057/2609 [2:09:21<50:28,  5.49s/it][A
Training...:  79% 2058/2609 [2:09:27<50:13,  5.47s/it][A
Training...:  79% 2059/2609 [2:09:32<48:57,  5.34s/it][A
Training...:  79% 2060/2609 [2:09:37<47:51,  5.23s/it][A
Training...:  79% 2061/2609 [2:09:42<46:26,  5.08s/it][A
Training...:  79% 2062/2609 [2:09:46<45:24,  4.98s/it][A
Training...:  79% 2063/2609 [2:09:51<43:59,  4.83s/it][A
Training...:  79% 2064/2609 [2:09:55<42:59,  4.73s/it][A
Training...:  79% 2065/2609 [2:10:00<41:39,  4.59s/it][A
Training...:  79% 2066/2609 [2:10:04<40:26,  4.47s/it][A
Training...:  79% 2067/2609 [2:10:08<38:58,  4.31s/it][A
Training...:  79% 2068/2609 [2:10:12<37:50,  4.20s/it][A
Training...:  79% 2069/2609 [2:10:15<36:34,  4.06s/it][A
Training...:  79% 2070/2609 [2:10:19<35:29,  3.95s/it][A
Training...:  79% 2071/2609 [2:10:23<34:30,  3.85s/it][A
Training...:  79% 2072/2609 [2:10:26<33:27,  3.74s/it][A
Training...:  79% 2073/2609 [2:10:30<32:15,  3.61s/it][A
Training...:  79% 2074/2609 [2:10:33<31:14,  3.50s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:10:42<?, ?it/s]
Training...:  79% 2074/2609 [2:10:36<31:14,  3.50s/it][A
Training...:  80% 2075/2609 [2:10:36<31:40,  3.56s/it][A
Training...:  80% 2076/2609 [2:10:40<30:13,  3.40s/it][A
Training...:  80% 2077/2609 [2:10:43<29:01,  3.27s/it][A
Training...:  80% 2078/2609 [2:10:45<28:04,  3.17s/it][A
Training...:  80% 2079/2609 [2:10:48<27:03,  3.06s/it][A
Training...:  80% 2080/2609 [2:10:51<26:12,  2.97s/it][A
Training...:  80% 2081/2609 [2:10:54<25:24,  2.89s/it][A
Training...:  80% 2082/2609 [2:10:56<24:32,  2.79s/it][A
Training...:  80% 2083/2609 [2:10:59<23:33,  2.69s/it][A
Training...:  80% 2084/2609 [2:11:01<22:38,  2.59s/it][A
Training...:  80% 2085/2609 [2:11:03<21:47,  2.50s/it][A
Training...:  80% 2086/2609 [2:11:06<20:53,  2.40s/it][A
Training...:  80% 2087/2609 [2:11:08<20:04,  2.31s/it][A
Training...:  80% 2088/2609 [2:11:10<19:16,  2.22s/it][A
Training...:  80% 2089/2609 [2:11:12<18:24,  2.12s/it][A
Training...:  80% 2090/2609 [2:11:13<17:36,  2.04s/it][A
Training...:  80% 2091/2609 [2:11:15<16:51,  1.95s/it][A
Training...:  80% 2092/2609 [2:11:17<15:58,  1.85s/it][A
Training...:  80% 2093/2609 [2:11:18<15:04,  1.75s/it][A
Training...:  80% 2094/2609 [2:11:20<14:11,  1.65s/it][A
Training...:  80% 2095/2609 [2:11:21<13:15,  1.55s/it][A
Training...:  80% 2096/2609 [2:11:22<12:14,  1.43s/it][A
Training...:  80% 2097/2609 [2:11:23<11:18,  1.33s/it][A
Training...:  80% 2098/2609 [2:11:24<10:15,  1.20s/it][A
Training...:  80% 2099/2609 [2:11:25<09:05,  1.07s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:11:32<?, ?it/s]
Training...:  80% 2099/2609 [2:11:26<09:05,  1.07s/it][A
Training...:  80% 2100/2609 [2:11:26<08:35,  1.01s/it][A
Training...:  81% 2101/2609 [2:11:33<23:44,  2.80s/it][A
Training...:  81% 2102/2609 [2:11:40<34:11,  4.05s/it][A
Training...:  81% 2103/2609 [2:11:46<40:26,  4.80s/it][A
Training...:  81% 2104/2609 [2:11:53<44:30,  5.29s/it][A
Training...:  81% 2105/2609 [2:11:59<45:57,  5.47s/it][A
Training...:  81% 2106/2609 [2:12:04<46:40,  5.57s/it][A
Training...:  81% 2107/2609 [2:12:10<46:17,  5.53s/it][A
Training...:  81% 2108/2609 [2:12:15<45:41,  5.47s/it][A
Training...:  81% 2109/2609 [2:12:20<44:34,  5.35s/it][A
Training...:  81% 2110/2609 [2:12:25<43:36,  5.24s/it][A
Training...:  81% 2111/2609 [2:12:30<42:12,  5.08s/it][A
Training...:  81% 2112/2609 [2:12:35<40:59,  4.95s/it][A
Training...:  81% 2113/2609 [2:12:39<39:28,  4.78s/it][A
Training...:  81% 2114/2609 [2:12:43<38:16,  4.64s/it][A
Training...:  81% 2115/2609 [2:12:47<36:56,  4.49s/it][A
Training...:  81% 2116/2609 [2:12:51<35:48,  4.36s/it][A
Training...:  81% 2117/2609 [2:12:55<34:37,  4.22s/it][A
Training...:  81% 2118/2609 [2:12:59<33:30,  4.10s/it][A
Training...:  81% 2119/2609 [2:13:03<32:21,  3.96s/it][A
Training...:  81% 2120/2609 [2:13:06<31:23,  3.85s/it][A
Training...:  81% 2121/2609 [2:13:10<30:21,  3.73s/it][A
Training...:  81% 2122/2609 [2:13:13<29:29,  3.63s/it][A
Training...:  81% 2123/2609 [2:13:17<28:35,  3.53s/it][A
Training...:  81% 2124/2609 [2:13:20<27:37,  3.42s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:13:29<?, ?it/s]
Training...:  81% 2124/2609 [2:13:23<27:37,  3.42s/it][A
Training...:  81% 2125/2609 [2:13:23<28:10,  3.49s/it][A
Training...:  81% 2126/2609 [2:13:26<27:00,  3.35s/it][A
Training...:  82% 2127/2609 [2:13:29<26:04,  3.25s/it][A
Training...:  82% 2128/2609 [2:13:32<25:19,  3.16s/it][A
Training...:  82% 2129/2609 [2:13:35<24:29,  3.06s/it][A
Training...:  82% 2130/2609 [2:13:38<23:34,  2.95s/it][A
Training...:  82% 2131/2609 [2:13:41<22:57,  2.88s/it][A
Training...:  82% 2132/2609 [2:13:43<22:10,  2.79s/it][A
Training...:  82% 2133/2609 [2:13:46<21:21,  2.69s/it][A
Training...:  82% 2134/2609 [2:13:48<20:30,  2.59s/it][A
Training...:  82% 2135/2609 [2:13:50<19:50,  2.51s/it][A
Training...:  82% 2136/2609 [2:13:53<19:05,  2.42s/it][A
Training...:  82% 2137/2609 [2:13:55<18:22,  2.34s/it][A
Training...:  82% 2138/2609 [2:13:57<17:38,  2.25s/it][A
Training...:  82% 2139/2609 [2:13:59<16:55,  2.16s/it][A
Training...:  82% 2140/2609 [2:14:01<16:14,  2.08s/it][A
Training...:  82% 2141/2609 [2:14:02<15:31,  1.99s/it][A
Training...:  82% 2142/2609 [2:14:04<14:43,  1.89s/it][A
Training...:  82% 2143/2609 [2:14:06<13:53,  1.79s/it][A
Training...:  82% 2144/2609 [2:14:07<13:04,  1.69s/it][A
Training...:  82% 2145/2609 [2:14:08<12:15,  1.59s/it][A
Training...:  82% 2146/2609 [2:14:10<11:22,  1.47s/it][A
Training...:  82% 2147/2609 [2:14:11<10:25,  1.35s/it][A
Training...:  82% 2148/2609 [2:14:12<09:22,  1.22s/it][A
Training...:  82% 2149/2609 [2:14:12<08:11,  1.07s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:14:19<?, ?it/s]
Training...:  82% 2149/2609 [2:14:13<08:11,  1.07s/it][A
Training...:  82% 2150/2609 [2:14:13<07:39,  1.00s/it][A
Training...:  82% 2151/2609 [2:14:20<21:15,  2.78s/it][A
Training...:  82% 2152/2609 [2:14:27<30:42,  4.03s/it][A
Training...:  83% 2153/2609 [2:14:33<35:50,  4.72s/it][A
Training...:  83% 2154/2609 [2:14:40<39:19,  5.19s/it][A
Training...:  83% 2155/2609 [2:14:45<40:48,  5.39s/it][A
Training...:  83% 2156/2609 [2:14:51<41:45,  5.53s/it][A
Training...:  83% 2157/2609 [2:14:57<41:36,  5.52s/it][A
Training...:  83% 2158/2609 [2:15:02<41:03,  5.46s/it][A
Training...:  83% 2159/2609 [2:15:07<39:58,  5.33s/it][A
Training...:  83% 2160/2609 [2:15:12<39:00,  5.21s/it][A
Training...:  83% 2161/2609 [2:15:17<37:51,  5.07s/it][A
Training...:  83% 2162/2609 [2:15:21<36:40,  4.92s/it][A
Training...:  83% 2163/2609 [2:15:26<35:28,  4.77s/it][A
Training...:  83% 2164/2609 [2:15:30<34:45,  4.69s/it][A
Training...:  83% 2165/2609 [2:15:34<33:32,  4.53s/it][A
Training...:  83% 2166/2609 [2:15:39<32:21,  4.38s/it][A
Training...:  83% 2167/2609 [2:15:42<31:23,  4.26s/it][A
Training...:  83% 2168/2609 [2:15:47<30:48,  4.19s/it][A
Training...:  83% 2169/2609 [2:15:50<29:58,  4.09s/it][A
Training...:  83% 2170/2609 [2:15:54<28:50,  3.94s/it][A
Training...:  83% 2171/2609 [2:15:57<27:47,  3.81s/it][A
Training...:  83% 2172/2609 [2:16:01<26:51,  3.69s/it][A
Training...:  83% 2173/2609 [2:16:04<26:00,  3.58s/it][A
Training...:  83% 2174/2609 [2:16:07<25:16,  3.49s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:16:17<?, ?it/s]
Training...:  83% 2174/2609 [2:16:11<25:16,  3.49s/it][A
Training...:  83% 2175/2609 [2:16:11<25:44,  3.56s/it][A
Training...:  83% 2176/2609 [2:16:14<24:36,  3.41s/it][A
Training...:  83% 2177/2609 [2:16:17<23:40,  3.29s/it][A
Training...:  83% 2178/2609 [2:16:20<22:47,  3.17s/it][A
Training...:  84% 2179/2609 [2:16:23<22:05,  3.08s/it][A
Training...:  84% 2180/2609 [2:16:26<21:21,  2.99s/it][A
Training...:  84% 2181/2609 [2:16:28<20:32,  2.88s/it][A
Training...:  84% 2182/2609 [2:16:31<19:45,  2.78s/it][A
Training...:  84% 2183/2609 [2:16:33<19:06,  2.69s/it][A
Training...:  84% 2184/2609 [2:16:36<18:26,  2.60s/it][A
Training...:  84% 2185/2609 [2:16:38<17:45,  2.51s/it][A
Training...:  84% 2186/2609 [2:16:40<17:04,  2.42s/it][A
Training...:  84% 2187/2609 [2:16:42<16:20,  2.32s/it][A
Training...:  84% 2188/2609 [2:16:44<15:35,  2.22s/it][A
Training...:  84% 2189/2609 [2:16:46<14:53,  2.13s/it][A
Training...:  84% 2190/2609 [2:16:48<14:09,  2.03s/it][A
Training...:  84% 2191/2609 [2:16:50<13:30,  1.94s/it][A
Training...:  84% 2192/2609 [2:16:52<12:49,  1.85s/it][A
Training...:  84% 2193/2609 [2:16:53<12:04,  1.74s/it][A
Training...:  84% 2194/2609 [2:16:54<11:26,  1.65s/it][A
Training...:  84% 2195/2609 [2:16:56<10:42,  1.55s/it][A
Training...:  84% 2196/2609 [2:16:57<09:57,  1.45s/it][A
Training...:  84% 2197/2609 [2:16:58<09:11,  1.34s/it][A
Training...:  84% 2198/2609 [2:16:59<08:17,  1.21s/it][A
Training...:  84% 2199/2609 [2:17:00<07:19,  1.07s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:17:07<?, ?it/s]
Training...:  84% 2199/2609 [2:17:01<07:19,  1.07s/it][A
Training...:  84% 2200/2609 [2:17:01<06:51,  1.01s/it][A
Training...:  84% 2201/2609 [2:17:08<18:57,  2.79s/it][A
Training...:  84% 2202/2609 [2:17:14<27:22,  4.03s/it][A
Training...:  84% 2203/2609 [2:17:21<32:15,  4.77s/it][A
Training...:  84% 2204/2609 [2:17:27<35:23,  5.24s/it][A
Training...:  85% 2205/2609 [2:17:33<36:20,  5.40s/it][A
Training...:  85% 2206/2609 [2:17:39<36:46,  5.48s/it][A
Training...:  85% 2207/2609 [2:17:44<36:17,  5.42s/it][A
Training...:  85% 2208/2609 [2:17:49<35:47,  5.36s/it][A
Training...:  85% 2209/2609 [2:17:54<35:02,  5.26s/it][A
Training...:  85% 2210/2609 [2:17:59<34:44,  5.22s/it][A
Training...:  85% 2211/2609 [2:18:04<33:39,  5.07s/it][A
Training...:  85% 2212/2609 [2:18:09<32:35,  4.93s/it][A
Training...:  85% 2213/2609 [2:18:13<31:35,  4.79s/it][A
Training...:  85% 2214/2609 [2:18:17<30:36,  4.65s/it][A
Training...:  85% 2215/2609 [2:18:22<29:28,  4.49s/it][A
Training...:  85% 2216/2609 [2:18:26<28:29,  4.35s/it][A
Training...:  85% 2217/2609 [2:18:30<27:39,  4.23s/it][A
Training...:  85% 2218/2609 [2:18:33<26:47,  4.11s/it][A
Training...:  85% 2219/2609 [2:18:37<25:58,  4.00s/it][A
Training...:  85% 2220/2609 [2:18:41<25:19,  3.91s/it][A
Training...:  85% 2221/2609 [2:18:44<24:23,  3.77s/it][A
Training...:  85% 2222/2609 [2:18:48<23:35,  3.66s/it][A
Training...:  85% 2223/2609 [2:18:51<22:50,  3.55s/it][A
Training...:  85% 2224/2609 [2:18:54<22:07,  3.45s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:19:04<?, ?it/s]
Training...:  85% 2224/2609 [2:18:58<22:07,  3.45s/it][A
Training...:  85% 2225/2609 [2:18:58<22:33,  3.52s/it][A
Training...:  85% 2226/2609 [2:19:01<21:28,  3.37s/it][A
Training...:  85% 2227/2609 [2:19:04<20:43,  3.25s/it][A
Training...:  85% 2228/2609 [2:19:07<19:50,  3.13s/it][A
Training...:  85% 2229/2609 [2:19:09<19:07,  3.02s/it][A
Training...:  85% 2230/2609 [2:19:12<18:27,  2.92s/it][A
Training...:  86% 2231/2609 [2:19:15<17:53,  2.84s/it][A
Training...:  86% 2232/2609 [2:19:17<17:13,  2.74s/it][A
Training...:  86% 2233/2609 [2:19:20<16:39,  2.66s/it][A
Training...:  86% 2234/2609 [2:19:22<16:06,  2.58s/it][A
Training...:  86% 2235/2609 [2:19:24<15:31,  2.49s/it][A
Training...:  86% 2236/2609 [2:19:27<14:58,  2.41s/it][A
Training...:  86% 2237/2609 [2:19:29<14:23,  2.32s/it][A
Training...:  86% 2238/2609 [2:19:31<13:45,  2.23s/it][A
Training...:  86% 2239/2609 [2:19:33<13:11,  2.14s/it][A
Training...:  86% 2240/2609 [2:19:35<12:36,  2.05s/it][A
Training...:  86% 2241/2609 [2:19:36<12:00,  1.96s/it][A
Training...:  86% 2242/2609 [2:19:38<11:24,  1.87s/it][A
Training...:  86% 2243/2609 [2:19:40<10:50,  1.78s/it][A
Training...:  86% 2244/2609 [2:19:41<10:11,  1.68s/it][A
Training...:  86% 2245/2609 [2:19:42<09:30,  1.57s/it][A
Training...:  86% 2246/2609 [2:19:43<08:45,  1.45s/it][A
Training...:  86% 2247/2609 [2:19:45<08:01,  1.33s/it][A
Training...:  86% 2248/2609 [2:19:45<07:10,  1.19s/it][A
Training...:  86% 2249/2609 [2:19:46<06:17,  1.05s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:19:53<?, ?it/s]
Training...:  86% 2249/2609 [2:19:47<06:17,  1.05s/it][A
Training...:  86% 2250/2609 [2:19:47<05:57,  1.00it/s][A
Training...:  86% 2251/2609 [2:19:54<16:33,  2.78s/it][A
Training...:  86% 2252/2609 [2:20:01<24:26,  4.11s/it][A
Training...:  86% 2253/2609 [2:20:08<28:37,  4.82s/it][A
Training...:  86% 2254/2609 [2:20:14<31:17,  5.29s/it][A
Training...:  86% 2255/2609 [2:20:20<32:04,  5.44s/it][A
Training...:  86% 2256/2609 [2:20:26<32:35,  5.54s/it][A
Training...:  87% 2257/2609 [2:20:31<32:19,  5.51s/it][A
Training...:  87% 2258/2609 [2:20:36<31:58,  5.46s/it][A
Training...:  87% 2259/2609 [2:20:41<31:02,  5.32s/it][A
Training...:  87% 2260/2609 [2:20:46<30:17,  5.21s/it][A
Training...:  87% 2261/2609 [2:20:51<29:07,  5.02s/it][A
Training...:  87% 2262/2609 [2:20:55<28:16,  4.89s/it][A
Training...:  87% 2263/2609 [2:21:00<27:15,  4.73s/it][A
Training...:  87% 2264/2609 [2:21:04<26:21,  4.58s/it][A
Training...:  87% 2265/2609 [2:21:08<25:32,  4.46s/it][A
Training...:  87% 2266/2609 [2:21:12<24:48,  4.34s/it][A
Training...:  87% 2267/2609 [2:21:16<23:56,  4.20s/it][A
Training...:  87% 2268/2609 [2:21:20<23:07,  4.07s/it][A
Training...:  87% 2269/2609 [2:21:24<22:22,  3.95s/it][A
Training...:  87% 2270/2609 [2:21:27<21:34,  3.82s/it][A
Training...:  87% 2271/2609 [2:21:31<20:57,  3.72s/it][A
Training...:  87% 2272/2609 [2:21:34<20:17,  3.61s/it][A
Training...:  87% 2273/2609 [2:21:37<19:44,  3.52s/it][A
Training...:  87% 2274/2609 [2:21:40<19:06,  3.42s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:21:50<?, ?it/s]
Training...:  87% 2274/2609 [2:21:44<19:06,  3.42s/it][A
Training...:  87% 2275/2609 [2:21:44<19:24,  3.49s/it][A
Training...:  87% 2276/2609 [2:21:47<18:34,  3.35s/it][A
Training...:  87% 2277/2609 [2:21:50<17:56,  3.24s/it][A
Training...:  87% 2278/2609 [2:21:53<17:12,  3.12s/it][A
Training...:  87% 2279/2609 [2:21:56<16:37,  3.02s/it][A
Training...:  87% 2280/2609 [2:21:58<16:02,  2.93s/it][A
Training...:  87% 2281/2609 [2:22:01<15:32,  2.84s/it][A
Training...:  87% 2282/2609 [2:22:04<14:59,  2.75s/it][A
Training...:  88% 2283/2609 [2:22:06<14:27,  2.66s/it][A
Training...:  88% 2284/2609 [2:22:08<13:51,  2.56s/it][A
Training...:  88% 2285/2609 [2:22:11<13:18,  2.46s/it][A
Training...:  88% 2286/2609 [2:22:13<12:47,  2.37s/it][A
Training...:  88% 2287/2609 [2:22:15<12:18,  2.29s/it][A
Training...:  88% 2288/2609 [2:22:17<11:47,  2.20s/it][A
Training...:  88% 2289/2609 [2:22:19<11:16,  2.11s/it][A
Training...:  88% 2290/2609 [2:22:21<10:49,  2.04s/it][A
Training...:  88% 2291/2609 [2:22:22<10:18,  1.95s/it][A
Training...:  88% 2292/2609 [2:22:24<09:46,  1.85s/it][A
Training...:  88% 2293/2609 [2:22:26<09:13,  1.75s/it][A
Training...:  88% 2294/2609 [2:22:27<08:42,  1.66s/it][A
Training...:  88% 2295/2609 [2:22:28<08:06,  1.55s/it][A
Training...:  88% 2296/2609 [2:22:29<07:33,  1.45s/it][A
Training...:  88% 2297/2609 [2:22:31<06:54,  1.33s/it][A
Training...:  88% 2298/2609 [2:22:31<06:13,  1.20s/it][A
Training...:  88% 2299/2609 [2:22:32<05:30,  1.07s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:22:39<?, ?it/s]
Training...:  88% 2299/2609 [2:22:33<05:30,  1.07s/it][A
Training...:  88% 2300/2609 [2:22:33<05:08,  1.00it/s][A
Training...:  88% 2301/2609 [2:22:40<14:30,  2.83s/it][A
Training...:  88% 2302/2609 [2:22:47<20:50,  4.07s/it][A
Training...:  88% 2303/2609 [2:22:54<24:22,  4.78s/it][A
Training...:  88% 2304/2609 [2:23:00<26:41,  5.25s/it][A
Training...:  88% 2305/2609 [2:23:06<27:28,  5.42s/it][A
Training...:  88% 2306/2609 [2:23:11<27:55,  5.53s/it][A
Training...:  88% 2307/2609 [2:23:17<27:34,  5.48s/it][A
Training...:  88% 2308/2609 [2:23:22<27:13,  5.43s/it][A
Training...:  89% 2309/2609 [2:23:27<26:27,  5.29s/it][A
Training...:  89% 2310/2609 [2:23:32<25:50,  5.19s/it][A
Training...:  89% 2311/2609 [2:23:37<25:00,  5.03s/it][A
Training...:  89% 2312/2609 [2:23:41<24:19,  4.91s/it][A
Training...:  89% 2313/2609 [2:23:46<23:24,  4.74s/it][A
Training...:  89% 2314/2609 [2:23:50<22:45,  4.63s/it][A
Training...:  89% 2315/2609 [2:23:54<22:01,  4.49s/it][A
Training...:  89% 2316/2609 [2:23:58<21:22,  4.38s/it][A
Training...:  89% 2317/2609 [2:24:02<20:42,  4.25s/it][A
Training...:  89% 2318/2609 [2:24:06<20:11,  4.16s/it][A
Training...:  89% 2319/2609 [2:24:10<19:37,  4.06s/it][A
Training...:  89% 2320/2609 [2:24:14<18:57,  3.94s/it][A
Training...:  89% 2321/2609 [2:24:17<18:20,  3.82s/it][A
Training...:  89% 2322/2609 [2:24:21<17:44,  3.71s/it][A
Training...:  89% 2323/2609 [2:24:24<17:14,  3.62s/it][A
Training...:  89% 2324/2609 [2:24:27<16:44,  3.52s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:24:37<?, ?it/s]
Training...:  89% 2324/2609 [2:24:31<16:44,  3.52s/it][A
Training...:  89% 2325/2609 [2:24:31<16:56,  3.58s/it][A
Training...:  89% 2326/2609 [2:24:34<16:09,  3.43s/it][A
Training...:  89% 2327/2609 [2:24:37<15:28,  3.29s/it][A
Training...:  89% 2328/2609 [2:24:40<14:55,  3.19s/it][A
Training...:  89% 2329/2609 [2:24:43<14:21,  3.08s/it][A
Training...:  89% 2330/2609 [2:24:46<13:50,  2.98s/it][A
Training...:  89% 2331/2609 [2:24:48<13:21,  2.88s/it][A
Training...:  89% 2332/2609 [2:24:51<12:52,  2.79s/it][A
Training...:  89% 2333/2609 [2:24:53<12:28,  2.71s/it][A
Training...:  89% 2334/2609 [2:24:56<12:00,  2.62s/it][A
Training...:  89% 2335/2609 [2:24:58<11:35,  2.54s/it][A
Training...:  90% 2336/2609 [2:25:00<11:06,  2.44s/it][A
Training...:  90% 2337/2609 [2:25:03<10:39,  2.35s/it][A
Training...:  90% 2338/2609 [2:25:05<10:12,  2.26s/it][A
Training...:  90% 2339/2609 [2:25:07<09:46,  2.17s/it][A
Training...:  90% 2340/2609 [2:25:09<09:21,  2.09s/it][A
Training...:  90% 2341/2609 [2:25:10<08:54,  2.00s/it][A
Training...:  90% 2342/2609 [2:25:12<08:28,  1.90s/it][A
Training...:  90% 2343/2609 [2:25:14<08:00,  1.81s/it][A
Training...:  90% 2344/2609 [2:25:15<07:32,  1.71s/it][A
Training...:  90% 2345/2609 [2:25:16<07:02,  1.60s/it][A
Training...:  90% 2346/2609 [2:25:18<06:32,  1.49s/it][A
Training...:  90% 2347/2609 [2:25:19<05:59,  1.37s/it][A
Training...:  90% 2348/2609 [2:25:20<05:25,  1.25s/it][A
Training...:  90% 2349/2609 [2:25:20<04:47,  1.11s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:25:27<?, ?it/s]
Training...:  90% 2349/2609 [2:25:21<04:47,  1.11s/it][A
Training...:  90% 2350/2609 [2:25:21<04:28,  1.04s/it][A
Training...:  90% 2351/2609 [2:25:28<12:04,  2.81s/it][A
Training...:  90% 2352/2609 [2:25:35<17:22,  4.06s/it][A
Training...:  90% 2353/2609 [2:25:42<20:26,  4.79s/it][A
Training...:  90% 2354/2609 [2:25:48<22:11,  5.22s/it][A
Training...:  90% 2355/2609 [2:25:54<22:48,  5.39s/it][A
Training...:  90% 2356/2609 [2:26:00<23:12,  5.50s/it][A
Training...:  90% 2357/2609 [2:26:05<22:53,  5.45s/it][A
Training...:  90% 2358/2609 [2:26:10<22:36,  5.41s/it][A
Training...:  90% 2359/2609 [2:26:15<22:00,  5.28s/it][A
Training...:  90% 2360/2609 [2:26:20<21:35,  5.20s/it][A
Training...:  90% 2361/2609 [2:26:25<20:50,  5.04s/it][A
Training...:  91% 2362/2609 [2:26:29<20:09,  4.90s/it][A
Training...:  91% 2363/2609 [2:26:34<19:26,  4.74s/it][A
Training...:  91% 2364/2609 [2:26:38<18:49,  4.61s/it][A
Training...:  91% 2365/2609 [2:26:42<18:15,  4.49s/it][A
Training...:  91% 2366/2609 [2:26:46<17:38,  4.36s/it][A
Training...:  91% 2367/2609 [2:26:50<17:03,  4.23s/it][A
Training...:  91% 2368/2609 [2:26:54<16:32,  4.12s/it][A
Training...:  91% 2369/2609 [2:26:58<16:00,  4.00s/it][A
Training...:  91% 2370/2609 [2:27:02<15:34,  3.91s/it][A
Training...:  91% 2371/2609 [2:27:05<15:09,  3.82s/it][A
Training...:  91% 2372/2609 [2:27:09<14:37,  3.70s/it][A
Training...:  91% 2373/2609 [2:27:12<14:05,  3.58s/it][A
Training...:  91% 2374/2609 [2:27:15<13:37,  3.48s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:27:25<?, ?it/s]
Training...:  91% 2374/2609 [2:27:19<13:37,  3.48s/it][A
Training...:  91% 2375/2609 [2:27:19<13:47,  3.54s/it][A
Training...:  91% 2376/2609 [2:27:22<13:06,  3.37s/it][A
Training...:  91% 2377/2609 [2:27:25<12:34,  3.25s/it][A
Training...:  91% 2378/2609 [2:27:28<12:01,  3.13s/it][A
Training...:  91% 2379/2609 [2:27:30<11:38,  3.04s/it][A
Training...:  91% 2380/2609 [2:27:33<11:10,  2.93s/it][A
Training...:  91% 2381/2609 [2:27:36<10:47,  2.84s/it][A
Training...:  91% 2382/2609 [2:27:38<10:25,  2.75s/it][A
Training...:  91% 2383/2609 [2:27:41<10:01,  2.66s/it][A
Training...:  91% 2384/2609 [2:27:43<09:39,  2.58s/it][A
Training...:  91% 2385/2609 [2:27:45<09:19,  2.50s/it][A
Training...:  91% 2386/2609 [2:27:48<08:59,  2.42s/it][A
Training...:  91% 2387/2609 [2:27:50<08:37,  2.33s/it][A
Training...:  92% 2388/2609 [2:27:52<08:16,  2.24s/it][A
Training...:  92% 2389/2609 [2:27:54<07:52,  2.15s/it][A
Training...:  92% 2390/2609 [2:27:56<07:31,  2.06s/it][A
Training...:  92% 2391/2609 [2:27:57<07:10,  1.98s/it][A
Training...:  92% 2392/2609 [2:27:59<06:49,  1.89s/it][A
Training...:  92% 2393/2609 [2:28:01<06:27,  1.79s/it][A
Training...:  92% 2394/2609 [2:28:02<06:04,  1.70s/it][A
Training...:  92% 2395/2609 [2:28:03<05:41,  1.60s/it][A
Training...:  92% 2396/2609 [2:28:05<05:17,  1.49s/it][A
Training...:  92% 2397/2609 [2:28:06<04:51,  1.37s/it][A
Training...:  92% 2398/2609 [2:28:07<04:24,  1.25s/it][A
Training...:  92% 2399/2609 [2:28:08<03:52,  1.11s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:28:14<?, ?it/s]
Training...:  92% 2399/2609 [2:28:08<03:52,  1.11s/it][A
Training...:  92% 2400/2609 [2:28:08<03:36,  1.03s/it][A
Training...:  92% 2401/2609 [2:28:15<09:52,  2.85s/it][A
Training...:  92% 2402/2609 [2:28:23<14:25,  4.18s/it][A
Training...:  92% 2403/2609 [2:28:29<16:43,  4.87s/it][A
Training...:  92% 2404/2609 [2:28:36<18:08,  5.31s/it][A
Training...:  92% 2405/2609 [2:28:41<18:37,  5.48s/it][A
Training...:  92% 2406/2609 [2:28:47<18:54,  5.59s/it][A
Training...:  92% 2407/2609 [2:28:53<18:38,  5.53s/it][A
Training...:  92% 2408/2609 [2:28:58<18:21,  5.48s/it][A
Training...:  92% 2409/2609 [2:29:03<17:47,  5.34s/it][A
Training...:  92% 2410/2609 [2:29:08<17:20,  5.23s/it][A
Training...:  92% 2411/2609 [2:29:13<16:49,  5.10s/it][A
Training...:  92% 2412/2609 [2:29:18<16:20,  4.98s/it][A
Training...:  92% 2413/2609 [2:29:22<15:47,  4.83s/it][A
Training...:  93% 2414/2609 [2:29:26<15:17,  4.70s/it][A
Training...:  93% 2415/2609 [2:29:31<14:47,  4.57s/it][A
Training...:  93% 2416/2609 [2:29:35<14:19,  4.46s/it][A
Training...:  93% 2417/2609 [2:29:39<13:50,  4.32s/it][A
Training...:  93% 2418/2609 [2:29:43<13:28,  4.23s/it][A
Training...:  93% 2419/2609 [2:29:47<12:58,  4.10s/it][A
Training...:  93% 2420/2609 [2:29:50<12:31,  3.97s/it][A
Training...:  93% 2421/2609 [2:29:54<12:08,  3.87s/it][A
Training...:  93% 2422/2609 [2:29:58<11:48,  3.79s/it][A
Training...:  93% 2423/2609 [2:30:01<11:31,  3.72s/it][A
Training...:  93% 2424/2609 [2:30:04<11:02,  3.58s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:30:14<?, ?it/s]
Training...:  93% 2424/2609 [2:30:08<11:02,  3.58s/it][A
Training...:  93% 2425/2609 [2:30:08<11:07,  3.63s/it][A
Training...:  93% 2426/2609 [2:30:11<10:33,  3.46s/it][A
Training...:  93% 2427/2609 [2:30:14<10:08,  3.35s/it][A
Training...:  93% 2428/2609 [2:30:17<09:43,  3.23s/it][A
Training...:  93% 2429/2609 [2:30:20<09:22,  3.13s/it][A
Training...:  93% 2430/2609 [2:30:23<08:57,  3.00s/it][A
Training...:  93% 2431/2609 [2:30:26<08:37,  2.91s/it][A
Training...:  93% 2432/2609 [2:30:28<08:15,  2.80s/it][A
Training...:  93% 2433/2609 [2:30:31<07:54,  2.70s/it][A
Training...:  93% 2434/2609 [2:30:33<07:35,  2.60s/it][A
Training...:  93% 2435/2609 [2:30:35<07:16,  2.51s/it][A
Training...:  93% 2436/2609 [2:30:37<06:59,  2.43s/it][A
Training...:  93% 2437/2609 [2:30:40<06:42,  2.34s/it][A
Training...:  93% 2438/2609 [2:30:42<06:26,  2.26s/it][A
Training...:  93% 2439/2609 [2:30:44<06:08,  2.17s/it][A
Training...:  94% 2440/2609 [2:30:46<05:52,  2.09s/it][A
Training...:  94% 2441/2609 [2:30:47<05:34,  1.99s/it][A
Training...:  94% 2442/2609 [2:30:49<05:17,  1.90s/it][A
Training...:  94% 2443/2609 [2:30:51<05:00,  1.81s/it][A
Training...:  94% 2444/2609 [2:30:52<04:41,  1.71s/it][A
Training...:  94% 2445/2609 [2:30:53<04:22,  1.60s/it][A
Training...:  94% 2446/2609 [2:30:55<04:02,  1.49s/it][A
Training...:  94% 2447/2609 [2:30:56<03:41,  1.37s/it][A
Training...:  94% 2448/2609 [2:30:57<03:18,  1.24s/it][A
Training...:  94% 2449/2609 [2:30:57<02:54,  1.09s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:31:04<?, ?it/s]
Training...:  94% 2449/2609 [2:30:58<02:54,  1.09s/it][A
Training...:  94% 2450/2609 [2:30:58<02:42,  1.02s/it][A
Training...:  94% 2451/2609 [2:31:05<07:21,  2.79s/it][A
Training...:  94% 2452/2609 [2:31:12<10:34,  4.04s/it][A
Training...:  94% 2453/2609 [2:31:19<12:24,  4.77s/it][A
Training...:  94% 2454/2609 [2:31:25<13:33,  5.25s/it][A
Training...:  94% 2455/2609 [2:31:31<14:00,  5.46s/it][A
Training...:  94% 2456/2609 [2:31:37<14:10,  5.56s/it][A
Training...:  94% 2457/2609 [2:31:42<13:59,  5.52s/it][A
Training...:  94% 2458/2609 [2:31:48<13:55,  5.53s/it][A
Training...:  94% 2459/2609 [2:31:53<13:38,  5.46s/it][A
Training...:  94% 2460/2609 [2:31:58<13:13,  5.33s/it][A
Training...:  94% 2461/2609 [2:32:03<12:41,  5.15s/it][A
Training...:  94% 2462/2609 [2:32:07<12:17,  5.02s/it][A
Training...:  94% 2463/2609 [2:32:12<11:48,  4.85s/it][A
Training...:  94% 2464/2609 [2:32:16<11:25,  4.73s/it][A
Training...:  94% 2465/2609 [2:32:21<10:57,  4.56s/it][A
Training...:  95% 2466/2609 [2:32:25<10:33,  4.43s/it][A
Training...:  95% 2467/2609 [2:32:29<10:07,  4.28s/it][A
Training...:  95% 2468/2609 [2:32:32<09:43,  4.14s/it][A
Training...:  95% 2469/2609 [2:32:36<09:21,  4.01s/it][A
Training...:  95% 2470/2609 [2:32:40<09:00,  3.89s/it][A
Training...:  95% 2471/2609 [2:32:43<08:39,  3.77s/it][A
Training...:  95% 2472/2609 [2:32:47<08:24,  3.68s/it][A
Training...:  95% 2473/2609 [2:32:50<08:08,  3.59s/it][A
Training...:  95% 2474/2609 [2:32:53<07:49,  3.48s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:33:03<?, ?it/s]
Training...:  95% 2474/2609 [2:32:57<07:49,  3.48s/it][A
Training...:  95% 2475/2609 [2:32:57<07:54,  3.54s/it][A
Training...:  95% 2476/2609 [2:33:00<07:33,  3.41s/it][A
Training...:  95% 2477/2609 [2:33:03<07:13,  3.29s/it][A
Training...:  95% 2478/2609 [2:33:06<06:57,  3.18s/it][A
Training...:  95% 2479/2609 [2:33:09<06:39,  3.07s/it][A
Training...:  95% 2480/2609 [2:33:12<06:22,  2.97s/it][A
Training...:  95% 2481/2609 [2:33:14<06:08,  2.88s/it][A
Training...:  95% 2482/2609 [2:33:17<05:54,  2.79s/it][A
Training...:  95% 2483/2609 [2:33:19<05:39,  2.69s/it][A
Training...:  95% 2484/2609 [2:33:22<05:24,  2.60s/it][A
Training...:  95% 2485/2609 [2:33:24<05:12,  2.52s/it][A
Training...:  95% 2486/2609 [2:33:26<04:58,  2.43s/it][A
Training...:  95% 2487/2609 [2:33:28<04:46,  2.34s/it][A
Training...:  95% 2488/2609 [2:33:30<04:35,  2.27s/it][A
Training...:  95% 2489/2609 [2:33:32<04:20,  2.17s/it][A
Training...:  95% 2490/2609 [2:33:34<04:08,  2.09s/it][A
Training...:  95% 2491/2609 [2:33:36<03:55,  2.00s/it][A
Training...:  96% 2492/2609 [2:33:38<03:43,  1.91s/it][A
Training...:  96% 2493/2609 [2:33:39<03:31,  1.83s/it][A
Training...:  96% 2494/2609 [2:33:41<03:20,  1.74s/it][A
Training...:  96% 2495/2609 [2:33:42<03:06,  1.64s/it][A
Training...:  96% 2496/2609 [2:33:44<02:53,  1.54s/it][A
Training...:  96% 2497/2609 [2:33:45<02:38,  1.42s/it][A
Training...:  96% 2498/2609 [2:33:46<02:21,  1.28s/it][A
Training...:  96% 2499/2609 [2:33:46<02:03,  1.13s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:33:53<?, ?it/s]
Training...:  96% 2499/2609 [2:33:47<02:03,  1.13s/it][A
Training...:  96% 2500/2609 [2:33:47<01:54,  1.05s/it][A
Training...:  96% 2501/2609 [2:33:54<05:05,  2.83s/it][A
Training...:  96% 2502/2609 [2:34:01<07:13,  4.05s/it][A
Training...:  96% 2503/2609 [2:34:08<08:20,  4.72s/it][A
Training...:  96% 2504/2609 [2:34:14<09:02,  5.17s/it][A
Training...:  96% 2505/2609 [2:34:20<09:16,  5.35s/it][A
Training...:  96% 2506/2609 [2:34:25<09:22,  5.46s/it][A
Training...:  96% 2507/2609 [2:34:31<09:12,  5.42s/it][A
Training...:  96% 2508/2609 [2:34:36<09:01,  5.36s/it][A
Training...:  96% 2509/2609 [2:34:41<08:43,  5.23s/it][A
Training...:  96% 2510/2609 [2:34:46<08:25,  5.10s/it][A
Training...:  96% 2511/2609 [2:34:50<08:05,  4.95s/it][A
Training...:  96% 2512/2609 [2:34:55<07:47,  4.82s/it][A
Training...:  96% 2513/2609 [2:34:59<07:30,  4.69s/it][A
Training...:  96% 2514/2609 [2:35:03<07:13,  4.56s/it][A
Training...:  96% 2515/2609 [2:35:07<06:54,  4.41s/it][A
Training...:  96% 2516/2609 [2:35:11<06:39,  4.29s/it][A
Training...:  96% 2517/2609 [2:35:15<06:23,  4.16s/it][A
Training...:  97% 2518/2609 [2:35:19<06:12,  4.09s/it][A
Training...:  97% 2519/2609 [2:35:23<06:02,  4.03s/it][A
Training...:  97% 2520/2609 [2:35:27<05:48,  3.91s/it][A
Training...:  97% 2521/2609 [2:35:30<05:33,  3.79s/it][A
Training...:  97% 2522/2609 [2:35:34<05:19,  3.67s/it][A
Training...:  97% 2523/2609 [2:35:37<05:05,  3.56s/it][A
Training...:  97% 2524/2609 [2:35:40<04:54,  3.46s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:35:50<?, ?it/s]
Training...:  97% 2524/2609 [2:35:44<04:54,  3.46s/it][A
Training...:  97% 2525/2609 [2:35:44<04:55,  3.52s/it][A
Training...:  97% 2526/2609 [2:35:47<04:39,  3.37s/it][A
Training...:  97% 2527/2609 [2:35:50<04:27,  3.26s/it][A
Training...:  97% 2528/2609 [2:35:53<04:14,  3.14s/it][A
Training...:  97% 2529/2609 [2:35:55<04:03,  3.05s/it][A
Training...:  97% 2530/2609 [2:35:58<03:51,  2.93s/it][A
Training...:  97% 2531/2609 [2:36:01<03:39,  2.82s/it][A
Training...:  97% 2532/2609 [2:36:03<03:29,  2.72s/it][A
Training...:  97% 2533/2609 [2:36:06<03:19,  2.63s/it][A
Training...:  97% 2534/2609 [2:36:08<03:10,  2.54s/it][A
Training...:  97% 2535/2609 [2:36:10<03:01,  2.46s/it][A
Training...:  97% 2536/2609 [2:36:12<02:53,  2.37s/it][A
Training...:  97% 2537/2609 [2:36:14<02:44,  2.28s/it][A
Training...:  97% 2538/2609 [2:36:16<02:36,  2.20s/it][A
Training...:  97% 2539/2609 [2:36:18<02:28,  2.12s/it][A
Training...:  97% 2540/2609 [2:36:20<02:19,  2.03s/it][A
Training...:  97% 2541/2609 [2:36:22<02:11,  1.93s/it][A
Training...:  97% 2542/2609 [2:36:24<02:03,  1.84s/it][A
Training...:  97% 2543/2609 [2:36:25<01:54,  1.74s/it][A
Training...:  98% 2544/2609 [2:36:26<01:47,  1.65s/it][A
Training...:  98% 2545/2609 [2:36:28<01:39,  1.56s/it][A
Training...:  98% 2546/2609 [2:36:29<01:31,  1.45s/it][A
Training...:  98% 2547/2609 [2:36:30<01:22,  1.33s/it][A
Training...:  98% 2548/2609 [2:36:31<01:14,  1.21s/it][A
Training...:  98% 2549/2609 [2:36:32<01:04,  1.08s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:36:39<?, ?it/s]
Training...:  98% 2549/2609 [2:36:33<01:04,  1.08s/it][A
Training...:  98% 2550/2609 [2:36:33<01:00,  1.02s/it][A
Training...:  98% 2551/2609 [2:36:40<02:41,  2.78s/it][A
Training...:  98% 2552/2609 [2:36:47<03:50,  4.04s/it][A
Training...:  98% 2553/2609 [2:36:53<04:27,  4.78s/it][A
Training...:  98% 2554/2609 [2:36:59<04:49,  5.27s/it][A
Training...:  98% 2555/2609 [2:37:05<04:54,  5.46s/it][A
Training...:  98% 2556/2609 [2:37:11<04:55,  5.58s/it][A
Training...:  98% 2557/2609 [2:37:17<04:48,  5.55s/it][A
Training...:  98% 2558/2609 [2:37:22<04:42,  5.54s/it][A
Training...:  98% 2559/2609 [2:37:27<04:32,  5.45s/it][A
Training...:  98% 2560/2609 [2:37:33<04:22,  5.37s/it][A
Training...:  98% 2561/2609 [2:37:37<04:09,  5.20s/it][A
Training...:  98% 2562/2609 [2:37:42<03:58,  5.08s/it][A
Training...:  98% 2563/2609 [2:37:47<03:45,  4.90s/it][A
Training...:  98% 2564/2609 [2:37:51<03:34,  4.76s/it][A
Training...:  98% 2565/2609 [2:37:55<03:22,  4.61s/it][A
Training...:  98% 2566/2609 [2:38:00<03:12,  4.47s/it][A
Training...:  98% 2567/2609 [2:38:04<03:02,  4.34s/it][A
Training...:  98% 2568/2609 [2:38:08<02:53,  4.22s/it][A
Training...:  98% 2569/2609 [2:38:11<02:44,  4.10s/it][A
Training...:  99% 2570/2609 [2:38:15<02:34,  3.97s/it][A
Training...:  99% 2571/2609 [2:38:19<02:25,  3.84s/it][A
Training...:  99% 2572/2609 [2:38:22<02:17,  3.71s/it][A
Training...:  99% 2573/2609 [2:38:25<02:10,  3.62s/it][A
Training...:  99% 2574/2609 [2:38:29<02:02,  3.50s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:38:38<?, ?it/s]
Training...:  99% 2574/2609 [2:38:32<02:02,  3.50s/it][A
Training...:  99% 2575/2609 [2:38:32<02:00,  3.55s/it][A
Training...:  99% 2576/2609 [2:38:35<01:52,  3.42s/it][A
Training...:  99% 2577/2609 [2:38:38<01:45,  3.30s/it][A
Training...:  99% 2578/2609 [2:38:41<01:38,  3.19s/it][A
Training...:  99% 2579/2609 [2:38:44<01:32,  3.09s/it][A
Training...:  99% 2580/2609 [2:38:47<01:26,  2.98s/it][A
Training...:  99% 2581/2609 [2:38:50<01:20,  2.89s/it][A
Training...:  99% 2582/2609 [2:38:52<01:15,  2.80s/it][A
Training...:  99% 2583/2609 [2:38:55<01:10,  2.71s/it][A
Training...:  99% 2584/2609 [2:38:57<01:05,  2.63s/it][A
Training...:  99% 2585/2609 [2:38:59<01:00,  2.52s/it][A
Training...:  99% 2586/2609 [2:39:02<00:55,  2.43s/it][A
Training...:  99% 2587/2609 [2:39:04<00:51,  2.35s/it][A
Training...:  99% 2588/2609 [2:39:06<00:47,  2.25s/it][A
Training...:  99% 2589/2609 [2:39:08<00:43,  2.16s/it][A
Training...:  99% 2590/2609 [2:39:10<00:39,  2.06s/it][A
Training...:  99% 2591/2609 [2:39:11<00:35,  1.96s/it][A
Training...:  99% 2592/2609 [2:39:13<00:31,  1.86s/it][A
Training...:  99% 2593/2609 [2:39:14<00:28,  1.77s/it][A
Training...:  99% 2594/2609 [2:39:16<00:25,  1.67s/it][A
Training...:  99% 2595/2609 [2:39:17<00:21,  1.57s/it][A
Training...: 100% 2596/2609 [2:39:18<00:18,  1.46s/it][A
Training...: 100% 2597/2609 [2:39:20<00:16,  1.35s/it][A
Training...: 100% 2598/2609 [2:39:20<00:13,  1.23s/it][A
Training...: 100% 2599/2609 [2:39:21<00:10,  1.09s/it][A                                              
                                                      [AEpoch ... (1/20):   0% 0/20 [2:39:28<?, ?it/s]
Training...: 100% 2599/2609 [2:39:22<00:10,  1.09s/it][A
Training...: 100% 2600/2609 [2:39:22<00:09,  1.02s/it][A
Training...: 100% 2601/2609 [2:39:28<00:21,  2.63s/it][A
Training...: 100% 2602/2609 [2:39:34<00:24,  3.51s/it][A
Training...: 100% 2603/2609 [2:39:39<00:22,  3.82s/it][A
Training...: 100% 2604/2609 [2:39:42<00:19,  3.85s/it][A
Training...: 100% 2605/2609 [2:39:46<00:14,  3.69s/it][A
Training...: 100% 2606/2609 [2:39:49<00:10,  3.42s/it][A
Training...: 100% 2607/2609 [2:39:51<00:06,  3.12s/it][A
Training...: 100% 2608/2609 [2:39:53<00:02,  2.79s/it][A
Training...: 100% 2609/2609 [2:39:54<00:00,  2.38s/it][ATraining...: 100% 2609/2609 [2:39:54<00:00,  3.68s/it]
Epoch ... (1/20):   5% 1/20 [2:40:00<50:40:18, 9600.95s/it]Step... (1825 | Loss: 0.6259247064590454, Learning Rate: 9.732525359140709e-05, Gradient Norm: 1.6577414274215698)
Step... (1850 | Loss: 0.698790967464447, Learning Rate: 9.727474389364943e-05, Gradient Norm: 2.678388833999634)
Step... (1875 | Loss: 0.5861928462982178, Learning Rate: 9.722424147184938e-05, Gradient Norm: 1.7226248979568481)
Step... (1900 | Loss: 1.2041140794754028, Learning Rate: 9.717373905004933e-05, Gradient Norm: 4.462984085083008)
Step... (1925 | Loss: 0.5664717555046082, Learning Rate: 9.712322935229167e-05, Gradient Norm: 1.6230708360671997)
Step... (1950 | Loss: 0.5147104859352112, Learning Rate: 9.707272693049163e-05, Gradient Norm: 2.4821879863739014)
Step... (1975 | Loss: 0.5291574597358704, Learning Rate: 9.702222450869158e-05, Gradient Norm: 1.731356143951416)
Step... (2000 | Loss: 1.0683687925338745, Learning Rate: 9.697171481093392e-05, Gradient Norm: 4.3956756591796875)
Step... (2025 | Loss: 0.40324997901916504, Learning Rate: 9.692121238913387e-05, Gradient Norm: 1.7792083024978638)
Step... (2050 | Loss: 0.9564602971076965, Learning Rate: 9.687070269137621e-05, Gradient Norm: 3.405808925628662)
Step... (2075 | Loss: 0.6091300249099731, Learning Rate: 9.682020026957616e-05, Gradient Norm: 2.000562906265259)
Step... (2100 | Loss: 1.014596700668335, Learning Rate: 9.67696905718185e-05, Gradient Norm: 3.354328155517578)
Step... (2125 | Loss: 0.5859760046005249, Learning Rate: 9.671918815001845e-05, Gradient Norm: 1.4724315404891968)
Step... (2150 | Loss: 0.795822262763977, Learning Rate: 9.666867845226079e-05, Gradient Norm: 3.1484827995300293)
Step... (2175 | Loss: 0.512992799282074, Learning Rate: 9.661817603046075e-05, Gradient Norm: 1.458618402481079)
Step... (2200 | Loss: 0.8136063814163208, Learning Rate: 9.65676736086607e-05, Gradient Norm: 3.1962711811065674)
Step... (2225 | Loss: 0.5489369034767151, Learning Rate: 9.651716391090304e-05, Gradient Norm: 1.525251030921936)
Step... (2250 | Loss: 0.9034726023674011, Learning Rate: 9.646666148910299e-05, Gradient Norm: 3.3765709400177)
Step... (2275 | Loss: 0.5429360270500183, Learning Rate: 9.641615906730294e-05, Gradient Norm: 1.4721039533615112)
Step... (2300 | Loss: 0.8660172820091248, Learning Rate: 9.636564936954528e-05, Gradient Norm: 3.627537727355957)
Step... (2325 | Loss: 0.4379017949104309, Learning Rate: 9.631514694774523e-05, Gradient Norm: 1.4881970882415771)
Step... (2350 | Loss: 0.9671375751495361, Learning Rate: 9.626464452594519e-05, Gradient Norm: 3.5001332759857178)
Step... (2375 | Loss: 0.40037375688552856, Learning Rate: 9.621413482818753e-05, Gradient Norm: 1.2823612689971924)
Step... (2400 | Loss: 0.9378778338432312, Learning Rate: 9.616363240638748e-05, Gradient Norm: 3.16579008102417)
Step... (2425 | Loss: 0.4571267068386078, Learning Rate: 9.611312998458743e-05, Gradient Norm: 1.3316234350204468)
Step... (2450 | Loss: 0.7195302248001099, Learning Rate: 9.606262028682977e-05, Gradient Norm: 3.889901638031006)
Step... (2475 | Loss: 0.3784959018230438, Learning Rate: 9.601211786502972e-05, Gradient Norm: 1.2282747030258179)
Step... (2500 | Loss: 0.864486038684845, Learning Rate: 9.596161544322968e-05, Gradient Norm: 3.701815366744995)
Step... (2525 | Loss: 0.456777960062027, Learning Rate: 9.591110574547201e-05, Gradient Norm: 1.6551741361618042)
Step... (2550 | Loss: 0.799248218536377, Learning Rate: 9.586060332367197e-05, Gradient Norm: 2.7061736583709717)
Step... (2575 | Loss: 0.41575637459754944, Learning Rate: 9.581010090187192e-05, Gradient Norm: 1.120230793952942)
Step... (2600 | Loss: 1.1015186309814453, Learning Rate: 9.575959120411426e-05, Gradient Norm: 3.3431615829467773)

Training...:   0% 0/2609 [00:00<?, ?it/s][A
Training...:   0% 1/2609 [00:07<5:07:27,  7.07s/it][A
Training...:   0% 2/2609 [00:13<5:01:50,  6.95s/it][A
Training...:   0% 3/2609 [00:20<4:50:19,  6.68s/it][A
Training...:   0% 4/2609 [00:26<4:43:13,  6.52s/it][A
Training...:   0% 5/2609 [00:32<4:33:17,  6.30s/it][A
Training...:   0% 6/2609 [00:38<4:24:42,  6.10s/it][A
Training...:   0% 7/2609 [00:43<4:13:20,  5.84s/it][A
Training...:   0% 8/2609 [00:48<4:06:29,  5.69s/it][A
Training...:   0% 9/2609 [00:53<3:57:41,  5.49s/it][A
Training...:   0% 10/2609 [00:59<3:52:35,  5.37s/it][A
Training...:   0% 11/2609 [01:03<3:45:06,  5.20s/it][A
Training...:   0% 12/2609 [01:08<3:38:41,  5.05s/it][A
Training...:   0% 13/2609 [01:13<3:31:53,  4.90s/it][A
Training...:   1% 14/2609 [01:17<3:26:57,  4.79s/it][A
Training...:   1% 15/2609 [01:21<3:19:53,  4.62s/it][A                                                           
                                                    [AEpoch ... (1/20):   5% 1/20 [2:41:28<50:40:18, 9600.95s/it]
Training...:   1% 15/2609 [01:26<3:19:53,  4.62s/it][A
Training...:   1% 16/2609 [01:26<3:22:31,  4.69s/it][A
Training...:   1% 17/2609 [01:30<3:13:12,  4.47s/it][A
Training...:   1% 18/2609 [01:34<3:06:12,  4.31s/it][A
Training...:   1% 19/2609 [01:38<2:59:42,  4.16s/it][A
Training...:   1% 20/2609 [01:42<2:53:37,  4.02s/it][A
Training...:   1% 21/2609 [01:45<2:48:20,  3.90s/it][A
Training...:   1% 22/2609 [01:49<2:42:51,  3.78s/it][A
Training...:   1% 23/2609 [01:52<2:37:12,  3.65s/it][A
Training...:   1% 24/2609 [01:55<2:31:32,  3.52s/it][A
Training...:   1% 25/2609 [01:58<2:26:32,  3.40s/it][A
Training...:   1% 26/2609 [02:01<2:21:45,  3.29s/it][A
Training...:   1% 27/2609 [02:04<2:16:57,  3.18s/it][A
Training...:   1% 28/2609 [02:07<2:12:45,  3.09s/it][A
Training...:   1% 29/2609 [02:10<2:09:09,  3.00s/it][A
Training...:   1% 30/2609 [02:13<2:05:37,  2.92s/it][A
Training...:   1% 31/2609 [02:15<2:01:49,  2.84s/it][A
Training...:   1% 32/2609 [02:18<1:58:11,  2.75s/it][A
Training...:   1% 33/2609 [02:20<1:54:04,  2.66s/it][A
Training...:   1% 34/2609 [02:23<1:50:08,  2.57s/it][A
Training...:   1% 35/2609 [02:25<1:46:30,  2.48s/it][A
Training...:   1% 36/2609 [02:27<1:42:55,  2.40s/it][A
Training...:   1% 37/2609 [02:29<1:39:23,  2.32s/it][A
Training...:   1% 38/2609 [02:31<1:35:32,  2.23s/it][A
Training...:   1% 39/2609 [02:33<1:31:49,  2.14s/it][A
Training...:   2% 40/2609 [02:35<1:28:08,  2.06s/it][A                                                           
                                                    [AEpoch ... (1/20):   5% 1/20 [2:42:40<50:40:18, 9600.95s/it]
Training...:   2% 40/2609 [02:37<1:28:08,  2.06s/it][A
Training...:   2% 41/2609 [02:37<1:30:01,  2.10s/it][A
Training...:   2% 42/2609 [02:39<1:23:55,  1.96s/it][A
Training...:   2% 43/2609 [02:41<1:19:06,  1.85s/it][A
Training...:   2% 44/2609 [02:42<1:13:51,  1.73s/it][A
Training...:   2% 45/2609 [02:43<1:09:14,  1.62s/it][A
Training...:   2% 46/2609 [02:45<1:04:03,  1.50s/it][A
Training...:   2% 47/2609 [02:46<59:17,  1.39s/it]  [A
Training...:   2% 48/2609 [02:47<53:54,  1.26s/it][A
Training...:   2% 49/2609 [02:48<47:25,  1.11s/it][A
Training...:   2% 50/2609 [02:48<39:54,  1.07it/s][A
Training...:   2% 51/2609 [02:55<1:57:00,  2.74s/it][A
Training...:   2% 52/2609 [03:02<2:53:33,  4.07s/it][A
Training...:   2% 53/2609 [03:09<3:22:45,  4.76s/it][A
Training...:   2% 54/2609 [03:15<3:42:48,  5.23s/it][A
Training...:   2% 55/2609 [03:21<3:51:50,  5.45s/it][A
Training...:   2% 56/2609 [03:27<3:55:07,  5.53s/it][A
Training...:   2% 57/2609 [03:32<3:52:54,  5.48s/it][A
Training...:   2% 58/2609 [03:37<3:50:42,  5.43s/it][A
Training...:   2% 59/2609 [03:42<3:45:46,  5.31s/it][A
Training...:   2% 60/2609 [03:47<3:43:05,  5.25s/it][A
Training...:   2% 61/2609 [03:52<3:36:36,  5.10s/it][A
Training...:   2% 62/2609 [03:57<3:30:59,  4.97s/it][A
Training...:   2% 63/2609 [04:01<3:24:58,  4.83s/it][A
Training...:   2% 64/2609 [04:06<3:19:15,  4.70s/it][A
Training...:   2% 65/2609 [04:10<3:12:25,  4.54s/it][A                                                           
                                                    [AEpoch ... (1/20):   5% 1/20 [2:44:17<50:40:18, 9600.95s/it]
Training...:   2% 65/2609 [04:15<3:12:25,  4.54s/it][A
Training...:   3% 66/2609 [04:15<3:14:24,  4.59s/it][A
Training...:   3% 67/2609 [04:18<3:04:54,  4.36s/it][A
Training...:   3% 68/2609 [04:22<2:57:26,  4.19s/it][A
Training...:   3% 69/2609 [04:26<2:51:16,  4.05s/it][A
Training...:   3% 70/2609 [04:29<2:45:24,  3.91s/it][A
Training...:   3% 71/2609 [04:33<2:40:52,  3.80s/it][A
Training...:   3% 72/2609 [04:36<2:35:04,  3.67s/it][A
Training...:   3% 73/2609 [04:40<2:29:30,  3.54s/it][A
Training...:   3% 74/2609 [04:43<2:24:30,  3.42s/it][A
Training...:   3% 75/2609 [04:46<2:19:41,  3.31s/it][A
Training...:   3% 76/2609 [04:49<2:15:49,  3.22s/it][A
Training...:   3% 77/2609 [04:52<2:11:44,  3.12s/it][A
Training...:   3% 78/2609 [04:55<2:07:57,  3.03s/it][A
Training...:   3% 79/2609 [04:57<2:04:59,  2.96s/it][A
Training...:   3% 80/2609 [05:00<2:02:27,  2.91s/it][A
Training...:   3% 81/2609 [05:03<1:58:11,  2.81s/it][A
Training...:   3% 82/2609 [05:05<1:54:30,  2.72s/it][A
Training...:   3% 83/2609 [05:08<1:50:43,  2.63s/it][A
Training...:   3% 84/2609 [05:10<1:47:04,  2.54s/it][A
Training...:   3% 85/2609 [05:12<1:43:44,  2.47s/it][A
Training...:   3% 86/2609 [05:14<1:40:02,  2.38s/it][A
Training...:   3% 87/2609 [05:17<1:36:14,  2.29s/it][A
Training...:   3% 88/2609 [05:18<1:32:24,  2.20s/it][A
Training...:   3% 89/2609 [05:20<1:28:35,  2.11s/it][A
Training...:   3% 90/2609 [05:22<1:24:55,  2.02s/it][A                                                           
                                                    [AEpoch ... (1/20):   5% 1/20 [2:45:27<50:40:18, 9600.95s/it]
Training...:   3% 90/2609 [05:24<1:24:55,  2.02s/it][A
Training...:   3% 91/2609 [05:24<1:26:30,  2.06s/it][A
Training...:   4% 92/2609 [05:26<1:21:05,  1.93s/it][A
Training...:   4% 93/2609 [05:28<1:15:41,  1.80s/it][A
Training...:   4% 94/2609 [05:29<1:11:02,  1.69s/it][A
Training...:   4% 95/2609 [05:30<1:06:25,  1.59s/it][A
Training...:   4% 96/2609 [05:31<1:01:44,  1.47s/it][A
Training...:   4% 97/2609 [05:33<56:35,  1.35s/it]  [A
Training...:   4% 98/2609 [05:33<51:12,  1.22s/it][A
Training...:   4% 99/2609 [05:34<45:23,  1.09s/it][A
Training...:   4% 100/2609 [05:35<38:24,  1.09it/s][A
Training...:   4% 101/2609 [05:42<1:53:41,  2.72s/it][A
Training...:   4% 102/2609 [05:49<2:46:34,  3.99s/it][A
Training...:   4% 103/2609 [05:55<3:15:40,  4.69s/it][A
Training...:   4% 104/2609 [06:01<3:34:42,  5.14s/it][A
Training...:   4% 105/2609 [06:07<3:43:46,  5.36s/it][A
Training...:   4% 106/2609 [06:13<3:47:11,  5.45s/it][A
Training...:   4% 107/2609 [06:18<3:46:11,  5.42s/it][A
Training...:   4% 108/2609 [06:23<3:45:02,  5.40s/it][A
Training...:   4% 109/2609 [06:28<3:39:21,  5.26s/it][A
Training...:   4% 110/2609 [06:33<3:35:48,  5.18s/it][A
Training...:   4% 111/2609 [06:38<3:30:23,  5.05s/it][A
Training...:   4% 112/2609 [06:43<3:24:41,  4.92s/it][A
Training...:   4% 113/2609 [06:47<3:18:31,  4.77s/it][A
Training...:   4% 114/2609 [06:51<3:13:20,  4.65s/it][A
Training...:   4% 115/2609 [06:56<3:07:09,  4.50s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [2:47:03<50:40:18, 9600.95s/it]
Training...:   4% 115/2609 [07:00<3:07:09,  4.50s/it][A
Training...:   4% 116/2609 [07:00<3:11:12,  4.60s/it][A
Training...:   4% 117/2609 [07:05<3:03:57,  4.43s/it][A
Training...:   5% 118/2609 [07:08<2:57:24,  4.27s/it][A
Training...:   5% 119/2609 [07:12<2:50:52,  4.12s/it][A
Training...:   5% 120/2609 [07:16<2:45:13,  3.98s/it][A
Training...:   5% 121/2609 [07:19<2:40:11,  3.86s/it][A
Training...:   5% 122/2609 [07:23<2:35:09,  3.74s/it][A
Training...:   5% 123/2609 [07:26<2:30:10,  3.62s/it][A
Training...:   5% 124/2609 [07:29<2:25:02,  3.50s/it][A
Training...:   5% 125/2609 [07:33<2:21:03,  3.41s/it][A
Training...:   5% 126/2609 [07:36<2:17:06,  3.31s/it][A
Training...:   5% 127/2609 [07:39<2:13:18,  3.22s/it][A
Training...:   5% 128/2609 [07:42<2:09:58,  3.14s/it][A
Training...:   5% 129/2609 [07:45<2:05:57,  3.05s/it][A
Training...:   5% 130/2609 [07:47<2:02:26,  2.96s/it][A
Training...:   5% 131/2609 [07:50<1:59:01,  2.88s/it][A
Training...:   5% 132/2609 [07:53<1:55:16,  2.79s/it][A
Training...:   5% 133/2609 [07:55<1:51:29,  2.70s/it][A
Training...:   5% 134/2609 [07:57<1:47:49,  2.61s/it][A
Training...:   5% 135/2609 [08:00<1:44:29,  2.53s/it][A
Training...:   5% 136/2609 [08:02<1:40:39,  2.44s/it][A
Training...:   5% 137/2609 [08:04<1:37:09,  2.36s/it][A
Training...:   5% 138/2609 [08:06<1:33:31,  2.27s/it][A
Training...:   5% 139/2609 [08:08<1:29:44,  2.18s/it][A
Training...:   5% 140/2609 [08:10<1:26:18,  2.10s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [2:48:15<50:40:18, 9600.95s/it]
Training...:   5% 140/2609 [08:12<1:26:18,  2.10s/it][A
Training...:   5% 141/2609 [08:12<1:27:54,  2.14s/it][A
Training...:   5% 142/2609 [08:14<1:22:02,  2.00s/it][A
Training...:   5% 143/2609 [08:16<1:17:01,  1.87s/it][A
Training...:   6% 144/2609 [08:17<1:12:10,  1.76s/it][A
Training...:   6% 145/2609 [08:18<1:07:21,  1.64s/it][A
Training...:   6% 146/2609 [08:20<1:02:21,  1.52s/it][A
Training...:   6% 147/2609 [08:21<57:20,  1.40s/it]  [A
Training...:   6% 148/2609 [08:22<51:56,  1.27s/it][A
Training...:   6% 149/2609 [08:23<45:29,  1.11s/it][A
Training...:   6% 150/2609 [08:23<37:49,  1.08it/s][A
Training...:   6% 151/2609 [08:30<1:51:12,  2.71s/it][A
Training...:   6% 152/2609 [08:37<2:44:25,  4.02s/it][A
Training...:   6% 153/2609 [08:43<3:14:24,  4.75s/it][A
Training...:   6% 154/2609 [08:50<3:34:19,  5.24s/it][A
Training...:   6% 155/2609 [08:56<3:41:45,  5.42s/it][A
Training...:   6% 156/2609 [09:02<3:47:55,  5.57s/it][A
Training...:   6% 157/2609 [09:07<3:46:35,  5.54s/it][A
Training...:   6% 158/2609 [09:12<3:45:07,  5.51s/it][A
Training...:   6% 159/2609 [09:18<3:41:03,  5.41s/it][A
Training...:   6% 160/2609 [09:23<3:36:28,  5.30s/it][A
Training...:   6% 161/2609 [09:28<3:32:13,  5.20s/it][A
Training...:   6% 162/2609 [09:32<3:27:04,  5.08s/it][A
Training...:   6% 163/2609 [09:37<3:19:47,  4.90s/it][A
Training...:   6% 164/2609 [09:41<3:13:15,  4.74s/it][A
Training...:   6% 165/2609 [09:46<3:06:28,  4.58s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [2:49:53<50:40:18, 9600.95s/it]
Training...:   6% 165/2609 [09:50<3:06:28,  4.58s/it][A
Training...:   6% 166/2609 [09:50<3:09:50,  4.66s/it][A
Training...:   6% 167/2609 [09:54<3:00:52,  4.44s/it][A
Training...:   6% 168/2609 [09:58<2:54:24,  4.29s/it][A
Training...:   6% 169/2609 [10:02<2:48:26,  4.14s/it][A
Training...:   7% 170/2609 [10:06<2:42:40,  4.00s/it][A
Training...:   7% 171/2609 [10:09<2:37:55,  3.89s/it][A
Training...:   7% 172/2609 [10:13<2:33:08,  3.77s/it][A
Training...:   7% 173/2609 [10:16<2:28:15,  3.65s/it][A
Training...:   7% 174/2609 [10:19<2:23:28,  3.54s/it][A
Training...:   7% 175/2609 [10:23<2:19:02,  3.43s/it][A
Training...:   7% 176/2609 [10:26<2:15:15,  3.34s/it][A
Training...:   7% 177/2609 [10:29<2:11:17,  3.24s/it][A
Training...:   7% 178/2609 [10:32<2:06:25,  3.12s/it][A
Training...:   7% 179/2609 [10:34<2:02:42,  3.03s/it][A
Training...:   7% 180/2609 [10:37<1:58:40,  2.93s/it][A
Training...:   7% 181/2609 [10:40<1:55:01,  2.84s/it][A
Training...:   7% 182/2609 [10:42<1:51:05,  2.75s/it][A
Training...:   7% 183/2609 [10:45<1:47:40,  2.66s/it][A
Training...:   7% 184/2609 [10:47<1:44:22,  2.58s/it][A
Training...:   7% 185/2609 [10:49<1:41:06,  2.50s/it][A
Training...:   7% 186/2609 [10:52<1:37:48,  2.42s/it][A
Training...:   7% 187/2609 [10:54<1:34:39,  2.35s/it][A
Training...:   7% 188/2609 [10:56<1:30:49,  2.25s/it][A
Training...:   7% 189/2609 [10:58<1:26:53,  2.15s/it][A
Training...:   7% 190/2609 [11:00<1:22:52,  2.06s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [2:51:04<50:40:18, 9600.95s/it]
Training...:   7% 190/2609 [11:02<1:22:52,  2.06s/it][A
Training...:   7% 191/2609 [11:02<1:24:34,  2.10s/it][A
Training...:   7% 192/2609 [11:04<1:18:50,  1.96s/it][A
Training...:   7% 193/2609 [11:05<1:13:58,  1.84s/it][A
Training...:   7% 194/2609 [11:07<1:09:28,  1.73s/it][A
Training...:   7% 195/2609 [11:08<1:04:37,  1.61s/it][A
Training...:   8% 196/2609 [11:09<59:44,  1.49s/it]  [A
Training...:   8% 197/2609 [11:10<55:01,  1.37s/it][A
Training...:   8% 198/2609 [11:11<49:43,  1.24s/it][A
Training...:   8% 199/2609 [11:12<44:12,  1.10s/it][A
Training...:   8% 200/2609 [11:12<37:23,  1.07it/s][A
Training...:   8% 201/2609 [11:20<1:52:49,  2.81s/it][A
Training...:   8% 202/2609 [11:26<2:41:24,  4.02s/it][A
Training...:   8% 203/2609 [11:33<3:09:21,  4.72s/it][A
Training...:   8% 204/2609 [11:39<3:28:33,  5.20s/it][A
Training...:   8% 205/2609 [11:45<3:37:10,  5.42s/it][A
Training...:   8% 206/2609 [11:51<3:40:31,  5.51s/it][A
Training...:   8% 207/2609 [11:56<3:39:01,  5.47s/it][A
Training...:   8% 208/2609 [12:01<3:37:21,  5.43s/it][A
Training...:   8% 209/2609 [12:06<3:31:24,  5.29s/it][A
Training...:   8% 210/2609 [12:11<3:27:09,  5.18s/it][A
Training...:   8% 211/2609 [12:16<3:21:16,  5.04s/it][A
Training...:   8% 212/2609 [12:21<3:15:59,  4.91s/it][A
Training...:   8% 213/2609 [12:25<3:10:12,  4.76s/it][A
Training...:   8% 214/2609 [12:29<3:05:35,  4.65s/it][A
Training...:   8% 215/2609 [12:34<3:00:23,  4.52s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [2:52:41<50:40:18, 9600.95s/it]
Training...:   8% 215/2609 [12:39<3:00:23,  4.52s/it][A
Training...:   8% 216/2609 [12:39<3:04:20,  4.62s/it][A
Training...:   8% 217/2609 [12:42<2:55:37,  4.41s/it][A
Training...:   8% 218/2609 [12:46<2:48:52,  4.24s/it][A
Training...:   8% 219/2609 [12:50<2:42:34,  4.08s/it][A
Training...:   8% 220/2609 [12:54<2:38:18,  3.98s/it][A
Training...:   8% 221/2609 [12:57<2:33:06,  3.85s/it][A
Training...:   9% 222/2609 [13:01<2:28:04,  3.72s/it][A
Training...:   9% 223/2609 [13:04<2:22:47,  3.59s/it][A
Training...:   9% 224/2609 [13:07<2:18:03,  3.47s/it][A
Training...:   9% 225/2609 [13:10<2:13:36,  3.36s/it][A
Training...:   9% 226/2609 [13:13<2:09:36,  3.26s/it][A
Training...:   9% 227/2609 [13:16<2:05:55,  3.17s/it][A
Training...:   9% 228/2609 [13:19<2:01:49,  3.07s/it][A
Training...:   9% 229/2609 [13:22<1:58:18,  2.98s/it][A
Training...:   9% 230/2609 [13:25<1:54:34,  2.89s/it][A
Training...:   9% 231/2609 [13:27<1:50:56,  2.80s/it][A
Training...:   9% 232/2609 [13:30<1:47:42,  2.72s/it][A
Training...:   9% 233/2609 [13:32<1:44:08,  2.63s/it][A
Training...:   9% 234/2609 [13:34<1:40:30,  2.54s/it][A
Training...:   9% 235/2609 [13:37<1:37:31,  2.47s/it][A
Training...:   9% 236/2609 [13:39<1:34:22,  2.39s/it][A
Training...:   9% 237/2609 [13:41<1:31:20,  2.31s/it][A
Training...:   9% 238/2609 [13:43<1:27:46,  2.22s/it][A
Training...:   9% 239/2609 [13:45<1:24:24,  2.14s/it][A
Training...:   9% 240/2609 [13:47<1:21:01,  2.05s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [2:53:51<50:40:18, 9600.95s/it]
Training...:   9% 240/2609 [13:49<1:21:01,  2.05s/it][A
Training...:   9% 241/2609 [13:49<1:22:41,  2.10s/it][A
Training...:   9% 242/2609 [13:51<1:17:19,  1.96s/it][A
Training...:   9% 243/2609 [13:52<1:12:51,  1.85s/it][A
Training...:   9% 244/2609 [13:54<1:08:04,  1.73s/it][A
Training...:   9% 245/2609 [13:55<1:03:26,  1.61s/it][A
Training...:   9% 246/2609 [13:56<58:14,  1.48s/it]  [A
Training...:   9% 247/2609 [13:57<53:27,  1.36s/it][A
Training...:  10% 248/2609 [13:58<47:54,  1.22s/it][A
Training...:  10% 249/2609 [13:59<42:53,  1.09s/it][A
Training...:  10% 250/2609 [14:00<36:16,  1.08it/s][A
Training...:  10% 251/2609 [14:06<1:46:16,  2.70s/it][A
Training...:  10% 252/2609 [14:13<2:37:14,  4.00s/it][A
Training...:  10% 253/2609 [14:20<3:06:03,  4.74s/it][A
Training...:  10% 254/2609 [14:26<3:26:19,  5.26s/it][A
Training...:  10% 255/2609 [14:32<3:35:03,  5.48s/it][A
Training...:  10% 256/2609 [14:38<3:38:42,  5.58s/it][A
Training...:  10% 257/2609 [14:44<3:38:52,  5.58s/it][A
Training...:  10% 258/2609 [14:49<3:37:56,  5.56s/it][A
Training...:  10% 259/2609 [14:54<3:31:08,  5.39s/it][A
Training...:  10% 260/2609 [14:59<3:25:10,  5.24s/it][A
Training...:  10% 261/2609 [15:04<3:18:39,  5.08s/it][A
Training...:  10% 262/2609 [15:08<3:12:41,  4.93s/it][A
Training...:  10% 263/2609 [15:13<3:06:27,  4.77s/it][A
Training...:  10% 264/2609 [15:17<3:01:05,  4.63s/it][A
Training...:  10% 265/2609 [15:21<2:56:13,  4.51s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [2:55:28<50:40:18, 9600.95s/it]
Training...:  10% 265/2609 [15:26<2:56:13,  4.51s/it][A
Training...:  10% 266/2609 [15:26<2:58:27,  4.57s/it][A
Training...:  10% 267/2609 [15:30<2:50:14,  4.36s/it][A
Training...:  10% 268/2609 [15:34<2:43:44,  4.20s/it][A
Training...:  10% 269/2609 [15:38<2:38:01,  4.05s/it][A
Training...:  10% 270/2609 [15:41<2:32:00,  3.90s/it][A
Training...:  10% 271/2609 [15:44<2:26:30,  3.76s/it][A
Training...:  10% 272/2609 [15:48<2:22:05,  3.65s/it][A
Training...:  10% 273/2609 [15:51<2:17:27,  3.53s/it][A
Training...:  11% 274/2609 [15:54<2:12:53,  3.41s/it][A
Training...:  11% 275/2609 [15:57<2:08:41,  3.31s/it][A
Training...:  11% 276/2609 [16:00<2:05:02,  3.22s/it][A
Training...:  11% 277/2609 [16:03<2:01:16,  3.12s/it][A
Training...:  11% 278/2609 [16:06<1:57:59,  3.04s/it][A
Training...:  11% 279/2609 [16:09<1:54:36,  2.95s/it][A
Training...:  11% 280/2609 [16:11<1:51:14,  2.87s/it][A
Training...:  11% 281/2609 [16:14<1:48:01,  2.78s/it][A
Training...:  11% 282/2609 [16:17<1:44:33,  2.70s/it][A
Training...:  11% 283/2609 [16:19<1:41:27,  2.62s/it][A
Training...:  11% 284/2609 [16:21<1:38:18,  2.54s/it][A
Training...:  11% 285/2609 [16:24<1:34:33,  2.44s/it][A
Training...:  11% 286/2609 [16:26<1:31:20,  2.36s/it][A
Training...:  11% 287/2609 [16:28<1:28:08,  2.28s/it][A
Training...:  11% 288/2609 [16:30<1:25:10,  2.20s/it][A
Training...:  11% 289/2609 [16:32<1:21:35,  2.11s/it][A
Training...:  11% 290/2609 [16:34<1:18:41,  2.04s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [2:56:38<50:40:18, 9600.95s/it]
Training...:  11% 290/2609 [16:36<1:18:41,  2.04s/it][A
Training...:  11% 291/2609 [16:36<1:20:17,  2.08s/it][A
Training...:  11% 292/2609 [16:37<1:15:14,  1.95s/it][A
Training...:  11% 293/2609 [16:39<1:10:49,  1.84s/it][A
Training...:  11% 294/2609 [16:40<1:06:31,  1.72s/it][A
Training...:  11% 295/2609 [16:42<1:02:04,  1.61s/it][A
Training...:  11% 296/2609 [16:43<57:24,  1.49s/it]  [A
Training...:  11% 297/2609 [16:44<52:33,  1.36s/it][A
Training...:  11% 298/2609 [16:45<47:34,  1.24s/it][A
Training...:  11% 299/2609 [16:46<42:06,  1.09s/it][A
Training...:  11% 300/2609 [16:46<35:26,  1.09it/s][A
Training...:  12% 301/2609 [16:53<1:45:48,  2.75s/it][A
Training...:  12% 302/2609 [17:00<2:34:10,  4.01s/it][A
Training...:  12% 303/2609 [17:07<3:02:09,  4.74s/it][A
Training...:  12% 304/2609 [17:13<3:19:54,  5.20s/it][A
Training...:  12% 305/2609 [17:19<3:27:27,  5.40s/it][A
Training...:  12% 306/2609 [17:25<3:30:28,  5.48s/it][A
Training...:  12% 307/2609 [17:30<3:30:02,  5.47s/it][A
Training...:  12% 308/2609 [17:35<3:28:01,  5.42s/it][A
Training...:  12% 309/2609 [17:40<3:23:27,  5.31s/it][A
Training...:  12% 310/2609 [17:45<3:19:08,  5.20s/it][A
Training...:  12% 311/2609 [17:50<3:13:32,  5.05s/it][A
Training...:  12% 312/2609 [17:55<3:08:42,  4.93s/it][A
Training...:  12% 313/2609 [17:59<3:05:37,  4.85s/it][A
Training...:  12% 314/2609 [18:04<2:59:50,  4.70s/it][A
Training...:  12% 315/2609 [18:08<2:53:22,  4.53s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [2:58:15<50:40:18, 9600.95s/it]
Training...:  12% 315/2609 [18:13<2:53:22,  4.53s/it][A
Training...:  12% 316/2609 [18:13<2:55:27,  4.59s/it][A
Training...:  12% 317/2609 [18:16<2:47:50,  4.39s/it][A
Training...:  12% 318/2609 [18:20<2:41:00,  4.22s/it][A
Training...:  12% 319/2609 [18:24<2:35:14,  4.07s/it][A
Training...:  12% 320/2609 [18:28<2:29:34,  3.92s/it][A
Training...:  12% 321/2609 [18:31<2:24:29,  3.79s/it][A
Training...:  12% 322/2609 [18:34<2:19:54,  3.67s/it][A
Training...:  12% 323/2609 [18:38<2:15:47,  3.56s/it][A
Training...:  12% 324/2609 [18:41<2:11:43,  3.46s/it][A
Training...:  12% 325/2609 [18:44<2:08:25,  3.37s/it][A
Training...:  12% 326/2609 [18:47<2:04:34,  3.27s/it][A
Training...:  13% 327/2609 [18:50<2:00:53,  3.18s/it][A
Training...:  13% 328/2609 [18:53<1:57:26,  3.09s/it][A
Training...:  13% 329/2609 [18:56<1:54:14,  3.01s/it][A
Training...:  13% 330/2609 [18:59<1:50:32,  2.91s/it][A
Training...:  13% 331/2609 [19:01<1:47:43,  2.84s/it][A
Training...:  13% 332/2609 [19:04<1:44:17,  2.75s/it][A
Training...:  13% 333/2609 [19:06<1:41:11,  2.67s/it][A
Training...:  13% 334/2609 [19:09<1:37:54,  2.58s/it][A
Training...:  13% 335/2609 [19:11<1:34:24,  2.49s/it][A
Training...:  13% 336/2609 [19:13<1:31:00,  2.40s/it][A
Training...:  13% 337/2609 [19:15<1:27:58,  2.32s/it][A
Training...:  13% 338/2609 [19:17<1:24:49,  2.24s/it][A
Training...:  13% 339/2609 [19:19<1:21:59,  2.17s/it][A
Training...:  13% 340/2609 [19:21<1:18:29,  2.08s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [2:59:26<50:40:18, 9600.95s/it]
Training...:  13% 340/2609 [19:23<1:18:29,  2.08s/it][A
Training...:  13% 341/2609 [19:23<1:19:35,  2.11s/it][A
Training...:  13% 342/2609 [19:25<1:14:10,  1.96s/it][A
Training...:  13% 343/2609 [19:26<1:09:17,  1.83s/it][A
Training...:  13% 344/2609 [19:28<1:05:01,  1.72s/it][A
Training...:  13% 345/2609 [19:29<1:00:28,  1.60s/it][A
Training...:  13% 346/2609 [19:30<55:42,  1.48s/it]  [A
Training...:  13% 347/2609 [19:32<51:13,  1.36s/it][A
Training...:  13% 348/2609 [19:32<46:11,  1.23s/it][A
Training...:  13% 349/2609 [19:33<40:42,  1.08s/it][A
Training...:  13% 350/2609 [19:34<34:07,  1.10it/s][A
Training...:  13% 351/2609 [19:41<1:44:21,  2.77s/it][A
Training...:  13% 352/2609 [19:48<2:32:57,  4.07s/it][A
Training...:  14% 353/2609 [19:54<2:58:48,  4.76s/it][A
Training...:  14% 354/2609 [20:01<3:15:46,  5.21s/it][A
Training...:  14% 355/2609 [20:06<3:23:19,  5.41s/it][A
Training...:  14% 356/2609 [20:12<3:28:04,  5.54s/it][A
Training...:  14% 357/2609 [20:18<3:27:37,  5.53s/it][A
Training...:  14% 358/2609 [20:23<3:25:34,  5.48s/it][A
Training...:  14% 359/2609 [20:28<3:19:46,  5.33s/it][A
Training...:  14% 360/2609 [20:33<3:14:30,  5.19s/it][A
Training...:  14% 361/2609 [20:38<3:08:15,  5.02s/it][A
Training...:  14% 362/2609 [20:42<3:03:35,  4.90s/it][A
Training...:  14% 363/2609 [20:47<2:57:41,  4.75s/it][A
Training...:  14% 364/2609 [20:51<2:52:06,  4.60s/it][A
Training...:  14% 365/2609 [20:55<2:46:32,  4.45s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:01:02<50:40:18, 9600.95s/it]
Training...:  14% 365/2609 [21:00<2:46:32,  4.45s/it][A
Training...:  14% 366/2609 [21:00<2:48:42,  4.51s/it][A
Training...:  14% 367/2609 [21:04<2:41:46,  4.33s/it][A
Training...:  14% 368/2609 [21:07<2:35:25,  4.16s/it][A
Training...:  14% 369/2609 [21:11<2:30:22,  4.03s/it][A
Training...:  14% 370/2609 [21:15<2:25:32,  3.90s/it][A
Training...:  14% 371/2609 [21:18<2:21:25,  3.79s/it][A
Training...:  14% 372/2609 [21:22<2:18:08,  3.71s/it][A
Training...:  14% 373/2609 [21:25<2:14:48,  3.62s/it][A
Training...:  14% 374/2609 [21:28<2:10:11,  3.50s/it][A
Training...:  14% 375/2609 [21:31<2:05:51,  3.38s/it][A
Training...:  14% 376/2609 [21:34<2:01:13,  3.26s/it][A
Training...:  14% 377/2609 [21:37<1:57:22,  3.16s/it][A
Training...:  14% 378/2609 [21:40<1:53:23,  3.05s/it][A
Training...:  15% 379/2609 [21:43<1:50:19,  2.97s/it][A
Training...:  15% 380/2609 [21:46<1:47:26,  2.89s/it][A
Training...:  15% 381/2609 [21:48<1:44:51,  2.82s/it][A
Training...:  15% 382/2609 [21:51<1:41:24,  2.73s/it][A
Training...:  15% 383/2609 [21:53<1:38:41,  2.66s/it][A
Training...:  15% 384/2609 [21:56<1:35:41,  2.58s/it][A
Training...:  15% 385/2609 [21:58<1:33:01,  2.51s/it][A
Training...:  15% 386/2609 [22:00<1:29:32,  2.42s/it][A
Training...:  15% 387/2609 [22:02<1:26:28,  2.34s/it][A
Training...:  15% 388/2609 [22:04<1:22:51,  2.24s/it][A
Training...:  15% 389/2609 [22:06<1:19:27,  2.15s/it][A
Training...:  15% 390/2609 [22:08<1:15:49,  2.05s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:02:12<50:40:18, 9600.95s/it]
Training...:  15% 390/2609 [22:10<1:15:49,  2.05s/it][A
Training...:  15% 391/2609 [22:10<1:17:07,  2.09s/it][A
Training...:  15% 392/2609 [22:12<1:12:23,  1.96s/it][A
Training...:  15% 393/2609 [22:13<1:07:47,  1.84s/it][A
Training...:  15% 394/2609 [22:15<1:02:58,  1.71s/it][A
Training...:  15% 395/2609 [22:16<58:33,  1.59s/it]  [A
Training...:  15% 396/2609 [22:17<53:57,  1.46s/it][A
Training...:  15% 397/2609 [22:18<49:37,  1.35s/it][A
Training...:  15% 398/2609 [22:19<44:53,  1.22s/it][A
Training...:  15% 399/2609 [22:20<39:51,  1.08s/it][A
Training...:  15% 400/2609 [22:21<33:57,  1.08it/s][A
Training...:  15% 401/2609 [22:28<1:39:58,  2.72s/it][A
Training...:  15% 402/2609 [22:35<2:28:10,  4.03s/it][A
Training...:  15% 403/2609 [22:41<2:55:20,  4.77s/it][A
Training...:  15% 404/2609 [22:47<3:11:35,  5.21s/it][A
Training...:  16% 405/2609 [22:53<3:19:11,  5.42s/it][A
Training...:  16% 406/2609 [22:59<3:22:21,  5.51s/it][A
Training...:  16% 407/2609 [23:04<3:21:31,  5.49s/it][A
Training...:  16% 408/2609 [23:10<3:20:51,  5.48s/it][A
Training...:  16% 409/2609 [23:15<3:17:13,  5.38s/it][A
Training...:  16% 410/2609 [23:20<3:14:07,  5.30s/it][A
Training...:  16% 411/2609 [23:25<3:09:30,  5.17s/it][A
Training...:  16% 412/2609 [23:30<3:04:10,  5.03s/it][A
Training...:  16% 413/2609 [23:34<2:58:56,  4.89s/it][A
Training...:  16% 414/2609 [23:39<2:53:57,  4.76s/it][A
Training...:  16% 415/2609 [23:43<2:48:59,  4.62s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:03:50<50:40:18, 9600.95s/it]
Training...:  16% 415/2609 [23:48<2:48:59,  4.62s/it][A
Training...:  16% 416/2609 [23:48<2:51:16,  4.69s/it][A
Training...:  16% 417/2609 [23:52<2:43:46,  4.48s/it][A
Training...:  16% 418/2609 [23:56<2:37:23,  4.31s/it][A
Training...:  16% 419/2609 [24:00<2:31:40,  4.16s/it][A
Training...:  16% 420/2609 [24:03<2:26:07,  4.01s/it][A
Training...:  16% 421/2609 [24:07<2:21:12,  3.87s/it][A
Training...:  16% 422/2609 [24:10<2:16:59,  3.76s/it][A
Training...:  16% 423/2609 [24:14<2:12:55,  3.65s/it][A
Training...:  16% 424/2609 [24:17<2:08:12,  3.52s/it][A
Training...:  16% 425/2609 [24:20<2:04:38,  3.42s/it][A
Training...:  16% 426/2609 [24:23<2:00:48,  3.32s/it][A
Training...:  16% 427/2609 [24:26<1:57:21,  3.23s/it][A
Training...:  16% 428/2609 [24:29<1:53:58,  3.14s/it][A
Training...:  16% 429/2609 [24:32<1:50:41,  3.05s/it][A
Training...:  16% 430/2609 [24:35<1:46:55,  2.94s/it][A
Training...:  17% 431/2609 [24:37<1:43:24,  2.85s/it][A
Training...:  17% 432/2609 [24:40<1:39:42,  2.75s/it][A
Training...:  17% 433/2609 [24:42<1:35:51,  2.64s/it][A
Training...:  17% 434/2609 [24:45<1:32:15,  2.54s/it][A
Training...:  17% 435/2609 [24:47<1:29:21,  2.47s/it][A
Training...:  17% 436/2609 [24:49<1:25:40,  2.37s/it][A
Training...:  17% 437/2609 [24:51<1:22:22,  2.28s/it][A
Training...:  17% 438/2609 [24:53<1:19:06,  2.19s/it][A
Training...:  17% 439/2609 [24:55<1:15:49,  2.10s/it][A
Training...:  17% 440/2609 [24:57<1:12:36,  2.01s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:05:01<50:40:18, 9600.95s/it]
Training...:  17% 440/2609 [24:59<1:12:36,  2.01s/it][A
Training...:  17% 441/2609 [24:59<1:14:30,  2.06s/it][A
Training...:  17% 442/2609 [25:01<1:09:48,  1.93s/it][A
Training...:  17% 443/2609 [25:02<1:05:49,  1.82s/it][A
Training...:  17% 444/2609 [25:04<1:01:36,  1.71s/it][A
Training...:  17% 445/2609 [25:05<57:42,  1.60s/it]  [A
Training...:  17% 446/2609 [25:06<52:59,  1.47s/it][A
Training...:  17% 447/2609 [25:07<48:29,  1.35s/it][A
Training...:  17% 448/2609 [25:08<43:40,  1.21s/it][A
Training...:  17% 449/2609 [25:09<38:08,  1.06s/it][A
Training...:  17% 450/2609 [25:09<31:46,  1.13it/s][A
Training...:  17% 451/2609 [25:16<1:36:23,  2.68s/it][A
Training...:  17% 452/2609 [25:23<2:22:51,  3.97s/it][A
Training...:  17% 453/2609 [25:29<2:49:01,  4.70s/it][A
Training...:  17% 454/2609 [25:36<3:05:38,  5.17s/it][A
Training...:  17% 455/2609 [25:42<3:12:50,  5.37s/it][A
Training...:  17% 456/2609 [25:47<3:16:52,  5.49s/it][A
Training...:  18% 457/2609 [25:53<3:16:06,  5.47s/it][A
Training...:  18% 458/2609 [25:58<3:13:59,  5.41s/it][A
Training...:  18% 459/2609 [26:03<3:10:44,  5.32s/it][A
Training...:  18% 460/2609 [26:08<3:07:53,  5.25s/it][A
Training...:  18% 461/2609 [26:13<3:02:34,  5.10s/it][A
Training...:  18% 462/2609 [26:18<2:59:21,  5.01s/it][A
Training...:  18% 463/2609 [26:22<2:54:00,  4.87s/it][A
Training...:  18% 464/2609 [26:27<2:48:46,  4.72s/it][A
Training...:  18% 465/2609 [26:31<2:43:22,  4.57s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:06:38<50:40:18, 9600.95s/it]
Training...:  18% 465/2609 [26:36<2:43:22,  4.57s/it][A
Training...:  18% 466/2609 [26:36<2:45:50,  4.64s/it][A
Training...:  18% 467/2609 [26:40<2:38:37,  4.44s/it][A
Training...:  18% 468/2609 [26:44<2:32:45,  4.28s/it][A
Training...:  18% 469/2609 [26:47<2:27:40,  4.14s/it][A
Training...:  18% 470/2609 [26:51<2:22:40,  4.00s/it][A
Training...:  18% 471/2609 [26:55<2:18:48,  3.90s/it][A
Training...:  18% 472/2609 [26:58<2:14:49,  3.79s/it][A
Training...:  18% 473/2609 [27:02<2:11:32,  3.69s/it][A
Training...:  18% 474/2609 [27:05<2:07:08,  3.57s/it][A
Training...:  18% 475/2609 [27:08<2:03:31,  3.47s/it][A
Training...:  18% 476/2609 [27:11<1:59:15,  3.35s/it][A
Training...:  18% 477/2609 [27:14<1:56:03,  3.27s/it][A
Training...:  18% 478/2609 [27:17<1:52:12,  3.16s/it][A
Training...:  18% 479/2609 [27:20<1:48:52,  3.07s/it][A
Training...:  18% 480/2609 [27:23<1:45:19,  2.97s/it][A
Training...:  18% 481/2609 [27:26<1:42:49,  2.90s/it][A
Training...:  18% 482/2609 [27:28<1:40:11,  2.83s/it][A
Training...:  19% 483/2609 [27:31<1:36:44,  2.73s/it][A
Training...:  19% 484/2609 [27:33<1:33:16,  2.63s/it][A
Training...:  19% 485/2609 [27:36<1:30:23,  2.55s/it][A
Training...:  19% 486/2609 [27:38<1:26:51,  2.45s/it][A
Training...:  19% 487/2609 [27:40<1:23:46,  2.37s/it][A
Training...:  19% 488/2609 [27:42<1:20:07,  2.27s/it][A
Training...:  19% 489/2609 [27:44<1:16:58,  2.18s/it][A
Training...:  19% 490/2609 [27:46<1:13:29,  2.08s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:07:50<50:40:18, 9600.95s/it]
Training...:  19% 490/2609 [27:48<1:13:29,  2.08s/it][A
Training...:  19% 491/2609 [27:48<1:14:50,  2.12s/it][A
Training...:  19% 492/2609 [27:50<1:09:34,  1.97s/it][A
Training...:  19% 493/2609 [27:51<1:05:00,  1.84s/it][A
Training...:  19% 494/2609 [27:53<1:00:17,  1.71s/it][A
Training...:  19% 495/2609 [27:54<55:43,  1.58s/it]  [A
Training...:  19% 496/2609 [27:55<51:26,  1.46s/it][A
Training...:  19% 497/2609 [27:56<47:24,  1.35s/it][A
Training...:  19% 498/2609 [27:57<42:44,  1.21s/it][A
Training...:  19% 499/2609 [27:58<37:47,  1.07s/it][A
Training...:  19% 500/2609 [27:58<31:48,  1.10it/s][A
Training...:  19% 501/2609 [28:05<1:34:45,  2.70s/it][A
Training...:  19% 502/2609 [28:12<2:21:02,  4.02s/it][A
Training...:  19% 503/2609 [28:19<2:47:46,  4.78s/it][A
Training...:  19% 504/2609 [28:25<3:04:08,  5.25s/it][A
Training...:  19% 505/2609 [28:31<3:09:56,  5.42s/it][A
Training...:  19% 506/2609 [28:37<3:13:10,  5.51s/it][A
Training...:  19% 507/2609 [28:42<3:11:58,  5.48s/it][A
Training...:  19% 508/2609 [28:48<3:11:02,  5.46s/it][A
Training...:  20% 509/2609 [28:53<3:06:24,  5.33s/it][A
Training...:  20% 510/2609 [28:58<3:02:52,  5.23s/it][A
Training...:  20% 511/2609 [29:02<2:57:35,  5.08s/it][A
Training...:  20% 512/2609 [29:07<2:52:47,  4.94s/it][A
Training...:  20% 513/2609 [29:11<2:46:44,  4.77s/it][A
Training...:  20% 514/2609 [29:16<2:41:46,  4.63s/it][A
Training...:  20% 515/2609 [29:20<2:37:15,  4.51s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:09:27<50:40:18, 9600.95s/it]
Training...:  20% 515/2609 [29:24<2:37:15,  4.51s/it][A
Training...:  20% 516/2609 [29:24<2:39:28,  4.57s/it][A
Training...:  20% 517/2609 [29:28<2:32:54,  4.39s/it][A
Training...:  20% 518/2609 [29:32<2:29:08,  4.28s/it][A
Training...:  20% 519/2609 [29:36<2:23:24,  4.12s/it][A
Training...:  20% 520/2609 [29:40<2:18:03,  3.97s/it][A
Training...:  20% 521/2609 [29:43<2:13:24,  3.83s/it][A
Training...:  20% 522/2609 [29:47<2:08:55,  3.71s/it][A
Training...:  20% 523/2609 [29:50<2:04:28,  3.58s/it][A
Training...:  20% 524/2609 [29:53<2:00:15,  3.46s/it][A
Training...:  20% 525/2609 [29:56<1:56:49,  3.36s/it][A
Training...:  20% 526/2609 [29:59<1:53:14,  3.26s/it][A
Training...:  20% 527/2609 [30:02<1:50:27,  3.18s/it][A
Training...:  20% 528/2609 [30:05<1:48:03,  3.12s/it][A
Training...:  20% 529/2609 [30:08<1:44:52,  3.03s/it][A
Training...:  20% 530/2609 [30:11<1:41:44,  2.94s/it][A
Training...:  20% 531/2609 [30:14<1:38:39,  2.85s/it][A
Training...:  20% 532/2609 [30:16<1:35:20,  2.75s/it][A
Training...:  20% 533/2609 [30:19<1:32:23,  2.67s/it][A
Training...:  20% 534/2609 [30:21<1:29:22,  2.58s/it][A
Training...:  21% 535/2609 [30:23<1:26:22,  2.50s/it][A
Training...:  21% 536/2609 [30:25<1:23:42,  2.42s/it][A
Training...:  21% 537/2609 [30:28<1:20:49,  2.34s/it][A
Training...:  21% 538/2609 [30:30<1:17:59,  2.26s/it][A
Training...:  21% 539/2609 [30:32<1:14:45,  2.17s/it][A
Training...:  21% 540/2609 [30:34<1:11:45,  2.08s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:10:38<50:40:18, 9600.95s/it]
Training...:  21% 540/2609 [30:36<1:11:45,  2.08s/it][A
Training...:  21% 541/2609 [30:36<1:12:57,  2.12s/it][A
Training...:  21% 542/2609 [30:37<1:08:23,  1.99s/it][A
Training...:  21% 543/2609 [30:39<1:04:20,  1.87s/it][A
Training...:  21% 544/2609 [30:40<59:44,  1.74s/it]  [A
Training...:  21% 545/2609 [30:42<55:30,  1.61s/it][A
Training...:  21% 546/2609 [30:43<51:19,  1.49s/it][A
Training...:  21% 547/2609 [30:44<47:04,  1.37s/it][A
Training...:  21% 548/2609 [30:45<42:29,  1.24s/it][A
Training...:  21% 549/2609 [30:46<37:29,  1.09s/it][A
Training...:  21% 550/2609 [30:46<31:23,  1.09it/s][A
Training...:  21% 551/2609 [30:53<1:32:04,  2.68s/it][A
Training...:  21% 552/2609 [31:00<2:14:21,  3.92s/it][A
Training...:  21% 553/2609 [31:06<2:38:47,  4.63s/it][A
Training...:  21% 554/2609 [31:12<2:54:31,  5.10s/it][A
Training...:  21% 555/2609 [31:18<3:02:34,  5.33s/it][A
Training...:  21% 556/2609 [31:24<3:05:30,  5.42s/it][A
Training...:  21% 557/2609 [31:29<3:03:59,  5.38s/it][A
Training...:  21% 558/2609 [31:34<3:01:40,  5.31s/it][A
Training...:  21% 559/2609 [31:39<2:57:08,  5.18s/it][A
Training...:  21% 560/2609 [31:44<2:52:36,  5.05s/it][A
Training...:  22% 561/2609 [31:49<2:48:01,  4.92s/it][A
Training...:  22% 562/2609 [31:53<2:44:00,  4.81s/it][A
Training...:  22% 563/2609 [31:57<2:39:39,  4.68s/it][A
Training...:  22% 564/2609 [32:02<2:35:12,  4.55s/it][A
Training...:  22% 565/2609 [32:06<2:30:43,  4.42s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:12:13<50:40:18, 9600.95s/it]
Training...:  22% 565/2609 [32:11<2:30:43,  4.42s/it][A
Training...:  22% 566/2609 [32:11<2:33:26,  4.51s/it][A
Training...:  22% 567/2609 [32:14<2:27:39,  4.34s/it][A
Training...:  22% 568/2609 [32:18<2:22:26,  4.19s/it][A
Training...:  22% 569/2609 [32:22<2:18:34,  4.08s/it][A
Training...:  22% 570/2609 [32:26<2:13:31,  3.93s/it][A
Training...:  22% 571/2609 [32:29<2:09:21,  3.81s/it][A
Training...:  22% 572/2609 [32:33<2:05:55,  3.71s/it][A
Training...:  22% 573/2609 [32:36<2:02:36,  3.61s/it][A
Training...:  22% 574/2609 [32:39<1:59:15,  3.52s/it][A
Training...:  22% 575/2609 [32:43<1:56:02,  3.42s/it][A
Training...:  22% 576/2609 [32:46<1:52:47,  3.33s/it][A
Training...:  22% 577/2609 [32:49<1:50:00,  3.25s/it][A
Training...:  22% 578/2609 [32:52<1:46:26,  3.14s/it][A
Training...:  22% 579/2609 [32:54<1:42:55,  3.04s/it][A
Training...:  22% 580/2609 [32:57<1:39:30,  2.94s/it][A
Training...:  22% 581/2609 [33:00<1:36:56,  2.87s/it][A
Training...:  22% 582/2609 [33:03<1:34:34,  2.80s/it][A
Training...:  22% 583/2609 [33:05<1:31:50,  2.72s/it][A
Training...:  22% 584/2609 [33:08<1:29:49,  2.66s/it][A
Training...:  22% 585/2609 [33:10<1:26:38,  2.57s/it][A
Training...:  22% 586/2609 [33:12<1:23:14,  2.47s/it][A
Training...:  22% 587/2609 [33:14<1:20:07,  2.38s/it][A
Training...:  23% 588/2609 [33:16<1:16:37,  2.27s/it][A
Training...:  23% 589/2609 [33:18<1:12:58,  2.17s/it][A
Training...:  23% 590/2609 [33:20<1:09:38,  2.07s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:13:25<50:40:18, 9600.95s/it]
Training...:  23% 590/2609 [33:22<1:09:38,  2.07s/it][A
Training...:  23% 591/2609 [33:22<1:10:45,  2.10s/it][A
Training...:  23% 592/2609 [33:24<1:06:07,  1.97s/it][A
Training...:  23% 593/2609 [33:25<1:01:40,  1.84s/it][A
Training...:  23% 594/2609 [33:27<57:43,  1.72s/it]  [A
Training...:  23% 595/2609 [33:28<53:39,  1.60s/it][A
Training...:  23% 596/2609 [33:29<49:21,  1.47s/it][A
Training...:  23% 597/2609 [33:30<45:18,  1.35s/it][A
Training...:  23% 598/2609 [33:31<40:26,  1.21s/it][A
Training...:  23% 599/2609 [33:32<35:36,  1.06s/it][A
Training...:  23% 600/2609 [33:33<29:57,  1.12it/s][A
Training...:  23% 601/2609 [33:40<1:31:17,  2.73s/it][A
Training...:  23% 602/2609 [33:47<2:13:04,  3.98s/it][A
Training...:  23% 603/2609 [33:53<2:36:07,  4.67s/it][A
Training...:  23% 604/2609 [33:59<2:51:43,  5.14s/it][A
Training...:  23% 605/2609 [34:05<2:58:02,  5.33s/it][A
Training...:  23% 606/2609 [34:11<3:02:05,  5.45s/it][A
Training...:  23% 607/2609 [34:16<3:01:42,  5.45s/it][A
Training...:  23% 608/2609 [34:21<2:59:38,  5.39s/it][A
Training...:  23% 609/2609 [34:26<2:55:59,  5.28s/it][A
Training...:  23% 610/2609 [34:31<2:51:21,  5.14s/it][A
Training...:  23% 611/2609 [34:36<2:46:51,  5.01s/it][A
Training...:  23% 612/2609 [34:40<2:42:31,  4.88s/it][A
Training...:  23% 613/2609 [34:45<2:37:33,  4.74s/it][A
Training...:  24% 614/2609 [34:49<2:32:47,  4.60s/it][A
Training...:  24% 615/2609 [34:53<2:28:16,  4.46s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:15:00<50:40:18, 9600.95s/it]
Training...:  24% 615/2609 [34:58<2:28:16,  4.46s/it][A
Training...:  24% 616/2609 [34:58<2:30:32,  4.53s/it][A
Training...:  24% 617/2609 [35:02<2:24:22,  4.35s/it][A
Training...:  24% 618/2609 [35:06<2:19:49,  4.21s/it][A
Training...:  24% 619/2609 [35:10<2:16:33,  4.12s/it][A
Training...:  24% 620/2609 [35:13<2:12:41,  4.00s/it][A
Training...:  24% 621/2609 [35:17<2:08:19,  3.87s/it][A
Training...:  24% 622/2609 [35:20<2:04:30,  3.76s/it][A
Training...:  24% 623/2609 [35:24<2:00:24,  3.64s/it][A
Training...:  24% 624/2609 [35:27<1:57:22,  3.55s/it][A
Training...:  24% 625/2609 [35:30<1:53:53,  3.44s/it][A
Training...:  24% 626/2609 [35:33<1:50:07,  3.33s/it][A
Training...:  24% 627/2609 [35:36<1:46:42,  3.23s/it][A
Training...:  24% 628/2609 [35:39<1:43:43,  3.14s/it][A
Training...:  24% 629/2609 [35:42<1:40:59,  3.06s/it][A
Training...:  24% 630/2609 [35:45<1:37:25,  2.95s/it][A
Training...:  24% 631/2609 [35:47<1:34:22,  2.86s/it][A
Training...:  24% 632/2609 [35:50<1:31:07,  2.77s/it][A
Training...:  24% 633/2609 [35:52<1:27:46,  2.67s/it][A
Training...:  24% 634/2609 [35:55<1:24:44,  2.57s/it][A
Training...:  24% 635/2609 [35:57<1:21:42,  2.48s/it][A
Training...:  24% 636/2609 [35:59<1:18:40,  2.39s/it][A
Training...:  24% 637/2609 [36:01<1:15:45,  2.31s/it][A
Training...:  24% 638/2609 [36:03<1:12:48,  2.22s/it][A
Training...:  24% 639/2609 [36:05<1:09:53,  2.13s/it][A
Training...:  25% 640/2609 [36:07<1:07:06,  2.04s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:16:12<50:40:18, 9600.95s/it]
Training...:  25% 640/2609 [36:09<1:07:06,  2.04s/it][A
Training...:  25% 641/2609 [36:09<1:07:58,  2.07s/it][A
Training...:  25% 642/2609 [36:11<1:03:25,  1.93s/it][A
Training...:  25% 643/2609 [36:12<59:29,  1.82s/it]  [A
Training...:  25% 644/2609 [36:14<55:51,  1.71s/it][A
Training...:  25% 645/2609 [36:15<52:20,  1.60s/it][A
Training...:  25% 646/2609 [36:16<48:39,  1.49s/it][A
Training...:  25% 647/2609 [36:18<44:33,  1.36s/it][A
Training...:  25% 648/2609 [36:18<40:04,  1.23s/it][A
Training...:  25% 649/2609 [36:19<35:02,  1.07s/it][A
Training...:  25% 650/2609 [36:20<29:15,  1.12it/s][A
Training...:  25% 651/2609 [36:27<1:28:08,  2.70s/it][A
Training...:  25% 652/2609 [36:34<2:10:21,  4.00s/it][A
Training...:  25% 653/2609 [36:40<2:34:43,  4.75s/it][A
Training...:  25% 654/2609 [36:47<2:52:13,  5.29s/it][A
Training...:  25% 655/2609 [36:53<2:59:31,  5.51s/it][A
Training...:  25% 656/2609 [36:58<3:02:05,  5.59s/it][A
Training...:  25% 657/2609 [37:04<3:00:13,  5.54s/it][A
Training...:  25% 658/2609 [37:09<2:57:30,  5.46s/it][A
Training...:  25% 659/2609 [37:14<2:53:01,  5.32s/it][A
Training...:  25% 660/2609 [37:19<2:49:06,  5.21s/it][A
Training...:  25% 661/2609 [37:24<2:44:20,  5.06s/it][A
Training...:  25% 662/2609 [37:28<2:39:20,  4.91s/it][A
Training...:  25% 663/2609 [37:33<2:34:37,  4.77s/it][A
Training...:  25% 664/2609 [37:37<2:29:20,  4.61s/it][A
Training...:  25% 665/2609 [37:41<2:24:49,  4.47s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:17:48<50:40:18, 9600.95s/it]
Training...:  25% 665/2609 [37:46<2:24:49,  4.47s/it][A
Training...:  26% 666/2609 [37:46<2:26:49,  4.53s/it][A
Training...:  26% 667/2609 [37:50<2:21:08,  4.36s/it][A
Training...:  26% 668/2609 [37:54<2:16:59,  4.23s/it][A
Training...:  26% 669/2609 [37:58<2:12:37,  4.10s/it][A
Training...:  26% 670/2609 [38:01<2:07:27,  3.94s/it][A
Training...:  26% 671/2609 [38:05<2:03:50,  3.83s/it][A
Training...:  26% 672/2609 [38:08<2:00:12,  3.72s/it][A
Training...:  26% 673/2609 [38:12<1:56:30,  3.61s/it][A
Training...:  26% 674/2609 [38:15<1:52:41,  3.49s/it][A
Training...:  26% 675/2609 [38:18<1:49:51,  3.41s/it][A
Training...:  26% 676/2609 [38:21<1:46:18,  3.30s/it][A
Training...:  26% 677/2609 [38:24<1:43:16,  3.21s/it][A
Training...:  26% 678/2609 [38:27<1:40:11,  3.11s/it][A
Training...:  26% 679/2609 [38:30<1:37:06,  3.02s/it][A
Training...:  26% 680/2609 [38:32<1:34:00,  2.92s/it][A
Training...:  26% 681/2609 [38:35<1:31:20,  2.84s/it][A
Training...:  26% 682/2609 [38:38<1:28:20,  2.75s/it][A
Training...:  26% 683/2609 [38:40<1:25:50,  2.67s/it][A
Training...:  26% 684/2609 [38:42<1:22:48,  2.58s/it][A
Training...:  26% 685/2609 [38:45<1:19:47,  2.49s/it][A
Training...:  26% 686/2609 [38:47<1:17:15,  2.41s/it][A
Training...:  26% 687/2609 [38:49<1:14:25,  2.32s/it][A
Training...:  26% 688/2609 [38:51<1:11:33,  2.23s/it][A
Training...:  26% 689/2609 [38:53<1:08:53,  2.15s/it][A
Training...:  26% 690/2609 [38:55<1:06:16,  2.07s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:18:59<50:40:18, 9600.95s/it]
Training...:  26% 690/2609 [38:57<1:06:16,  2.07s/it][A
Training...:  26% 691/2609 [38:57<1:07:27,  2.11s/it][A
Training...:  27% 692/2609 [38:59<1:06:07,  2.07s/it][A
Training...:  27% 693/2609 [39:01<1:01:14,  1.92s/it][A
Training...:  27% 694/2609 [39:02<56:37,  1.77s/it]  [A
Training...:  27% 695/2609 [39:03<52:30,  1.65s/it][A
Training...:  27% 696/2609 [39:05<48:15,  1.51s/it][A
Training...:  27% 697/2609 [39:06<44:02,  1.38s/it][A
Training...:  27% 698/2609 [39:07<39:53,  1.25s/it][A
Training...:  27% 699/2609 [39:07<34:59,  1.10s/it][A
Training...:  27% 700/2609 [39:08<29:10,  1.09it/s][A
Training...:  27% 701/2609 [39:15<1:24:37,  2.66s/it][A
Training...:  27% 702/2609 [39:22<2:05:18,  3.94s/it][A
Training...:  27% 703/2609 [39:28<2:29:12,  4.70s/it][A
Training...:  27% 704/2609 [39:34<2:44:02,  5.17s/it][A
Training...:  27% 705/2609 [39:40<2:50:14,  5.36s/it][A
Training...:  27% 706/2609 [39:46<2:52:50,  5.45s/it][A
Training...:  27% 707/2609 [39:51<2:51:24,  5.41s/it][A
Training...:  27% 708/2609 [39:56<2:49:54,  5.36s/it][A
Training...:  27% 709/2609 [40:01<2:46:22,  5.25s/it][A
Training...:  27% 710/2609 [40:06<2:43:24,  5.16s/it][A
Training...:  27% 711/2609 [40:11<2:38:58,  5.03s/it][A
Training...:  27% 712/2609 [40:16<2:34:37,  4.89s/it][A
Training...:  27% 713/2609 [40:20<2:29:50,  4.74s/it][A
Training...:  27% 714/2609 [40:24<2:25:16,  4.60s/it][A
Training...:  27% 715/2609 [40:28<2:20:43,  4.46s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:20:35<50:40:18, 9600.95s/it]
Training...:  27% 715/2609 [40:33<2:20:43,  4.46s/it][A
Training...:  27% 716/2609 [40:33<2:22:31,  4.52s/it][A
Training...:  27% 717/2609 [40:37<2:16:22,  4.32s/it][A
Training...:  28% 718/2609 [40:41<2:10:59,  4.16s/it][A
Training...:  28% 719/2609 [40:44<2:06:27,  4.01s/it][A
Training...:  28% 720/2609 [40:48<2:02:06,  3.88s/it][A
Training...:  28% 721/2609 [40:51<1:58:38,  3.77s/it][A
Training...:  28% 722/2609 [40:55<1:54:50,  3.65s/it][A
Training...:  28% 723/2609 [40:58<1:51:41,  3.55s/it][A
Training...:  28% 724/2609 [41:01<1:48:15,  3.45s/it][A
Training...:  28% 725/2609 [41:04<1:45:49,  3.37s/it][A
Training...:  28% 726/2609 [41:08<1:42:27,  3.26s/it][A
Training...:  28% 727/2609 [41:11<1:40:09,  3.19s/it][A
Training...:  28% 728/2609 [41:13<1:37:30,  3.11s/it][A
Training...:  28% 729/2609 [41:16<1:34:27,  3.01s/it][A
Training...:  28% 730/2609 [41:19<1:31:24,  2.92s/it][A
Training...:  28% 731/2609 [41:22<1:28:36,  2.83s/it][A
Training...:  28% 732/2609 [41:24<1:25:25,  2.73s/it][A
Training...:  28% 733/2609 [41:27<1:22:36,  2.64s/it][A
Training...:  28% 734/2609 [41:29<1:19:52,  2.56s/it][A
Training...:  28% 735/2609 [41:31<1:17:11,  2.47s/it][A
Training...:  28% 736/2609 [41:33<1:14:57,  2.40s/it][A
Training...:  28% 737/2609 [41:35<1:12:24,  2.32s/it][A
Training...:  28% 738/2609 [41:38<1:09:27,  2.23s/it][A
Training...:  28% 739/2609 [41:39<1:06:47,  2.14s/it][A
Training...:  28% 740/2609 [41:41<1:04:06,  2.06s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:21:46<50:40:18, 9600.95s/it]
Training...:  28% 740/2609 [41:44<1:04:06,  2.06s/it][A
Training...:  28% 741/2609 [41:44<1:05:42,  2.11s/it][A
Training...:  28% 742/2609 [41:45<1:02:00,  1.99s/it][A
Training...:  28% 743/2609 [41:47<58:37,  1.88s/it]  [A
Training...:  29% 744/2609 [41:48<54:36,  1.76s/it][A
Training...:  29% 745/2609 [41:50<50:54,  1.64s/it][A
Training...:  29% 746/2609 [41:51<47:06,  1.52s/it][A
Training...:  29% 747/2609 [41:52<43:02,  1.39s/it][A
Training...:  29% 748/2609 [41:53<38:53,  1.25s/it][A
Training...:  29% 749/2609 [41:54<34:13,  1.10s/it][A
Training...:  29% 750/2609 [41:54<28:48,  1.08it/s][A
Training...:  29% 751/2609 [42:01<1:26:23,  2.79s/it][A
Training...:  29% 752/2609 [42:08<2:05:20,  4.05s/it][A
Training...:  29% 753/2609 [42:15<2:27:49,  4.78s/it][A
Training...:  29% 754/2609 [42:21<2:40:26,  5.19s/it][A
Training...:  29% 755/2609 [42:27<2:45:20,  5.35s/it][A
Training...:  29% 756/2609 [42:32<2:47:26,  5.42s/it][A
Training...:  29% 757/2609 [42:38<2:45:22,  5.36s/it][A
Training...:  29% 758/2609 [42:43<2:42:32,  5.27s/it][A
Training...:  29% 759/2609 [42:47<2:38:54,  5.15s/it][A
Training...:  29% 760/2609 [42:52<2:35:05,  5.03s/it][A
Training...:  29% 761/2609 [42:57<2:31:17,  4.91s/it][A
Training...:  29% 762/2609 [43:01<2:26:33,  4.76s/it][A
Training...:  29% 763/2609 [43:06<2:22:13,  4.62s/it][A
Training...:  29% 764/2609 [43:10<2:17:26,  4.47s/it][A
Training...:  29% 765/2609 [43:14<2:13:04,  4.33s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:23:21<50:40:18, 9600.95s/it]
Training...:  29% 765/2609 [43:18<2:13:04,  4.33s/it][A
Training...:  29% 766/2609 [43:18<2:15:46,  4.42s/it][A
Training...:  29% 767/2609 [43:22<2:10:38,  4.26s/it][A
Training...:  29% 768/2609 [43:26<2:05:00,  4.07s/it][A
Training...:  29% 769/2609 [43:29<2:00:39,  3.93s/it][A
Training...:  30% 770/2609 [43:33<1:57:00,  3.82s/it][A
Training...:  30% 771/2609 [43:36<1:53:14,  3.70s/it][A
Training...:  30% 772/2609 [43:40<1:49:59,  3.59s/it][A
Training...:  30% 773/2609 [43:43<1:46:45,  3.49s/it][A
Training...:  30% 774/2609 [43:46<1:43:17,  3.38s/it][A
Training...:  30% 775/2609 [43:49<1:40:42,  3.29s/it][A
Training...:  30% 776/2609 [43:52<1:38:20,  3.22s/it][A
Training...:  30% 777/2609 [43:55<1:35:36,  3.13s/it][A
Training...:  30% 778/2609 [43:58<1:32:39,  3.04s/it][A
Training...:  30% 779/2609 [44:01<1:30:07,  2.95s/it][A
Training...:  30% 780/2609 [44:03<1:27:12,  2.86s/it][A
Training...:  30% 781/2609 [44:06<1:24:41,  2.78s/it][A
Training...:  30% 782/2609 [44:09<1:22:20,  2.70s/it][A
Training...:  30% 783/2609 [44:11<1:19:49,  2.62s/it][A
Training...:  30% 784/2609 [44:13<1:17:23,  2.54s/it][A
Training...:  30% 785/2609 [44:16<1:14:48,  2.46s/it][A
Training...:  30% 786/2609 [44:18<1:12:23,  2.38s/it][A
Training...:  30% 787/2609 [44:20<1:09:39,  2.29s/it][A
Training...:  30% 788/2609 [44:22<1:06:59,  2.21s/it][A
Training...:  30% 789/2609 [44:24<1:04:46,  2.14s/it][A
Training...:  30% 790/2609 [44:26<1:02:09,  2.05s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:24:30<50:40:18, 9600.95s/it]
Training...:  30% 790/2609 [44:28<1:02:09,  2.05s/it][A
Training...:  30% 791/2609 [44:28<1:03:37,  2.10s/it][A
Training...:  30% 792/2609 [44:30<59:19,  1.96s/it]  [A
Training...:  30% 793/2609 [44:31<55:32,  1.84s/it][A
Training...:  30% 794/2609 [44:33<51:43,  1.71s/it][A
Training...:  30% 795/2609 [44:34<48:04,  1.59s/it][A
Training...:  31% 796/2609 [44:35<44:13,  1.46s/it][A
Training...:  31% 797/2609 [44:36<40:17,  1.33s/it][A
Training...:  31% 798/2609 [44:37<36:02,  1.19s/it][A
Training...:  31% 799/2609 [44:38<32:06,  1.06s/it][A
Training...:  31% 800/2609 [44:38<26:58,  1.12it/s][A
Training...:  31% 801/2609 [44:45<1:21:08,  2.69s/it][A
Training...:  31% 802/2609 [44:52<2:00:20,  4.00s/it][A
Training...:  31% 803/2609 [44:59<2:22:51,  4.75s/it][A
Training...:  31% 804/2609 [45:05<2:36:53,  5.22s/it][A
Training...:  31% 805/2609 [45:11<2:42:38,  5.41s/it][A
Training...:  31% 806/2609 [45:17<2:47:12,  5.56s/it][A
Training...:  31% 807/2609 [45:22<2:45:59,  5.53s/it][A
Training...:  31% 808/2609 [45:27<2:43:28,  5.45s/it][A
Training...:  31% 809/2609 [45:32<2:39:56,  5.33s/it][A
Training...:  31% 810/2609 [45:37<2:36:12,  5.21s/it][A
Training...:  31% 811/2609 [45:42<2:31:46,  5.06s/it][A
Training...:  31% 812/2609 [45:47<2:27:03,  4.91s/it][A
Training...:  31% 813/2609 [45:51<2:22:45,  4.77s/it][A
Training...:  31% 814/2609 [45:55<2:18:17,  4.62s/it][A
Training...:  31% 815/2609 [46:00<2:14:00,  4.48s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:26:06<50:40:18, 9600.95s/it]
Training...:  31% 815/2609 [46:04<2:14:00,  4.48s/it][A
Training...:  31% 816/2609 [46:04<2:15:15,  4.53s/it][A
Training...:  31% 817/2609 [46:08<2:09:17,  4.33s/it][A
Training...:  31% 818/2609 [46:12<2:05:08,  4.19s/it][A
Training...:  31% 819/2609 [46:16<2:01:21,  4.07s/it][A
Training...:  31% 820/2609 [46:19<1:57:27,  3.94s/it][A
Training...:  31% 821/2609 [46:23<1:53:45,  3.82s/it][A
Training...:  32% 822/2609 [46:26<1:50:28,  3.71s/it][A
Training...:  32% 823/2609 [46:30<1:47:03,  3.60s/it][A
Training...:  32% 824/2609 [46:33<1:43:56,  3.49s/it][A
Training...:  32% 825/2609 [46:36<1:40:46,  3.39s/it][A
Training...:  32% 826/2609 [46:39<1:37:37,  3.29s/it][A
Training...:  32% 827/2609 [46:42<1:34:44,  3.19s/it][A
Training...:  32% 828/2609 [46:45<1:31:55,  3.10s/it][A
Training...:  32% 829/2609 [46:48<1:29:10,  3.01s/it][A
Training...:  32% 830/2609 [46:50<1:26:41,  2.92s/it][A
Training...:  32% 831/2609 [46:53<1:24:15,  2.84s/it][A
Training...:  32% 832/2609 [46:56<1:21:39,  2.76s/it][A
Training...:  32% 833/2609 [46:58<1:19:03,  2.67s/it][A
Training...:  32% 834/2609 [47:00<1:16:28,  2.58s/it][A
Training...:  32% 835/2609 [47:03<1:14:08,  2.51s/it][A
Training...:  32% 836/2609 [47:05<1:11:52,  2.43s/it][A
Training...:  32% 837/2609 [47:07<1:09:54,  2.37s/it][A
Training...:  32% 838/2609 [47:09<1:06:58,  2.27s/it][A
Training...:  32% 839/2609 [47:11<1:04:08,  2.17s/it][A
Training...:  32% 840/2609 [47:13<1:00:57,  2.07s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:27:17<50:40:18, 9600.95s/it]
Training...:  32% 840/2609 [47:15<1:00:57,  2.07s/it][A
Training...:  32% 841/2609 [47:15<1:01:50,  2.10s/it][A
Training...:  32% 842/2609 [47:17<57:43,  1.96s/it]  [A
Training...:  32% 843/2609 [47:18<53:47,  1.83s/it][A
Training...:  32% 844/2609 [47:20<50:01,  1.70s/it][A
Training...:  32% 845/2609 [47:21<46:23,  1.58s/it][A
Training...:  32% 846/2609 [47:22<42:57,  1.46s/it][A
Training...:  32% 847/2609 [47:23<39:25,  1.34s/it][A
Training...:  33% 848/2609 [47:24<35:37,  1.21s/it][A
Training...:  33% 849/2609 [47:25<31:26,  1.07s/it][A
Training...:  33% 850/2609 [47:26<26:37,  1.10it/s][A
Training...:  33% 851/2609 [47:33<1:19:55,  2.73s/it][A
Training...:  33% 852/2609 [47:39<1:56:57,  3.99s/it][A
Training...:  33% 853/2609 [47:46<2:18:41,  4.74s/it][A
Training...:  33% 854/2609 [47:52<2:31:50,  5.19s/it][A
Training...:  33% 855/2609 [47:58<2:36:50,  5.36s/it][A
Training...:  33% 856/2609 [48:04<2:39:10,  5.45s/it][A
Training...:  33% 857/2609 [48:09<2:38:17,  5.42s/it][A
Training...:  33% 858/2609 [48:14<2:36:06,  5.35s/it][A
Training...:  33% 859/2609 [48:19<2:32:57,  5.24s/it][A
Training...:  33% 860/2609 [48:24<2:29:55,  5.14s/it][A
Training...:  33% 861/2609 [48:29<2:25:47,  5.00s/it][A
Training...:  33% 862/2609 [48:33<2:21:49,  4.87s/it][A
Training...:  33% 863/2609 [48:38<2:17:42,  4.73s/it][A
Training...:  33% 864/2609 [48:42<2:13:51,  4.60s/it][A
Training...:  33% 865/2609 [48:46<2:10:01,  4.47s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:28:53<50:40:18, 9600.95s/it]
Training...:  33% 865/2609 [48:51<2:10:01,  4.47s/it][A
Training...:  33% 866/2609 [48:51<2:12:05,  4.55s/it][A
Training...:  33% 867/2609 [48:55<2:06:24,  4.35s/it][A
Training...:  33% 868/2609 [48:59<2:03:08,  4.24s/it][A
Training...:  33% 869/2609 [49:03<2:00:08,  4.14s/it][A
Training...:  33% 870/2609 [49:06<1:55:45,  3.99s/it][A
Training...:  33% 871/2609 [49:10<1:51:42,  3.86s/it][A
Training...:  33% 872/2609 [49:13<1:47:45,  3.72s/it][A
Training...:  33% 873/2609 [49:17<1:43:59,  3.59s/it][A
Training...:  33% 874/2609 [49:20<1:40:57,  3.49s/it][A
Training...:  34% 875/2609 [49:23<1:38:02,  3.39s/it][A
Training...:  34% 876/2609 [49:26<1:34:46,  3.28s/it][A
Training...:  34% 877/2609 [49:29<1:32:11,  3.19s/it][A
Training...:  34% 878/2609 [49:32<1:29:44,  3.11s/it][A
Training...:  34% 879/2609 [49:35<1:27:16,  3.03s/it][A
Training...:  34% 880/2609 [49:37<1:24:22,  2.93s/it][A
Training...:  34% 881/2609 [49:40<1:21:53,  2.84s/it][A
Training...:  34% 882/2609 [49:43<1:19:05,  2.75s/it][A
Training...:  34% 883/2609 [49:45<1:16:54,  2.67s/it][A
Training...:  34% 884/2609 [49:48<1:14:22,  2.59s/it][A
Training...:  34% 885/2609 [49:50<1:11:58,  2.51s/it][A
Training...:  34% 886/2609 [49:52<1:09:42,  2.43s/it][A
Training...:  34% 887/2609 [49:54<1:07:28,  2.35s/it][A
Training...:  34% 888/2609 [49:56<1:04:52,  2.26s/it][A
Training...:  34% 889/2609 [49:58<1:02:38,  2.19s/it][A
Training...:  34% 890/2609 [50:00<1:00:04,  2.10s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:30:05<50:40:18, 9600.95s/it]
Training...:  34% 890/2609 [50:02<1:00:04,  2.10s/it][A
Training...:  34% 891/2609 [50:02<1:00:59,  2.13s/it][A
Training...:  34% 892/2609 [50:04<57:02,  1.99s/it]  [A
Training...:  34% 893/2609 [50:06<53:17,  1.86s/it][A
Training...:  34% 894/2609 [50:07<49:41,  1.74s/it][A
Training...:  34% 895/2609 [50:08<46:12,  1.62s/it][A
Training...:  34% 896/2609 [50:10<43:02,  1.51s/it][A
Training...:  34% 897/2609 [50:11<39:32,  1.39s/it][A
Training...:  34% 898/2609 [50:12<35:41,  1.25s/it][A
Training...:  34% 899/2609 [50:12<31:24,  1.10s/it][A
Training...:  34% 900/2609 [50:13<26:26,  1.08it/s][A
Training...:  35% 901/2609 [50:20<1:17:21,  2.72s/it][A
Training...:  35% 902/2609 [50:27<1:52:37,  3.96s/it][A
Training...:  35% 903/2609 [50:33<2:11:55,  4.64s/it][A
Training...:  35% 904/2609 [50:39<2:24:13,  5.08s/it][A
Training...:  35% 905/2609 [50:45<2:29:29,  5.26s/it][A
Training...:  35% 906/2609 [50:50<2:31:58,  5.35s/it][A
Training...:  35% 907/2609 [50:56<2:30:54,  5.32s/it][A
Training...:  35% 908/2609 [51:01<2:29:33,  5.28s/it][A
Training...:  35% 909/2609 [51:06<2:25:30,  5.14s/it][A
Training...:  35% 910/2609 [51:10<2:22:52,  5.05s/it][A
Training...:  35% 911/2609 [51:15<2:19:40,  4.94s/it][A
Training...:  35% 912/2609 [51:20<2:17:04,  4.85s/it][A
Training...:  35% 913/2609 [51:24<2:13:06,  4.71s/it][A
Training...:  35% 914/2609 [51:28<2:08:35,  4.55s/it][A
Training...:  35% 915/2609 [51:32<2:04:26,  4.41s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:31:39<50:40:18, 9600.95s/it]
Training...:  35% 915/2609 [51:37<2:04:26,  4.41s/it][A
Training...:  35% 916/2609 [51:37<2:06:13,  4.47s/it][A
Training...:  35% 917/2609 [51:41<2:00:48,  4.28s/it][A
Training...:  35% 918/2609 [51:45<1:55:58,  4.11s/it][A
Training...:  35% 919/2609 [51:48<1:51:35,  3.96s/it][A
Training...:  35% 920/2609 [51:52<1:47:50,  3.83s/it][A
Training...:  35% 921/2609 [51:55<1:44:24,  3.71s/it][A
Training...:  35% 922/2609 [51:58<1:41:09,  3.60s/it][A
Training...:  35% 923/2609 [52:02<1:37:57,  3.49s/it][A
Training...:  35% 924/2609 [52:05<1:35:24,  3.40s/it][A
Training...:  35% 925/2609 [52:08<1:32:40,  3.30s/it][A
Training...:  35% 926/2609 [52:11<1:30:06,  3.21s/it][A
Training...:  36% 927/2609 [52:14<1:27:44,  3.13s/it][A
Training...:  36% 928/2609 [52:17<1:25:21,  3.05s/it][A
Training...:  36% 929/2609 [52:19<1:22:55,  2.96s/it][A
Training...:  36% 930/2609 [52:22<1:20:35,  2.88s/it][A
Training...:  36% 931/2609 [52:25<1:18:07,  2.79s/it][A
Training...:  36% 932/2609 [52:27<1:16:14,  2.73s/it][A
Training...:  36% 933/2609 [52:30<1:13:46,  2.64s/it][A
Training...:  36% 934/2609 [52:32<1:11:18,  2.55s/it][A
Training...:  36% 935/2609 [52:34<1:09:04,  2.48s/it][A
Training...:  36% 936/2609 [52:37<1:06:42,  2.39s/it][A
Training...:  36% 937/2609 [52:39<1:04:43,  2.32s/it][A
Training...:  36% 938/2609 [52:41<1:02:17,  2.24s/it][A
Training...:  36% 939/2609 [52:43<59:46,  2.15s/it]  [A
Training...:  36% 940/2609 [52:45<57:19,  2.06s/it][A                                                           
                                                   [AEpoch ... (1/20):   5% 1/20 [3:32:49<50:40:18, 9600.95s/it]
Training...:  36% 940/2609 [52:47<57:19,  2.06s/it][A
Training...:  36% 941/2609 [52:47<58:26,  2.10s/it][A
Training...:  36% 942/2609 [52:49<55:01,  1.98s/it][A
Training...:  36% 943/2609 [52:50<51:36,  1.86s/it][A
Training...:  36% 944/2609 [52:52<48:13,  1.74s/it][A
Training...:  36% 945/2609 [52:53<44:57,  1.62s/it][A
Training...:  36% 946/2609 [52:54<42:00,  1.52s/it][A
Training...:  36% 947/2609 [52:55<38:40,  1.40s/it][A
Training...:  36% 948/2609 [52:56<35:06,  1.27s/it][A
Training...:  36% 949/2609 [52:57<31:04,  1.12s/it][A
Training...:  36% 950/2609 [52:58<26:11,  1.06it/s][A
Training...:  36% 951/2609 [53:04<1:15:28,  2.73s/it][A
Training...:  36% 952/2609 [53:11<1:49:13,  3.96s/it][A
Training...:  37% 953/2609 [53:18<2:08:40,  4.66s/it][A
Training...:  37% 954/2609 [53:24<2:22:32,  5.17s/it][A
Training...:  37% 955/2609 [53:30<2:27:52,  5.36s/it][A
Training...:  37% 956/2609 [53:35<2:30:01,  5.45s/it][A
Training...:  37% 957/2609 [53:41<2:28:54,  5.41s/it][A
Training...:  37% 958/2609 [53:46<2:27:01,  5.34s/it][A
Training...:  37% 959/2609 [53:51<2:23:47,  5.23s/it][A
Training...:  37% 960/2609 [53:56<2:21:19,  5.14s/it][A
Training...:  37% 961/2609 [54:00<2:17:23,  5.00s/it][A
Training...:  37% 962/2609 [54:05<2:14:01,  4.88s/it][A
Training...:  37% 963/2609 [54:10<2:10:19,  4.75s/it][A
Training...:  37% 964/2609 [54:14<2:07:01,  4.63s/it][A
Training...:  37% 965/2609 [54:18<2:03:18,  4.50s/it][A                                                           
                                                     [AEpoch ... (1/20):   5% 1/20 [3:34:25<50:40:18, 9600.95s/it]
Training...:  37% 965/2609 [54:23<2:03:18,  4.50s/it][A
Training...:  37% 966/2609 [54:23<2:04:50,  4.56s/it][A
Training...:  37% 967/2609 [54:27<1:59:54,  4.38s/it][A
Training...:  37% 968/2609 [54:31<1:55:12,  4.21s/it][A
Training...:  37% 969/2609 [54:34<1:51:19,  4.07s/it][A
Training...:  37% 970/2609 [54:38<1:48:24,  3.97s/it][A
Training...:  37% 971/2609 [54:42<1:44:56,  3.84s/it][A
Training...:  37% 972/2609 [54:45<1:41:41,  3.73s/it][A
Training...:  37% 973/2609 [54:48<1:38:16,  3.60s/it][A
Training...:  37% 974/2609 [54:52<1:35:31,  3.51s/it][A
Training...:  37% 975/2609 [54:55<1:32:44,  3.41s/it][A
Training...:  37% 976/2609 [54:58<1:30:48,  3.34s/it][A
Training...:  37% 977/2609 [55:01<1:28:35,  3.26s/it][A
Training...:  37% 978/2609 [55:04<1:25:34,  3.15s/it][A
Training...:  38% 979/2609 [55:07<1:22:45,  3.05s/it][A
Training...:  38% 980/2609 [55:09<1:20:07,  2.95s/it][A
Training...:  38% 981/2609 [55:12<1:17:35,  2.86s/it][A
Training...:  38% 982/2609 [55:15<1:14:59,  2.77s/it][A
Training...:  38% 983/2609 [55:17<1:12:20,  2.67s/it][A
Training...:  38% 984/2609 [55:19<1:09:35,  2.57s/it][A
Training...:  38% 985/2609 [55:22<1:07:06,  2.48s/it][A
Training...:  38% 986/2609 [55:24<1:04:53,  2.40s/it][A
Training...:  38% 987/2609 [55:26<1:02:52,  2.33s/it][A
Training...:  38% 988/2609 [55:28<1:00:44,  2.25s/it][A
Training...:  38% 989/2609 [55:30<58:27,  2.16s/it]  [A
Training...:  38% 990/2609 [55:32<56:03,  2.08s/it][A                                                           
                                                   [AEpoch ... (1/20):   5% 1/20 [3:35:36<50:40:18, 9600.95s/it]
Training...:  38% 990/2609 [55:34<56:03,  2.08s/it][A
Training...:  38% 991/2609 [55:34<57:08,  2.12s/it][A
Training...:  38% 992/2609 [55:36<53:35,  1.99s/it][A
Training...:  38% 993/2609 [55:37<50:17,  1.87s/it][A
Training...:  38% 994/2609 [55:39<46:50,  1.74s/it][A
Training...:  38% 995/2609 [55:40<43:34,  1.62s/it][A
Training...:  38% 996/2609 [55:41<40:20,  1.50s/it][A
Training...:  38% 997/2609 [55:43<36:59,  1.38s/it][A
Training...:  38% 998/2609 [55:44<33:37,  1.25s/it][A
Training...:  38% 999/2609 [55:44<29:53,  1.11s/it][A
Training...:  38% 1000/2609 [55:45<25:09,  1.07it/s][A
Training...:  38% 1001/2609 [55:52<1:12:53,  2.72s/it][A
Training...:  38% 1002/2609 [55:59<1:46:46,  3.99s/it][A
Training...:  38% 1003/2609 [56:05<2:06:07,  4.71s/it][A
Training...:  38% 1004/2609 [56:11<2:17:50,  5.15s/it][A
Training...:  39% 1005/2609 [56:17<2:23:36,  5.37s/it][A
Training...:  39% 1006/2609 [56:23<2:25:58,  5.46s/it][A
Training...:  39% 1007/2609 [56:28<2:25:20,  5.44s/it][A
Training...:  39% 1008/2609 [56:34<2:24:43,  5.42s/it][A
Training...:  39% 1009/2609 [56:39<2:22:06,  5.33s/it][A
Training...:  39% 1010/2609 [56:43<2:17:25,  5.16s/it][A
Training...:  39% 1011/2609 [56:48<2:13:35,  5.02s/it][A
Training...:  39% 1012/2609 [56:53<2:08:53,  4.84s/it][A
Training...:  39% 1013/2609 [56:57<2:04:54,  4.70s/it][A
Training...:  39% 1014/2609 [57:01<2:01:17,  4.56s/it][A
Training...:  39% 1015/2609 [57:05<1:57:47,  4.43s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [3:37:12<50:40:18, 9600.95s/it]
Training...:  39% 1015/2609 [57:10<1:57:47,  4.43s/it][A
Training...:  39% 1016/2609 [57:10<1:59:24,  4.50s/it][A
Training...:  39% 1017/2609 [57:14<1:54:25,  4.31s/it][A
Training...:  39% 1018/2609 [57:18<1:49:56,  4.15s/it][A
Training...:  39% 1019/2609 [57:21<1:46:15,  4.01s/it][A
Training...:  39% 1020/2609 [57:25<1:42:25,  3.87s/it][A
Training...:  39% 1021/2609 [57:28<1:39:08,  3.75s/it][A
Training...:  39% 1022/2609 [57:32<1:36:05,  3.63s/it][A
Training...:  39% 1023/2609 [57:35<1:33:39,  3.54s/it][A
Training...:  39% 1024/2609 [57:38<1:31:10,  3.45s/it][A
Training...:  39% 1025/2609 [57:41<1:28:55,  3.37s/it][A
Training...:  39% 1026/2609 [57:44<1:26:23,  3.27s/it][A
Training...:  39% 1027/2609 [57:47<1:24:11,  3.19s/it][A
Training...:  39% 1028/2609 [57:50<1:22:03,  3.11s/it][A
Training...:  39% 1029/2609 [57:53<1:19:51,  3.03s/it][A
Training...:  39% 1030/2609 [57:56<1:17:37,  2.95s/it][A
Training...:  40% 1031/2609 [57:59<1:15:30,  2.87s/it][A
Training...:  40% 1032/2609 [58:01<1:13:00,  2.78s/it][A
Training...:  40% 1033/2609 [58:04<1:10:56,  2.70s/it][A
Training...:  40% 1034/2609 [58:06<1:08:19,  2.60s/it][A
Training...:  40% 1035/2609 [58:08<1:05:59,  2.52s/it][A
Training...:  40% 1036/2609 [58:11<1:04:05,  2.44s/it][A
Training...:  40% 1037/2609 [58:13<1:01:38,  2.35s/it][A
Training...:  40% 1038/2609 [58:15<59:02,  2.25s/it]  [A
Training...:  40% 1039/2609 [58:17<56:33,  2.16s/it][A
Training...:  40% 1040/2609 [58:19<54:06,  2.07s/it][A                                                           
                                                    [AEpoch ... (1/20):   5% 1/20 [3:38:23<50:40:18, 9600.95s/it]
Training...:  40% 1040/2609 [58:21<54:06,  2.07s/it][A
Training...:  40% 1041/2609 [58:21<55:18,  2.12s/it][A
Training...:  40% 1042/2609 [58:23<51:45,  1.98s/it][A
Training...:  40% 1043/2609 [58:24<48:42,  1.87s/it][A
Training...:  40% 1044/2609 [58:26<45:29,  1.74s/it][A
Training...:  40% 1045/2609 [58:27<42:45,  1.64s/it][A
Training...:  40% 1046/2609 [58:28<39:35,  1.52s/it][A
Training...:  40% 1047/2609 [58:29<36:17,  1.39s/it][A
Training...:  40% 1048/2609 [58:30<32:49,  1.26s/it][A
Training...:  40% 1049/2609 [58:31<28:47,  1.11s/it][A
Training...:  40% 1050/2609 [58:32<24:02,  1.08it/s][A
Training...:  40% 1051/2609 [58:39<1:11:26,  2.75s/it][A
Training...:  40% 1052/2609 [58:45<1:43:20,  3.98s/it][A
Training...:  40% 1053/2609 [58:52<2:01:32,  4.69s/it][A
Training...:  40% 1054/2609 [58:58<2:12:06,  5.10s/it][A
Training...:  40% 1055/2609 [59:04<2:17:07,  5.29s/it][A
Training...:  40% 1056/2609 [59:09<2:19:12,  5.38s/it][A
Training...:  41% 1057/2609 [59:14<2:18:38,  5.36s/it][A
Training...:  41% 1058/2609 [59:20<2:17:11,  5.31s/it][A
Training...:  41% 1059/2609 [59:25<2:14:10,  5.19s/it][A
Training...:  41% 1060/2609 [59:29<2:10:54,  5.07s/it][A
Training...:  41% 1061/2609 [59:34<2:06:46,  4.91s/it][A
Training...:  41% 1062/2609 [59:38<2:03:09,  4.78s/it][A
Training...:  41% 1063/2609 [59:43<1:58:59,  4.62s/it][A
Training...:  41% 1064/2609 [59:47<1:55:15,  4.48s/it][A
Training...:  41% 1065/2609 [59:51<1:52:13,  4.36s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [3:39:58<50:40:18, 9600.95s/it]
Training...:  41% 1065/2609 [59:55<1:52:13,  4.36s/it][A
Training...:  41% 1066/2609 [59:55<1:53:33,  4.42s/it][A
Training...:  41% 1067/2609 [59:59<1:48:28,  4.22s/it][A
Training...:  41% 1068/2609 [1:00:03<1:44:19,  4.06s/it][A
Training...:  41% 1069/2609 [1:00:07<1:41:03,  3.94s/it][A
Training...:  41% 1070/2609 [1:00:10<1:37:24,  3.80s/it][A
Training...:  41% 1071/2609 [1:00:13<1:34:40,  3.69s/it][A
Training...:  41% 1072/2609 [1:00:17<1:31:49,  3.58s/it][A
Training...:  41% 1073/2609 [1:00:20<1:30:14,  3.53s/it][A
Training...:  41% 1074/2609 [1:00:23<1:28:12,  3.45s/it][A
Training...:  41% 1075/2609 [1:00:27<1:25:54,  3.36s/it][A
Training...:  41% 1076/2609 [1:00:30<1:23:09,  3.25s/it][A
Training...:  41% 1077/2609 [1:00:33<1:20:45,  3.16s/it][A
Training...:  41% 1078/2609 [1:00:35<1:17:58,  3.06s/it][A
Training...:  41% 1079/2609 [1:00:38<1:15:37,  2.97s/it][A
Training...:  41% 1080/2609 [1:00:41<1:13:40,  2.89s/it][A
Training...:  41% 1081/2609 [1:00:43<1:11:38,  2.81s/it][A
Training...:  41% 1082/2609 [1:00:46<1:09:26,  2.73s/it][A
Training...:  42% 1083/2609 [1:00:48<1:07:01,  2.64s/it][A
Training...:  42% 1084/2609 [1:00:51<1:04:42,  2.55s/it][A
Training...:  42% 1085/2609 [1:00:53<1:02:25,  2.46s/it][A
Training...:  42% 1086/2609 [1:00:55<1:00:09,  2.37s/it][A
Training...:  42% 1087/2609 [1:00:57<58:02,  2.29s/it]  [A
Training...:  42% 1088/2609 [1:00:59<55:56,  2.21s/it][A
Training...:  42% 1089/2609 [1:01:01<54:05,  2.14s/it][A
Training...:  42% 1090/2609 [1:01:03<51:41,  2.04s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [3:41:07<50:40:18, 9600.95s/it]
Training...:  42% 1090/2609 [1:01:05<51:41,  2.04s/it][A
Training...:  42% 1091/2609 [1:01:05<52:43,  2.08s/it][A
Training...:  42% 1092/2609 [1:01:07<49:16,  1.95s/it][A
Training...:  42% 1093/2609 [1:01:08<46:20,  1.83s/it][A
Training...:  42% 1094/2609 [1:01:10<43:16,  1.71s/it][A
Training...:  42% 1095/2609 [1:01:11<40:23,  1.60s/it][A
Training...:  42% 1096/2609 [1:01:12<37:35,  1.49s/it][A
Training...:  42% 1097/2609 [1:01:14<34:33,  1.37s/it][A
Training...:  42% 1098/2609 [1:01:14<31:18,  1.24s/it][A
Training...:  42% 1099/2609 [1:01:15<27:38,  1.10s/it][A
Training...:  42% 1100/2609 [1:01:16<23:25,  1.07it/s][A
Training...:  42% 1101/2609 [1:01:23<1:08:08,  2.71s/it][A
Training...:  42% 1102/2609 [1:01:30<1:39:50,  3.97s/it][A
Training...:  42% 1103/2609 [1:01:36<1:57:32,  4.68s/it][A
Training...:  42% 1104/2609 [1:01:42<2:08:22,  5.12s/it][A
Training...:  42% 1105/2609 [1:01:48<2:13:32,  5.33s/it][A
Training...:  42% 1106/2609 [1:01:53<2:15:07,  5.39s/it][A
Training...:  42% 1107/2609 [1:01:59<2:14:07,  5.36s/it][A
Training...:  42% 1108/2609 [1:02:04<2:13:09,  5.32s/it][A
Training...:  43% 1109/2609 [1:02:09<2:11:05,  5.24s/it][A
Training...:  43% 1110/2609 [1:02:14<2:07:50,  5.12s/it][A
Training...:  43% 1111/2609 [1:02:19<2:04:47,  5.00s/it][A
Training...:  43% 1112/2609 [1:02:23<2:01:42,  4.88s/it][A
Training...:  43% 1113/2609 [1:02:28<1:58:45,  4.76s/it][A
Training...:  43% 1114/2609 [1:02:32<1:55:15,  4.63s/it][A
Training...:  43% 1115/2609 [1:02:36<1:51:30,  4.48s/it][A                                                           
                                                        [AEpoch ... (1/20):   5% 1/20 [3:42:43<50:40:18, 9600.95s/it]
Training...:  43% 1115/2609 [1:02:41<1:51:30,  4.48s/it][A
Training...:  43% 1116/2609 [1:02:41<1:52:25,  4.52s/it][A
Training...:  43% 1117/2609 [1:02:45<1:47:26,  4.32s/it][A
Training...:  43% 1118/2609 [1:02:48<1:43:40,  4.17s/it][A
Training...:  43% 1119/2609 [1:02:52<1:41:06,  4.07s/it][A
Training...:  43% 1120/2609 [1:02:56<1:37:56,  3.95s/it][A
Training...:  43% 1121/2609 [1:02:59<1:35:40,  3.86s/it][A
Training...:  43% 1122/2609 [1:03:03<1:32:18,  3.72s/it][A
Training...:  43% 1123/2609 [1:03:06<1:29:41,  3.62s/it][A
Training...:  43% 1124/2609 [1:03:09<1:26:25,  3.49s/it][A
Training...:  43% 1125/2609 [1:03:13<1:23:56,  3.39s/it][A
Training...:  43% 1126/2609 [1:03:16<1:20:51,  3.27s/it][A
Training...:  43% 1127/2609 [1:03:19<1:18:55,  3.20s/it][A
Training...:  43% 1128/2609 [1:03:22<1:16:23,  3.09s/it][A
Training...:  43% 1129/2609 [1:03:24<1:14:22,  3.02s/it][A
Training...:  43% 1130/2609 [1:03:27<1:12:16,  2.93s/it][A
Training...:  43% 1131/2609 [1:03:30<1:09:52,  2.84s/it][A
Training...:  43% 1132/2609 [1:03:32<1:07:25,  2.74s/it][A
Training...:  43% 1133/2609 [1:03:35<1:05:13,  2.65s/it][A
Training...:  43% 1134/2609 [1:03:37<1:03:04,  2.57s/it][A
Training...:  44% 1135/2609 [1:03:39<1:00:52,  2.48s/it][A
Training...:  44% 1136/2609 [1:03:41<58:40,  2.39s/it]  [A
Training...:  44% 1137/2609 [1:03:44<56:36,  2.31s/it][A
Training...:  44% 1138/2609 [1:03:46<54:16,  2.21s/it][A
Training...:  44% 1139/2609 [1:03:48<52:07,  2.13s/it][A
Training...:  44% 1140/2609 [1:03:49<49:46,  2.03s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [3:43:54<50:40:18, 9600.95s/it]
Training...:  44% 1140/2609 [1:03:52<49:46,  2.03s/it][A
Training...:  44% 1141/2609 [1:03:52<50:54,  2.08s/it][A
Training...:  44% 1142/2609 [1:03:53<47:41,  1.95s/it][A
Training...:  44% 1143/2609 [1:03:55<44:47,  1.83s/it][A
Training...:  44% 1144/2609 [1:03:56<41:54,  1.72s/it][A
Training...:  44% 1145/2609 [1:03:57<39:05,  1.60s/it][A
Training...:  44% 1146/2609 [1:03:59<36:13,  1.49s/it][A
Training...:  44% 1147/2609 [1:04:00<33:39,  1.38s/it][A
Training...:  44% 1148/2609 [1:04:01<30:23,  1.25s/it][A
Training...:  44% 1149/2609 [1:04:02<26:39,  1.10s/it][A
Training...:  44% 1150/2609 [1:04:02<22:16,  1.09it/s][A
Training...:  44% 1151/2609 [1:04:09<1:05:38,  2.70s/it][A
Training...:  44% 1152/2609 [1:04:16<1:36:35,  3.98s/it][A
Training...:  44% 1153/2609 [1:04:22<1:54:18,  4.71s/it][A
Training...:  44% 1154/2609 [1:04:28<2:05:02,  5.16s/it][A
Training...:  44% 1155/2609 [1:04:34<2:09:38,  5.35s/it][A
Training...:  44% 1156/2609 [1:04:40<2:12:11,  5.46s/it][A
Training...:  44% 1157/2609 [1:04:45<2:11:31,  5.43s/it][A
Training...:  44% 1158/2609 [1:04:51<2:10:05,  5.38s/it][A
Training...:  44% 1159/2609 [1:04:56<2:06:41,  5.24s/it][A
Training...:  44% 1160/2609 [1:05:00<2:04:01,  5.14s/it][A
Training...:  44% 1161/2609 [1:05:05<2:01:01,  5.01s/it][A
Training...:  45% 1162/2609 [1:05:10<1:59:10,  4.94s/it][A
Training...:  45% 1163/2609 [1:05:14<1:55:37,  4.80s/it][A
Training...:  45% 1164/2609 [1:05:19<1:51:59,  4.65s/it][A
Training...:  45% 1165/2609 [1:05:23<1:48:41,  4.52s/it][A                                                           
                                                        [AEpoch ... (1/20):   5% 1/20 [3:45:30<50:40:18, 9600.95s/it]
Training...:  45% 1165/2609 [1:05:28<1:48:41,  4.52s/it][A
Training...:  45% 1166/2609 [1:05:28<1:49:48,  4.57s/it][A
Training...:  45% 1167/2609 [1:05:32<1:45:33,  4.39s/it][A
Training...:  45% 1168/2609 [1:05:35<1:41:28,  4.22s/it][A
Training...:  45% 1169/2609 [1:05:39<1:37:50,  4.08s/it][A
Training...:  45% 1170/2609 [1:05:43<1:35:31,  3.98s/it][A
Training...:  45% 1171/2609 [1:05:46<1:32:19,  3.85s/it][A
Training...:  45% 1172/2609 [1:05:50<1:29:44,  3.75s/it][A
Training...:  45% 1173/2609 [1:05:53<1:27:04,  3.64s/it][A
Training...:  45% 1174/2609 [1:05:57<1:24:32,  3.54s/it][A
Training...:  45% 1175/2609 [1:06:00<1:22:38,  3.46s/it][A
Training...:  45% 1176/2609 [1:06:03<1:20:10,  3.36s/it][A
Training...:  45% 1177/2609 [1:06:06<1:17:44,  3.26s/it][A
Training...:  45% 1178/2609 [1:06:09<1:15:41,  3.17s/it][A
Training...:  45% 1179/2609 [1:06:12<1:13:36,  3.09s/it][A
Training...:  45% 1180/2609 [1:06:15<1:11:25,  3.00s/it][A
Training...:  45% 1181/2609 [1:06:17<1:09:15,  2.91s/it][A
Training...:  45% 1182/2609 [1:06:20<1:07:05,  2.82s/it][A
Training...:  45% 1183/2609 [1:06:23<1:05:03,  2.74s/it][A
Training...:  45% 1184/2609 [1:06:25<1:03:12,  2.66s/it][A
Training...:  45% 1185/2609 [1:06:27<1:01:06,  2.57s/it][A
Training...:  45% 1186/2609 [1:06:30<58:56,  2.48s/it]  [A
Training...:  45% 1187/2609 [1:06:32<57:10,  2.41s/it][A
Training...:  46% 1188/2609 [1:06:34<54:50,  2.32s/it][A
Training...:  46% 1189/2609 [1:06:36<52:31,  2.22s/it][A
Training...:  46% 1190/2609 [1:06:38<50:20,  2.13s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [3:46:42<50:40:18, 9600.95s/it]
Training...:  46% 1190/2609 [1:06:40<50:20,  2.13s/it][A
Training...:  46% 1191/2609 [1:06:40<51:03,  2.16s/it][A
Training...:  46% 1192/2609 [1:06:42<47:51,  2.03s/it][A
Training...:  46% 1193/2609 [1:06:43<44:53,  1.90s/it][A
Training...:  46% 1194/2609 [1:06:45<41:55,  1.78s/it][A
Training...:  46% 1195/2609 [1:06:46<39:04,  1.66s/it][A
Training...:  46% 1196/2609 [1:06:48<36:04,  1.53s/it][A
Training...:  46% 1197/2609 [1:06:49<33:05,  1.41s/it][A
Training...:  46% 1198/2609 [1:06:50<29:46,  1.27s/it][A
Training...:  46% 1199/2609 [1:06:50<26:28,  1.13s/it][A
Training...:  46% 1200/2609 [1:06:51<22:23,  1.05it/s][A
Training...:  46% 1201/2609 [1:06:58<1:04:52,  2.76s/it][A
Training...:  46% 1202/2609 [1:07:05<1:34:10,  4.02s/it][A
Training...:  46% 1203/2609 [1:07:11<1:50:04,  4.70s/it][A
Training...:  46% 1204/2609 [1:07:17<2:00:29,  5.15s/it][A
Training...:  46% 1205/2609 [1:07:23<2:05:15,  5.35s/it][A
Training...:  46% 1206/2609 [1:07:29<2:07:07,  5.44s/it][A
Training...:  46% 1207/2609 [1:07:34<2:06:42,  5.42s/it][A
Training...:  46% 1208/2609 [1:07:39<2:04:49,  5.35s/it][A
Training...:  46% 1209/2609 [1:07:44<2:01:47,  5.22s/it][A
Training...:  46% 1210/2609 [1:07:49<1:58:49,  5.10s/it][A
Training...:  46% 1211/2609 [1:07:54<1:55:32,  4.96s/it][A
Training...:  46% 1212/2609 [1:07:58<1:52:26,  4.83s/it][A
Training...:  46% 1213/2609 [1:08:03<1:49:11,  4.69s/it][A
Training...:  47% 1214/2609 [1:08:07<1:46:13,  4.57s/it][A
Training...:  47% 1215/2609 [1:08:11<1:42:49,  4.43s/it][A                                                           
                                                        [AEpoch ... (1/20):   5% 1/20 [3:48:18<50:40:18, 9600.95s/it]
Training...:  47% 1215/2609 [1:08:16<1:42:49,  4.43s/it][A
Training...:  47% 1216/2609 [1:08:16<1:44:25,  4.50s/it][A
Training...:  47% 1217/2609 [1:08:20<1:39:59,  4.31s/it][A
Training...:  47% 1218/2609 [1:08:23<1:36:29,  4.16s/it][A
Training...:  47% 1219/2609 [1:08:27<1:33:44,  4.05s/it][A
Training...:  47% 1220/2609 [1:08:31<1:30:40,  3.92s/it][A
Training...:  47% 1221/2609 [1:08:34<1:27:59,  3.80s/it][A
Training...:  47% 1222/2609 [1:08:38<1:24:48,  3.67s/it][A
Training...:  47% 1223/2609 [1:08:41<1:22:25,  3.57s/it][A
Training...:  47% 1224/2609 [1:08:44<1:20:01,  3.47s/it][A
Training...:  47% 1225/2609 [1:08:47<1:17:23,  3.36s/it][A
Training...:  47% 1226/2609 [1:08:50<1:14:57,  3.25s/it][A
Training...:  47% 1227/2609 [1:08:53<1:13:09,  3.18s/it][A
Training...:  47% 1228/2609 [1:08:56<1:10:40,  3.07s/it][A
Training...:  47% 1229/2609 [1:08:59<1:08:38,  2.98s/it][A
Training...:  47% 1230/2609 [1:09:02<1:06:25,  2.89s/it][A
Training...:  47% 1231/2609 [1:09:04<1:04:27,  2.81s/it][A
Training...:  47% 1232/2609 [1:09:07<1:02:40,  2.73s/it][A
Training...:  47% 1233/2609 [1:09:09<1:00:42,  2.65s/it][A
Training...:  47% 1234/2609 [1:09:12<58:33,  2.55s/it]  [A
Training...:  47% 1235/2609 [1:09:14<56:39,  2.47s/it][A
Training...:  47% 1236/2609 [1:09:16<54:26,  2.38s/it][A
Training...:  47% 1237/2609 [1:09:18<52:24,  2.29s/it][A
Training...:  47% 1238/2609 [1:09:20<50:21,  2.20s/it][A
Training...:  47% 1239/2609 [1:09:22<48:19,  2.12s/it][A
Training...:  48% 1240/2609 [1:09:24<46:08,  2.02s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [3:49:28<50:40:18, 9600.95s/it]
Training...:  48% 1240/2609 [1:09:26<46:08,  2.02s/it][A
Training...:  48% 1241/2609 [1:09:26<47:08,  2.07s/it][A
Training...:  48% 1242/2609 [1:09:28<44:07,  1.94s/it][A
Training...:  48% 1243/2609 [1:09:29<41:16,  1.81s/it][A
Training...:  48% 1244/2609 [1:09:31<38:45,  1.70s/it][A
Training...:  48% 1245/2609 [1:09:32<36:10,  1.59s/it][A
Training...:  48% 1246/2609 [1:09:33<33:23,  1.47s/it][A
Training...:  48% 1247/2609 [1:09:34<30:28,  1.34s/it][A
Training...:  48% 1248/2609 [1:09:35<27:22,  1.21s/it][A
Training...:  48% 1249/2609 [1:09:36<24:16,  1.07s/it][A
Training...:  48% 1250/2609 [1:09:36<20:43,  1.09it/s][A
Training...:  48% 1251/2609 [1:09:43<1:00:29,  2.67s/it][A
Training...:  48% 1252/2609 [1:09:50<1:28:57,  3.93s/it][A
Training...:  48% 1253/2609 [1:09:56<1:45:01,  4.65s/it][A
Training...:  48% 1254/2609 [1:10:02<1:54:41,  5.08s/it][A
Training...:  48% 1255/2609 [1:10:08<1:59:15,  5.28s/it][A
Training...:  48% 1256/2609 [1:10:14<2:01:21,  5.38s/it][A
Training...:  48% 1257/2609 [1:10:19<2:01:11,  5.38s/it][A
Training...:  48% 1258/2609 [1:10:24<2:00:23,  5.35s/it][A
Training...:  48% 1259/2609 [1:10:30<1:58:16,  5.26s/it][A
Training...:  48% 1260/2609 [1:10:34<1:55:37,  5.14s/it][A
Training...:  48% 1261/2609 [1:10:39<1:52:24,  5.00s/it][A
Training...:  48% 1262/2609 [1:10:44<1:49:30,  4.88s/it][A
Training...:  48% 1263/2609 [1:10:48<1:47:06,  4.77s/it][A
Training...:  48% 1264/2609 [1:10:53<1:44:41,  4.67s/it][A
Training...:  48% 1265/2609 [1:10:57<1:41:42,  4.54s/it][A                                                           
                                                        [AEpoch ... (1/20):   5% 1/20 [3:51:04<50:40:18, 9600.95s/it]
Training...:  48% 1265/2609 [1:11:02<1:41:42,  4.54s/it][A
Training...:  49% 1266/2609 [1:11:02<1:42:25,  4.58s/it][A
Training...:  49% 1267/2609 [1:11:05<1:37:53,  4.38s/it][A
Training...:  49% 1268/2609 [1:11:09<1:33:46,  4.20s/it][A
Training...:  49% 1269/2609 [1:11:13<1:30:48,  4.07s/it][A
Training...:  49% 1270/2609 [1:11:16<1:27:10,  3.91s/it][A
Training...:  49% 1271/2609 [1:11:20<1:23:59,  3.77s/it][A
Training...:  49% 1272/2609 [1:11:23<1:21:07,  3.64s/it][A
Training...:  49% 1273/2609 [1:11:27<1:18:56,  3.54s/it][A
Training...:  49% 1274/2609 [1:11:30<1:16:46,  3.45s/it][A
Training...:  49% 1275/2609 [1:11:33<1:14:36,  3.36s/it][A
Training...:  49% 1276/2609 [1:11:36<1:12:08,  3.25s/it][A
Training...:  49% 1277/2609 [1:11:39<1:10:01,  3.15s/it][A
Training...:  49% 1278/2609 [1:11:42<1:07:51,  3.06s/it][A
Training...:  49% 1279/2609 [1:11:45<1:06:02,  2.98s/it][A
Training...:  49% 1280/2609 [1:11:47<1:04:26,  2.91s/it][A
Training...:  49% 1281/2609 [1:11:50<1:02:29,  2.82s/it][A
Training...:  49% 1282/2609 [1:11:52<1:00:43,  2.75s/it][A
Training...:  49% 1283/2609 [1:11:55<58:53,  2.66s/it]  [A
Training...:  49% 1284/2609 [1:11:57<56:49,  2.57s/it][A
Training...:  49% 1285/2609 [1:12:00<54:50,  2.49s/it][A
Training...:  49% 1286/2609 [1:12:02<53:13,  2.41s/it][A
Training...:  49% 1287/2609 [1:12:04<51:24,  2.33s/it][A
Training...:  49% 1288/2609 [1:12:06<49:26,  2.25s/it][A
Training...:  49% 1289/2609 [1:12:08<47:25,  2.16s/it][A
Training...:  49% 1290/2609 [1:12:10<45:08,  2.05s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [3:52:14<50:40:18, 9600.95s/it]
Training...:  49% 1290/2609 [1:12:12<45:08,  2.05s/it][A
Training...:  49% 1291/2609 [1:12:12<45:52,  2.09s/it][A
Training...:  50% 1292/2609 [1:12:14<43:00,  1.96s/it][A
Training...:  50% 1293/2609 [1:12:15<40:23,  1.84s/it][A
Training...:  50% 1294/2609 [1:12:17<37:47,  1.72s/it][A
Training...:  50% 1295/2609 [1:12:18<35:24,  1.62s/it][A
Training...:  50% 1296/2609 [1:12:19<32:53,  1.50s/it][A
Training...:  50% 1297/2609 [1:12:20<30:10,  1.38s/it][A
Training...:  50% 1298/2609 [1:12:21<27:07,  1.24s/it][A
Training...:  50% 1299/2609 [1:12:22<23:43,  1.09s/it][A
Training...:  50% 1300/2609 [1:12:22<19:51,  1.10it/s][A
Training...:  50% 1301/2609 [1:12:29<58:28,  2.68s/it][A
Training...:  50% 1302/2609 [1:12:36<1:25:42,  3.93s/it][A
Training...:  50% 1303/2609 [1:12:43<1:41:57,  4.68s/it][A
Training...:  50% 1304/2609 [1:12:49<1:51:48,  5.14s/it][A
Training...:  50% 1305/2609 [1:12:55<1:56:07,  5.34s/it][A
Training...:  50% 1306/2609 [1:13:00<1:58:34,  5.46s/it][A
Training...:  50% 1307/2609 [1:13:06<1:59:15,  5.50s/it][A
Training...:  50% 1308/2609 [1:13:11<1:57:51,  5.44s/it][A
Training...:  50% 1309/2609 [1:13:16<1:55:23,  5.33s/it][A
Training...:  50% 1310/2609 [1:13:21<1:52:24,  5.19s/it][A
Training...:  50% 1311/2609 [1:13:26<1:48:52,  5.03s/it][A
Training...:  50% 1312/2609 [1:13:30<1:45:50,  4.90s/it][A
Training...:  50% 1313/2609 [1:13:35<1:42:53,  4.76s/it][A
Training...:  50% 1314/2609 [1:13:39<1:40:03,  4.64s/it][A
Training...:  50% 1315/2609 [1:13:43<1:36:53,  4.49s/it][A                                                           
                                                        [AEpoch ... (1/20):   5% 1/20 [3:53:50<50:40:18, 9600.95s/it]
Training...:  50% 1315/2609 [1:13:48<1:36:53,  4.49s/it][A
Training...:  50% 1316/2609 [1:13:48<1:38:11,  4.56s/it][A
Training...:  50% 1317/2609 [1:13:52<1:34:11,  4.37s/it][A
Training...:  51% 1318/2609 [1:13:56<1:30:24,  4.20s/it][A
Training...:  51% 1319/2609 [1:13:59<1:27:07,  4.05s/it][A
Training...:  51% 1320/2609 [1:14:03<1:23:57,  3.91s/it][A
Training...:  51% 1321/2609 [1:14:07<1:21:35,  3.80s/it][A
Training...:  51% 1322/2609 [1:14:10<1:18:41,  3.67s/it][A
Training...:  51% 1323/2609 [1:14:13<1:16:41,  3.58s/it][A
Training...:  51% 1324/2609 [1:14:17<1:14:25,  3.48s/it][A
Training...:  51% 1325/2609 [1:14:20<1:12:08,  3.37s/it][A
Training...:  51% 1326/2609 [1:14:23<1:09:48,  3.26s/it][A
Training...:  51% 1327/2609 [1:14:26<1:07:42,  3.17s/it][A
Training...:  51% 1328/2609 [1:14:29<1:05:51,  3.08s/it][A
Training...:  51% 1329/2609 [1:14:31<1:03:51,  2.99s/it][A
Training...:  51% 1330/2609 [1:14:34<1:01:56,  2.91s/it][A
Training...:  51% 1331/2609 [1:14:37<59:53,  2.81s/it]  [A
Training...:  51% 1332/2609 [1:14:39<57:46,  2.71s/it][A
Training...:  51% 1333/2609 [1:14:42<55:50,  2.63s/it][A
Training...:  51% 1334/2609 [1:14:44<53:48,  2.53s/it][A
Training...:  51% 1335/2609 [1:14:46<51:52,  2.44s/it][A
Training...:  51% 1336/2609 [1:14:48<50:04,  2.36s/it][A
Training...:  51% 1337/2609 [1:14:50<48:23,  2.28s/it][A
Training...:  51% 1338/2609 [1:14:52<46:28,  2.19s/it][A
Training...:  51% 1339/2609 [1:14:54<44:52,  2.12s/it][A
Training...:  51% 1340/2609 [1:14:56<42:59,  2.03s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [3:55:00<50:40:18, 9600.95s/it]
Training...:  51% 1340/2609 [1:14:58<42:59,  2.03s/it][A
Training...:  51% 1341/2609 [1:14:58<43:36,  2.06s/it][A
Training...:  51% 1342/2609 [1:15:00<40:49,  1.93s/it][A
Training...:  51% 1343/2609 [1:15:01<38:19,  1.82s/it][A
Training...:  52% 1344/2609 [1:15:03<35:48,  1.70s/it][A
Training...:  52% 1345/2609 [1:15:04<33:17,  1.58s/it][A
Training...:  52% 1346/2609 [1:15:05<30:44,  1.46s/it][A
Training...:  52% 1347/2609 [1:15:06<28:15,  1.34s/it][A
Training...:  52% 1348/2609 [1:15:07<25:21,  1.21s/it][A
Training...:  52% 1349/2609 [1:15:08<22:17,  1.06s/it][A
Training...:  52% 1350/2609 [1:15:08<18:37,  1.13it/s][A
Training...:  52% 1351/2609 [1:15:15<56:58,  2.72s/it][A
Training...:  52% 1352/2609 [1:15:22<1:23:04,  3.97s/it][A
Training...:  52% 1353/2609 [1:15:29<1:38:18,  4.70s/it][A
Training...:  52% 1354/2609 [1:15:35<1:47:17,  5.13s/it][A
Training...:  52% 1355/2609 [1:15:41<1:51:26,  5.33s/it][A
Training...:  52% 1356/2609 [1:15:46<1:53:42,  5.45s/it][A
Training...:  52% 1357/2609 [1:15:52<1:53:40,  5.45s/it][A
Training...:  52% 1358/2609 [1:15:57<1:52:31,  5.40s/it][A
Training...:  52% 1359/2609 [1:16:02<1:49:56,  5.28s/it][A
Training...:  52% 1360/2609 [1:16:07<1:47:06,  5.15s/it][A
Training...:  52% 1361/2609 [1:16:12<1:44:18,  5.01s/it][A
Training...:  52% 1362/2609 [1:16:16<1:41:15,  4.87s/it][A
Training...:  52% 1363/2609 [1:16:21<1:38:17,  4.73s/it][A
Training...:  52% 1364/2609 [1:16:25<1:35:20,  4.59s/it][A
Training...:  52% 1365/2609 [1:16:29<1:32:28,  4.46s/it][A                                                           
                                                        [AEpoch ... (1/20):   5% 1/20 [3:56:36<50:40:18, 9600.95s/it]
Training...:  52% 1365/2609 [1:16:34<1:32:28,  4.46s/it][A
Training...:  52% 1366/2609 [1:16:34<1:34:05,  4.54s/it][A
Training...:  52% 1367/2609 [1:16:38<1:30:51,  4.39s/it][A
Training...:  52% 1368/2609 [1:16:42<1:27:09,  4.21s/it][A
Training...:  52% 1369/2609 [1:16:45<1:23:53,  4.06s/it][A
Training...:  53% 1370/2609 [1:16:49<1:21:02,  3.92s/it][A
Training...:  53% 1371/2609 [1:16:52<1:18:32,  3.81s/it][A
Training...:  53% 1372/2609 [1:16:56<1:15:58,  3.69s/it][A
Training...:  53% 1373/2609 [1:16:59<1:13:40,  3.58s/it][A
Training...:  53% 1374/2609 [1:17:02<1:11:45,  3.49s/it][A
Training...:  53% 1375/2609 [1:17:06<1:09:47,  3.39s/it][A
Training...:  53% 1376/2609 [1:17:09<1:07:50,  3.30s/it][A
Training...:  53% 1377/2609 [1:17:12<1:06:03,  3.22s/it][A
Training...:  53% 1378/2609 [1:17:15<1:04:03,  3.12s/it][A
Training...:  53% 1379/2609 [1:17:18<1:02:25,  3.05s/it][A
Training...:  53% 1380/2609 [1:17:20<1:00:31,  2.96s/it][A
Training...:  53% 1381/2609 [1:17:23<58:50,  2.88s/it]  [A
Training...:  53% 1382/2609 [1:17:26<56:59,  2.79s/it][A
Training...:  53% 1383/2609 [1:17:28<55:15,  2.70s/it][A
Training...:  53% 1384/2609 [1:17:30<53:20,  2.61s/it][A
Training...:  53% 1385/2609 [1:17:33<51:38,  2.53s/it][A
Training...:  53% 1386/2609 [1:17:35<49:47,  2.44s/it][A
Training...:  53% 1387/2609 [1:17:37<48:01,  2.36s/it][A
Training...:  53% 1388/2609 [1:17:39<46:25,  2.28s/it][A
Training...:  53% 1389/2609 [1:17:41<44:48,  2.20s/it][A
Training...:  53% 1390/2609 [1:17:43<42:57,  2.11s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [3:57:48<50:40:18, 9600.95s/it]
Training...:  53% 1390/2609 [1:17:45<42:57,  2.11s/it][A
Training...:  53% 1391/2609 [1:17:45<44:00,  2.17s/it][A
Training...:  53% 1392/2609 [1:17:47<41:05,  2.03s/it][A
Training...:  53% 1393/2609 [1:17:49<38:31,  1.90s/it][A
Training...:  53% 1394/2609 [1:17:50<35:57,  1.78s/it][A
Training...:  53% 1395/2609 [1:17:52<33:29,  1.66s/it][A
Training...:  54% 1396/2609 [1:17:53<30:57,  1.53s/it][A
Training...:  54% 1397/2609 [1:17:54<28:22,  1.40s/it][A
Training...:  54% 1398/2609 [1:17:55<25:43,  1.27s/it][A
Training...:  54% 1399/2609 [1:17:56<22:35,  1.12s/it][A
Training...:  54% 1400/2609 [1:17:56<18:50,  1.07it/s][A
Training...:  54% 1401/2609 [1:18:03<55:07,  2.74s/it][A
Training...:  54% 1402/2609 [1:18:10<1:20:37,  4.01s/it][A
Training...:  54% 1403/2609 [1:18:17<1:34:52,  4.72s/it][A
Training...:  54% 1404/2609 [1:18:23<1:44:23,  5.20s/it][A
Training...:  54% 1405/2609 [1:18:29<1:48:55,  5.43s/it][A
Training...:  54% 1406/2609 [1:18:35<1:51:06,  5.54s/it][A
Training...:  54% 1407/2609 [1:18:40<1:50:32,  5.52s/it][A
Training...:  54% 1408/2609 [1:18:45<1:48:50,  5.44s/it][A
Training...:  54% 1409/2609 [1:18:50<1:46:30,  5.33s/it][A
Training...:  54% 1410/2609 [1:18:55<1:44:16,  5.22s/it][A
Training...:  54% 1411/2609 [1:19:00<1:41:00,  5.06s/it][A
Training...:  54% 1412/2609 [1:19:05<1:37:34,  4.89s/it][A
Training...:  54% 1413/2609 [1:19:09<1:34:25,  4.74s/it][A
Training...:  54% 1414/2609 [1:19:13<1:31:02,  4.57s/it][A
Training...:  54% 1415/2609 [1:19:17<1:27:58,  4.42s/it][A                                                           
                                                        [AEpoch ... (1/20):   5% 1/20 [3:59:24<50:40:18, 9600.95s/it]
Training...:  54% 1415/2609 [1:19:22<1:27:58,  4.42s/it][A
Training...:  54% 1416/2609 [1:19:22<1:28:47,  4.47s/it][A
Training...:  54% 1417/2609 [1:19:26<1:25:56,  4.33s/it][A
Training...:  54% 1418/2609 [1:19:30<1:22:59,  4.18s/it][A
Training...:  54% 1419/2609 [1:19:33<1:20:19,  4.05s/it][A
Training...:  54% 1420/2609 [1:19:37<1:18:01,  3.94s/it][A
Training...:  54% 1421/2609 [1:19:41<1:15:57,  3.84s/it][A
Training...:  55% 1422/2609 [1:19:44<1:13:57,  3.74s/it][A
Training...:  55% 1423/2609 [1:19:48<1:11:58,  3.64s/it][A
Training...:  55% 1424/2609 [1:19:51<1:10:06,  3.55s/it][A
Training...:  55% 1425/2609 [1:19:54<1:08:10,  3.45s/it][A
Training...:  55% 1426/2609 [1:19:57<1:06:27,  3.37s/it][A
Training...:  55% 1427/2609 [1:20:00<1:04:31,  3.28s/it][A
Training...:  55% 1428/2609 [1:20:03<1:02:36,  3.18s/it][A
Training...:  55% 1429/2609 [1:20:06<1:01:03,  3.10s/it][A
Training...:  55% 1430/2609 [1:20:09<59:11,  3.01s/it]  [A
Training...:  55% 1431/2609 [1:20:12<57:20,  2.92s/it][A
Training...:  55% 1432/2609 [1:20:14<55:31,  2.83s/it][A
Training...:  55% 1433/2609 [1:20:17<53:30,  2.73s/it][A
Training...:  55% 1434/2609 [1:20:19<51:34,  2.63s/it][A
Training...:  55% 1435/2609 [1:20:22<49:54,  2.55s/it][A
Training...:  55% 1436/2609 [1:20:24<48:24,  2.48s/it][A
Training...:  55% 1437/2609 [1:20:26<46:47,  2.40s/it][A
Training...:  55% 1438/2609 [1:20:28<44:53,  2.30s/it][A
Training...:  55% 1439/2609 [1:20:30<43:03,  2.21s/it][A
Training...:  55% 1440/2609 [1:20:32<41:17,  2.12s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:00:37<50:40:18, 9600.95s/it]
Training...:  55% 1440/2609 [1:20:34<41:17,  2.12s/it][A
Training...:  55% 1441/2609 [1:20:34<42:08,  2.16s/it][A
Training...:  55% 1442/2609 [1:20:36<39:39,  2.04s/it][A
Training...:  55% 1443/2609 [1:20:38<37:03,  1.91s/it][A
Training...:  55% 1444/2609 [1:20:39<34:27,  1.77s/it][A
Training...:  55% 1445/2609 [1:20:41<32:03,  1.65s/it][A
Training...:  55% 1446/2609 [1:20:42<29:47,  1.54s/it][A
Training...:  55% 1447/2609 [1:20:43<27:17,  1.41s/it][A
Training...:  56% 1448/2609 [1:20:44<24:43,  1.28s/it][A
Training...:  56% 1449/2609 [1:20:45<21:49,  1.13s/it][A
Training...:  56% 1450/2609 [1:20:45<18:13,  1.06it/s][A
Training...:  56% 1451/2609 [1:20:52<53:41,  2.78s/it][A
Training...:  56% 1452/2609 [1:20:59<1:17:42,  4.03s/it][A
Training...:  56% 1453/2609 [1:21:06<1:31:26,  4.75s/it][A
Training...:  56% 1454/2609 [1:21:12<1:39:45,  5.18s/it][A
Training...:  56% 1455/2609 [1:21:18<1:43:36,  5.39s/it][A
Training...:  56% 1456/2609 [1:21:23<1:44:42,  5.45s/it][A
Training...:  56% 1457/2609 [1:21:29<1:43:48,  5.41s/it][A
Training...:  56% 1458/2609 [1:21:34<1:42:17,  5.33s/it][A
Training...:  56% 1459/2609 [1:21:39<1:39:48,  5.21s/it][A
Training...:  56% 1460/2609 [1:21:44<1:37:45,  5.11s/it][A
Training...:  56% 1461/2609 [1:21:48<1:35:16,  4.98s/it][A
Training...:  56% 1462/2609 [1:21:53<1:32:49,  4.86s/it][A
Training...:  56% 1463/2609 [1:21:57<1:30:18,  4.73s/it][A
Training...:  56% 1464/2609 [1:22:01<1:27:34,  4.59s/it][A
Training...:  56% 1465/2609 [1:22:06<1:25:39,  4.49s/it][A                                                           
                                                        [AEpoch ... (1/20):   5% 1/20 [4:02:13<50:40:18, 9600.95s/it]
Training...:  56% 1465/2609 [1:22:11<1:25:39,  4.49s/it][A
Training...:  56% 1466/2609 [1:22:11<1:27:16,  4.58s/it][A
Training...:  56% 1467/2609 [1:22:14<1:23:24,  4.38s/it][A
Training...:  56% 1468/2609 [1:22:18<1:19:57,  4.20s/it][A
Training...:  56% 1469/2609 [1:22:22<1:17:35,  4.08s/it][A
Training...:  56% 1470/2609 [1:22:26<1:14:46,  3.94s/it][A
Training...:  56% 1471/2609 [1:22:29<1:12:24,  3.82s/it][A
Training...:  56% 1472/2609 [1:22:33<1:10:28,  3.72s/it][A
Training...:  56% 1473/2609 [1:22:36<1:08:21,  3.61s/it][A
Training...:  56% 1474/2609 [1:22:39<1:06:28,  3.51s/it][A
Training...:  57% 1475/2609 [1:22:43<1:04:40,  3.42s/it][A
Training...:  57% 1476/2609 [1:22:46<1:02:32,  3.31s/it][A
Training...:  57% 1477/2609 [1:22:49<1:00:36,  3.21s/it][A
Training...:  57% 1478/2609 [1:22:51<58:46,  3.12s/it]  [A
Training...:  57% 1479/2609 [1:22:54<57:06,  3.03s/it][A
Training...:  57% 1480/2609 [1:22:57<55:26,  2.95s/it][A
Training...:  57% 1481/2609 [1:23:00<53:49,  2.86s/it][A
Training...:  57% 1482/2609 [1:23:02<52:18,  2.78s/it][A
Training...:  57% 1483/2609 [1:23:05<50:42,  2.70s/it][A
Training...:  57% 1484/2609 [1:23:07<49:11,  2.62s/it][A
Training...:  57% 1485/2609 [1:23:10<47:32,  2.54s/it][A
Training...:  57% 1486/2609 [1:23:12<46:00,  2.46s/it][A
Training...:  57% 1487/2609 [1:23:14<44:09,  2.36s/it][A
Training...:  57% 1488/2609 [1:23:16<42:14,  2.26s/it][A
Training...:  57% 1489/2609 [1:23:18<40:25,  2.17s/it][A
Training...:  57% 1490/2609 [1:23:20<38:45,  2.08s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:03:24<50:40:18, 9600.95s/it]
Training...:  57% 1490/2609 [1:23:22<38:45,  2.08s/it][A
Training...:  57% 1491/2609 [1:23:22<39:27,  2.12s/it][A
Training...:  57% 1492/2609 [1:23:24<36:47,  1.98s/it][A
Training...:  57% 1493/2609 [1:23:25<34:26,  1.85s/it][A
Training...:  57% 1494/2609 [1:23:27<32:12,  1.73s/it][A
Training...:  57% 1495/2609 [1:23:28<29:58,  1.61s/it][A
Training...:  57% 1496/2609 [1:23:29<27:50,  1.50s/it][A
Training...:  57% 1497/2609 [1:23:30<25:44,  1.39s/it][A
Training...:  57% 1498/2609 [1:23:31<23:25,  1.27s/it][A
Training...:  57% 1499/2609 [1:23:32<20:37,  1.11s/it][A
Training...:  57% 1500/2609 [1:23:33<17:10,  1.08it/s][A
Training...:  58% 1501/2609 [1:23:40<51:26,  2.79s/it][A
Training...:  58% 1502/2609 [1:23:47<1:14:04,  4.01s/it][A
Training...:  58% 1503/2609 [1:23:53<1:26:40,  4.70s/it][A
Training...:  58% 1504/2609 [1:23:59<1:34:28,  5.13s/it][A
Training...:  58% 1505/2609 [1:24:05<1:37:38,  5.31s/it][A
Training...:  58% 1506/2609 [1:24:10<1:39:08,  5.39s/it][A
Training...:  58% 1507/2609 [1:24:16<1:38:28,  5.36s/it][A
Training...:  58% 1508/2609 [1:24:21<1:36:44,  5.27s/it][A
Training...:  58% 1509/2609 [1:24:26<1:34:38,  5.16s/it][A
Training...:  58% 1510/2609 [1:24:30<1:32:29,  5.05s/it][A
Training...:  58% 1511/2609 [1:24:35<1:30:07,  4.92s/it][A
Training...:  58% 1512/2609 [1:24:40<1:27:30,  4.79s/it][A
Training...:  58% 1513/2609 [1:24:44<1:25:13,  4.67s/it][A
Training...:  58% 1514/2609 [1:24:48<1:22:38,  4.53s/it][A
Training...:  58% 1515/2609 [1:24:52<1:20:16,  4.40s/it][A                                                           
                                                        [AEpoch ... (1/20):   5% 1/20 [4:04:59<50:40:18, 9600.95s/it]
Training...:  58% 1515/2609 [1:24:57<1:20:16,  4.40s/it][A
Training...:  58% 1516/2609 [1:24:57<1:21:25,  4.47s/it][A
Training...:  58% 1517/2609 [1:25:01<1:18:08,  4.29s/it][A
Training...:  58% 1518/2609 [1:25:05<1:15:43,  4.16s/it][A
Training...:  58% 1519/2609 [1:25:08<1:13:25,  4.04s/it][A
Training...:  58% 1520/2609 [1:25:12<1:11:06,  3.92s/it][A
Training...:  58% 1521/2609 [1:25:16<1:09:01,  3.81s/it][A
Training...:  58% 1522/2609 [1:25:19<1:06:52,  3.69s/it][A
Training...:  58% 1523/2609 [1:25:22<1:05:01,  3.59s/it][A
Training...:  58% 1524/2609 [1:25:26<1:03:08,  3.49s/it][A
Training...:  58% 1525/2609 [1:25:29<1:01:34,  3.41s/it][A
Training...:  58% 1526/2609 [1:25:32<1:00:12,  3.34s/it][A
Training...:  59% 1527/2609 [1:25:35<58:48,  3.26s/it]  [A
Training...:  59% 1528/2609 [1:25:38<57:01,  3.16s/it][A
Training...:  59% 1529/2609 [1:25:41<55:03,  3.06s/it][A
Training...:  59% 1530/2609 [1:25:44<53:11,  2.96s/it][A
Training...:  59% 1531/2609 [1:25:46<51:37,  2.87s/it][A
Training...:  59% 1532/2609 [1:25:49<49:51,  2.78s/it][A
Training...:  59% 1533/2609 [1:25:51<48:21,  2.70s/it][A
Training...:  59% 1534/2609 [1:25:54<46:39,  2.60s/it][A
Training...:  59% 1535/2609 [1:25:56<45:11,  2.52s/it][A
Training...:  59% 1536/2609 [1:25:58<43:28,  2.43s/it][A
Training...:  59% 1537/2609 [1:26:00<42:10,  2.36s/it][A
Training...:  59% 1538/2609 [1:26:02<40:20,  2.26s/it][A
Training...:  59% 1539/2609 [1:26:04<38:42,  2.17s/it][A
Training...:  59% 1540/2609 [1:26:06<37:15,  2.09s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:06:11<50:40:18, 9600.95s/it]
Training...:  59% 1540/2609 [1:26:09<37:15,  2.09s/it][A
Training...:  59% 1541/2609 [1:26:09<37:58,  2.13s/it][A
Training...:  59% 1542/2609 [1:26:10<35:33,  2.00s/it][A
Training...:  59% 1543/2609 [1:26:12<33:20,  1.88s/it][A
Training...:  59% 1544/2609 [1:26:13<31:20,  1.77s/it][A
Training...:  59% 1545/2609 [1:26:15<29:18,  1.65s/it][A
Training...:  59% 1546/2609 [1:26:16<27:25,  1.55s/it][A
Training...:  59% 1547/2609 [1:26:17<25:12,  1.42s/it][A
Training...:  59% 1548/2609 [1:26:18<22:48,  1.29s/it][A
Training...:  59% 1549/2609 [1:26:19<20:13,  1.14s/it][A
Training...:  59% 1550/2609 [1:26:20<17:09,  1.03it/s][A
Training...:  59% 1551/2609 [1:26:26<48:24,  2.75s/it][A
Training...:  59% 1552/2609 [1:26:33<1:10:45,  4.02s/it][A
Training...:  60% 1553/2609 [1:26:40<1:23:02,  4.72s/it][A
Training...:  60% 1554/2609 [1:26:46<1:30:45,  5.16s/it][A
Training...:  60% 1555/2609 [1:26:52<1:33:38,  5.33s/it][A
Training...:  60% 1556/2609 [1:26:57<1:35:10,  5.42s/it][A
Training...:  60% 1557/2609 [1:27:03<1:35:02,  5.42s/it][A
Training...:  60% 1558/2609 [1:27:08<1:34:05,  5.37s/it][A
Training...:  60% 1559/2609 [1:27:13<1:32:03,  5.26s/it][A
Training...:  60% 1560/2609 [1:27:18<1:29:27,  5.12s/it][A
Training...:  60% 1561/2609 [1:27:22<1:26:56,  4.98s/it][A
Training...:  60% 1562/2609 [1:27:27<1:23:52,  4.81s/it][A
Training...:  60% 1563/2609 [1:27:31<1:21:22,  4.67s/it][A
Training...:  60% 1564/2609 [1:27:35<1:18:59,  4.54s/it][A
Training...:  60% 1565/2609 [1:27:40<1:17:01,  4.43s/it][A                                                           
                                                        [AEpoch ... (1/20):   5% 1/20 [4:07:46<50:40:18, 9600.95s/it]
Training...:  60% 1565/2609 [1:27:44<1:17:01,  4.43s/it][A
Training...:  60% 1566/2609 [1:27:44<1:18:18,  4.50s/it][A
Training...:  60% 1567/2609 [1:27:48<1:14:51,  4.31s/it][A
Training...:  60% 1568/2609 [1:27:52<1:12:14,  4.16s/it][A
Training...:  60% 1569/2609 [1:27:56<1:09:44,  4.02s/it][A
Training...:  60% 1570/2609 [1:27:59<1:07:37,  3.91s/it][A
Training...:  60% 1571/2609 [1:28:03<1:05:27,  3.78s/it][A
Training...:  60% 1572/2609 [1:28:06<1:03:33,  3.68s/it][A
Training...:  60% 1573/2609 [1:28:09<1:01:35,  3.57s/it][A
Training...:  60% 1574/2609 [1:28:13<59:38,  3.46s/it]  [A
Training...:  60% 1575/2609 [1:28:16<57:46,  3.35s/it][A
Training...:  60% 1576/2609 [1:28:19<56:16,  3.27s/it][A
Training...:  60% 1577/2609 [1:28:22<54:41,  3.18s/it][A
Training...:  60% 1578/2609 [1:28:25<52:57,  3.08s/it][A
Training...:  61% 1579/2609 [1:28:27<51:21,  2.99s/it][A
Training...:  61% 1580/2609 [1:28:30<49:47,  2.90s/it][A
Training...:  61% 1581/2609 [1:28:33<48:19,  2.82s/it][A
Training...:  61% 1582/2609 [1:28:35<46:51,  2.74s/it][A
Training...:  61% 1583/2609 [1:28:38<45:18,  2.65s/it][A
Training...:  61% 1584/2609 [1:28:40<43:54,  2.57s/it][A
Training...:  61% 1585/2609 [1:28:42<42:21,  2.48s/it][A
Training...:  61% 1586/2609 [1:28:45<41:03,  2.41s/it][A
Training...:  61% 1587/2609 [1:28:47<39:38,  2.33s/it][A
Training...:  61% 1588/2609 [1:28:49<37:54,  2.23s/it][A
Training...:  61% 1589/2609 [1:28:51<36:21,  2.14s/it][A
Training...:  61% 1590/2609 [1:28:53<34:40,  2.04s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:08:57<50:40:18, 9600.95s/it]
Training...:  61% 1590/2609 [1:28:55<34:40,  2.04s/it][A
Training...:  61% 1591/2609 [1:28:55<35:25,  2.09s/it][A
Training...:  61% 1592/2609 [1:28:56<33:16,  1.96s/it][A
Training...:  61% 1593/2609 [1:28:58<31:09,  1.84s/it][A
Training...:  61% 1594/2609 [1:28:59<29:07,  1.72s/it][A
Training...:  61% 1595/2609 [1:29:01<27:07,  1.61s/it][A
Training...:  61% 1596/2609 [1:29:02<25:06,  1.49s/it][A
Training...:  61% 1597/2609 [1:29:03<23:04,  1.37s/it][A
Training...:  61% 1598/2609 [1:29:04<20:56,  1.24s/it][A
Training...:  61% 1599/2609 [1:29:05<18:21,  1.09s/it][A
Training...:  61% 1600/2609 [1:29:05<15:18,  1.10it/s][A
Training...:  61% 1601/2609 [1:29:12<45:21,  2.70s/it][A
Training...:  61% 1602/2609 [1:29:19<1:06:16,  3.95s/it][A
Training...:  61% 1603/2609 [1:29:25<1:18:48,  4.70s/it][A
Training...:  61% 1604/2609 [1:29:32<1:26:29,  5.16s/it][A
Training...:  62% 1605/2609 [1:29:37<1:29:34,  5.35s/it][A
Training...:  62% 1606/2609 [1:29:43<1:31:07,  5.45s/it][A
Training...:  62% 1607/2609 [1:29:49<1:31:04,  5.45s/it][A
Training...:  62% 1608/2609 [1:29:54<1:30:30,  5.43s/it][A
Training...:  62% 1609/2609 [1:29:59<1:28:51,  5.33s/it][A
Training...:  62% 1610/2609 [1:30:04<1:26:21,  5.19s/it][A
Training...:  62% 1611/2609 [1:30:09<1:23:38,  5.03s/it][A
Training...:  62% 1612/2609 [1:30:13<1:20:45,  4.86s/it][A
Training...:  62% 1613/2609 [1:30:17<1:18:10,  4.71s/it][A
Training...:  62% 1614/2609 [1:30:22<1:15:35,  4.56s/it][A
Training...:  62% 1615/2609 [1:30:26<1:13:22,  4.43s/it][A                                                           
                                                        [AEpoch ... (1/20):   5% 1/20 [4:10:33<50:40:18, 9600.95s/it]
Training...:  62% 1615/2609 [1:30:30<1:13:22,  4.43s/it][A
Training...:  62% 1616/2609 [1:30:30<1:14:00,  4.47s/it][A
Training...:  62% 1617/2609 [1:30:34<1:10:57,  4.29s/it][A
Training...:  62% 1618/2609 [1:30:38<1:08:04,  4.12s/it][A
Training...:  62% 1619/2609 [1:30:42<1:05:43,  3.98s/it][A
Training...:  62% 1620/2609 [1:30:45<1:03:17,  3.84s/it][A
Training...:  62% 1621/2609 [1:30:48<1:01:01,  3.71s/it][A
Training...:  62% 1622/2609 [1:30:52<58:58,  3.59s/it]  [A
Training...:  62% 1623/2609 [1:30:55<57:22,  3.49s/it][A
Training...:  62% 1624/2609 [1:30:58<55:42,  3.39s/it][A
Training...:  62% 1625/2609 [1:31:01<54:17,  3.31s/it][A
Training...:  62% 1626/2609 [1:31:04<52:44,  3.22s/it][A
Training...:  62% 1627/2609 [1:31:07<51:25,  3.14s/it][A
Training...:  62% 1628/2609 [1:31:10<50:05,  3.06s/it][A
Training...:  62% 1629/2609 [1:31:13<48:57,  3.00s/it][A
Training...:  62% 1630/2609 [1:31:16<47:47,  2.93s/it][A
Training...:  63% 1631/2609 [1:31:18<46:28,  2.85s/it][A
Training...:  63% 1632/2609 [1:31:21<45:15,  2.78s/it][A
Training...:  63% 1633/2609 [1:31:24<43:59,  2.70s/it][A
Training...:  63% 1634/2609 [1:31:26<42:34,  2.62s/it][A
Training...:  63% 1635/2609 [1:31:28<41:08,  2.53s/it][A
Training...:  63% 1636/2609 [1:31:31<39:44,  2.45s/it][A
Training...:  63% 1637/2609 [1:31:33<38:41,  2.39s/it][A
Training...:  63% 1638/2609 [1:31:35<37:09,  2.30s/it][A
Training...:  63% 1639/2609 [1:31:37<35:43,  2.21s/it][A
Training...:  63% 1640/2609 [1:31:39<33:54,  2.10s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:11:43<50:40:18, 9600.95s/it]
Training...:  63% 1640/2609 [1:31:41<33:54,  2.10s/it][A
Training...:  63% 1641/2609 [1:31:41<34:13,  2.12s/it][A
Training...:  63% 1642/2609 [1:31:43<31:55,  1.98s/it][A
Training...:  63% 1643/2609 [1:31:44<29:42,  1.85s/it][A
Training...:  63% 1644/2609 [1:31:46<27:37,  1.72s/it][A
Training...:  63% 1645/2609 [1:31:47<25:40,  1.60s/it][A
Training...:  63% 1646/2609 [1:31:48<23:46,  1.48s/it][A
Training...:  63% 1647/2609 [1:31:49<21:47,  1.36s/it][A
Training...:  63% 1648/2609 [1:31:50<19:37,  1.23s/it][A
Training...:  63% 1649/2609 [1:31:51<17:19,  1.08s/it][A
Training...:  63% 1650/2609 [1:31:51<14:39,  1.09it/s][A
Training...:  63% 1651/2609 [1:31:58<43:30,  2.73s/it][A
Training...:  63% 1652/2609 [1:32:05<1:03:39,  3.99s/it][A
Training...:  63% 1653/2609 [1:32:11<1:14:23,  4.67s/it][A
Training...:  63% 1654/2609 [1:32:18<1:21:46,  5.14s/it][A
Training...:  63% 1655/2609 [1:32:23<1:24:27,  5.31s/it][A
Training...:  63% 1656/2609 [1:32:29<1:25:31,  5.38s/it][A
Training...:  64% 1657/2609 [1:32:34<1:25:24,  5.38s/it][A
Training...:  64% 1658/2609 [1:32:40<1:24:28,  5.33s/it][A
Training...:  64% 1659/2609 [1:32:45<1:23:06,  5.25s/it][A
Training...:  64% 1660/2609 [1:32:50<1:21:13,  5.14s/it][A
Training...:  64% 1661/2609 [1:32:54<1:19:01,  5.00s/it][A
Training...:  64% 1662/2609 [1:32:59<1:16:33,  4.85s/it][A
Training...:  64% 1663/2609 [1:33:03<1:14:22,  4.72s/it][A
Training...:  64% 1664/2609 [1:33:07<1:12:21,  4.59s/it][A
Training...:  64% 1665/2609 [1:33:12<1:09:58,  4.45s/it][A                                                           
                                                        [AEpoch ... (1/20):   5% 1/20 [4:13:18<50:40:18, 9600.95s/it]
Training...:  64% 1665/2609 [1:33:16<1:09:58,  4.45s/it][A
Training...:  64% 1666/2609 [1:33:16<1:10:48,  4.51s/it][A
Training...:  64% 1667/2609 [1:33:20<1:08:00,  4.33s/it][A
Training...:  64% 1668/2609 [1:33:24<1:05:32,  4.18s/it][A
Training...:  64% 1669/2609 [1:33:28<1:03:20,  4.04s/it][A
Training...:  64% 1670/2609 [1:33:31<1:01:39,  3.94s/it][A
Training...:  64% 1671/2609 [1:33:35<1:00:14,  3.85s/it][A
Training...:  64% 1672/2609 [1:33:38<57:58,  3.71s/it]  [A
Training...:  64% 1673/2609 [1:33:42<56:09,  3.60s/it][A
Training...:  64% 1674/2609 [1:33:45<54:27,  3.49s/it][A
Training...:  64% 1675/2609 [1:33:48<52:36,  3.38s/it][A
Training...:  64% 1676/2609 [1:33:51<51:01,  3.28s/it][A
Training...:  64% 1677/2609 [1:33:54<49:30,  3.19s/it][A
Training...:  64% 1678/2609 [1:33:57<48:04,  3.10s/it][A
Training...:  64% 1679/2609 [1:34:00<46:38,  3.01s/it][A
Training...:  64% 1680/2609 [1:34:03<45:18,  2.93s/it][A
Training...:  64% 1681/2609 [1:34:05<44:08,  2.85s/it][A
Training...:  64% 1682/2609 [1:34:08<42:36,  2.76s/it][A
Training...:  65% 1683/2609 [1:34:10<41:19,  2.68s/it][A
Training...:  65% 1684/2609 [1:34:13<39:58,  2.59s/it][A
Training...:  65% 1685/2609 [1:34:15<38:45,  2.52s/it][A
Training...:  65% 1686/2609 [1:34:17<37:32,  2.44s/it][A
Training...:  65% 1687/2609 [1:34:19<36:14,  2.36s/it][A
Training...:  65% 1688/2609 [1:34:21<34:50,  2.27s/it][A
Training...:  65% 1689/2609 [1:34:23<33:27,  2.18s/it][A
Training...:  65% 1690/2609 [1:34:25<31:55,  2.08s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:14:30<50:40:18, 9600.95s/it]
Training...:  65% 1690/2609 [1:34:27<31:55,  2.08s/it][A
Training...:  65% 1691/2609 [1:34:27<32:26,  2.12s/it][A
Training...:  65% 1692/2609 [1:34:29<30:22,  1.99s/it][A
Training...:  65% 1693/2609 [1:34:31<28:23,  1.86s/it][A
Training...:  65% 1694/2609 [1:34:32<26:26,  1.73s/it][A
Training...:  65% 1695/2609 [1:34:33<24:32,  1.61s/it][A
Training...:  65% 1696/2609 [1:34:35<22:35,  1.49s/it][A
Training...:  65% 1697/2609 [1:34:36<20:43,  1.36s/it][A
Training...:  65% 1698/2609 [1:34:37<18:39,  1.23s/it][A
Training...:  65% 1699/2609 [1:34:37<16:28,  1.09s/it][A
Training...:  65% 1700/2609 [1:34:38<13:57,  1.09it/s][A
Training...:  65% 1701/2609 [1:34:45<41:15,  2.73s/it][A
Training...:  65% 1702/2609 [1:34:52<1:00:45,  4.02s/it][A
Training...:  65% 1703/2609 [1:34:58<1:12:02,  4.77s/it][A
Training...:  65% 1704/2609 [1:35:05<1:19:12,  5.25s/it][A
Training...:  65% 1705/2609 [1:35:11<1:22:26,  5.47s/it][A
Training...:  65% 1706/2609 [1:35:17<1:24:03,  5.58s/it][A
Training...:  65% 1707/2609 [1:35:22<1:23:32,  5.56s/it][A
Training...:  65% 1708/2609 [1:35:28<1:22:49,  5.52s/it][A
Training...:  66% 1709/2609 [1:35:33<1:20:48,  5.39s/it][A
Training...:  66% 1710/2609 [1:35:38<1:18:36,  5.25s/it][A
Training...:  66% 1711/2609 [1:35:42<1:16:12,  5.09s/it][A
Training...:  66% 1712/2609 [1:35:47<1:14:26,  4.98s/it][A
Training...:  66% 1713/2609 [1:35:52<1:12:35,  4.86s/it][A
Training...:  66% 1714/2609 [1:35:56<1:10:33,  4.73s/it][A
Training...:  66% 1715/2609 [1:36:00<1:08:15,  4.58s/it][A                                                           
                                                        [AEpoch ... (1/20):   5% 1/20 [4:16:07<50:40:18, 9600.95s/it]
Training...:  66% 1715/2609 [1:36:05<1:08:15,  4.58s/it][A
Training...:  66% 1716/2609 [1:36:05<1:09:07,  4.64s/it][A
Training...:  66% 1717/2609 [1:36:09<1:06:23,  4.47s/it][A
Training...:  66% 1718/2609 [1:36:13<1:03:47,  4.30s/it][A
Training...:  66% 1719/2609 [1:36:17<1:01:42,  4.16s/it][A
Training...:  66% 1720/2609 [1:36:21<59:29,  4.01s/it]  [A
Training...:  66% 1721/2609 [1:36:24<57:55,  3.91s/it][A
Training...:  66% 1722/2609 [1:36:28<56:06,  3.80s/it][A
Training...:  66% 1723/2609 [1:36:31<54:25,  3.69s/it][A
Training...:  66% 1724/2609 [1:36:34<52:49,  3.58s/it][A
Training...:  66% 1725/2609 [1:36:38<51:14,  3.48s/it][A
Training...:  66% 1726/2609 [1:36:41<49:39,  3.37s/it][A
Training...:  66% 1727/2609 [1:36:44<48:16,  3.28s/it][A
Training...:  66% 1728/2609 [1:36:47<46:41,  3.18s/it][A
Training...:  66% 1729/2609 [1:36:50<45:23,  3.10s/it][A
Training...:  66% 1730/2609 [1:36:53<43:54,  3.00s/it][A
Training...:  66% 1731/2609 [1:36:55<42:43,  2.92s/it][A
Training...:  66% 1732/2609 [1:36:58<41:19,  2.83s/it][A
Training...:  66% 1733/2609 [1:37:00<39:59,  2.74s/it][A
Training...:  66% 1734/2609 [1:37:03<38:35,  2.65s/it][A
Training...:  67% 1735/2609 [1:37:05<37:16,  2.56s/it][A
Training...:  67% 1736/2609 [1:37:07<35:57,  2.47s/it][A
Training...:  67% 1737/2609 [1:37:10<34:38,  2.38s/it][A
Training...:  67% 1738/2609 [1:37:12<33:11,  2.29s/it][A
Training...:  67% 1739/2609 [1:37:14<31:50,  2.20s/it][A
Training...:  67% 1740/2609 [1:37:16<30:26,  2.10s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:17:20<50:40:18, 9600.95s/it]
Training...:  67% 1740/2609 [1:37:18<30:26,  2.10s/it][A
Training...:  67% 1741/2609 [1:37:18<30:58,  2.14s/it][A
Training...:  67% 1742/2609 [1:37:20<29:04,  2.01s/it][A
Training...:  67% 1743/2609 [1:37:21<27:17,  1.89s/it][A
Training...:  67% 1744/2609 [1:37:23<25:40,  1.78s/it][A
Training...:  67% 1745/2609 [1:37:24<23:51,  1.66s/it][A
Training...:  67% 1746/2609 [1:37:25<22:14,  1.55s/it][A
Training...:  67% 1747/2609 [1:37:26<20:21,  1.42s/it][A
Training...:  67% 1748/2609 [1:37:27<18:25,  1.28s/it][A
Training...:  67% 1749/2609 [1:37:28<16:26,  1.15s/it][A
Training...:  67% 1750/2609 [1:37:29<13:46,  1.04it/s][A
Training...:  67% 1751/2609 [1:37:36<39:09,  2.74s/it][A
Training...:  67% 1752/2609 [1:37:42<56:41,  3.97s/it][A
Training...:  67% 1753/2609 [1:37:49<1:07:18,  4.72s/it][A
Training...:  67% 1754/2609 [1:37:55<1:14:14,  5.21s/it][A
Training...:  67% 1755/2609 [1:38:01<1:16:54,  5.40s/it][A
Training...:  67% 1756/2609 [1:38:07<1:17:54,  5.48s/it][A
Training...:  67% 1757/2609 [1:38:12<1:16:53,  5.41s/it][A
Training...:  67% 1758/2609 [1:38:17<1:15:38,  5.33s/it][A
Training...:  67% 1759/2609 [1:38:22<1:13:53,  5.22s/it][A
Training...:  67% 1760/2609 [1:38:27<1:12:01,  5.09s/it][A
Training...:  67% 1761/2609 [1:38:32<1:10:16,  4.97s/it][A
Training...:  68% 1762/2609 [1:38:36<1:08:30,  4.85s/it][A
Training...:  68% 1763/2609 [1:38:41<1:06:23,  4.71s/it][A
Training...:  68% 1764/2609 [1:38:45<1:04:14,  4.56s/it][A
Training...:  68% 1765/2609 [1:38:49<1:02:33,  4.45s/it][A                                                           
                                                        [AEpoch ... (1/20):   5% 1/20 [4:18:56<50:40:18, 9600.95s/it]
Training...:  68% 1765/2609 [1:38:54<1:02:33,  4.45s/it][A
Training...:  68% 1766/2609 [1:38:54<1:03:45,  4.54s/it][A
Training...:  68% 1767/2609 [1:38:58<1:00:58,  4.35s/it][A
Training...:  68% 1768/2609 [1:39:01<58:42,  4.19s/it]  [A
Training...:  68% 1769/2609 [1:39:05<56:39,  4.05s/it][A
Training...:  68% 1770/2609 [1:39:09<54:48,  3.92s/it][A
Training...:  68% 1771/2609 [1:39:12<53:19,  3.82s/it][A
Training...:  68% 1772/2609 [1:39:16<51:37,  3.70s/it][A
Training...:  68% 1773/2609 [1:39:19<50:05,  3.59s/it][A
Training...:  68% 1774/2609 [1:39:23<49:11,  3.54s/it][A
Training...:  68% 1775/2609 [1:39:26<47:41,  3.43s/it][A
Training...:  68% 1776/2609 [1:39:29<45:57,  3.31s/it][A
Training...:  68% 1777/2609 [1:39:32<44:39,  3.22s/it][A
Training...:  68% 1778/2609 [1:39:35<43:19,  3.13s/it][A
Training...:  68% 1779/2609 [1:39:38<42:02,  3.04s/it][A
Training...:  68% 1780/2609 [1:39:40<40:42,  2.95s/it][A
Training...:  68% 1781/2609 [1:39:43<39:24,  2.86s/it][A
Training...:  68% 1782/2609 [1:39:45<38:10,  2.77s/it][A
Training...:  68% 1783/2609 [1:39:48<37:02,  2.69s/it][A
Training...:  68% 1784/2609 [1:39:50<35:43,  2.60s/it][A
Training...:  68% 1785/2609 [1:39:53<34:34,  2.52s/it][A
Training...:  68% 1786/2609 [1:39:55<33:19,  2.43s/it][A
Training...:  68% 1787/2609 [1:39:57<32:06,  2.34s/it][A
Training...:  69% 1788/2609 [1:39:59<30:52,  2.26s/it][A
Training...:  69% 1789/2609 [1:40:01<29:46,  2.18s/it][A
Training...:  69% 1790/2609 [1:40:03<28:36,  2.10s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:20:07<50:40:18, 9600.95s/it]
Training...:  69% 1790/2609 [1:40:05<28:36,  2.10s/it][A
Training...:  69% 1791/2609 [1:40:05<29:12,  2.14s/it][AStep... (2625 | Loss: 0.3252887427806854, Learning Rate: 9.570908878231421e-05, Gradient Norm: 1.0832853317260742)
Step... (2650 | Loss: 0.2416854202747345, Learning Rate: 9.565858636051416e-05, Gradient Norm: 1.215899109840393)
Step... (2675 | Loss: 0.45775094628334045, Learning Rate: 9.56080766627565e-05, Gradient Norm: 1.3616286516189575)
Step... (2700 | Loss: 0.34477508068084717, Learning Rate: 9.555757424095646e-05, Gradient Norm: 1.6106501817703247)
Step... (2725 | Loss: 0.44502896070480347, Learning Rate: 9.550707181915641e-05, Gradient Norm: 1.5437746047973633)
Step... (2750 | Loss: 0.2518743872642517, Learning Rate: 9.545656212139875e-05, Gradient Norm: 1.3112882375717163)
Step... (2775 | Loss: 0.35127779841423035, Learning Rate: 9.54060596995987e-05, Gradient Norm: 1.182911992073059)
Step... (2800 | Loss: 0.3053050935268402, Learning Rate: 9.535555727779865e-05, Gradient Norm: 1.5874325037002563)
Step... (2825 | Loss: 0.4611046314239502, Learning Rate: 9.530504758004099e-05, Gradient Norm: 1.3567736148834229)
Step... (2850 | Loss: 0.3998144567012787, Learning Rate: 9.525454515824094e-05, Gradient Norm: 1.3832154273986816)
Step... (2875 | Loss: 0.34507766366004944, Learning Rate: 9.52040427364409e-05, Gradient Norm: 1.2919107675552368)
Step... (2900 | Loss: 0.36993011832237244, Learning Rate: 9.515353303868324e-05, Gradient Norm: 1.7009340524673462)
Step... (2925 | Loss: 0.32897114753723145, Learning Rate: 9.510303061688319e-05, Gradient Norm: 1.0672634840011597)
Step... (2950 | Loss: 0.3321995735168457, Learning Rate: 9.505252819508314e-05, Gradient Norm: 1.2230944633483887)
Step... (2975 | Loss: 0.33368778228759766, Learning Rate: 9.500201849732548e-05, Gradient Norm: 1.2516635656356812)
Step... (3000 | Loss: 0.436039000749588, Learning Rate: 9.495151607552543e-05, Gradient Norm: 1.4148532152175903)
Step... (3025 | Loss: 0.3458250164985657, Learning Rate: 9.490100637776777e-05, Gradient Norm: 1.1781890392303467)
Step... (3050 | Loss: 0.4294424057006836, Learning Rate: 9.485050395596772e-05, Gradient Norm: 1.8540840148925781)
Step... (3075 | Loss: 0.40235912799835205, Learning Rate: 9.480000153416768e-05, Gradient Norm: 1.1181684732437134)
Step... (3100 | Loss: 0.35169169306755066, Learning Rate: 9.474949183641002e-05, Gradient Norm: 1.3850939273834229)
Step... (3125 | Loss: 0.28042924404144287, Learning Rate: 9.469898941460997e-05, Gradient Norm: 1.186837911605835)
Step... (3150 | Loss: 0.3153706192970276, Learning Rate: 9.464848699280992e-05, Gradient Norm: 1.3226038217544556)
Step... (3175 | Loss: 0.31297045946121216, Learning Rate: 9.459797729505226e-05, Gradient Norm: 2.178495168685913)
Step... (3200 | Loss: 0.351579874753952, Learning Rate: 9.454747487325221e-05, Gradient Norm: 1.587548851966858)
Step... (3225 | Loss: 0.3363567292690277, Learning Rate: 9.449697245145217e-05, Gradient Norm: 0.9204970598220825)
Step... (3250 | Loss: 0.3565191626548767, Learning Rate: 9.44464627536945e-05, Gradient Norm: 1.5887882709503174)
Step... (3275 | Loss: 0.41363316774368286, Learning Rate: 9.439596033189446e-05, Gradient Norm: 1.2523466348648071)
Step... (3300 | Loss: 0.3964938223361969, Learning Rate: 9.43454506341368e-05, Gradient Norm: 1.5306974649429321)
Step... (3325 | Loss: 0.38421449065208435, Learning Rate: 9.429494821233675e-05, Gradient Norm: 1.0817018747329712)
Step... (3350 | Loss: 0.40338781476020813, Learning Rate: 9.424443851457909e-05, Gradient Norm: 1.5159255266189575)
Step... (3375 | Loss: 0.38507023453712463, Learning Rate: 9.419393609277904e-05, Gradient Norm: 1.2100180387496948)
Step... (3400 | Loss: 0.3365927040576935, Learning Rate: 9.414342639502138e-05, Gradient Norm: 1.3735138177871704)
Step... (3425 | Loss: 0.3584268391132355, Learning Rate: 9.409292397322133e-05, Gradient Norm: 1.1178982257843018)
Step... (3450 | Loss: 0.30791130661964417, Learning Rate: 9.404242155142128e-05, Gradient Norm: 1.502356767654419)
Step... (3475 | Loss: 0.34558412432670593, Learning Rate: 9.399191185366362e-05, Gradient Norm: 0.9966327548027039)
Step... (3500 | Loss: 0.31972575187683105, Learning Rate: 9.394140943186358e-05, Gradient Norm: 1.2553664445877075)
Step... (3525 | Loss: 0.5350893139839172, Learning Rate: 9.389090701006353e-05, Gradient Norm: 1.3086973428726196)
Step... (3550 | Loss: 0.255246102809906, Learning Rate: 9.384039731230587e-05, Gradient Norm: 1.3779659271240234)
Step... (3575 | Loss: 0.32903289794921875, Learning Rate: 9.378989489050582e-05, Gradient Norm: 1.061448574066162)
Step... (3600 | Loss: 0.21614718437194824, Learning Rate: 9.373939246870577e-05, Gradient Norm: 1.1935365200042725)
Step... (3625 | Loss: 0.421503484249115, Learning Rate: 9.368888277094811e-05, Gradient Norm: 1.2854770421981812)
Step... (3650 | Loss: 0.2176775336265564, Learning Rate: 9.363838034914806e-05, Gradient Norm: 1.2460792064666748)
Step... (3675 | Loss: 0.3012144863605499, Learning Rate: 9.358787792734802e-05, Gradient Norm: 1.2082911729812622)
Step... (3700 | Loss: 0.26282748579978943, Learning Rate: 9.353736822959036e-05, Gradient Norm: 1.1413670778274536)
Step... (3725 | Loss: 0.3302740752696991, Learning Rate: 9.348686580779031e-05, Gradient Norm: 0.9751148223876953)
Step... (3750 | Loss: 0.2662542760372162, Learning Rate: 9.343635611003265e-05, Gradient Norm: 1.265189290046692)
Step... (3775 | Loss: 0.3279111981391907, Learning Rate: 9.33858536882326e-05, Gradient Norm: 1.2024599313735962)
Step... (3800 | Loss: 0.38708651065826416, Learning Rate: 9.333535126643255e-05, Gradient Norm: 2.0154128074645996)
Step... (3825 | Loss: 0.3748222887516022, Learning Rate: 9.328484156867489e-05, Gradient Norm: 1.575196623802185)
Step... (3850 | Loss: 0.31653597950935364, Learning Rate: 9.323433914687485e-05, Gradient Norm: 1.481447696685791)
Step... (3875 | Loss: 0.40480825304985046, Learning Rate: 9.31838367250748e-05, Gradient Norm: 1.0993421077728271)
Step... (3900 | Loss: 0.3448445200920105, Learning Rate: 9.313332702731714e-05, Gradient Norm: 1.287226676940918)
Step... (3925 | Loss: 0.33203092217445374, Learning Rate: 9.308282460551709e-05, Gradient Norm: 0.9381853342056274)
Step... (3950 | Loss: 0.23313245177268982, Learning Rate: 9.303232218371704e-05, Gradient Norm: 1.1232351064682007)
Step... (3975 | Loss: 0.2944737374782562, Learning Rate: 9.298181248595938e-05, Gradient Norm: 0.8995513319969177)
Step... (4000 | Loss: 0.2801547050476074, Learning Rate: 9.293131006415933e-05, Gradient Norm: 1.5143409967422485)
Step... (4025 | Loss: 0.34664785861968994, Learning Rate: 9.288080764235929e-05, Gradient Norm: 2.324522018432617)
Step... (4050 | Loss: 0.36689236760139465, Learning Rate: 9.283029794460163e-05, Gradient Norm: 1.4745969772338867)
Step... (4075 | Loss: 0.3020029366016388, Learning Rate: 9.277979552280158e-05, Gradient Norm: 0.880358874797821)
Step... (4100 | Loss: 0.34231632947921753, Learning Rate: 9.272929310100153e-05, Gradient Norm: 1.41606867313385)
Step... (4125 | Loss: 0.3577171564102173, Learning Rate: 9.267878340324387e-05, Gradient Norm: 1.001975178718567)
Step... (4150 | Loss: 0.35019350051879883, Learning Rate: 9.262828098144382e-05, Gradient Norm: 1.3647541999816895)
Step... (4175 | Loss: 0.24700532853603363, Learning Rate: 9.257777855964378e-05, Gradient Norm: 0.8832603096961975)
Step... (4200 | Loss: 0.256801575422287, Learning Rate: 9.252726886188611e-05, Gradient Norm: 1.1346280574798584)
Step... (4225 | Loss: 0.3858116865158081, Learning Rate: 9.247676644008607e-05, Gradient Norm: 1.2305891513824463)
Step... (4250 | Loss: 0.25299614667892456, Learning Rate: 9.242626401828602e-05, Gradient Norm: 1.738736867904663)
Step... (4275 | Loss: 0.2873517572879791, Learning Rate: 9.237575432052836e-05, Gradient Norm: 0.8579689264297485)
Step... (4300 | Loss: 0.38711032271385193, Learning Rate: 9.232525189872831e-05, Gradient Norm: 1.290179967880249)
Step... (4325 | Loss: 0.3318815231323242, Learning Rate: 9.227474947692826e-05, Gradient Norm: 1.0347576141357422)
Step... (4350 | Loss: 0.2579565942287445, Learning Rate: 9.22242397791706e-05, Gradient Norm: 1.3555712699890137)
Step... (4375 | Loss: 0.21955282986164093, Learning Rate: 9.217373735737056e-05, Gradient Norm: 0.837330162525177)

Training...:  69% 1792/2609 [1:40:07<27:45,  2.04s/it][A
Training...:  69% 1793/2609 [1:40:09<26:01,  1.91s/it][A
Training...:  69% 1794/2609 [1:40:10<24:15,  1.79s/it][A
Training...:  69% 1795/2609 [1:40:11<22:19,  1.65s/it][A
Training...:  69% 1796/2609 [1:40:13<20:27,  1.51s/it][A
Training...:  69% 1797/2609 [1:40:14<18:40,  1.38s/it][A
Training...:  69% 1798/2609 [1:40:15<16:48,  1.24s/it][A
Training...:  69% 1799/2609 [1:40:15<14:51,  1.10s/it][A
Training...:  69% 1800/2609 [1:40:16<12:34,  1.07it/s][A
Training...:  69% 1801/2609 [1:40:23<36:34,  2.72s/it][A
Training...:  69% 1802/2609 [1:40:30<53:16,  3.96s/it][A
Training...:  69% 1803/2609 [1:40:36<1:02:30,  4.65s/it][A
Training...:  69% 1804/2609 [1:40:42<1:08:08,  5.08s/it][A
Training...:  69% 1805/2609 [1:40:48<1:10:37,  5.27s/it][A
Training...:  69% 1806/2609 [1:40:53<1:11:47,  5.36s/it][A
Training...:  69% 1807/2609 [1:40:59<1:11:32,  5.35s/it][A
Training...:  69% 1808/2609 [1:41:04<1:10:42,  5.30s/it][A
Training...:  69% 1809/2609 [1:41:09<1:09:05,  5.18s/it][A
Training...:  69% 1810/2609 [1:41:14<1:08:20,  5.13s/it][A
Training...:  69% 1811/2609 [1:41:19<1:06:41,  5.01s/it][A
Training...:  69% 1812/2609 [1:41:23<1:05:02,  4.90s/it][A
Training...:  69% 1813/2609 [1:41:28<1:02:58,  4.75s/it][A
Training...:  70% 1814/2609 [1:41:32<1:01:06,  4.61s/it][A
Training...:  70% 1815/2609 [1:41:36<59:01,  4.46s/it]  [A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:21:43<50:40:18, 9600.95s/it]
Training...:  70% 1815/2609 [1:41:41<59:01,  4.46s/it][A
Training...:  70% 1816/2609 [1:41:41<59:42,  4.52s/it][A
Training...:  70% 1817/2609 [1:41:45<57:10,  4.33s/it][A
Training...:  70% 1818/2609 [1:41:48<55:11,  4.19s/it][A
Training...:  70% 1819/2609 [1:41:52<53:31,  4.07s/it][A
Training...:  70% 1820/2609 [1:41:56<51:43,  3.93s/it][A
Training...:  70% 1821/2609 [1:41:59<50:09,  3.82s/it][A
Training...:  70% 1822/2609 [1:42:03<48:49,  3.72s/it][A
Training...:  70% 1823/2609 [1:42:06<47:28,  3.62s/it][A
Training...:  70% 1824/2609 [1:42:10<46:19,  3.54s/it][A
Training...:  70% 1825/2609 [1:42:13<44:49,  3.43s/it][A
Training...:  70% 1826/2609 [1:42:16<43:27,  3.33s/it][A
Training...:  70% 1827/2609 [1:42:19<42:08,  3.23s/it][A
Training...:  70% 1828/2609 [1:42:22<40:49,  3.14s/it][A
Training...:  70% 1829/2609 [1:42:25<39:35,  3.05s/it][A
Training...:  70% 1830/2609 [1:42:27<38:34,  2.97s/it][A
Training...:  70% 1831/2609 [1:42:30<37:38,  2.90s/it][A
Training...:  70% 1832/2609 [1:42:33<36:20,  2.81s/it][A
Training...:  70% 1833/2609 [1:42:35<35:05,  2.71s/it][A
Training...:  70% 1834/2609 [1:42:38<33:51,  2.62s/it][A
Training...:  70% 1835/2609 [1:42:40<32:48,  2.54s/it][A
Training...:  70% 1836/2609 [1:42:42<31:40,  2.46s/it][A
Training...:  70% 1837/2609 [1:42:44<30:30,  2.37s/it][A
Training...:  70% 1838/2609 [1:42:46<29:17,  2.28s/it][A
Training...:  70% 1839/2609 [1:42:48<28:10,  2.20s/it][A
Training...:  71% 1840/2609 [1:42:50<27:00,  2.11s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:22:55<50:40:18, 9600.95s/it]
Training...:  71% 1840/2609 [1:42:53<27:00,  2.11s/it][A
Training...:  71% 1841/2609 [1:42:53<27:31,  2.15s/it][A
Training...:  71% 1842/2609 [1:42:54<25:52,  2.02s/it][A
Training...:  71% 1843/2609 [1:42:56<24:18,  1.90s/it][A
Training...:  71% 1844/2609 [1:42:57<22:45,  1.79s/it][A
Training...:  71% 1845/2609 [1:42:59<21:12,  1.67s/it][A
Training...:  71% 1846/2609 [1:43:00<19:38,  1.55s/it][A
Training...:  71% 1847/2609 [1:43:01<17:57,  1.41s/it][A
Training...:  71% 1848/2609 [1:43:02<16:12,  1.28s/it][A
Training...:  71% 1849/2609 [1:43:03<14:19,  1.13s/it][A
Training...:  71% 1850/2609 [1:43:04<12:01,  1.05it/s][A
Training...:  71% 1851/2609 [1:43:10<34:43,  2.75s/it][A
Training...:  71% 1852/2609 [1:43:17<50:21,  3.99s/it][A
Training...:  71% 1853/2609 [1:43:24<1:00:40,  4.82s/it][A
Training...:  71% 1854/2609 [1:43:30<1:06:13,  5.26s/it][A
Training...:  71% 1855/2609 [1:43:36<1:08:12,  5.43s/it][A
Training...:  71% 1856/2609 [1:43:42<1:08:26,  5.45s/it][A
Training...:  71% 1857/2609 [1:43:47<1:07:28,  5.38s/it][A
Training...:  71% 1858/2609 [1:43:52<1:06:16,  5.30s/it][A
Training...:  71% 1859/2609 [1:43:57<1:05:06,  5.21s/it][A
Training...:  71% 1860/2609 [1:44:02<1:03:18,  5.07s/it][A
Training...:  71% 1861/2609 [1:44:06<1:01:45,  4.95s/it][A
Training...:  71% 1862/2609 [1:44:11<1:00:30,  4.86s/it][A
Training...:  71% 1863/2609 [1:44:16<58:44,  4.72s/it]  [A
Training...:  71% 1864/2609 [1:44:20<56:55,  4.58s/it][A
Training...:  71% 1865/2609 [1:44:24<55:14,  4.45s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:24:31<50:40:18, 9600.95s/it]
Training...:  71% 1865/2609 [1:44:29<55:14,  4.45s/it][A
Training...:  72% 1866/2609 [1:44:29<56:02,  4.53s/it][A
Training...:  72% 1867/2609 [1:44:33<53:43,  4.34s/it][A
Training...:  72% 1868/2609 [1:44:36<51:43,  4.19s/it][A
Training...:  72% 1869/2609 [1:44:40<49:57,  4.05s/it][A
Training...:  72% 1870/2609 [1:44:44<48:05,  3.90s/it][A
Training...:  72% 1871/2609 [1:44:47<46:25,  3.77s/it][A
Training...:  72% 1872/2609 [1:44:51<44:59,  3.66s/it][A
Training...:  72% 1873/2609 [1:44:54<43:36,  3.55s/it][A
Training...:  72% 1874/2609 [1:44:57<42:23,  3.46s/it][A
Training...:  72% 1875/2609 [1:45:00<41:06,  3.36s/it][A
Training...:  72% 1876/2609 [1:45:03<39:48,  3.26s/it][A
Training...:  72% 1877/2609 [1:45:06<38:31,  3.16s/it][A
Training...:  72% 1878/2609 [1:45:09<37:40,  3.09s/it][A
Training...:  72% 1879/2609 [1:45:12<36:26,  2.99s/it][A
Training...:  72% 1880/2609 [1:45:15<35:21,  2.91s/it][A
Training...:  72% 1881/2609 [1:45:17<34:11,  2.82s/it][A
Training...:  72% 1882/2609 [1:45:20<32:54,  2.72s/it][A
Training...:  72% 1883/2609 [1:45:22<31:46,  2.63s/it][A
Training...:  72% 1884/2609 [1:45:24<30:36,  2.53s/it][A
Training...:  72% 1885/2609 [1:45:27<29:46,  2.47s/it][A
Training...:  72% 1886/2609 [1:45:29<28:51,  2.39s/it][A
Training...:  72% 1887/2609 [1:45:31<27:47,  2.31s/it][A
Training...:  72% 1888/2609 [1:45:33<26:53,  2.24s/it][A
Training...:  72% 1889/2609 [1:45:35<25:44,  2.14s/it][A
Training...:  72% 1890/2609 [1:45:37<24:38,  2.06s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:25:41<50:40:18, 9600.95s/it]
Training...:  72% 1890/2609 [1:45:39<24:38,  2.06s/it][A
Training...:  72% 1891/2609 [1:45:39<25:11,  2.10s/it][A
Training...:  73% 1892/2609 [1:45:41<23:38,  1.98s/it][A
Training...:  73% 1893/2609 [1:45:42<22:07,  1.85s/it][A
Training...:  73% 1894/2609 [1:45:44<20:36,  1.73s/it][A
Training...:  73% 1895/2609 [1:45:45<19:20,  1.62s/it][A
Training...:  73% 1896/2609 [1:45:46<17:41,  1.49s/it][A
Training...:  73% 1897/2609 [1:45:47<16:06,  1.36s/it][A
Training...:  73% 1898/2609 [1:45:48<14:30,  1.22s/it][A
Training...:  73% 1899/2609 [1:45:49<12:53,  1.09s/it][A
Training...:  73% 1900/2609 [1:45:50<10:58,  1.08it/s][A
Training...:  73% 1901/2609 [1:45:57<33:28,  2.84s/it][A
Training...:  73% 1902/2609 [1:46:04<49:05,  4.17s/it][A
Training...:  73% 1903/2609 [1:46:11<58:10,  4.94s/it][A
Training...:  73% 1904/2609 [1:46:17<1:03:00,  5.36s/it][A
Training...:  73% 1905/2609 [1:46:23<1:04:33,  5.50s/it][A
Training...:  73% 1906/2609 [1:46:29<1:05:03,  5.55s/it][A
Training...:  73% 1907/2609 [1:46:34<1:04:09,  5.48s/it][A
Training...:  73% 1908/2609 [1:46:39<1:03:00,  5.39s/it][A
Training...:  73% 1909/2609 [1:46:44<1:01:26,  5.27s/it][A
Training...:  73% 1910/2609 [1:46:49<59:38,  5.12s/it]  [A
Training...:  73% 1911/2609 [1:46:54<58:14,  5.01s/it][A
Training...:  73% 1912/2609 [1:46:58<56:15,  4.84s/it][A
Training...:  73% 1913/2609 [1:47:03<54:28,  4.70s/it][A
Training...:  73% 1914/2609 [1:47:07<52:36,  4.54s/it][A
Training...:  73% 1915/2609 [1:47:11<51:13,  4.43s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:27:18<50:40:18, 9600.95s/it]
Training...:  73% 1915/2609 [1:47:16<51:13,  4.43s/it][A
Training...:  73% 1916/2609 [1:47:16<51:59,  4.50s/it][A
Training...:  73% 1917/2609 [1:47:20<50:24,  4.37s/it][A
Training...:  74% 1918/2609 [1:47:24<48:27,  4.21s/it][A
Training...:  74% 1919/2609 [1:47:27<46:31,  4.04s/it][A
Training...:  74% 1920/2609 [1:47:31<44:49,  3.90s/it][A
Training...:  74% 1921/2609 [1:47:34<43:24,  3.79s/it][A
Training...:  74% 1922/2609 [1:47:38<42:04,  3.68s/it][A
Training...:  74% 1923/2609 [1:47:41<40:46,  3.57s/it][A
Training...:  74% 1924/2609 [1:47:44<39:38,  3.47s/it][A
Training...:  74% 1925/2609 [1:47:47<38:25,  3.37s/it][A
Training...:  74% 1926/2609 [1:47:50<37:06,  3.26s/it][A
Training...:  74% 1927/2609 [1:47:53<36:07,  3.18s/it][A
Training...:  74% 1928/2609 [1:47:56<35:04,  3.09s/it][A
Training...:  74% 1929/2609 [1:47:59<34:15,  3.02s/it][A
Training...:  74% 1930/2609 [1:48:02<33:11,  2.93s/it][A
Training...:  74% 1931/2609 [1:48:05<32:17,  2.86s/it][A
Training...:  74% 1932/2609 [1:48:07<31:07,  2.76s/it][A
Training...:  74% 1933/2609 [1:48:10<30:05,  2.67s/it][A
Training...:  74% 1934/2609 [1:48:12<29:00,  2.58s/it][A
Training...:  74% 1935/2609 [1:48:14<28:07,  2.50s/it][A
Training...:  74% 1936/2609 [1:48:16<27:02,  2.41s/it][A
Training...:  74% 1937/2609 [1:48:19<26:00,  2.32s/it][A
Training...:  74% 1938/2609 [1:48:20<24:51,  2.22s/it][A
Training...:  74% 1939/2609 [1:48:22<23:53,  2.14s/it][A
Training...:  74% 1940/2609 [1:48:24<22:41,  2.04s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:28:29<50:40:18, 9600.95s/it]
Training...:  74% 1940/2609 [1:48:26<22:41,  2.04s/it][A
Training...:  74% 1941/2609 [1:48:26<23:02,  2.07s/it][A
Training...:  74% 1942/2609 [1:48:28<21:30,  1.93s/it][A
Training...:  74% 1943/2609 [1:48:30<20:09,  1.82s/it][A
Training...:  75% 1944/2609 [1:48:31<18:54,  1.71s/it][A
Training...:  75% 1945/2609 [1:48:32<17:41,  1.60s/it][A
Training...:  75% 1946/2609 [1:48:34<16:24,  1.48s/it][A
Training...:  75% 1947/2609 [1:48:35<15:04,  1.37s/it][A
Training...:  75% 1948/2609 [1:48:36<13:39,  1.24s/it][A
Training...:  75% 1949/2609 [1:48:36<12:09,  1.11s/it][A
Training...:  75% 1950/2609 [1:48:37<10:18,  1.07it/s][A
Training...:  75% 1951/2609 [1:48:44<29:38,  2.70s/it][A
Training...:  75% 1952/2609 [1:48:51<43:26,  3.97s/it][A
Training...:  75% 1953/2609 [1:48:57<51:14,  4.69s/it][A
Training...:  75% 1954/2609 [1:49:03<55:59,  5.13s/it][A
Training...:  75% 1955/2609 [1:49:09<58:16,  5.35s/it][A
Training...:  75% 1956/2609 [1:49:15<59:31,  5.47s/it][A
Training...:  75% 1957/2609 [1:49:20<59:30,  5.48s/it][A
Training...:  75% 1958/2609 [1:49:26<58:39,  5.41s/it][A
Training...:  75% 1959/2609 [1:49:31<57:54,  5.35s/it][A
Training...:  75% 1960/2609 [1:49:36<56:34,  5.23s/it][A
Training...:  75% 1961/2609 [1:49:41<55:11,  5.11s/it][A
Training...:  75% 1962/2609 [1:49:45<53:43,  4.98s/it][A
Training...:  75% 1963/2609 [1:49:50<51:54,  4.82s/it][A
Training...:  75% 1964/2609 [1:49:54<50:02,  4.66s/it][A
Training...:  75% 1965/2609 [1:49:58<48:22,  4.51s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:30:05<50:40:18, 9600.95s/it]
Training...:  75% 1965/2609 [1:50:03<48:22,  4.51s/it][A
Training...:  75% 1966/2609 [1:50:03<48:46,  4.55s/it][A
Training...:  75% 1967/2609 [1:50:07<46:46,  4.37s/it][A
Training...:  75% 1968/2609 [1:50:11<45:01,  4.21s/it][A
Training...:  75% 1969/2609 [1:50:14<43:30,  4.08s/it][A
Training...:  76% 1970/2609 [1:50:18<41:48,  3.93s/it][A
Training...:  76% 1971/2609 [1:50:21<40:29,  3.81s/it][A
Training...:  76% 1972/2609 [1:50:25<39:16,  3.70s/it][A
Training...:  76% 1973/2609 [1:50:28<38:07,  3.60s/it][A
Training...:  76% 1974/2609 [1:50:31<36:55,  3.49s/it][A
Training...:  76% 1975/2609 [1:50:35<36:03,  3.41s/it][A
Training...:  76% 1976/2609 [1:50:38<34:56,  3.31s/it][A
Training...:  76% 1977/2609 [1:50:41<33:49,  3.21s/it][A
Training...:  76% 1978/2609 [1:50:44<32:42,  3.11s/it][A
Training...:  76% 1979/2609 [1:50:46<31:48,  3.03s/it][A
Training...:  76% 1980/2609 [1:50:49<30:49,  2.94s/it][A
Training...:  76% 1981/2609 [1:50:52<30:04,  2.87s/it][A
Training...:  76% 1982/2609 [1:50:55<29:12,  2.80s/it][A
Training...:  76% 1983/2609 [1:50:57<28:22,  2.72s/it][A
Training...:  76% 1984/2609 [1:51:00<27:30,  2.64s/it][A
Training...:  76% 1985/2609 [1:51:02<26:32,  2.55s/it][A
Training...:  76% 1986/2609 [1:51:04<25:37,  2.47s/it][A
Training...:  76% 1987/2609 [1:51:06<24:44,  2.39s/it][A
Training...:  76% 1988/2609 [1:51:08<23:44,  2.29s/it][A
Training...:  76% 1989/2609 [1:51:10<22:48,  2.21s/it][A
Training...:  76% 1990/2609 [1:51:12<21:51,  2.12s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:31:17<50:40:18, 9600.95s/it]
Training...:  76% 1990/2609 [1:51:15<21:51,  2.12s/it][A
Training...:  76% 1991/2609 [1:51:15<22:13,  2.16s/it][A
Training...:  76% 1992/2609 [1:51:16<20:57,  2.04s/it][A
Training...:  76% 1993/2609 [1:51:18<19:43,  1.92s/it][A
Training...:  76% 1994/2609 [1:51:19<18:25,  1.80s/it][A
Training...:  76% 1995/2609 [1:51:21<17:10,  1.68s/it][A
Training...:  77% 1996/2609 [1:51:22<15:54,  1.56s/it][A
Training...:  77% 1997/2609 [1:51:23<14:45,  1.45s/it][A
Training...:  77% 1998/2609 [1:51:24<13:25,  1.32s/it][A
Training...:  77% 1999/2609 [1:51:25<11:49,  1.16s/it][A
Training...:  77% 2000/2609 [1:51:26<09:55,  1.02it/s][A
Training...:  77% 2001/2609 [1:51:33<28:14,  2.79s/it][A
Training...:  77% 2002/2609 [1:51:40<41:08,  4.07s/it][A
Training...:  77% 2003/2609 [1:51:47<49:14,  4.88s/it][A
Training...:  77% 2004/2609 [1:51:53<53:41,  5.32s/it][A
Training...:  77% 2005/2609 [1:51:59<55:21,  5.50s/it][A
Training...:  77% 2006/2609 [1:52:05<56:06,  5.58s/it][A
Training...:  77% 2007/2609 [1:52:10<55:26,  5.53s/it][A
Training...:  77% 2008/2609 [1:52:15<54:59,  5.49s/it][A
Training...:  77% 2009/2609 [1:52:21<54:10,  5.42s/it][A
Training...:  77% 2010/2609 [1:52:26<52:46,  5.29s/it][A
Training...:  77% 2011/2609 [1:52:31<51:38,  5.18s/it][A
Training...:  77% 2012/2609 [1:52:35<50:07,  5.04s/it][A
Training...:  77% 2013/2609 [1:52:40<48:41,  4.90s/it][A
Training...:  77% 2014/2609 [1:52:44<47:19,  4.77s/it][A
Training...:  77% 2015/2609 [1:52:49<46:00,  4.65s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:32:56<50:40:18, 9600.95s/it]
Training...:  77% 2015/2609 [1:52:54<46:00,  4.65s/it][A
Training...:  77% 2016/2609 [1:52:54<46:32,  4.71s/it][A
Training...:  77% 2017/2609 [1:52:57<44:05,  4.47s/it][A
Training...:  77% 2018/2609 [1:53:01<42:18,  4.29s/it][A
Training...:  77% 2019/2609 [1:53:05<40:38,  4.13s/it][A
Training...:  77% 2020/2609 [1:53:09<39:07,  3.99s/it][A
Training...:  77% 2021/2609 [1:53:12<37:46,  3.85s/it][A
Training...:  78% 2022/2609 [1:53:16<36:42,  3.75s/it][A
Training...:  78% 2023/2609 [1:53:19<35:29,  3.63s/it][A
Training...:  78% 2024/2609 [1:53:22<34:28,  3.54s/it][A
Training...:  78% 2025/2609 [1:53:26<33:31,  3.44s/it][A
Training...:  78% 2026/2609 [1:53:29<32:43,  3.37s/it][A
Training...:  78% 2027/2609 [1:53:32<32:00,  3.30s/it][A
Training...:  78% 2028/2609 [1:53:35<31:11,  3.22s/it][A
Training...:  78% 2029/2609 [1:53:38<30:15,  3.13s/it][A
Training...:  78% 2030/2609 [1:53:41<29:15,  3.03s/it][A
Training...:  78% 2031/2609 [1:53:43<28:17,  2.94s/it][A
Training...:  78% 2032/2609 [1:53:46<27:18,  2.84s/it][A
Training...:  78% 2033/2609 [1:53:49<26:15,  2.74s/it][A
Training...:  78% 2034/2609 [1:53:51<25:25,  2.65s/it][A
Training...:  78% 2035/2609 [1:53:53<24:30,  2.56s/it][A
Training...:  78% 2036/2609 [1:53:56<23:33,  2.47s/it][A
Training...:  78% 2037/2609 [1:53:58<22:47,  2.39s/it][A
Training...:  78% 2038/2609 [1:54:00<21:51,  2.30s/it][A
Training...:  78% 2039/2609 [1:54:02<21:00,  2.21s/it][A
Training...:  78% 2040/2609 [1:54:04<20:07,  2.12s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:34:08<50:40:18, 9600.95s/it]
Training...:  78% 2040/2609 [1:54:06<20:07,  2.12s/it][A
Training...:  78% 2041/2609 [1:54:06<20:28,  2.16s/it][A
Training...:  78% 2042/2609 [1:54:08<19:14,  2.04s/it][A
Training...:  78% 2043/2609 [1:54:09<18:00,  1.91s/it][A
Training...:  78% 2044/2609 [1:54:11<16:45,  1.78s/it][A
Training...:  78% 2045/2609 [1:54:12<15:33,  1.65s/it][A
Training...:  78% 2046/2609 [1:54:14<14:22,  1.53s/it][A
Training...:  78% 2047/2609 [1:54:15<13:16,  1.42s/it][A
Training...:  78% 2048/2609 [1:54:16<12:02,  1.29s/it][A
Training...:  79% 2049/2609 [1:54:16<10:31,  1.13s/it][A
Training...:  79% 2050/2609 [1:54:17<08:50,  1.05it/s][A
Training...:  79% 2051/2609 [1:54:24<26:26,  2.84s/it][A
Training...:  79% 2052/2609 [1:54:31<38:04,  4.10s/it][A
Training...:  79% 2053/2609 [1:54:38<44:29,  4.80s/it][A
Training...:  79% 2054/2609 [1:54:44<48:08,  5.21s/it][A
Training...:  79% 2055/2609 [1:54:50<49:42,  5.38s/it][A
Training...:  79% 2056/2609 [1:54:55<50:27,  5.47s/it][A
Training...:  79% 2057/2609 [1:55:01<50:54,  5.53s/it][A
Training...:  79% 2058/2609 [1:55:06<50:01,  5.45s/it][A
Training...:  79% 2059/2609 [1:55:11<48:36,  5.30s/it][A
Training...:  79% 2060/2609 [1:55:16<47:24,  5.18s/it][A
Training...:  79% 2061/2609 [1:55:21<45:56,  5.03s/it][A
Training...:  79% 2062/2609 [1:55:25<44:25,  4.87s/it][A
Training...:  79% 2063/2609 [1:55:30<42:54,  4.72s/it][A
Training...:  79% 2064/2609 [1:55:34<41:35,  4.58s/it][A
Training...:  79% 2065/2609 [1:55:38<40:15,  4.44s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:35:45<50:40:18, 9600.95s/it]
Training...:  79% 2065/2609 [1:55:43<40:15,  4.44s/it][A
Training...:  79% 2066/2609 [1:55:43<40:50,  4.51s/it][A
Training...:  79% 2067/2609 [1:55:47<39:02,  4.32s/it][A
Training...:  79% 2068/2609 [1:55:50<37:38,  4.17s/it][A
Training...:  79% 2069/2609 [1:55:54<36:26,  4.05s/it][A
Training...:  79% 2070/2609 [1:55:58<35:02,  3.90s/it][A
Training...:  79% 2071/2609 [1:56:01<33:55,  3.78s/it][A
Training...:  79% 2072/2609 [1:56:05<32:51,  3.67s/it][A
Training...:  79% 2073/2609 [1:56:08<31:57,  3.58s/it][A
Training...:  79% 2074/2609 [1:56:11<30:58,  3.47s/it][A
Training...:  80% 2075/2609 [1:56:14<30:06,  3.38s/it][A
Training...:  80% 2076/2609 [1:56:18<29:16,  3.30s/it][A
Training...:  80% 2077/2609 [1:56:20<28:19,  3.19s/it][A
Training...:  80% 2078/2609 [1:56:23<27:29,  3.11s/it][A
Training...:  80% 2079/2609 [1:56:26<26:44,  3.03s/it][A
Training...:  80% 2080/2609 [1:56:29<26:02,  2.95s/it][A
Training...:  80% 2081/2609 [1:56:32<25:13,  2.87s/it][A
Training...:  80% 2082/2609 [1:56:34<24:24,  2.78s/it][A
Training...:  80% 2083/2609 [1:56:37<23:32,  2.69s/it][A
Training...:  80% 2084/2609 [1:56:39<22:43,  2.60s/it][A
Training...:  80% 2085/2609 [1:56:41<21:51,  2.50s/it][A
Training...:  80% 2086/2609 [1:56:44<21:14,  2.44s/it][A
Training...:  80% 2087/2609 [1:56:46<20:24,  2.35s/it][A
Training...:  80% 2088/2609 [1:56:48<19:32,  2.25s/it][A
Training...:  80% 2089/2609 [1:56:50<18:47,  2.17s/it][A
Training...:  80% 2090/2609 [1:56:52<17:57,  2.08s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:36:56<50:40:18, 9600.95s/it]
Training...:  80% 2090/2609 [1:56:54<17:57,  2.08s/it][A
Training...:  80% 2091/2609 [1:56:54<18:27,  2.14s/it][A
Training...:  80% 2092/2609 [1:56:56<17:21,  2.01s/it][A
Training...:  80% 2093/2609 [1:56:57<16:14,  1.89s/it][A
Training...:  80% 2094/2609 [1:56:59<15:13,  1.77s/it][A
Training...:  80% 2095/2609 [1:57:00<14:06,  1.65s/it][A
Training...:  80% 2096/2609 [1:57:01<13:00,  1.52s/it][A
Training...:  80% 2097/2609 [1:57:02<11:54,  1.40s/it][A
Training...:  80% 2098/2609 [1:57:03<10:40,  1.25s/it][A
Training...:  80% 2099/2609 [1:57:04<09:22,  1.10s/it][A
Training...:  80% 2100/2609 [1:57:05<07:49,  1.08it/s][A
Training...:  81% 2101/2609 [1:57:12<23:27,  2.77s/it][A
Training...:  81% 2102/2609 [1:57:19<33:57,  4.02s/it][A
Training...:  81% 2103/2609 [1:57:25<39:55,  4.74s/it][A
Training...:  81% 2104/2609 [1:57:31<43:24,  5.16s/it][A
Training...:  81% 2105/2609 [1:57:37<45:10,  5.38s/it][A
Training...:  81% 2106/2609 [1:57:43<46:10,  5.51s/it][A
Training...:  81% 2107/2609 [1:57:48<45:56,  5.49s/it][A
Training...:  81% 2108/2609 [1:57:54<45:16,  5.42s/it][A
Training...:  81% 2109/2609 [1:57:59<44:15,  5.31s/it][A
Training...:  81% 2110/2609 [1:58:04<43:03,  5.18s/it][A
Training...:  81% 2111/2609 [1:58:08<41:51,  5.04s/it][A
Training...:  81% 2112/2609 [1:58:13<40:32,  4.90s/it][A
Training...:  81% 2113/2609 [1:58:17<39:20,  4.76s/it][A
Training...:  81% 2114/2609 [1:58:22<38:15,  4.64s/it][A
Training...:  81% 2115/2609 [1:58:26<37:21,  4.54s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:38:33<50:40:18, 9600.95s/it]
Training...:  81% 2115/2609 [1:58:31<37:21,  4.54s/it][A
Training...:  81% 2116/2609 [1:58:31<37:38,  4.58s/it][A
Training...:  81% 2117/2609 [1:58:35<36:11,  4.41s/it][A
Training...:  81% 2118/2609 [1:58:39<35:06,  4.29s/it][A
Training...:  81% 2119/2609 [1:58:42<33:50,  4.14s/it][A
Training...:  81% 2120/2609 [1:58:46<32:33,  4.00s/it][A
Training...:  81% 2121/2609 [1:58:50<31:20,  3.85s/it][A
Training...:  81% 2122/2609 [1:58:53<30:13,  3.72s/it][A
Training...:  81% 2123/2609 [1:58:56<29:19,  3.62s/it][A
Training...:  81% 2124/2609 [1:59:00<28:30,  3.53s/it][A
Training...:  81% 2125/2609 [1:59:03<27:34,  3.42s/it][A
Training...:  81% 2126/2609 [1:59:06<26:34,  3.30s/it][A
Training...:  82% 2127/2609 [1:59:09<25:40,  3.20s/it][A
Training...:  82% 2128/2609 [1:59:12<24:48,  3.09s/it][A
Training...:  82% 2129/2609 [1:59:15<24:03,  3.01s/it][A
Training...:  82% 2130/2609 [1:59:17<23:15,  2.91s/it][A
Training...:  82% 2131/2609 [1:59:20<22:25,  2.82s/it][A
Training...:  82% 2132/2609 [1:59:22<21:38,  2.72s/it][A
Training...:  82% 2133/2609 [1:59:25<21:00,  2.65s/it][A
Training...:  82% 2134/2609 [1:59:27<20:16,  2.56s/it][A
Training...:  82% 2135/2609 [1:59:29<19:34,  2.48s/it][A
Training...:  82% 2136/2609 [1:59:32<18:55,  2.40s/it][A
Training...:  82% 2137/2609 [1:59:34<18:14,  2.32s/it][A
Training...:  82% 2138/2609 [1:59:36<17:30,  2.23s/it][A
Training...:  82% 2139/2609 [1:59:38<16:48,  2.15s/it][A
Training...:  82% 2140/2609 [1:59:40<16:02,  2.05s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:39:44<50:40:18, 9600.95s/it]
Training...:  82% 2140/2609 [1:59:42<16:02,  2.05s/it][A
Training...:  82% 2141/2609 [1:59:42<16:16,  2.09s/it][A
Training...:  82% 2142/2609 [1:59:43<15:13,  1.96s/it][A
Training...:  82% 2143/2609 [1:59:45<14:16,  1.84s/it][A
Training...:  82% 2144/2609 [1:59:46<13:19,  1.72s/it][A
Training...:  82% 2145/2609 [1:59:48<12:20,  1.60s/it][A
Training...:  82% 2146/2609 [1:59:49<11:21,  1.47s/it][A
Training...:  82% 2147/2609 [1:59:50<10:24,  1.35s/it][A
Training...:  82% 2148/2609 [1:59:51<09:22,  1.22s/it][A
Training...:  82% 2149/2609 [1:59:52<08:17,  1.08s/it][A
Training...:  82% 2150/2609 [1:59:52<06:59,  1.09it/s][A
Training...:  82% 2151/2609 [1:59:59<20:41,  2.71s/it][A
Training...:  82% 2152/2609 [2:00:06<30:15,  3.97s/it][A
Training...:  83% 2153/2609 [2:00:13<36:05,  4.75s/it][A
Training...:  83% 2154/2609 [2:00:19<39:32,  5.21s/it][A
Training...:  83% 2155/2609 [2:00:25<40:52,  5.40s/it][A
Training...:  83% 2156/2609 [2:00:30<41:31,  5.50s/it][A
Training...:  83% 2157/2609 [2:00:36<41:24,  5.50s/it][A
Training...:  83% 2158/2609 [2:00:41<40:51,  5.44s/it][A
Training...:  83% 2159/2609 [2:00:46<39:56,  5.33s/it][A
Training...:  83% 2160/2609 [2:00:51<39:00,  5.21s/it][A
Training...:  83% 2161/2609 [2:00:56<38:14,  5.12s/it][A
Training...:  83% 2162/2609 [2:01:01<37:11,  4.99s/it][A
Training...:  83% 2163/2609 [2:01:05<36:01,  4.85s/it][A
Training...:  83% 2164/2609 [2:01:10<34:49,  4.69s/it][A
Training...:  83% 2165/2609 [2:01:14<33:39,  4.55s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:41:21<50:40:18, 9600.95s/it]
Training...:  83% 2165/2609 [2:01:19<33:39,  4.55s/it][A
Training...:  83% 2166/2609 [2:01:19<33:59,  4.60s/it][A
Training...:  83% 2167/2609 [2:01:23<32:31,  4.42s/it][A
Training...:  83% 2168/2609 [2:01:26<31:17,  4.26s/it][A
Training...:  83% 2169/2609 [2:01:30<30:19,  4.14s/it][A
Training...:  83% 2170/2609 [2:01:34<29:16,  4.00s/it][A
Training...:  83% 2171/2609 [2:01:38<28:30,  3.91s/it][A
Training...:  83% 2172/2609 [2:01:41<27:38,  3.79s/it][A
Training...:  83% 2173/2609 [2:01:45<26:54,  3.70s/it][A
Training...:  83% 2174/2609 [2:01:48<26:03,  3.59s/it][A
Training...:  83% 2175/2609 [2:01:51<25:08,  3.47s/it][A
Training...:  83% 2176/2609 [2:01:54<24:09,  3.35s/it][A
Training...:  83% 2177/2609 [2:01:57<23:25,  3.25s/it][A
Training...:  83% 2178/2609 [2:02:00<22:43,  3.16s/it][A
Training...:  84% 2179/2609 [2:02:03<22:02,  3.08s/it][A
Training...:  84% 2180/2609 [2:02:06<21:19,  2.98s/it][A
Training...:  84% 2181/2609 [2:02:09<20:44,  2.91s/it][A
Training...:  84% 2182/2609 [2:02:11<20:02,  2.82s/it][A
Training...:  84% 2183/2609 [2:02:14<19:22,  2.73s/it][A
Training...:  84% 2184/2609 [2:02:16<18:46,  2.65s/it][A
Training...:  84% 2185/2609 [2:02:19<18:06,  2.56s/it][A
Training...:  84% 2186/2609 [2:02:21<17:29,  2.48s/it][A
Training...:  84% 2187/2609 [2:02:23<16:51,  2.40s/it][A
Training...:  84% 2188/2609 [2:02:25<16:08,  2.30s/it][A
Training...:  84% 2189/2609 [2:02:27<15:30,  2.21s/it][A
Training...:  84% 2190/2609 [2:02:29<14:45,  2.11s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:42:33<50:40:18, 9600.95s/it]
Training...:  84% 2190/2609 [2:02:31<14:45,  2.11s/it][A
Training...:  84% 2191/2609 [2:02:31<14:57,  2.15s/it][A
Training...:  84% 2192/2609 [2:02:33<13:55,  2.00s/it][A
Training...:  84% 2193/2609 [2:02:35<13:01,  1.88s/it][A
Training...:  84% 2194/2609 [2:02:36<12:10,  1.76s/it][A
Training...:  84% 2195/2609 [2:02:37<11:20,  1.64s/it][A
Training...:  84% 2196/2609 [2:02:39<10:34,  1.54s/it][A
Training...:  84% 2197/2609 [2:02:40<09:43,  1.42s/it][A
Training...:  84% 2198/2609 [2:02:41<08:46,  1.28s/it][A
Training...:  84% 2199/2609 [2:02:42<07:43,  1.13s/it][A
Training...:  84% 2200/2609 [2:02:42<06:29,  1.05it/s][A
Training...:  84% 2201/2609 [2:02:49<19:06,  2.81s/it][A
Training...:  84% 2202/2609 [2:02:56<27:34,  4.07s/it][A
Training...:  84% 2203/2609 [2:03:03<32:26,  4.79s/it][A
Training...:  84% 2204/2609 [2:03:09<35:19,  5.23s/it][A
Training...:  85% 2205/2609 [2:03:15<36:15,  5.39s/it][A
Training...:  85% 2206/2609 [2:03:20<36:29,  5.43s/it][A
Training...:  85% 2207/2609 [2:03:26<36:13,  5.41s/it][A
Training...:  85% 2208/2609 [2:03:31<35:33,  5.32s/it][A
Training...:  85% 2209/2609 [2:03:36<34:52,  5.23s/it][A
Training...:  85% 2210/2609 [2:03:41<34:03,  5.12s/it][A
Training...:  85% 2211/2609 [2:03:45<33:11,  5.01s/it][A
Training...:  85% 2212/2609 [2:03:50<32:13,  4.87s/it][A
Training...:  85% 2213/2609 [2:03:54<31:10,  4.72s/it][A
Training...:  85% 2214/2609 [2:03:58<30:00,  4.56s/it][A
Training...:  85% 2215/2609 [2:04:03<29:19,  4.47s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:44:10<50:40:18, 9600.95s/it]
Training...:  85% 2215/2609 [2:04:07<29:19,  4.47s/it][A
Training...:  85% 2216/2609 [2:04:07<29:34,  4.52s/it][A
Training...:  85% 2217/2609 [2:04:11<28:24,  4.35s/it][A
Training...:  85% 2218/2609 [2:04:15<27:09,  4.17s/it][A
Training...:  85% 2219/2609 [2:04:19<26:18,  4.05s/it][A
Training...:  85% 2220/2609 [2:04:22<25:19,  3.91s/it][A
Training...:  85% 2221/2609 [2:04:26<24:49,  3.84s/it][A
Training...:  85% 2222/2609 [2:04:30<24:07,  3.74s/it][A
Training...:  85% 2223/2609 [2:04:33<23:31,  3.66s/it][A
Training...:  85% 2224/2609 [2:04:36<22:40,  3.53s/it][A
Training...:  85% 2225/2609 [2:04:39<21:52,  3.42s/it][A
Training...:  85% 2226/2609 [2:04:42<21:06,  3.31s/it][A
Training...:  85% 2227/2609 [2:04:45<20:25,  3.21s/it][A
Training...:  85% 2228/2609 [2:04:48<19:45,  3.11s/it][A
Training...:  85% 2229/2609 [2:04:51<19:05,  3.02s/it][A
Training...:  85% 2230/2609 [2:04:54<18:29,  2.93s/it][A
Training...:  86% 2231/2609 [2:04:57<17:57,  2.85s/it][A
Training...:  86% 2232/2609 [2:04:59<17:16,  2.75s/it][A
Training...:  86% 2233/2609 [2:05:01<16:39,  2.66s/it][A
Training...:  86% 2234/2609 [2:05:04<16:07,  2.58s/it][A
Training...:  86% 2235/2609 [2:05:06<15:30,  2.49s/it][A
Training...:  86% 2236/2609 [2:05:08<14:55,  2.40s/it][A
Training...:  86% 2237/2609 [2:05:10<14:21,  2.32s/it][A
Training...:  86% 2238/2609 [2:05:12<13:45,  2.23s/it][A
Training...:  86% 2239/2609 [2:05:14<13:10,  2.14s/it][A
Training...:  86% 2240/2609 [2:05:16<12:35,  2.05s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:45:21<50:40:18, 9600.95s/it]
Training...:  86% 2240/2609 [2:05:18<12:35,  2.05s/it][A
Training...:  86% 2241/2609 [2:05:18<12:44,  2.08s/it][A
Training...:  86% 2242/2609 [2:05:20<11:53,  1.94s/it][A
Training...:  86% 2243/2609 [2:05:22<11:04,  1.81s/it][A
Training...:  86% 2244/2609 [2:05:23<10:20,  1.70s/it][A
Training...:  86% 2245/2609 [2:05:24<09:37,  1.59s/it][A
Training...:  86% 2246/2609 [2:05:26<08:55,  1.48s/it][A
Training...:  86% 2247/2609 [2:05:27<08:13,  1.36s/it][A
Training...:  86% 2248/2609 [2:05:28<07:23,  1.23s/it][A
Training...:  86% 2249/2609 [2:05:28<06:34,  1.10s/it][A
Training...:  86% 2250/2609 [2:05:29<05:31,  1.08it/s][A
Training...:  86% 2251/2609 [2:05:36<16:31,  2.77s/it][A
Training...:  86% 2252/2609 [2:05:43<23:52,  4.01s/it][A
Training...:  86% 2253/2609 [2:05:49<28:03,  4.73s/it][A
Training...:  86% 2254/2609 [2:05:55<30:40,  5.18s/it][A
Training...:  86% 2255/2609 [2:06:01<31:49,  5.39s/it][A
Training...:  86% 2256/2609 [2:06:07<32:13,  5.48s/it][A
Training...:  87% 2257/2609 [2:06:13<32:06,  5.47s/it][A
Training...:  87% 2258/2609 [2:06:18<31:38,  5.41s/it][A
Training...:  87% 2259/2609 [2:06:23<31:01,  5.32s/it][A
Training...:  87% 2260/2609 [2:06:28<30:27,  5.24s/it][A
Training...:  87% 2261/2609 [2:06:33<29:53,  5.15s/it][A
Training...:  87% 2262/2609 [2:06:38<28:56,  5.00s/it][A
Training...:  87% 2263/2609 [2:06:42<28:00,  4.86s/it][A
Training...:  87% 2264/2609 [2:06:46<27:04,  4.71s/it][A
Training...:  87% 2265/2609 [2:06:51<26:17,  4.58s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:46:58<50:40:18, 9600.95s/it]
Training...:  87% 2265/2609 [2:06:55<26:17,  4.58s/it][A
Training...:  87% 2266/2609 [2:06:55<26:32,  4.64s/it][A
Training...:  87% 2267/2609 [2:06:59<25:21,  4.45s/it][A
Training...:  87% 2268/2609 [2:07:03<24:20,  4.28s/it][A
Training...:  87% 2269/2609 [2:07:07<23:31,  4.15s/it][A
Training...:  87% 2270/2609 [2:07:11<22:44,  4.02s/it][A
Training...:  87% 2271/2609 [2:07:15<21:56,  3.89s/it][A
Training...:  87% 2272/2609 [2:07:18<21:13,  3.78s/it][A
Training...:  87% 2273/2609 [2:07:22<20:38,  3.69s/it][A
Training...:  87% 2274/2609 [2:07:25<20:00,  3.58s/it][A
Training...:  87% 2275/2609 [2:07:28<19:24,  3.49s/it][A
Training...:  87% 2276/2609 [2:07:31<18:46,  3.38s/it][A
Training...:  87% 2277/2609 [2:07:34<18:10,  3.28s/it][A
Training...:  87% 2278/2609 [2:07:37<17:38,  3.20s/it][A
Training...:  87% 2279/2609 [2:07:40<17:04,  3.11s/it][A
Training...:  87% 2280/2609 [2:07:43<16:32,  3.02s/it][A
Training...:  87% 2281/2609 [2:07:46<16:00,  2.93s/it][A
Training...:  87% 2282/2609 [2:07:48<15:28,  2.84s/it][A
Training...:  88% 2283/2609 [2:07:51<14:54,  2.74s/it][A
Training...:  88% 2284/2609 [2:07:53<14:21,  2.65s/it][A
Training...:  88% 2285/2609 [2:07:56<13:49,  2.56s/it][A
Training...:  88% 2286/2609 [2:07:58<13:16,  2.46s/it][A
Training...:  88% 2287/2609 [2:08:00<12:44,  2.37s/it][A
Training...:  88% 2288/2609 [2:08:02<12:10,  2.27s/it][A
Training...:  88% 2289/2609 [2:08:04<11:36,  2.18s/it][A
Training...:  88% 2290/2609 [2:08:06<11:02,  2.08s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:48:10<50:40:18, 9600.95s/it]
Training...:  88% 2290/2609 [2:08:08<11:02,  2.08s/it][A
Training...:  88% 2291/2609 [2:08:08<11:13,  2.12s/it][A
Training...:  88% 2292/2609 [2:08:10<10:29,  1.99s/it][A
Training...:  88% 2293/2609 [2:08:11<09:48,  1.86s/it][A
Training...:  88% 2294/2609 [2:08:13<09:09,  1.74s/it][A
Training...:  88% 2295/2609 [2:08:14<08:31,  1.63s/it][A
Training...:  88% 2296/2609 [2:08:15<07:53,  1.51s/it][A
Training...:  88% 2297/2609 [2:08:17<07:15,  1.40s/it][A
Training...:  88% 2298/2609 [2:08:18<06:33,  1.27s/it][A
Training...:  88% 2299/2609 [2:08:18<05:49,  1.13s/it][A
Training...:  88% 2300/2609 [2:08:19<04:51,  1.06it/s][A
Training...:  88% 2301/2609 [2:08:26<14:13,  2.77s/it][A
Training...:  88% 2302/2609 [2:08:33<20:34,  4.02s/it][A
Training...:  88% 2303/2609 [2:08:39<24:17,  4.76s/it][A
Training...:  88% 2304/2609 [2:08:46<26:37,  5.24s/it][A
Training...:  88% 2305/2609 [2:08:52<27:54,  5.51s/it][A
Training...:  88% 2306/2609 [2:08:58<28:28,  5.64s/it][A
Training...:  88% 2307/2609 [2:09:03<28:11,  5.60s/it][A
Training...:  88% 2308/2609 [2:09:09<27:46,  5.54s/it][A
Training...:  89% 2309/2609 [2:09:14<27:14,  5.45s/it][A
Training...:  89% 2310/2609 [2:09:19<26:34,  5.33s/it][A
Training...:  89% 2311/2609 [2:09:24<25:51,  5.21s/it][A
Training...:  89% 2312/2609 [2:09:29<24:58,  5.05s/it][A
Training...:  89% 2313/2609 [2:09:33<24:14,  4.91s/it][A
Training...:  89% 2314/2609 [2:09:38<23:28,  4.78s/it][A
Training...:  89% 2315/2609 [2:09:42<22:44,  4.64s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:49:49<50:40:18, 9600.95s/it]
Training...:  89% 2315/2609 [2:09:47<22:44,  4.64s/it][A
Training...:  89% 2316/2609 [2:09:47<22:56,  4.70s/it][A
Training...:  89% 2317/2609 [2:09:51<21:53,  4.50s/it][A
Training...:  89% 2318/2609 [2:09:55<20:59,  4.33s/it][A
Training...:  89% 2319/2609 [2:09:59<20:10,  4.17s/it][A
Training...:  89% 2320/2609 [2:10:02<19:28,  4.04s/it][A
Training...:  89% 2321/2609 [2:10:06<18:50,  3.93s/it][A
Training...:  89% 2322/2609 [2:10:09<18:14,  3.81s/it][A
Training...:  89% 2323/2609 [2:10:13<17:41,  3.71s/it][A
Training...:  89% 2324/2609 [2:10:16<17:04,  3.60s/it][A
Training...:  89% 2325/2609 [2:10:20<16:39,  3.52s/it][A
Training...:  89% 2326/2609 [2:10:23<16:10,  3.43s/it][A
Training...:  89% 2327/2609 [2:10:26<15:43,  3.34s/it][A
Training...:  89% 2328/2609 [2:10:29<15:12,  3.25s/it][A
Training...:  89% 2329/2609 [2:10:32<14:42,  3.15s/it][A
Training...:  89% 2330/2609 [2:10:35<14:13,  3.06s/it][A
Training...:  89% 2331/2609 [2:10:38<13:52,  3.00s/it][A
Training...:  89% 2332/2609 [2:10:40<13:25,  2.91s/it][A
Training...:  89% 2333/2609 [2:10:43<12:50,  2.79s/it][A
Training...:  89% 2334/2609 [2:10:45<12:17,  2.68s/it][A
Training...:  89% 2335/2609 [2:10:48<11:47,  2.58s/it][A
Training...:  90% 2336/2609 [2:10:50<11:21,  2.50s/it][A
Training...:  90% 2337/2609 [2:10:52<10:53,  2.40s/it][A
Training...:  90% 2338/2609 [2:10:54<10:25,  2.31s/it][A
Training...:  90% 2339/2609 [2:10:56<09:59,  2.22s/it][A
Training...:  90% 2340/2609 [2:10:58<09:31,  2.13s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:51:03<50:40:18, 9600.95s/it]
Training...:  90% 2340/2609 [2:11:00<09:31,  2.13s/it][A
Training...:  90% 2341/2609 [2:11:00<09:41,  2.17s/it][A
Training...:  90% 2342/2609 [2:11:02<09:04,  2.04s/it][A
Training...:  90% 2343/2609 [2:11:04<08:28,  1.91s/it][A
Training...:  90% 2344/2609 [2:11:05<07:54,  1.79s/it][A
Training...:  90% 2345/2609 [2:11:07<07:18,  1.66s/it][A
Training...:  90% 2346/2609 [2:11:08<06:45,  1.54s/it][A
Training...:  90% 2347/2609 [2:11:09<06:12,  1.42s/it][A
Training...:  90% 2348/2609 [2:11:10<05:37,  1.29s/it][A
Training...:  90% 2349/2609 [2:11:11<04:58,  1.15s/it][A
Training...:  90% 2350/2609 [2:11:11<04:10,  1.04it/s][A
Training...:  90% 2351/2609 [2:11:19<12:10,  2.83s/it][A
Training...:  90% 2352/2609 [2:11:26<17:42,  4.13s/it][A
Training...:  90% 2353/2609 [2:11:32<20:46,  4.87s/it][A
Training...:  90% 2354/2609 [2:11:39<22:37,  5.32s/it][A
Training...:  90% 2355/2609 [2:11:45<23:26,  5.54s/it][A
Training...:  90% 2356/2609 [2:11:50<23:40,  5.61s/it][A
Training...:  90% 2357/2609 [2:11:56<23:35,  5.62s/it][A
Training...:  90% 2358/2609 [2:12:01<23:10,  5.54s/it][A
Training...:  90% 2359/2609 [2:12:07<22:37,  5.43s/it][A
Training...:  90% 2360/2609 [2:12:12<22:01,  5.31s/it][A
Training...:  90% 2361/2609 [2:12:16<21:14,  5.14s/it][A
Training...:  91% 2362/2609 [2:12:21<20:33,  4.99s/it][A
Training...:  91% 2363/2609 [2:12:26<20:05,  4.90s/it][A
Training...:  91% 2364/2609 [2:12:30<19:31,  4.78s/it][A
Training...:  91% 2365/2609 [2:12:35<18:50,  4.63s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:52:42<50:40:18, 9600.95s/it]
Training...:  91% 2365/2609 [2:12:39<18:50,  4.63s/it][A
Training...:  91% 2366/2609 [2:12:39<18:56,  4.68s/it][A
Training...:  91% 2367/2609 [2:12:43<17:56,  4.45s/it][A
Training...:  91% 2368/2609 [2:12:47<17:12,  4.28s/it][A
Training...:  91% 2369/2609 [2:12:51<16:30,  4.13s/it][A
Training...:  91% 2370/2609 [2:12:55<15:54,  4.00s/it][A
Training...:  91% 2371/2609 [2:12:58<15:18,  3.86s/it][A
Training...:  91% 2372/2609 [2:13:02<14:46,  3.74s/it][A
Training...:  91% 2373/2609 [2:13:05<14:17,  3.63s/it][A
Training...:  91% 2374/2609 [2:13:08<13:48,  3.53s/it][A
Training...:  91% 2375/2609 [2:13:11<13:22,  3.43s/it][A
Training...:  91% 2376/2609 [2:13:15<12:54,  3.32s/it][A
Training...:  91% 2377/2609 [2:13:18<12:28,  3.23s/it][A
Training...:  91% 2378/2609 [2:13:20<12:06,  3.14s/it][A
Training...:  91% 2379/2609 [2:13:23<11:41,  3.05s/it][A
Training...:  91% 2380/2609 [2:13:26<11:18,  2.96s/it][A
Training...:  91% 2381/2609 [2:13:29<10:56,  2.88s/it][A
Training...:  91% 2382/2609 [2:13:31<10:34,  2.80s/it][A
Training...:  91% 2383/2609 [2:13:34<10:13,  2.71s/it][A
Training...:  91% 2384/2609 [2:13:36<09:49,  2.62s/it][A
Training...:  91% 2385/2609 [2:13:39<09:30,  2.55s/it][A
Training...:  91% 2386/2609 [2:13:41<09:09,  2.46s/it][A
Training...:  91% 2387/2609 [2:13:43<08:50,  2.39s/it][A
Training...:  92% 2388/2609 [2:13:45<08:28,  2.30s/it][A
Training...:  92% 2389/2609 [2:13:47<08:05,  2.21s/it][A
Training...:  92% 2390/2609 [2:13:49<07:43,  2.12s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:53:54<50:40:18, 9600.95s/it]
Training...:  92% 2390/2609 [2:13:51<07:43,  2.12s/it][A
Training...:  92% 2391/2609 [2:13:51<07:49,  2.15s/it][A
Training...:  92% 2392/2609 [2:13:53<07:17,  2.02s/it][A
Training...:  92% 2393/2609 [2:13:55<06:50,  1.90s/it][A
Training...:  92% 2394/2609 [2:13:56<06:23,  1.78s/it][A
Training...:  92% 2395/2609 [2:13:58<05:55,  1.66s/it][A
Training...:  92% 2396/2609 [2:13:59<05:31,  1.56s/it][A
Training...:  92% 2397/2609 [2:14:00<05:05,  1.44s/it][A
Training...:  92% 2398/2609 [2:14:01<04:34,  1.30s/it][A
Training...:  92% 2399/2609 [2:14:02<04:01,  1.15s/it][A
Training...:  92% 2400/2609 [2:14:02<03:21,  1.03it/s][A
Training...:  92% 2401/2609 [2:14:09<09:32,  2.75s/it][A
Training...:  92% 2402/2609 [2:14:16<13:53,  4.03s/it][A
Training...:  92% 2403/2609 [2:14:23<16:21,  4.76s/it][A
Training...:  92% 2404/2609 [2:14:29<17:56,  5.25s/it][A
Training...:  92% 2405/2609 [2:14:35<18:38,  5.48s/it][A
Training...:  92% 2406/2609 [2:14:41<18:46,  5.55s/it][A
Training...:  92% 2407/2609 [2:14:46<18:34,  5.52s/it][A
Training...:  92% 2408/2609 [2:14:52<18:14,  5.44s/it][A
Training...:  92% 2409/2609 [2:14:57<17:44,  5.32s/it][A
Training...:  92% 2410/2609 [2:15:02<17:15,  5.20s/it][A
Training...:  92% 2411/2609 [2:15:06<16:44,  5.07s/it][A
Training...:  92% 2412/2609 [2:15:11<16:12,  4.94s/it][A
Training...:  92% 2413/2609 [2:15:15<15:40,  4.80s/it][A
Training...:  93% 2414/2609 [2:15:20<15:05,  4.65s/it][A
Training...:  93% 2415/2609 [2:15:24<14:36,  4.52s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:55:31<50:40:18, 9600.95s/it]
Training...:  93% 2415/2609 [2:15:29<14:36,  4.52s/it][A
Training...:  93% 2416/2609 [2:15:29<14:42,  4.57s/it][A
Training...:  93% 2417/2609 [2:15:33<14:06,  4.41s/it][A
Training...:  93% 2418/2609 [2:15:36<13:27,  4.23s/it][A
Training...:  93% 2419/2609 [2:15:40<12:54,  4.07s/it][A
Training...:  93% 2420/2609 [2:15:44<12:28,  3.96s/it][A
Training...:  93% 2421/2609 [2:15:47<12:01,  3.84s/it][A
Training...:  93% 2422/2609 [2:15:51<11:33,  3.71s/it][A
Training...:  93% 2423/2609 [2:15:54<11:11,  3.61s/it][A
Training...:  93% 2424/2609 [2:15:57<10:48,  3.50s/it][A
Training...:  93% 2425/2609 [2:16:01<10:24,  3.39s/it][A
Training...:  93% 2426/2609 [2:16:04<10:02,  3.29s/it][A
Training...:  93% 2427/2609 [2:16:07<09:46,  3.22s/it][A
Training...:  93% 2428/2609 [2:16:10<09:26,  3.13s/it][A
Training...:  93% 2429/2609 [2:16:13<09:11,  3.06s/it][A
Training...:  93% 2430/2609 [2:16:15<08:51,  2.97s/it][A
Training...:  93% 2431/2609 [2:16:18<08:37,  2.91s/it][A
Training...:  93% 2432/2609 [2:16:21<08:17,  2.81s/it][A
Training...:  93% 2433/2609 [2:16:23<07:59,  2.73s/it][A
Training...:  93% 2434/2609 [2:16:26<07:42,  2.64s/it][A
Training...:  93% 2435/2609 [2:16:28<07:27,  2.57s/it][A
Training...:  93% 2436/2609 [2:16:30<07:11,  2.50s/it][A
Training...:  93% 2437/2609 [2:16:33<06:55,  2.41s/it][A
Training...:  93% 2438/2609 [2:16:35<06:37,  2.33s/it][A
Training...:  93% 2439/2609 [2:16:37<06:19,  2.23s/it][A
Training...:  94% 2440/2609 [2:16:39<06:01,  2.14s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:56:43<50:40:18, 9600.95s/it]
Training...:  94% 2440/2609 [2:16:41<06:01,  2.14s/it][A
Training...:  94% 2441/2609 [2:16:41<06:07,  2.19s/it][A
Training...:  94% 2442/2609 [2:16:43<05:43,  2.06s/it][A
Training...:  94% 2443/2609 [2:16:44<05:22,  1.94s/it][A
Training...:  94% 2444/2609 [2:16:46<04:58,  1.81s/it][A
Training...:  94% 2445/2609 [2:16:47<04:39,  1.70s/it][A
Training...:  94% 2446/2609 [2:16:49<04:19,  1.59s/it][A
Training...:  94% 2447/2609 [2:16:50<03:59,  1.48s/it][A
Training...:  94% 2448/2609 [2:16:51<03:35,  1.34s/it][A
Training...:  94% 2449/2609 [2:16:52<03:09,  1.19s/it][A
Training...:  94% 2450/2609 [2:16:52<02:37,  1.01it/s][A
Training...:  94% 2451/2609 [2:17:00<07:32,  2.87s/it][A
Training...:  94% 2452/2609 [2:17:07<10:51,  4.15s/it][A
Training...:  94% 2453/2609 [2:17:13<12:48,  4.93s/it][A
Training...:  94% 2454/2609 [2:17:20<13:52,  5.37s/it][A
Training...:  94% 2455/2609 [2:17:26<14:16,  5.56s/it][A
Training...:  94% 2456/2609 [2:17:31<14:17,  5.60s/it][A
Training...:  94% 2457/2609 [2:17:37<14:03,  5.55s/it][A
Training...:  94% 2458/2609 [2:17:42<13:43,  5.45s/it][A
Training...:  94% 2459/2609 [2:17:47<13:19,  5.33s/it][A
Training...:  94% 2460/2609 [2:17:52<12:56,  5.21s/it][A
Training...:  94% 2461/2609 [2:17:57<12:32,  5.09s/it][A
Training...:  94% 2462/2609 [2:18:01<12:03,  4.92s/it][A
Training...:  94% 2463/2609 [2:18:06<11:35,  4.76s/it][A
Training...:  94% 2464/2609 [2:18:10<11:09,  4.62s/it][A
Training...:  94% 2465/2609 [2:18:14<10:44,  4.47s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:58:21<50:40:18, 9600.95s/it]
Training...:  94% 2465/2609 [2:18:19<10:44,  4.47s/it][A
Training...:  95% 2466/2609 [2:18:19<10:50,  4.55s/it][A
Training...:  95% 2467/2609 [2:18:23<10:22,  4.38s/it][A
Training...:  95% 2468/2609 [2:18:27<09:57,  4.24s/it][A
Training...:  95% 2469/2609 [2:18:31<09:37,  4.13s/it][A
Training...:  95% 2470/2609 [2:18:34<09:13,  3.99s/it][A
Training...:  95% 2471/2609 [2:18:38<08:57,  3.89s/it][A
Training...:  95% 2472/2609 [2:18:42<08:39,  3.79s/it][A
Training...:  95% 2473/2609 [2:18:45<08:22,  3.70s/it][A
Training...:  95% 2474/2609 [2:18:48<08:01,  3.56s/it][A
Training...:  95% 2475/2609 [2:18:52<07:44,  3.46s/it][A
Training...:  95% 2476/2609 [2:18:55<07:24,  3.34s/it][A
Training...:  95% 2477/2609 [2:18:58<07:07,  3.24s/it][A
Training...:  95% 2478/2609 [2:19:01<06:51,  3.14s/it][A
Training...:  95% 2479/2609 [2:19:03<06:37,  3.06s/it][A
Training...:  95% 2480/2609 [2:19:06<06:23,  2.97s/it][A
Training...:  95% 2481/2609 [2:19:09<06:11,  2.90s/it][A
Training...:  95% 2482/2609 [2:19:12<05:57,  2.81s/it][A
Training...:  95% 2483/2609 [2:19:14<05:43,  2.72s/it][A
Training...:  95% 2484/2609 [2:19:17<05:30,  2.64s/it][A
Training...:  95% 2485/2609 [2:19:19<05:15,  2.54s/it][A
Training...:  95% 2486/2609 [2:19:21<05:02,  2.46s/it][A
Training...:  95% 2487/2609 [2:19:23<04:49,  2.37s/it][A
Training...:  95% 2488/2609 [2:19:25<04:36,  2.28s/it][A
Training...:  95% 2489/2609 [2:19:27<04:23,  2.19s/it][A
Training...:  95% 2490/2609 [2:19:29<04:09,  2.10s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [4:59:34<50:40:18, 9600.95s/it]
Training...:  95% 2490/2609 [2:19:31<04:09,  2.10s/it][A
Training...:  95% 2491/2609 [2:19:31<04:12,  2.14s/it][A
Training...:  96% 2492/2609 [2:19:33<03:54,  2.00s/it][A
Training...:  96% 2493/2609 [2:19:35<03:39,  1.89s/it][A
Training...:  96% 2494/2609 [2:19:36<03:23,  1.77s/it][A
Training...:  96% 2495/2609 [2:19:38<03:08,  1.65s/it][A
Training...:  96% 2496/2609 [2:19:39<02:51,  1.52s/it][A
Training...:  96% 2497/2609 [2:19:40<02:36,  1.39s/it][A
Training...:  96% 2498/2609 [2:19:41<02:19,  1.26s/it][A
Training...:  96% 2499/2609 [2:19:42<02:01,  1.11s/it][A
Training...:  96% 2500/2609 [2:19:42<01:41,  1.07it/s][A
Training...:  96% 2501/2609 [2:19:49<05:00,  2.78s/it][A
Training...:  96% 2502/2609 [2:19:56<07:18,  4.10s/it][A
Training...:  96% 2503/2609 [2:20:03<08:31,  4.82s/it][A
Training...:  96% 2504/2609 [2:20:09<09:14,  5.28s/it][A
Training...:  96% 2505/2609 [2:20:15<09:31,  5.49s/it][A
Training...:  96% 2506/2609 [2:20:21<09:36,  5.60s/it][A
Training...:  96% 2507/2609 [2:20:27<09:28,  5.57s/it][A
Training...:  96% 2508/2609 [2:20:32<09:17,  5.52s/it][A
Training...:  96% 2509/2609 [2:20:37<09:01,  5.42s/it][A
Training...:  96% 2510/2609 [2:20:42<08:41,  5.26s/it][A
Training...:  96% 2511/2609 [2:20:47<08:22,  5.12s/it][A
Training...:  96% 2512/2609 [2:20:51<08:01,  4.97s/it][A
Training...:  96% 2513/2609 [2:20:56<07:44,  4.83s/it][A
Training...:  96% 2514/2609 [2:21:00<07:29,  4.73s/it][A
Training...:  96% 2515/2609 [2:21:05<07:10,  4.58s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [5:01:12<50:40:18, 9600.95s/it]
Training...:  96% 2515/2609 [2:21:09<07:10,  4.58s/it][A
Training...:  96% 2516/2609 [2:21:09<07:09,  4.62s/it][A
Training...:  96% 2517/2609 [2:21:13<06:46,  4.41s/it][A
Training...:  97% 2518/2609 [2:21:17<06:23,  4.22s/it][A
Training...:  97% 2519/2609 [2:21:21<06:04,  4.05s/it][A
Training...:  97% 2520/2609 [2:21:24<05:47,  3.91s/it][A
Training...:  97% 2521/2609 [2:21:28<05:34,  3.80s/it][A
Training...:  97% 2522/2609 [2:21:31<05:21,  3.69s/it][A
Training...:  97% 2523/2609 [2:21:35<05:07,  3.58s/it][A
Training...:  97% 2524/2609 [2:21:38<04:54,  3.47s/it][A
Training...:  97% 2525/2609 [2:21:41<04:43,  3.37s/it][A
Training...:  97% 2526/2609 [2:21:44<04:30,  3.26s/it][A
Training...:  97% 2527/2609 [2:21:47<04:19,  3.17s/it][A
Training...:  97% 2528/2609 [2:21:50<04:08,  3.07s/it][A
Training...:  97% 2529/2609 [2:21:53<03:58,  2.98s/it][A
Training...:  97% 2530/2609 [2:21:55<03:48,  2.89s/it][A
Training...:  97% 2531/2609 [2:21:58<03:38,  2.80s/it][A
Training...:  97% 2532/2609 [2:22:00<03:28,  2.71s/it][A
Training...:  97% 2533/2609 [2:22:03<03:19,  2.62s/it][A
Training...:  97% 2534/2609 [2:22:05<03:09,  2.53s/it][A
Training...:  97% 2535/2609 [2:22:07<03:01,  2.45s/it][A
Training...:  97% 2536/2609 [2:22:10<02:52,  2.36s/it][A
Training...:  97% 2537/2609 [2:22:12<02:45,  2.29s/it][A
Training...:  97% 2538/2609 [2:22:14<02:36,  2.20s/it][A
Training...:  97% 2539/2609 [2:22:16<02:27,  2.11s/it][A
Training...:  97% 2540/2609 [2:22:17<02:19,  2.02s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [5:02:22<50:40:18, 9600.95s/it]
Training...:  97% 2540/2609 [2:22:20<02:19,  2.02s/it][A
Training...:  97% 2541/2609 [2:22:20<02:20,  2.06s/it][A
Training...:  97% 2542/2609 [2:22:21<02:09,  1.93s/it][A
Training...:  97% 2543/2609 [2:22:23<01:59,  1.81s/it][A
Training...:  98% 2544/2609 [2:22:24<01:50,  1.69s/it][A
Training...:  98% 2545/2609 [2:22:25<01:41,  1.58s/it][A
Training...:  98% 2546/2609 [2:22:27<01:32,  1.46s/it][A
Training...:  98% 2547/2609 [2:22:28<01:23,  1.34s/it][A
Training...:  98% 2548/2609 [2:22:29<01:14,  1.22s/it][A
Training...:  98% 2549/2609 [2:22:29<01:05,  1.09s/it][A
Training...:  98% 2550/2609 [2:22:30<00:54,  1.09it/s][A
Training...:  98% 2551/2609 [2:22:37<02:41,  2.78s/it][A
Training...:  98% 2552/2609 [2:22:44<03:52,  4.07s/it][A
Training...:  98% 2553/2609 [2:22:51<04:29,  4.81s/it][A
Training...:  98% 2554/2609 [2:22:57<04:48,  5.24s/it][A
Training...:  98% 2555/2609 [2:23:03<04:52,  5.42s/it][A
Training...:  98% 2556/2609 [2:23:08<04:51,  5.49s/it][A
Training...:  98% 2557/2609 [2:23:14<04:44,  5.47s/it][A
Training...:  98% 2558/2609 [2:23:19<04:36,  5.41s/it][A
Training...:  98% 2559/2609 [2:23:24<04:24,  5.29s/it][A
Training...:  98% 2560/2609 [2:23:29<04:13,  5.18s/it][A
Training...:  98% 2561/2609 [2:23:34<04:02,  5.04s/it][A
Training...:  98% 2562/2609 [2:23:38<03:50,  4.90s/it][A
Training...:  98% 2563/2609 [2:23:43<03:38,  4.76s/it][A
Training...:  98% 2564/2609 [2:23:47<03:28,  4.64s/it][A
Training...:  98% 2565/2609 [2:23:51<03:18,  4.52s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [5:03:58<50:40:18, 9600.95s/it]
Training...:  98% 2565/2609 [2:23:56<03:18,  4.52s/it][A
Training...:  98% 2566/2609 [2:23:56<03:17,  4.59s/it][A
Training...:  98% 2567/2609 [2:24:00<03:04,  4.39s/it][A
Training...:  98% 2568/2609 [2:24:04<02:52,  4.21s/it][A
Training...:  98% 2569/2609 [2:24:08<02:42,  4.07s/it][A
Training...:  99% 2570/2609 [2:24:11<02:33,  3.95s/it][A
Training...:  99% 2571/2609 [2:24:15<02:26,  3.85s/it][A
Training...:  99% 2572/2609 [2:24:18<02:19,  3.76s/it][A
Training...:  99% 2573/2609 [2:24:22<02:10,  3.64s/it][A
Training...:  99% 2574/2609 [2:24:25<02:03,  3.53s/it][A
Training...:  99% 2575/2609 [2:24:28<01:56,  3.43s/it][A
Training...:  99% 2576/2609 [2:24:31<01:49,  3.33s/it][A
Training...:  99% 2577/2609 [2:24:34<01:43,  3.24s/it][A
Training...:  99% 2578/2609 [2:24:37<01:37,  3.14s/it][A
Training...:  99% 2579/2609 [2:24:40<01:31,  3.05s/it][A
Training...:  99% 2580/2609 [2:24:43<01:25,  2.96s/it][A
Training...:  99% 2581/2609 [2:24:45<01:19,  2.85s/it][A
Training...:  99% 2582/2609 [2:24:48<01:14,  2.77s/it][A
Training...:  99% 2583/2609 [2:24:50<01:09,  2.68s/it][A
Training...:  99% 2584/2609 [2:24:53<01:04,  2.59s/it][A
Training...:  99% 2585/2609 [2:24:55<01:00,  2.51s/it][A
Training...:  99% 2586/2609 [2:24:57<00:55,  2.43s/it][A
Training...:  99% 2587/2609 [2:25:00<00:51,  2.35s/it][A
Training...:  99% 2588/2609 [2:25:02<00:47,  2.27s/it][A
Training...:  99% 2589/2609 [2:25:04<00:43,  2.19s/it][A
Training...:  99% 2590/2609 [2:25:06<00:39,  2.10s/it][A                                                           
                                                      [AEpoch ... (1/20):   5% 1/20 [5:05:10<50:40:18, 9600.95s/it]
Training...:  99% 2590/2609 [2:25:08<00:39,  2.10s/it][A
Training...:  99% 2591/2609 [2:25:08<00:38,  2.14s/it][A
Training...:  99% 2592/2609 [2:25:09<00:33,  2.00s/it][A
Training...:  99% 2593/2609 [2:25:11<00:30,  1.88s/it][A
Training...:  99% 2594/2609 [2:25:13<00:26,  1.76s/it][A
Training...:  99% 2595/2609 [2:25:14<00:22,  1.64s/it][A
Training...: 100% 2596/2609 [2:25:15<00:19,  1.52s/it][A
Training...: 100% 2597/2609 [2:25:16<00:16,  1.41s/it][A
Training...: 100% 2598/2609 [2:25:17<00:13,  1.27s/it][A
Training...: 100% 2599/2609 [2:25:18<00:11,  1.11s/it][A
Training...: 100% 2600/2609 [2:25:19<00:08,  1.07it/s][A
Training...: 100% 2601/2609 [2:25:25<00:21,  2.64s/it][A
Training...: 100% 2602/2609 [2:25:31<00:24,  3.57s/it][A
Training...: 100% 2603/2609 [2:25:36<00:23,  3.91s/it][A
Training...: 100% 2604/2609 [2:25:40<00:19,  3.96s/it][A
Training...: 100% 2605/2609 [2:25:43<00:15,  3.81s/it][A
Training...: 100% 2606/2609 [2:25:46<00:10,  3.53s/it][A
Training...: 100% 2607/2609 [2:25:49<00:06,  3.24s/it][A
Training...: 100% 2608/2609 [2:25:51<00:02,  2.89s/it][A
Training...: 100% 2609/2609 [2:25:52<00:00,  2.51s/it][ATraining...: 100% 2609/2609 [2:25:52<00:00,  3.35s/it]
Epoch ... (1/20):  10% 2/20 [5:05:54<45:30:49, 9102.74s/it]
Training...:   0% 0/2609 [00:00<?, ?it/s][AStep... (4400 | Loss: 0.22457309067249298, Learning Rate: 9.212323493557051e-05, Gradient Norm: 0.923484206199646)
Step... (4425 | Loss: 0.3486420810222626, Learning Rate: 9.207272523781285e-05, Gradient Norm: 1.0614029169082642)
Step... (4450 | Loss: 0.3071652948856354, Learning Rate: 9.20222228160128e-05, Gradient Norm: 1.1816542148590088)
Step... (4475 | Loss: 0.43898096680641174, Learning Rate: 9.197172039421275e-05, Gradient Norm: 1.0622317790985107)
Step... (4500 | Loss: 0.3269367814064026, Learning Rate: 9.192121069645509e-05, Gradient Norm: 1.557595133781433)
Step... (4525 | Loss: 0.3027768135070801, Learning Rate: 9.187070827465504e-05, Gradient Norm: 0.8090399503707886)
Step... (4550 | Loss: 0.2795196771621704, Learning Rate: 9.182019857689738e-05, Gradient Norm: 1.286679744720459)
Step... (4575 | Loss: 0.42466285824775696, Learning Rate: 9.176969615509734e-05, Gradient Norm: 1.1860294342041016)
Step... (4600 | Loss: 0.25221171975135803, Learning Rate: 9.171918645733967e-05, Gradient Norm: 1.0894800424575806)
Step... (4625 | Loss: 0.285897433757782, Learning Rate: 9.166868403553963e-05, Gradient Norm: 0.8680500388145447)
Step... (4650 | Loss: 0.28751587867736816, Learning Rate: 9.161817433778197e-05, Gradient Norm: 1.034773826599121)
Step... (4675 | Loss: 0.3295731544494629, Learning Rate: 9.156767191598192e-05, Gradient Norm: 1.0075565576553345)
Step... (4700 | Loss: 0.23146700859069824, Learning Rate: 9.151716949418187e-05, Gradient Norm: 1.1159124374389648)
Step... (4725 | Loss: 0.26996806263923645, Learning Rate: 9.146665979642421e-05, Gradient Norm: 1.18022620677948)
Step... (4750 | Loss: 0.2918151021003723, Learning Rate: 9.141615737462416e-05, Gradient Norm: 1.2454251050949097)
Step... (4775 | Loss: 0.2674560546875, Learning Rate: 9.136565495282412e-05, Gradient Norm: 0.8639296293258667)
Step... (4800 | Loss: 0.2571304142475128, Learning Rate: 9.131514525506645e-05, Gradient Norm: 1.13817298412323)
Step... (4825 | Loss: 0.3250296115875244, Learning Rate: 9.126464283326641e-05, Gradient Norm: 1.00113844871521)
Step... (4850 | Loss: 0.3298029899597168, Learning Rate: 9.121414041146636e-05, Gradient Norm: 1.6019190549850464)
Step... (4875 | Loss: 0.23652683198451996, Learning Rate: 9.11636307137087e-05, Gradient Norm: 0.7686281800270081)
Step... (4900 | Loss: 0.3292616605758667, Learning Rate: 9.111312829190865e-05, Gradient Norm: 1.1824058294296265)
Step... (4925 | Loss: 0.29329031705856323, Learning Rate: 9.10626258701086e-05, Gradient Norm: 0.9053007364273071)
Step... (4950 | Loss: 0.2791988253593445, Learning Rate: 9.101211617235094e-05, Gradient Norm: 1.1524649858474731)
Step... (4975 | Loss: 0.27735409140586853, Learning Rate: 9.09616137505509e-05, Gradient Norm: 0.8929629325866699)
Step... (5000 | Loss: 0.28197288513183594, Learning Rate: 9.091111132875085e-05, Gradient Norm: 1.4296023845672607)
Step... (5025 | Loss: 0.4703788757324219, Learning Rate: 9.086060163099319e-05, Gradient Norm: 1.2670081853866577)
Step... (5050 | Loss: 0.3258163332939148, Learning Rate: 9.081009920919314e-05, Gradient Norm: 1.2371826171875)
Step... (5075 | Loss: 0.28000232577323914, Learning Rate: 9.075959678739309e-05, Gradient Norm: 0.985209047794342)
Step... (5100 | Loss: 0.24168957769870758, Learning Rate: 9.070908708963543e-05, Gradient Norm: 1.0892843008041382)
Step... (5125 | Loss: 0.3021923899650574, Learning Rate: 9.065858466783538e-05, Gradient Norm: 1.00775945186615)
Step... (5150 | Loss: 0.20076817274093628, Learning Rate: 9.060808224603534e-05, Gradient Norm: 0.8711374402046204)
Step... (5175 | Loss: 0.19997477531433105, Learning Rate: 9.055757254827768e-05, Gradient Norm: 0.8840842843055725)
Step... (5200 | Loss: 0.2556227445602417, Learning Rate: 9.050707012647763e-05, Gradient Norm: 1.0356030464172363)

Training...:   0% 1/2609 [00:07<5:08:59,  7.11s/it][A
Training...:   0% 2/2609 [00:13<5:01:49,  6.95s/it][A
Training...:   0% 3/2609 [00:20<4:50:34,  6.69s/it][A
Training...:   0% 4/2609 [00:26<4:40:55,  6.47s/it][A
Training...:   0% 5/2609 [00:32<4:33:31,  6.30s/it][A
Training...:   0% 6/2609 [00:38<4:23:18,  6.07s/it][A                                                           
                                                   [AEpoch ... (1/20):  10% 2/20 [5:06:40<45:30:49, 9102.74s/it]
Training...:   0% 6/2609 [00:44<4:23:18,  6.07s/it][A
Training...:   0% 7/2609 [00:44<4:24:26,  6.10s/it][A
Training...:   0% 8/2609 [00:49<4:10:47,  5.79s/it][A
Training...:   0% 9/2609 [00:54<3:59:34,  5.53s/it][A
Training...:   0% 10/2609 [00:59<3:50:28,  5.32s/it][A
Training...:   0% 11/2609 [01:03<3:41:43,  5.12s/it][A
Training...:   0% 12/2609 [01:08<3:33:56,  4.94s/it][A
Training...:   0% 13/2609 [01:12<3:26:46,  4.78s/it][A
Training...:   1% 14/2609 [01:17<3:21:11,  4.65s/it][A
Training...:   1% 15/2609 [01:21<3:16:07,  4.54s/it][A
Training...:   1% 16/2609 [01:25<3:10:08,  4.40s/it][A
Training...:   1% 17/2609 [01:29<3:04:41,  4.28s/it][A
Training...:   1% 18/2609 [01:33<2:59:50,  4.16s/it][A
Training...:   1% 19/2609 [01:37<2:54:49,  4.05s/it][A
Training...:   1% 20/2609 [01:40<2:49:54,  3.94s/it][A
Training...:   1% 21/2609 [01:44<2:45:01,  3.83s/it][A
Training...:   1% 22/2609 [01:47<2:40:20,  3.72s/it][A
Training...:   1% 23/2609 [01:51<2:35:55,  3.62s/it][A
Training...:   1% 24/2609 [01:54<2:32:28,  3.54s/it][A
Training...:   1% 25/2609 [01:57<2:29:14,  3.47s/it][A
Training...:   1% 26/2609 [02:01<2:24:39,  3.36s/it][A
Training...:   1% 27/2609 [02:03<2:19:22,  3.24s/it][A
Training...:   1% 28/2609 [02:06<2:14:53,  3.14s/it][A
Training...:   1% 29/2609 [02:09<2:10:32,  3.04s/it][A
Training...:   1% 30/2609 [02:12<2:06:53,  2.95s/it][A
Training...:   1% 31/2609 [02:15<2:02:12,  2.84s/it][A                                                           
                                                    [AEpoch ... (1/20):  10% 2/20 [5:08:14<45:30:49, 9102.74s/it]
Training...:   1% 31/2609 [02:18<2:02:12,  2.84s/it][A
Training...:   1% 32/2609 [02:18<2:04:21,  2.90s/it][A
Training...:   1% 33/2609 [02:20<1:58:33,  2.76s/it][A
Training...:   1% 34/2609 [02:22<1:53:43,  2.65s/it][A
Training...:   1% 35/2609 [02:25<1:49:28,  2.55s/it][A
Training...:   1% 36/2609 [02:27<1:45:23,  2.46s/it][A
Training...:   1% 37/2609 [02:29<1:41:41,  2.37s/it][A
Training...:   1% 38/2609 [02:31<1:38:03,  2.29s/it][A
Training...:   1% 39/2609 [02:33<1:33:59,  2.19s/it][A
Training...:   2% 40/2609 [02:35<1:30:21,  2.11s/it][A
Training...:   2% 41/2609 [02:37<1:26:45,  2.03s/it][A
Training...:   2% 42/2609 [02:39<1:23:17,  1.95s/it][A
Training...:   2% 43/2609 [02:40<1:19:26,  1.86s/it][A
Training...:   2% 44/2609 [02:42<1:15:18,  1.76s/it][A
Training...:   2% 45/2609 [02:43<1:10:51,  1.66s/it][A
Training...:   2% 46/2609 [02:45<1:06:02,  1.55s/it][A
Training...:   2% 47/2609 [02:46<1:00:32,  1.42s/it][A
Training...:   2% 48/2609 [02:47<54:47,  1.28s/it]  [A
Training...:   2% 49/2609 [02:47<48:21,  1.13s/it][A
Training...:   2% 50/2609 [02:48<40:46,  1.05it/s][A
Training...:   2% 51/2609 [02:55<1:57:14,  2.75s/it][A
Training...:   2% 52/2609 [03:02<2:50:23,  4.00s/it][A
Training...:   2% 53/2609 [03:08<3:20:46,  4.71s/it][A
Training...:   2% 54/2609 [03:14<3:39:34,  5.16s/it][A
Training...:   2% 55/2609 [03:20<3:47:55,  5.35s/it][A
Training...:   2% 56/2609 [03:26<3:50:51,  5.43s/it][A                                                           
                                                    [AEpoch ... (1/20):  10% 2/20 [5:09:28<45:30:49, 9102.74s/it]
Training...:   2% 56/2609 [03:32<3:50:51,  5.43s/it][A
Training...:   2% 57/2609 [03:32<4:00:40,  5.66s/it][A
Training...:   2% 58/2609 [03:37<3:54:09,  5.51s/it][A
Training...:   2% 59/2609 [03:42<3:47:16,  5.35s/it][A
Training...:   2% 60/2609 [03:47<3:42:15,  5.23s/it][A
Training...:   2% 61/2609 [03:52<3:38:34,  5.15s/it][A
Training...:   2% 62/2609 [03:57<3:31:39,  4.99s/it][A
Training...:   2% 63/2609 [04:01<3:24:09,  4.81s/it][A
Training...:   2% 64/2609 [04:05<3:17:13,  4.65s/it][A
Training...:   2% 65/2609 [04:10<3:11:01,  4.51s/it][A
Training...:   3% 66/2609 [04:14<3:04:39,  4.36s/it][A
Training...:   3% 67/2609 [04:17<2:59:13,  4.23s/it][A
Training...:   3% 68/2609 [04:21<2:53:28,  4.10s/it][A
Training...:   3% 69/2609 [04:25<2:48:15,  3.97s/it][A
Training...:   3% 70/2609 [04:29<2:43:08,  3.86s/it][A
Training...:   3% 71/2609 [04:32<2:39:05,  3.76s/it][A
Training...:   3% 72/2609 [04:36<2:35:11,  3.67s/it][A
Training...:   3% 73/2609 [04:39<2:31:10,  3.58s/it][A
Training...:   3% 74/2609 [04:42<2:26:56,  3.48s/it][A
Training...:   3% 75/2609 [04:45<2:22:36,  3.38s/it][A
Training...:   3% 76/2609 [04:48<2:18:27,  3.28s/it][A
Training...:   3% 77/2609 [04:51<2:14:36,  3.19s/it][A
Training...:   3% 78/2609 [04:54<2:11:02,  3.11s/it][A
Training...:   3% 79/2609 [04:57<2:07:37,  3.03s/it][A
Training...:   3% 80/2609 [05:00<2:04:05,  2.94s/it][A
Training...:   3% 81/2609 [05:02<2:00:34,  2.86s/it][A                                                           
                                                    [AEpoch ... (1/20):  10% 2/20 [5:11:02<45:30:49, 9102.74s/it]
Training...:   3% 81/2609 [05:05<2:00:34,  2.86s/it][A
Training...:   3% 82/2609 [05:05<2:02:45,  2.91s/it][A
Training...:   3% 83/2609 [05:08<1:57:03,  2.78s/it][A
Training...:   3% 84/2609 [05:10<1:53:02,  2.69s/it][A
Training...:   3% 85/2609 [05:13<1:48:56,  2.59s/it][A
Training...:   3% 86/2609 [05:15<1:44:40,  2.49s/it][A
Training...:   3% 87/2609 [05:17<1:40:55,  2.40s/it][A
Training...:   3% 88/2609 [05:19<1:36:51,  2.31s/it][A
Training...:   3% 89/2609 [05:21<1:33:11,  2.22s/it][A
Training...:   3% 90/2609 [05:23<1:29:51,  2.14s/it][A
Training...:   3% 91/2609 [05:25<1:25:47,  2.04s/it][A
Training...:   4% 92/2609 [05:27<1:21:18,  1.94s/it][A
Training...:   4% 93/2609 [05:28<1:17:11,  1.84s/it][A
Training...:   4% 94/2609 [05:30<1:12:40,  1.73s/it][A
Training...:   4% 95/2609 [05:31<1:08:16,  1.63s/it][A
Training...:   4% 96/2609 [05:33<1:03:29,  1.52s/it][A
Training...:   4% 97/2609 [05:34<58:22,  1.39s/it]  [A
Training...:   4% 98/2609 [05:35<52:55,  1.26s/it][A
Training...:   4% 99/2609 [05:35<47:02,  1.12s/it][A
Training...:   4% 100/2609 [05:36<39:48,  1.05it/s][A
Training...:   4% 101/2609 [05:43<1:55:45,  2.77s/it][A
Training...:   4% 102/2609 [05:50<2:46:44,  3.99s/it][A
Training...:   4% 103/2609 [05:56<3:17:58,  4.74s/it][A
Training...:   4% 104/2609 [06:03<3:37:53,  5.22s/it][A
Training...:   4% 105/2609 [06:09<3:46:24,  5.43s/it][A
Training...:   4% 106/2609 [06:14<3:49:08,  5.49s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:12:17<45:30:49, 9102.74s/it]
Training...:   4% 106/2609 [06:20<3:49:08,  5.49s/it][A
Training...:   4% 107/2609 [06:20<3:57:59,  5.71s/it][A
Training...:   4% 108/2609 [06:26<3:50:52,  5.54s/it][A
Training...:   4% 109/2609 [06:31<3:44:29,  5.39s/it][A
Training...:   4% 110/2609 [06:35<3:37:17,  5.22s/it][A
Training...:   4% 111/2609 [06:40<3:31:41,  5.08s/it][A
Training...:   4% 112/2609 [06:45<3:25:46,  4.94s/it][A
Training...:   4% 113/2609 [06:49<3:19:41,  4.80s/it][A
Training...:   4% 114/2609 [06:54<3:13:15,  4.65s/it][A
Training...:   4% 115/2609 [06:58<3:07:18,  4.51s/it][A
Training...:   4% 116/2609 [07:02<3:01:36,  4.37s/it][A
Training...:   4% 117/2609 [07:06<2:56:29,  4.25s/it][A
Training...:   5% 118/2609 [07:10<2:51:01,  4.12s/it][A
Training...:   5% 119/2609 [07:13<2:46:42,  4.02s/it][A
Training...:   5% 120/2609 [07:17<2:42:05,  3.91s/it][A
Training...:   5% 121/2609 [07:21<2:37:51,  3.81s/it][A
Training...:   5% 122/2609 [07:24<2:32:54,  3.69s/it][A
Training...:   5% 123/2609 [07:27<2:28:24,  3.58s/it][A
Training...:   5% 124/2609 [07:31<2:24:31,  3.49s/it][A
Training...:   5% 125/2609 [07:34<2:20:25,  3.39s/it][A
Training...:   5% 126/2609 [07:37<2:16:09,  3.29s/it][A
Training...:   5% 127/2609 [07:40<2:12:12,  3.20s/it][A
Training...:   5% 128/2609 [07:43<2:08:11,  3.10s/it][A
Training...:   5% 129/2609 [07:46<2:05:37,  3.04s/it][A
Training...:   5% 130/2609 [07:48<2:01:59,  2.95s/it][A
Training...:   5% 131/2609 [07:51<1:58:54,  2.88s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:13:50<45:30:49, 9102.74s/it]
Training...:   5% 131/2609 [07:54<1:58:54,  2.88s/it][A
Training...:   5% 132/2609 [07:54<2:00:53,  2.93s/it][A
Training...:   5% 133/2609 [07:57<1:56:03,  2.81s/it][A
Training...:   5% 134/2609 [07:59<1:51:30,  2.70s/it][A
Training...:   5% 135/2609 [08:01<1:47:34,  2.61s/it][A
Training...:   5% 136/2609 [08:04<1:43:50,  2.52s/it][A
Training...:   5% 137/2609 [08:06<1:39:56,  2.43s/it][A
Training...:   5% 138/2609 [08:08<1:35:34,  2.32s/it][A
Training...:   5% 139/2609 [08:10<1:31:25,  2.22s/it][A
Training...:   5% 140/2609 [08:12<1:27:20,  2.12s/it][A
Training...:   5% 141/2609 [08:14<1:23:03,  2.02s/it][A
Training...:   5% 142/2609 [08:15<1:19:23,  1.93s/it][A
Training...:   5% 143/2609 [08:17<1:15:13,  1.83s/it][A
Training...:   6% 144/2609 [08:18<1:10:15,  1.71s/it][A
Training...:   6% 145/2609 [08:20<1:05:34,  1.60s/it][A
Training...:   6% 146/2609 [08:21<1:00:43,  1.48s/it][A
Training...:   6% 147/2609 [08:22<55:38,  1.36s/it]  [A
Training...:   6% 148/2609 [08:23<50:13,  1.22s/it][A
Training...:   6% 149/2609 [08:24<43:54,  1.07s/it][A
Training...:   6% 150/2609 [08:24<36:38,  1.12it/s][A
Training...:   6% 151/2609 [08:31<1:53:18,  2.77s/it][A
Training...:   6% 152/2609 [08:38<2:45:52,  4.05s/it][A
Training...:   6% 153/2609 [08:45<3:16:00,  4.79s/it][A
Training...:   6% 154/2609 [08:51<3:34:33,  5.24s/it][A
Training...:   6% 155/2609 [08:57<3:42:06,  5.43s/it][A
Training...:   6% 156/2609 [09:03<3:45:16,  5.51s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:15:05<45:30:49, 9102.74s/it]
Training...:   6% 156/2609 [09:09<3:45:16,  5.51s/it][A
Training...:   6% 157/2609 [09:09<3:53:07,  5.70s/it][A
Training...:   6% 158/2609 [09:14<3:46:57,  5.56s/it][A
Training...:   6% 159/2609 [09:19<3:41:10,  5.42s/it][A
Training...:   6% 160/2609 [09:24<3:34:15,  5.25s/it][A
Training...:   6% 161/2609 [09:29<3:28:16,  5.10s/it][A
Training...:   6% 162/2609 [09:33<3:21:28,  4.94s/it][A
Training...:   6% 163/2609 [09:38<3:15:37,  4.80s/it][A
Training...:   6% 164/2609 [09:42<3:10:43,  4.68s/it][A
Training...:   6% 165/2609 [09:46<3:05:04,  4.54s/it][A
Training...:   6% 166/2609 [09:51<2:58:56,  4.39s/it][A
Training...:   6% 167/2609 [09:55<2:54:19,  4.28s/it][A
Training...:   6% 168/2609 [09:58<2:50:07,  4.18s/it][A
Training...:   6% 169/2609 [10:02<2:46:06,  4.08s/it][A
Training...:   7% 170/2609 [10:06<2:40:52,  3.96s/it][A
Training...:   7% 171/2609 [10:10<2:36:47,  3.86s/it][A
Training...:   7% 172/2609 [10:13<2:31:36,  3.73s/it][A
Training...:   7% 173/2609 [10:16<2:27:25,  3.63s/it][A
Training...:   7% 174/2609 [10:20<2:23:37,  3.54s/it][A
Training...:   7% 175/2609 [10:23<2:19:59,  3.45s/it][A
Training...:   7% 176/2609 [10:26<2:15:40,  3.35s/it][A
Training...:   7% 177/2609 [10:29<2:12:29,  3.27s/it][A
Training...:   7% 178/2609 [10:32<2:09:18,  3.19s/it][A
Training...:   7% 179/2609 [10:35<2:06:50,  3.13s/it][A
Training...:   7% 180/2609 [10:38<2:02:37,  3.03s/it][A
Training...:   7% 181/2609 [10:41<1:59:30,  2.95s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:16:40<45:30:49, 9102.74s/it]
Training...:   7% 181/2609 [10:44<1:59:30,  2.95s/it][A
Training...:   7% 182/2609 [10:44<2:01:21,  3.00s/it][A
Training...:   7% 183/2609 [10:46<1:55:53,  2.87s/it][A
Training...:   7% 184/2609 [10:49<1:51:08,  2.75s/it][A
Training...:   7% 185/2609 [10:51<1:46:43,  2.64s/it][A
Training...:   7% 186/2609 [10:54<1:43:13,  2.56s/it][A
Training...:   7% 187/2609 [10:56<1:39:33,  2.47s/it][A
Training...:   7% 188/2609 [10:58<1:35:48,  2.37s/it][A
Training...:   7% 189/2609 [11:00<1:31:57,  2.28s/it][A
Training...:   7% 190/2609 [11:02<1:27:56,  2.18s/it][A
Training...:   7% 191/2609 [11:04<1:23:42,  2.08s/it][A
Training...:   7% 192/2609 [11:06<1:19:42,  1.98s/it][A
Training...:   7% 193/2609 [11:07<1:15:33,  1.88s/it][A
Training...:   7% 194/2609 [11:09<1:11:01,  1.76s/it][A
Training...:   7% 195/2609 [11:10<1:06:50,  1.66s/it][A
Training...:   8% 196/2609 [11:12<1:02:12,  1.55s/it][A
Training...:   8% 197/2609 [11:13<57:10,  1.42s/it]  [A
Training...:   8% 198/2609 [11:14<51:55,  1.29s/it][A
Training...:   8% 199/2609 [11:14<45:50,  1.14s/it][A
Training...:   8% 200/2609 [11:15<38:39,  1.04it/s][A
Training...:   8% 201/2609 [11:22<1:51:41,  2.78s/it][A
Training...:   8% 202/2609 [11:29<2:42:34,  4.05s/it][A
Training...:   8% 203/2609 [11:35<3:10:51,  4.76s/it][A
Training...:   8% 204/2609 [11:42<3:28:39,  5.21s/it][A
Training...:   8% 205/2609 [11:48<3:36:45,  5.41s/it][A
Training...:   8% 206/2609 [11:53<3:41:15,  5.52s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:17:56<45:30:49, 9102.74s/it]
Training...:   8% 206/2609 [12:00<3:41:15,  5.52s/it][A
Training...:   8% 207/2609 [12:00<3:50:28,  5.76s/it][A
Training...:   8% 208/2609 [12:05<3:43:45,  5.59s/it][A
Training...:   8% 209/2609 [12:10<3:36:35,  5.41s/it][A
Training...:   8% 210/2609 [12:15<3:29:31,  5.24s/it][A
Training...:   8% 211/2609 [12:19<3:23:55,  5.10s/it][A
Training...:   8% 212/2609 [12:24<3:16:57,  4.93s/it][A
Training...:   8% 213/2609 [12:29<3:12:34,  4.82s/it][A
Training...:   8% 214/2609 [12:33<3:06:33,  4.67s/it][A
Training...:   8% 215/2609 [12:37<3:02:08,  4.57s/it][A
Training...:   8% 216/2609 [12:41<2:55:30,  4.40s/it][A
Training...:   8% 217/2609 [12:45<2:50:21,  4.27s/it][A
Training...:   8% 218/2609 [12:49<2:44:49,  4.14s/it][A
Training...:   8% 219/2609 [12:53<2:40:51,  4.04s/it][A
Training...:   8% 220/2609 [12:56<2:35:37,  3.91s/it][A
Training...:   8% 221/2609 [13:00<2:32:11,  3.82s/it][A
Training...:   9% 222/2609 [13:04<2:27:49,  3.72s/it][A
Training...:   9% 223/2609 [13:07<2:24:13,  3.63s/it][A
Training...:   9% 224/2609 [13:10<2:20:24,  3.53s/it][A
Training...:   9% 225/2609 [13:13<2:16:38,  3.44s/it][A
Training...:   9% 226/2609 [13:17<2:12:54,  3.35s/it][A
Training...:   9% 227/2609 [13:20<2:09:41,  3.27s/it][A
Training...:   9% 228/2609 [13:23<2:05:47,  3.17s/it][A
Training...:   9% 229/2609 [13:25<2:01:52,  3.07s/it][A
Training...:   9% 230/2609 [13:28<1:58:15,  2.98s/it][A
Training...:   9% 231/2609 [13:31<1:55:10,  2.91s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:19:30<45:30:49, 9102.74s/it]
Training...:   9% 231/2609 [13:34<1:55:10,  2.91s/it][A
Training...:   9% 232/2609 [13:34<1:56:28,  2.94s/it][A
Training...:   9% 233/2609 [13:36<1:50:58,  2.80s/it][A
Training...:   9% 234/2609 [13:39<1:46:00,  2.68s/it][A
Training...:   9% 235/2609 [13:41<1:41:36,  2.57s/it][A
Training...:   9% 236/2609 [13:43<1:37:39,  2.47s/it][A
Training...:   9% 237/2609 [13:46<1:33:58,  2.38s/it][A
Training...:   9% 238/2609 [13:48<1:30:00,  2.28s/it][A
Training...:   9% 239/2609 [13:50<1:26:31,  2.19s/it][A
Training...:   9% 240/2609 [13:51<1:22:24,  2.09s/it][A
Training...:   9% 241/2609 [13:53<1:18:45,  2.00s/it][A
Training...:   9% 242/2609 [13:55<1:15:02,  1.90s/it][A
Training...:   9% 243/2609 [13:56<1:10:48,  1.80s/it][A
Training...:   9% 244/2609 [13:58<1:06:39,  1.69s/it][A
Training...:   9% 245/2609 [13:59<1:02:33,  1.59s/it][A
Training...:   9% 246/2609 [14:01<58:25,  1.48s/it]  [A
Training...:   9% 247/2609 [14:02<54:03,  1.37s/it][A
Training...:  10% 248/2609 [14:03<49:14,  1.25s/it][A
Training...:  10% 249/2609 [14:03<43:37,  1.11s/it][A
Training...:  10% 250/2609 [14:04<36:42,  1.07it/s][A
Training...:  10% 251/2609 [14:11<1:48:51,  2.77s/it][A
Training...:  10% 252/2609 [14:18<2:37:33,  4.01s/it][A
Training...:  10% 253/2609 [14:24<3:06:03,  4.74s/it][A
Training...:  10% 254/2609 [14:30<3:23:16,  5.18s/it][A
Training...:  10% 255/2609 [14:36<3:31:56,  5.40s/it][A
Training...:  10% 256/2609 [14:42<3:35:39,  5.50s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:20:45<45:30:49, 9102.74s/it]
Training...:  10% 256/2609 [14:49<3:35:39,  5.50s/it][A
Training...:  10% 257/2609 [14:49<3:45:43,  5.76s/it][A
Training...:  10% 258/2609 [14:54<3:40:34,  5.63s/it][A
Training...:  10% 259/2609 [14:59<3:35:00,  5.49s/it][A
Training...:  10% 260/2609 [15:04<3:27:51,  5.31s/it][A
Training...:  10% 261/2609 [15:09<3:21:23,  5.15s/it][A
Training...:  10% 262/2609 [15:13<3:14:44,  4.98s/it][A
Training...:  10% 263/2609 [15:18<3:09:12,  4.84s/it][A
Training...:  10% 264/2609 [15:22<3:03:47,  4.70s/it][A
Training...:  10% 265/2609 [15:26<2:58:31,  4.57s/it][A
Training...:  10% 266/2609 [15:30<2:52:45,  4.42s/it][A
Training...:  10% 267/2609 [15:34<2:47:02,  4.28s/it][A
Training...:  10% 268/2609 [15:38<2:41:48,  4.15s/it][A
Training...:  10% 269/2609 [15:42<2:37:18,  4.03s/it][A
Training...:  10% 270/2609 [15:46<2:32:52,  3.92s/it][A
Training...:  10% 271/2609 [15:49<2:28:24,  3.81s/it][A
Training...:  10% 272/2609 [15:53<2:24:07,  3.70s/it][A
Training...:  10% 273/2609 [15:56<2:20:47,  3.62s/it][A
Training...:  11% 274/2609 [15:59<2:16:46,  3.51s/it][A
Training...:  11% 275/2609 [16:03<2:12:51,  3.42s/it][A
Training...:  11% 276/2609 [16:06<2:09:33,  3.33s/it][A
Training...:  11% 277/2609 [16:09<2:06:05,  3.24s/it][A
Training...:  11% 278/2609 [16:12<2:03:07,  3.17s/it][A
Training...:  11% 279/2609 [16:15<1:59:59,  3.09s/it][A
Training...:  11% 280/2609 [16:17<1:56:53,  3.01s/it][A
Training...:  11% 281/2609 [16:20<1:53:45,  2.93s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:22:19<45:30:49, 9102.74s/it]
Training...:  11% 281/2609 [16:23<1:53:45,  2.93s/it][A
Training...:  11% 282/2609 [16:23<1:55:03,  2.97s/it][A
Training...:  11% 283/2609 [16:26<1:50:03,  2.84s/it][A
Training...:  11% 284/2609 [16:28<1:45:03,  2.71s/it][A
Training...:  11% 285/2609 [16:31<1:40:37,  2.60s/it][A
Training...:  11% 286/2609 [16:33<1:37:01,  2.51s/it][A
Training...:  11% 287/2609 [16:35<1:32:50,  2.40s/it][A
Training...:  11% 288/2609 [16:37<1:28:40,  2.29s/it][A
Training...:  11% 289/2609 [16:39<1:24:45,  2.19s/it][A
Training...:  11% 290/2609 [16:41<1:20:42,  2.09s/it][A
Training...:  11% 291/2609 [16:43<1:17:18,  2.00s/it][A
Training...:  11% 292/2609 [16:44<1:14:38,  1.93s/it][A
Training...:  11% 293/2609 [16:46<1:10:44,  1.83s/it][A
Training...:  11% 294/2609 [16:48<1:07:12,  1.74s/it][A
Training...:  11% 295/2609 [16:49<1:02:46,  1.63s/it][A
Training...:  11% 296/2609 [16:50<58:03,  1.51s/it]  [A
Training...:  11% 297/2609 [16:51<53:16,  1.38s/it][A
Training...:  11% 298/2609 [16:52<48:12,  1.25s/it][A
Training...:  11% 299/2609 [16:53<42:23,  1.10s/it][A
Training...:  11% 300/2609 [16:53<35:34,  1.08it/s][A
Training...:  12% 301/2609 [17:01<1:46:36,  2.77s/it][A
Training...:  12% 302/2609 [17:07<2:33:25,  3.99s/it][A
Training...:  12% 303/2609 [17:14<3:02:21,  4.74s/it][A
Training...:  12% 304/2609 [17:20<3:18:36,  5.17s/it][A
Training...:  12% 305/2609 [17:26<3:26:00,  5.36s/it][A
Training...:  12% 306/2609 [17:32<3:30:02,  5.47s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:23:34<45:30:49, 9102.74s/it]
Training...:  12% 306/2609 [17:38<3:30:02,  5.47s/it][A
Training...:  12% 307/2609 [17:38<3:38:13,  5.69s/it][A
Training...:  12% 308/2609 [17:43<3:32:20,  5.54s/it][A
Training...:  12% 309/2609 [17:48<3:26:21,  5.38s/it][A
Training...:  12% 310/2609 [17:53<3:19:35,  5.21s/it][A
Training...:  12% 311/2609 [17:58<3:14:24,  5.08s/it][A
Training...:  12% 312/2609 [18:02<3:08:44,  4.93s/it][A
Training...:  12% 313/2609 [18:07<3:03:44,  4.80s/it][A
Training...:  12% 314/2609 [18:11<2:59:00,  4.68s/it][A
Training...:  12% 315/2609 [18:15<2:54:48,  4.57s/it][A
Training...:  12% 316/2609 [18:19<2:48:30,  4.41s/it][A
Training...:  12% 317/2609 [18:23<2:43:09,  4.27s/it][A
Training...:  12% 318/2609 [18:27<2:37:30,  4.12s/it][A
Training...:  12% 319/2609 [18:31<2:32:45,  4.00s/it][A
Training...:  12% 320/2609 [18:34<2:28:45,  3.90s/it][A
Training...:  12% 321/2609 [18:38<2:24:21,  3.79s/it][A
Training...:  12% 322/2609 [18:41<2:20:02,  3.67s/it][A
Training...:  12% 323/2609 [18:45<2:16:44,  3.59s/it][A
Training...:  12% 324/2609 [18:48<2:13:17,  3.50s/it][A
Training...:  12% 325/2609 [18:51<2:10:01,  3.42s/it][A
Training...:  12% 326/2609 [18:54<2:06:29,  3.32s/it][A
Training...:  13% 327/2609 [18:57<2:03:26,  3.25s/it][A
Training...:  13% 328/2609 [19:00<2:00:03,  3.16s/it][A
Training...:  13% 329/2609 [19:03<1:56:35,  3.07s/it][A
Training...:  13% 330/2609 [19:06<1:53:25,  2.99s/it][A
Training...:  13% 331/2609 [19:09<1:49:36,  2.89s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:25:08<45:30:49, 9102.74s/it]
Training...:  13% 331/2609 [19:12<1:49:36,  2.89s/it][A
Training...:  13% 332/2609 [19:12<1:50:59,  2.92s/it][A
Training...:  13% 333/2609 [19:14<1:46:33,  2.81s/it][A
Training...:  13% 334/2609 [19:17<1:42:28,  2.70s/it][A
Training...:  13% 335/2609 [19:19<1:38:34,  2.60s/it][A
Training...:  13% 336/2609 [19:21<1:34:19,  2.49s/it][A
Training...:  13% 337/2609 [19:23<1:30:29,  2.39s/it][A
Training...:  13% 338/2609 [19:26<1:26:26,  2.28s/it][A
Training...:  13% 339/2609 [19:27<1:22:45,  2.19s/it][A
Training...:  13% 340/2609 [19:29<1:19:36,  2.11s/it][A
Training...:  13% 341/2609 [19:31<1:16:17,  2.02s/it][A
Training...:  13% 342/2609 [19:33<1:12:39,  1.92s/it][A
Training...:  13% 343/2609 [19:35<1:09:19,  1.84s/it][A
Training...:  13% 344/2609 [19:36<1:05:15,  1.73s/it][A
Training...:  13% 345/2609 [19:37<1:01:15,  1.62s/it][A
Training...:  13% 346/2609 [19:39<57:30,  1.52s/it]  [A
Training...:  13% 347/2609 [19:40<52:59,  1.41s/it][A
Training...:  13% 348/2609 [19:41<48:15,  1.28s/it][A
Training...:  13% 349/2609 [19:42<42:45,  1.13s/it][A
Training...:  13% 350/2609 [19:42<36:18,  1.04it/s][A
Training...:  13% 351/2609 [19:49<1:44:16,  2.77s/it][A
Training...:  13% 352/2609 [19:56<2:31:21,  4.02s/it][A
Training...:  14% 353/2609 [20:03<2:58:21,  4.74s/it][A
Training...:  14% 354/2609 [20:09<3:15:57,  5.21s/it][A
Training...:  14% 355/2609 [20:15<3:23:20,  5.41s/it][A
Training...:  14% 356/2609 [20:20<3:26:14,  5.49s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:26:23<45:30:49, 9102.74s/it]
Training...:  14% 356/2609 [20:27<3:26:14,  5.49s/it][A
Training...:  14% 357/2609 [20:27<3:35:39,  5.75s/it][A
Training...:  14% 358/2609 [20:32<3:31:14,  5.63s/it][A
Training...:  14% 359/2609 [20:37<3:24:19,  5.45s/it][A
Training...:  14% 360/2609 [20:42<3:18:33,  5.30s/it][A
Training...:  14% 361/2609 [20:47<3:11:52,  5.12s/it][A
Training...:  14% 362/2609 [20:51<3:05:53,  4.96s/it][A
Training...:  14% 363/2609 [20:56<3:00:00,  4.81s/it][A
Training...:  14% 364/2609 [21:00<2:54:15,  4.66s/it][A
Training...:  14% 365/2609 [21:04<2:48:34,  4.51s/it][A
Training...:  14% 366/2609 [21:08<2:43:28,  4.37s/it][A
Training...:  14% 367/2609 [21:12<2:38:39,  4.25s/it][A
Training...:  14% 368/2609 [21:16<2:33:35,  4.11s/it][A
Training...:  14% 369/2609 [21:20<2:30:14,  4.02s/it][A
Training...:  14% 370/2609 [21:24<2:25:45,  3.91s/it][A
Training...:  14% 371/2609 [21:27<2:22:15,  3.81s/it][A
Training...:  14% 372/2609 [21:31<2:18:48,  3.72s/it][A
Training...:  14% 373/2609 [21:34<2:15:18,  3.63s/it][A
Training...:  14% 374/2609 [21:37<2:11:13,  3.52s/it][A
Training...:  14% 375/2609 [21:41<2:07:50,  3.43s/it][A
Training...:  14% 376/2609 [21:44<2:04:04,  3.33s/it][A
Training...:  14% 377/2609 [21:47<2:00:47,  3.25s/it][A
Training...:  14% 378/2609 [21:50<1:57:07,  3.15s/it][A
Training...:  15% 379/2609 [21:52<1:53:41,  3.06s/it][A
Training...:  15% 380/2609 [21:55<1:50:40,  2.98s/it][A
Training...:  15% 381/2609 [21:58<1:47:31,  2.90s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:27:57<45:30:49, 9102.74s/it]
Training...:  15% 381/2609 [22:01<1:47:31,  2.90s/it][A
Training...:  15% 382/2609 [22:01<1:49:38,  2.95s/it][A
Training...:  15% 383/2609 [22:04<1:44:29,  2.82s/it][A
Training...:  15% 384/2609 [22:06<1:40:42,  2.72s/it][A
Training...:  15% 385/2609 [22:08<1:36:57,  2.62s/it][A
Training...:  15% 386/2609 [22:11<1:33:39,  2.53s/it][A
Training...:  15% 387/2609 [22:13<1:30:28,  2.44s/it][A
Training...:  15% 388/2609 [22:15<1:26:59,  2.35s/it][A
Training...:  15% 389/2609 [22:17<1:23:42,  2.26s/it][A
Training...:  15% 390/2609 [22:19<1:20:07,  2.17s/it][A
Training...:  15% 391/2609 [22:21<1:16:31,  2.07s/it][A
Training...:  15% 392/2609 [22:23<1:13:05,  1.98s/it][A
Training...:  15% 393/2609 [22:24<1:09:36,  1.88s/it][A
Training...:  15% 394/2609 [22:26<1:05:42,  1.78s/it][A
Training...:  15% 395/2609 [22:27<1:01:47,  1.67s/it][A
Training...:  15% 396/2609 [22:29<57:28,  1.56s/it]  [A
Training...:  15% 397/2609 [22:30<52:53,  1.43s/it][A
Training...:  15% 398/2609 [22:31<47:52,  1.30s/it][A
Training...:  15% 399/2609 [22:32<42:48,  1.16s/it][A
Training...:  15% 400/2609 [22:32<36:04,  1.02it/s][A
Training...:  15% 401/2609 [22:39<1:45:23,  2.86s/it][A
Training...:  15% 402/2609 [22:46<2:31:34,  4.12s/it][A
Training...:  15% 403/2609 [22:53<2:59:01,  4.87s/it][A
Training...:  15% 404/2609 [23:00<3:16:00,  5.33s/it][A
Training...:  16% 405/2609 [23:06<3:23:10,  5.53s/it][A
Training...:  16% 406/2609 [23:11<3:23:56,  5.55s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:29:14<45:30:49, 9102.74s/it]
Training...:  16% 406/2609 [23:17<3:23:56,  5.55s/it][A
Training...:  16% 407/2609 [23:17<3:32:18,  5.78s/it][A
Training...:  16% 408/2609 [23:23<3:27:21,  5.65s/it][A
Training...:  16% 409/2609 [23:28<3:20:42,  5.47s/it][A
Training...:  16% 410/2609 [23:33<3:14:33,  5.31s/it][A
Training...:  16% 411/2609 [23:38<3:08:19,  5.14s/it][A
Training...:  16% 412/2609 [23:42<3:02:06,  4.97s/it][A
Training...:  16% 413/2609 [23:47<2:56:32,  4.82s/it][A
Training...:  16% 414/2609 [23:51<2:50:33,  4.66s/it][A
Training...:  16% 415/2609 [23:55<2:46:38,  4.56s/it][A
Training...:  16% 416/2609 [23:59<2:41:08,  4.41s/it][A
Training...:  16% 417/2609 [24:03<2:37:16,  4.31s/it][A
Training...:  16% 418/2609 [24:07<2:32:56,  4.19s/it][A
Training...:  16% 419/2609 [24:11<2:29:13,  4.09s/it][A
Training...:  16% 420/2609 [24:15<2:25:52,  4.00s/it][A
Training...:  16% 421/2609 [24:19<2:23:08,  3.93s/it][A
Training...:  16% 422/2609 [24:22<2:18:41,  3.81s/it][A
Training...:  16% 423/2609 [24:26<2:14:00,  3.68s/it][A
Training...:  16% 424/2609 [24:29<2:09:07,  3.55s/it][A
Training...:  16% 425/2609 [24:32<2:05:02,  3.44s/it][A
Training...:  16% 426/2609 [24:35<2:00:51,  3.32s/it][A
Training...:  16% 427/2609 [24:38<1:57:21,  3.23s/it][A
Training...:  16% 428/2609 [24:41<1:54:12,  3.14s/it][A
Training...:  16% 429/2609 [24:44<1:50:31,  3.04s/it][A
Training...:  16% 430/2609 [24:46<1:47:10,  2.95s/it][A
Training...:  17% 431/2609 [24:49<1:43:34,  2.85s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:30:48<45:30:49, 9102.74s/it]
Training...:  17% 431/2609 [24:52<1:43:34,  2.85s/it][A
Training...:  17% 432/2609 [24:52<1:44:58,  2.89s/it][A
Training...:  17% 433/2609 [24:55<1:40:17,  2.77s/it][A
Training...:  17% 434/2609 [24:57<1:36:33,  2.66s/it][A
Training...:  17% 435/2609 [24:59<1:33:09,  2.57s/it][A
Training...:  17% 436/2609 [25:02<1:29:17,  2.47s/it][A
Training...:  17% 437/2609 [25:04<1:26:02,  2.38s/it][A
Training...:  17% 438/2609 [25:06<1:22:19,  2.27s/it][A
Training...:  17% 439/2609 [25:08<1:19:11,  2.19s/it][A
Training...:  17% 440/2609 [25:10<1:15:40,  2.09s/it][A
Training...:  17% 441/2609 [25:11<1:12:21,  2.00s/it][A
Training...:  17% 442/2609 [25:13<1:09:28,  1.92s/it][A
Training...:  17% 443/2609 [25:15<1:06:13,  1.83s/it][A
Training...:  17% 444/2609 [25:16<1:02:14,  1.73s/it][A
Training...:  17% 445/2609 [25:18<58:08,  1.61s/it]  [A
Training...:  17% 446/2609 [25:19<54:12,  1.50s/it][A
Training...:  17% 447/2609 [25:20<50:01,  1.39s/it][A
Training...:  17% 448/2609 [25:21<45:12,  1.26s/it][A
Training...:  17% 449/2609 [25:22<39:52,  1.11s/it][A
Training...:  17% 450/2609 [25:22<33:26,  1.08it/s][A
Training...:  17% 451/2609 [25:29<1:38:41,  2.74s/it][A
Training...:  17% 452/2609 [25:36<2:24:22,  4.02s/it][A
Training...:  17% 453/2609 [25:43<2:49:42,  4.72s/it][A
Training...:  17% 454/2609 [25:49<3:06:35,  5.20s/it][A
Training...:  17% 455/2609 [25:55<3:14:51,  5.43s/it][A
Training...:  17% 456/2609 [26:01<3:19:13,  5.55s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:32:03<45:30:49, 9102.74s/it]
Training...:  17% 456/2609 [26:07<3:19:13,  5.55s/it][A
Training...:  18% 457/2609 [26:07<3:26:05,  5.75s/it][A
Training...:  18% 458/2609 [26:12<3:19:23,  5.56s/it][A
Training...:  18% 459/2609 [26:17<3:13:04,  5.39s/it][A
Training...:  18% 460/2609 [26:22<3:07:31,  5.24s/it][A
Training...:  18% 461/2609 [26:27<3:01:53,  5.08s/it][A
Training...:  18% 462/2609 [26:31<2:55:17,  4.90s/it][A
Training...:  18% 463/2609 [26:35<2:49:40,  4.74s/it][A
Training...:  18% 464/2609 [26:40<2:44:30,  4.60s/it][A
Training...:  18% 465/2609 [26:44<2:39:58,  4.48s/it][A
Training...:  18% 466/2609 [26:48<2:34:46,  4.33s/it][A
Training...:  18% 467/2609 [26:52<2:30:11,  4.21s/it][A
Training...:  18% 468/2609 [26:56<2:26:14,  4.10s/it][A
Training...:  18% 469/2609 [26:59<2:23:05,  4.01s/it][A
Training...:  18% 470/2609 [27:03<2:18:52,  3.90s/it][A
Training...:  18% 471/2609 [27:07<2:15:14,  3.80s/it][A
Training...:  18% 472/2609 [27:10<2:11:30,  3.69s/it][A
Training...:  18% 473/2609 [27:13<2:07:38,  3.59s/it][A
Training...:  18% 474/2609 [27:17<2:03:43,  3.48s/it][A
Training...:  18% 475/2609 [27:20<2:00:31,  3.39s/it][A
Training...:  18% 476/2609 [27:23<1:56:55,  3.29s/it][A
Training...:  18% 477/2609 [27:26<1:53:55,  3.21s/it][A
Training...:  18% 478/2609 [27:29<1:50:42,  3.12s/it][A
Training...:  18% 479/2609 [27:32<1:47:15,  3.02s/it][A
Training...:  18% 480/2609 [27:34<1:44:38,  2.95s/it][A
Training...:  18% 481/2609 [27:37<1:41:35,  2.86s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:33:36<45:30:49, 9102.74s/it]
Training...:  18% 481/2609 [27:40<1:41:35,  2.86s/it][A
Training...:  18% 482/2609 [27:40<1:43:41,  2.93s/it][A
Training...:  19% 483/2609 [27:43<1:38:31,  2.78s/it][A
Training...:  19% 484/2609 [27:45<1:34:18,  2.66s/it][A
Training...:  19% 485/2609 [27:47<1:30:15,  2.55s/it][A
Training...:  19% 486/2609 [27:49<1:26:34,  2.45s/it][A
Training...:  19% 487/2609 [27:52<1:22:43,  2.34s/it][A
Training...:  19% 488/2609 [27:54<1:19:16,  2.24s/it][A
Training...:  19% 489/2609 [27:55<1:15:42,  2.14s/it][A
Training...:  19% 490/2609 [27:57<1:12:46,  2.06s/it][A
Training...:  19% 491/2609 [27:59<1:09:21,  1.97s/it][A
Training...:  19% 492/2609 [28:01<1:06:03,  1.87s/it][A
Training...:  19% 493/2609 [28:02<1:02:33,  1.77s/it][A
Training...:  19% 494/2609 [28:04<59:13,  1.68s/it]  [A
Training...:  19% 495/2609 [28:05<55:48,  1.58s/it][A
Training...:  19% 496/2609 [28:06<52:00,  1.48s/it][A
Training...:  19% 497/2609 [28:07<47:42,  1.36s/it][A
Training...:  19% 498/2609 [28:08<42:55,  1.22s/it][A
Training...:  19% 499/2609 [28:09<38:04,  1.08s/it][A
Training...:  19% 500/2609 [28:10<32:22,  1.09it/s][A
Training...:  19% 501/2609 [28:17<1:36:43,  2.75s/it][A
Training...:  19% 502/2609 [28:24<2:21:50,  4.04s/it][A
Training...:  19% 503/2609 [28:30<2:47:20,  4.77s/it][A
Training...:  19% 504/2609 [28:36<3:02:44,  5.21s/it][A
Training...:  19% 505/2609 [28:42<3:09:14,  5.40s/it][A
Training...:  19% 506/2609 [28:48<3:12:27,  5.49s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:34:50<45:30:49, 9102.74s/it]
Training...:  19% 506/2609 [28:54<3:12:27,  5.49s/it][A
Training...:  19% 507/2609 [28:54<3:21:00,  5.74s/it][A
Training...:  19% 508/2609 [28:59<3:15:00,  5.57s/it][A
Training...:  20% 509/2609 [29:05<3:10:55,  5.45s/it][A
Training...:  20% 510/2609 [29:10<3:06:14,  5.32s/it][A
Training...:  20% 511/2609 [29:14<3:00:41,  5.17s/it][A
Training...:  20% 512/2609 [29:19<2:54:26,  4.99s/it][A
Training...:  20% 513/2609 [29:23<2:48:42,  4.83s/it][A
Training...:  20% 514/2609 [29:28<2:43:18,  4.68s/it][A
Training...:  20% 515/2609 [29:32<2:38:29,  4.54s/it][A
Training...:  20% 516/2609 [29:36<2:35:09,  4.45s/it][A
Training...:  20% 517/2609 [29:40<2:30:25,  4.31s/it][A
Training...:  20% 518/2609 [29:44<2:25:51,  4.19s/it][A
Training...:  20% 519/2609 [29:48<2:21:48,  4.07s/it][A
Training...:  20% 520/2609 [29:52<2:17:35,  3.95s/it][A
Training...:  20% 521/2609 [29:55<2:13:00,  3.82s/it][A
Training...:  20% 522/2609 [29:59<2:09:38,  3.73s/it][A
Training...:  20% 523/2609 [30:02<2:05:47,  3.62s/it][A
Training...:  20% 524/2609 [30:05<2:02:14,  3.52s/it][A
Training...:  20% 525/2609 [30:08<1:58:54,  3.42s/it][A
Training...:  20% 526/2609 [30:12<1:55:18,  3.32s/it][A
Training...:  20% 527/2609 [30:15<1:52:11,  3.23s/it][A
Training...:  20% 528/2609 [30:17<1:48:34,  3.13s/it][A
Training...:  20% 529/2609 [30:20<1:45:56,  3.06s/it][A
Training...:  20% 530/2609 [30:23<1:42:58,  2.97s/it][A
Training...:  20% 531/2609 [30:26<1:39:49,  2.88s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:36:25<45:30:49, 9102.74s/it]
Training...:  20% 531/2609 [30:29<1:39:49,  2.88s/it][A
Training...:  20% 532/2609 [30:29<1:41:32,  2.93s/it][A
Training...:  20% 533/2609 [30:31<1:37:00,  2.80s/it][A
Training...:  20% 534/2609 [30:34<1:33:12,  2.70s/it][A
Training...:  21% 535/2609 [30:36<1:29:50,  2.60s/it][A
Training...:  21% 536/2609 [30:38<1:25:49,  2.48s/it][A
Training...:  21% 537/2609 [30:41<1:22:38,  2.39s/it][A
Training...:  21% 538/2609 [30:43<1:18:48,  2.28s/it][A
Training...:  21% 539/2609 [30:45<1:15:32,  2.19s/it][A
Training...:  21% 540/2609 [30:46<1:12:02,  2.09s/it][A
Training...:  21% 541/2609 [30:48<1:08:29,  1.99s/it][A
Training...:  21% 542/2609 [30:50<1:05:13,  1.89s/it][A
Training...:  21% 543/2609 [30:51<1:02:15,  1.81s/it][A
Training...:  21% 544/2609 [30:53<58:55,  1.71s/it]  [A
Training...:  21% 545/2609 [30:54<55:28,  1.61s/it][A
Training...:  21% 546/2609 [30:56<51:38,  1.50s/it][A
Training...:  21% 547/2609 [30:57<47:43,  1.39s/it][A
Training...:  21% 548/2609 [30:58<43:07,  1.26s/it][A
Training...:  21% 549/2609 [30:58<38:14,  1.11s/it][A
Training...:  21% 550/2609 [30:59<32:16,  1.06it/s][A
Training...:  21% 551/2609 [31:06<1:36:37,  2.82s/it][A
Training...:  21% 552/2609 [31:13<2:18:22,  4.04s/it][A
Training...:  21% 553/2609 [31:19<2:43:00,  4.76s/it][A
Training...:  21% 554/2609 [31:26<2:57:48,  5.19s/it][A
Training...:  21% 555/2609 [31:31<3:03:59,  5.37s/it][A
Training...:  21% 556/2609 [31:37<3:06:48,  5.46s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:37:40<45:30:49, 9102.74s/it]
Training...:  21% 556/2609 [31:43<3:06:48,  5.46s/it][A
Training...:  21% 557/2609 [31:43<3:14:23,  5.68s/it][A
Training...:  21% 558/2609 [31:48<3:08:58,  5.53s/it][A
Training...:  21% 559/2609 [31:54<3:04:19,  5.39s/it][A
Training...:  21% 560/2609 [31:58<2:58:36,  5.23s/it][A
Training...:  22% 561/2609 [32:03<2:53:25,  5.08s/it][A
Training...:  22% 562/2609 [32:08<2:47:31,  4.91s/it][A
Training...:  22% 563/2609 [32:12<2:42:24,  4.76s/it][A
Training...:  22% 564/2609 [32:16<2:38:03,  4.64s/it][A
Training...:  22% 565/2609 [32:21<2:34:09,  4.53s/it][A
Training...:  22% 566/2609 [32:25<2:29:05,  4.38s/it][A
Training...:  22% 567/2609 [32:29<2:24:36,  4.25s/it][A
Training...:  22% 568/2609 [32:33<2:20:18,  4.12s/it][A
Training...:  22% 569/2609 [32:36<2:16:33,  4.02s/it][A
Training...:  22% 570/2609 [32:40<2:12:27,  3.90s/it][A
Training...:  22% 571/2609 [32:43<2:08:57,  3.80s/it][A
Training...:  22% 572/2609 [32:47<2:05:44,  3.70s/it][A
Training...:  22% 573/2609 [32:50<2:02:07,  3.60s/it][A
Training...:  22% 574/2609 [32:54<1:58:35,  3.50s/it][A
Training...:  22% 575/2609 [32:57<1:55:30,  3.41s/it][A
Training...:  22% 576/2609 [33:00<1:52:03,  3.31s/it][A
Training...:  22% 577/2609 [33:03<1:48:53,  3.22s/it][A
Training...:  22% 578/2609 [33:06<1:46:02,  3.13s/it][A
Training...:  22% 579/2609 [33:09<1:43:38,  3.06s/it][A
Training...:  22% 580/2609 [33:11<1:40:29,  2.97s/it][A
Training...:  22% 581/2609 [33:14<1:37:13,  2.88s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:39:13<45:30:49, 9102.74s/it]
Training...:  22% 581/2609 [33:17<1:37:13,  2.88s/it][A
Training...:  22% 582/2609 [33:17<1:38:10,  2.91s/it][A
Training...:  22% 583/2609 [33:20<1:33:23,  2.77s/it][A
Training...:  22% 584/2609 [33:22<1:29:07,  2.64s/it][A
Training...:  22% 585/2609 [33:24<1:25:29,  2.53s/it][A
Training...:  22% 586/2609 [33:26<1:22:14,  2.44s/it][A
Training...:  22% 587/2609 [33:28<1:19:01,  2.35s/it][A
Training...:  23% 588/2609 [33:30<1:15:39,  2.25s/it][A
Training...:  23% 589/2609 [33:32<1:12:42,  2.16s/it][A
Training...:  23% 590/2609 [33:34<1:09:33,  2.07s/it][A
Training...:  23% 591/2609 [33:36<1:06:53,  1.99s/it][A
Training...:  23% 592/2609 [33:38<1:03:47,  1.90s/it][A
Training...:  23% 593/2609 [33:39<1:00:29,  1.80s/it][A
Training...:  23% 594/2609 [33:41<56:45,  1.69s/it]  [A
Training...:  23% 595/2609 [33:42<52:52,  1.58s/it][A
Training...:  23% 596/2609 [33:43<49:12,  1.47s/it][A
Training...:  23% 597/2609 [33:44<45:33,  1.36s/it][A
Training...:  23% 598/2609 [33:45<41:13,  1.23s/it][A
Training...:  23% 599/2609 [33:46<36:26,  1.09s/it][A
Training...:  23% 600/2609 [33:47<30:38,  1.09it/s][A
Training...:  23% 601/2609 [33:54<1:32:47,  2.77s/it][A
Training...:  23% 602/2609 [34:01<2:13:58,  4.01s/it][A
Training...:  23% 603/2609 [34:07<2:38:18,  4.73s/it][A
Training...:  23% 604/2609 [34:13<2:53:22,  5.19s/it][A
Training...:  23% 605/2609 [34:19<2:59:26,  5.37s/it][A
Training...:  23% 606/2609 [34:25<3:01:56,  5.45s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:40:27<45:30:49, 9102.74s/it]
Training...:  23% 606/2609 [34:31<3:01:56,  5.45s/it][A
Training...:  23% 607/2609 [34:31<3:09:55,  5.69s/it][A
Training...:  23% 608/2609 [34:36<3:04:53,  5.54s/it][A
Training...:  23% 609/2609 [34:41<2:59:33,  5.39s/it][A
Training...:  23% 610/2609 [34:46<2:55:04,  5.25s/it][A
Training...:  23% 611/2609 [34:51<2:49:59,  5.10s/it][A
Training...:  23% 612/2609 [34:55<2:44:23,  4.94s/it][A
Training...:  23% 613/2609 [35:00<2:39:51,  4.81s/it][A
Training...:  24% 614/2609 [35:04<2:36:19,  4.70s/it][A
Training...:  24% 615/2609 [35:09<2:31:37,  4.56s/it][A
Training...:  24% 616/2609 [35:13<2:26:09,  4.40s/it][A
Training...:  24% 617/2609 [35:17<2:21:32,  4.26s/it][A
Training...:  24% 618/2609 [35:20<2:17:03,  4.13s/it][A
Training...:  24% 619/2609 [35:24<2:13:27,  4.02s/it][A
Training...:  24% 620/2609 [35:28<2:09:32,  3.91s/it][A
Training...:  24% 621/2609 [35:31<2:05:50,  3.80s/it][A
Training...:  24% 622/2609 [35:35<2:02:19,  3.69s/it][A
Training...:  24% 623/2609 [35:38<1:59:07,  3.60s/it][A
Training...:  24% 624/2609 [35:41<1:55:15,  3.48s/it][A
Training...:  24% 625/2609 [35:45<1:52:29,  3.40s/it][A
Training...:  24% 626/2609 [35:48<1:49:17,  3.31s/it][A
Training...:  24% 627/2609 [35:51<1:46:42,  3.23s/it][A
Training...:  24% 628/2609 [35:54<1:43:08,  3.12s/it][A
Training...:  24% 629/2609 [35:56<1:40:17,  3.04s/it][A
Training...:  24% 630/2609 [35:59<1:37:07,  2.94s/it][A
Training...:  24% 631/2609 [36:02<1:34:46,  2.87s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:42:01<45:30:49, 9102.74s/it]
Training...:  24% 631/2609 [36:05<1:34:46,  2.87s/it][A
Training...:  24% 632/2609 [36:05<1:36:22,  2.93s/it][A
Training...:  24% 633/2609 [36:08<1:32:33,  2.81s/it][A
Training...:  24% 634/2609 [36:10<1:28:39,  2.69s/it][A
Training...:  24% 635/2609 [36:12<1:25:23,  2.60s/it][A
Training...:  24% 636/2609 [36:15<1:22:10,  2.50s/it][A
Training...:  24% 637/2609 [36:17<1:19:02,  2.40s/it][A
Training...:  24% 638/2609 [36:19<1:15:48,  2.31s/it][A
Training...:  24% 639/2609 [36:21<1:12:48,  2.22s/it][A
Training...:  25% 640/2609 [36:23<1:09:37,  2.12s/it][A
Training...:  25% 641/2609 [36:25<1:06:25,  2.03s/it][A
Training...:  25% 642/2609 [36:26<1:03:20,  1.93s/it][A
Training...:  25% 643/2609 [36:28<1:00:19,  1.84s/it][A
Training...:  25% 644/2609 [36:29<56:57,  1.74s/it]  [A
Training...:  25% 645/2609 [36:31<53:27,  1.63s/it][A
Training...:  25% 646/2609 [36:32<49:42,  1.52s/it][A
Training...:  25% 647/2609 [36:33<45:36,  1.39s/it][A
Training...:  25% 648/2609 [36:34<41:23,  1.27s/it][A
Training...:  25% 649/2609 [36:35<36:50,  1.13s/it][A
Training...:  25% 650/2609 [36:35<31:06,  1.05it/s][A
Training...:  25% 651/2609 [36:42<1:29:46,  2.75s/it][A
Training...:  25% 652/2609 [36:49<2:10:07,  3.99s/it][A
Training...:  25% 653/2609 [36:56<2:34:26,  4.74s/it][A
Training...:  25% 654/2609 [37:02<2:47:39,  5.15s/it][A
Training...:  25% 655/2609 [37:08<2:53:40,  5.33s/it][A
Training...:  25% 656/2609 [37:13<2:55:53,  5.40s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:43:16<45:30:49, 9102.74s/it]
Training...:  25% 656/2609 [37:19<2:55:53,  5.40s/it][A
Training...:  25% 657/2609 [37:19<3:04:05,  5.66s/it][A
Training...:  25% 658/2609 [37:25<2:59:42,  5.53s/it][A
Training...:  25% 659/2609 [37:30<2:53:59,  5.35s/it][A
Training...:  25% 660/2609 [37:34<2:48:05,  5.17s/it][A
Training...:  25% 661/2609 [37:39<2:42:52,  5.02s/it][A
Training...:  25% 662/2609 [37:44<2:37:31,  4.85s/it][A
Training...:  25% 663/2609 [37:48<2:32:30,  4.70s/it][A
Training...:  25% 664/2609 [37:52<2:27:19,  4.54s/it][A
Training...:  25% 665/2609 [37:56<2:22:34,  4.40s/it][A
Training...:  26% 666/2609 [38:00<2:18:27,  4.28s/it][A
Training...:  26% 667/2609 [38:04<2:14:27,  4.15s/it][A
Training...:  26% 668/2609 [38:08<2:11:00,  4.05s/it][A
Training...:  26% 669/2609 [38:11<2:07:10,  3.93s/it][A
Training...:  26% 670/2609 [38:15<2:03:20,  3.82s/it][A
Training...:  26% 671/2609 [38:18<2:00:01,  3.72s/it][A
Training...:  26% 672/2609 [38:22<1:57:27,  3.64s/it][A
Training...:  26% 673/2609 [38:25<1:54:27,  3.55s/it][A
Training...:  26% 674/2609 [38:28<1:51:08,  3.45s/it][A
Training...:  26% 675/2609 [38:32<1:48:42,  3.37s/it][A
Training...:  26% 676/2609 [38:35<1:46:10,  3.30s/it][A
Training...:  26% 677/2609 [38:38<1:43:04,  3.20s/it][A
Training...:  26% 678/2609 [38:41<1:40:10,  3.11s/it][A
Training...:  26% 679/2609 [38:44<1:37:41,  3.04s/it][A
Training...:  26% 680/2609 [38:46<1:35:17,  2.96s/it][A
Training...:  26% 681/2609 [38:49<1:32:21,  2.87s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:44:48<45:30:49, 9102.74s/it]
Training...:  26% 681/2609 [38:52<1:32:21,  2.87s/it][A
Training...:  26% 682/2609 [38:52<1:33:46,  2.92s/it][A
Training...:  26% 683/2609 [38:54<1:29:39,  2.79s/it][A
Training...:  26% 684/2609 [38:57<1:25:57,  2.68s/it][A
Training...:  26% 685/2609 [38:59<1:22:58,  2.59s/it][A
Training...:  26% 686/2609 [39:01<1:19:20,  2.48s/it][A
Training...:  26% 687/2609 [39:04<1:16:26,  2.39s/it][A
Training...:  26% 688/2609 [39:06<1:13:01,  2.28s/it][A
Training...:  26% 689/2609 [39:08<1:09:52,  2.18s/it][A
Training...:  26% 690/2609 [39:10<1:06:43,  2.09s/it][A
Training...:  26% 691/2609 [39:11<1:03:10,  1.98s/it][A
Training...:  27% 692/2609 [39:13<1:00:03,  1.88s/it][A
Training...:  27% 693/2609 [39:14<56:44,  1.78s/it]  [A
Training...:  27% 694/2609 [39:16<53:37,  1.68s/it][A
Training...:  27% 695/2609 [39:17<50:05,  1.57s/it][A
Training...:  27% 696/2609 [39:18<46:35,  1.46s/it][A
Training...:  27% 697/2609 [39:19<42:42,  1.34s/it][A
Training...:  27% 698/2609 [39:20<38:21,  1.20s/it][A
Training...:  27% 699/2609 [39:21<34:24,  1.08s/it][A
Training...:  27% 700/2609 [39:22<28:57,  1.10it/s][A
Training...:  27% 701/2609 [39:29<1:28:06,  2.77s/it][A
Training...:  27% 702/2609 [39:36<2:07:49,  4.02s/it][A
Training...:  27% 703/2609 [39:42<2:30:44,  4.75s/it][A
Training...:  27% 704/2609 [39:48<2:44:59,  5.20s/it][A
Training...:  27% 705/2609 [39:54<2:50:34,  5.38s/it][A
Training...:  27% 706/2609 [40:00<2:52:30,  5.44s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:46:02<45:30:49, 9102.74s/it]
Training...:  27% 706/2609 [40:06<2:52:30,  5.44s/it][A
Training...:  27% 707/2609 [40:06<2:59:29,  5.66s/it][A
Training...:  27% 708/2609 [40:11<2:54:23,  5.50s/it][A
Training...:  27% 709/2609 [40:16<2:49:53,  5.37s/it][A
Training...:  27% 710/2609 [40:21<2:45:26,  5.23s/it][A
Training...:  27% 711/2609 [40:26<2:40:42,  5.08s/it][A
Training...:  27% 712/2609 [40:30<2:35:28,  4.92s/it][A
Training...:  27% 713/2609 [40:35<2:31:57,  4.81s/it][A
Training...:  27% 714/2609 [40:39<2:27:55,  4.68s/it][A
Training...:  27% 715/2609 [40:43<2:23:00,  4.53s/it][A
Training...:  27% 716/2609 [40:47<2:18:16,  4.38s/it][A
Training...:  27% 717/2609 [40:51<2:13:29,  4.23s/it][A
Training...:  28% 718/2609 [40:55<2:08:55,  4.09s/it][A
Training...:  28% 719/2609 [40:59<2:04:46,  3.96s/it][A
Training...:  28% 720/2609 [41:02<2:00:32,  3.83s/it][A
Training...:  28% 721/2609 [41:06<1:57:01,  3.72s/it][A
Training...:  28% 722/2609 [41:09<1:53:14,  3.60s/it][A
Training...:  28% 723/2609 [41:12<1:50:21,  3.51s/it][A
Training...:  28% 724/2609 [41:16<1:47:04,  3.41s/it][A
Training...:  28% 725/2609 [41:19<1:44:11,  3.32s/it][A
Training...:  28% 726/2609 [41:22<1:41:19,  3.23s/it][A
Training...:  28% 727/2609 [41:25<1:39:18,  3.17s/it][A
Training...:  28% 728/2609 [41:28<1:36:45,  3.09s/it][A
Training...:  28% 729/2609 [41:30<1:34:01,  3.00s/it][A
Training...:  28% 730/2609 [41:33<1:31:32,  2.92s/it][A
Training...:  28% 731/2609 [41:36<1:28:46,  2.84s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:47:35<45:30:49, 9102.74s/it]
Training...:  28% 731/2609 [41:39<1:28:46,  2.84s/it][A
Training...:  28% 732/2609 [41:39<1:30:12,  2.88s/it][A
Training...:  28% 733/2609 [41:41<1:26:17,  2.76s/it][A
Training...:  28% 734/2609 [41:44<1:22:50,  2.65s/it][A
Training...:  28% 735/2609 [41:46<1:19:46,  2.55s/it][A
Training...:  28% 736/2609 [41:48<1:16:47,  2.46s/it][A
Training...:  28% 737/2609 [41:50<1:13:28,  2.36s/it][A
Training...:  28% 738/2609 [41:52<1:10:05,  2.25s/it][A
Training...:  28% 739/2609 [41:54<1:07:21,  2.16s/it][A
Training...:  28% 740/2609 [41:56<1:04:32,  2.07s/it][A
Training...:  28% 741/2609 [41:58<1:01:11,  1.97s/it][A
Training...:  28% 742/2609 [42:00<58:24,  1.88s/it]  [A
Training...:  28% 743/2609 [42:01<55:15,  1.78s/it][A
Training...:  29% 744/2609 [42:02<51:54,  1.67s/it][A
Training...:  29% 745/2609 [42:04<48:33,  1.56s/it][A
Training...:  29% 746/2609 [42:05<45:11,  1.46s/it][A
Training...:  29% 747/2609 [42:06<41:46,  1.35s/it][A
Training...:  29% 748/2609 [42:07<37:44,  1.22s/it][A
Training...:  29% 749/2609 [42:08<33:21,  1.08s/it][A
Training...:  29% 750/2609 [42:08<28:13,  1.10it/s][A
Training...:  29% 751/2609 [42:15<1:26:07,  2.78s/it][A
Training...:  29% 752/2609 [42:23<2:07:56,  4.13s/it][A
Training...:  29% 753/2609 [42:29<2:29:35,  4.84s/it][A
Training...:  29% 754/2609 [42:35<2:42:06,  5.24s/it][A
Training...:  29% 755/2609 [42:41<2:48:37,  5.46s/it][A
Training...:  29% 756/2609 [42:47<2:51:27,  5.55s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:48:50<45:30:49, 9102.74s/it]
Training...:  29% 756/2609 [42:53<2:51:27,  5.55s/it][A
Training...:  29% 757/2609 [42:53<2:58:14,  5.77s/it][A
Training...:  29% 758/2609 [42:59<2:53:25,  5.62s/it][A
Training...:  29% 759/2609 [43:04<2:48:58,  5.48s/it][A
Training...:  29% 760/2609 [43:09<2:43:23,  5.30s/it][A
Training...:  29% 761/2609 [43:14<2:39:05,  5.17s/it][A
Training...:  29% 762/2609 [43:18<2:32:50,  4.97s/it][A
Training...:  29% 763/2609 [43:23<2:28:29,  4.83s/it][A
Training...:  29% 764/2609 [43:27<2:23:38,  4.67s/it][A
Training...:  29% 765/2609 [43:31<2:19:50,  4.55s/it][A
Training...:  29% 766/2609 [43:35<2:17:54,  4.49s/it][A
Training...:  29% 767/2609 [43:40<2:13:55,  4.36s/it][A
Training...:  29% 768/2609 [43:43<2:09:13,  4.21s/it][A
Training...:  29% 769/2609 [43:47<2:05:37,  4.10s/it][A
Training...:  30% 770/2609 [43:51<2:01:46,  3.97s/it][A
Training...:  30% 771/2609 [43:55<1:58:59,  3.88s/it][A
Training...:  30% 772/2609 [43:58<1:56:59,  3.82s/it][A
Training...:  30% 773/2609 [44:02<1:53:29,  3.71s/it][A
Training...:  30% 774/2609 [44:05<1:50:10,  3.60s/it][A
Training...:  30% 775/2609 [44:08<1:47:29,  3.52s/it][A
Training...:  30% 776/2609 [44:12<1:44:22,  3.42s/it][A
Training...:  30% 777/2609 [44:15<1:41:05,  3.31s/it][A
Training...:  30% 778/2609 [44:18<1:37:44,  3.20s/it][A
Training...:  30% 779/2609 [44:20<1:34:38,  3.10s/it][A
Training...:  30% 780/2609 [44:23<1:31:48,  3.01s/it][A
Training...:  30% 781/2609 [44:26<1:29:09,  2.93s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:50:25<45:30:49, 9102.74s/it]
Training...:  30% 781/2609 [44:29<1:29:09,  2.93s/it][A
Training...:  30% 782/2609 [44:29<1:30:35,  2.98s/it][A
Training...:  30% 783/2609 [44:32<1:26:31,  2.84s/it][A
Training...:  30% 784/2609 [44:34<1:22:52,  2.72s/it][A
Training...:  30% 785/2609 [44:36<1:19:25,  2.61s/it][A
Training...:  30% 786/2609 [44:39<1:16:39,  2.52s/it][A
Training...:  30% 787/2609 [44:41<1:13:43,  2.43s/it][A
Training...:  30% 788/2609 [44:43<1:10:29,  2.32s/it][A
Training...:  30% 789/2609 [44:45<1:07:33,  2.23s/it][A
Training...:  30% 790/2609 [44:47<1:04:29,  2.13s/it][A
Training...:  30% 791/2609 [44:49<1:01:27,  2.03s/it][A
Training...:  30% 792/2609 [44:50<58:23,  1.93s/it]  [A
Training...:  30% 793/2609 [44:52<55:23,  1.83s/it][A
Training...:  30% 794/2609 [44:53<52:20,  1.73s/it][A
Training...:  30% 795/2609 [44:55<49:22,  1.63s/it][A
Training...:  31% 796/2609 [44:56<46:06,  1.53s/it][A
Training...:  31% 797/2609 [44:57<42:13,  1.40s/it][A
Training...:  31% 798/2609 [44:58<38:01,  1.26s/it][A
Training...:  31% 799/2609 [44:59<33:37,  1.11s/it][A
Training...:  31% 800/2609 [45:00<28:26,  1.06it/s][A
Training...:  31% 801/2609 [45:07<1:23:30,  2.77s/it][A
Training...:  31% 802/2609 [45:14<2:01:43,  4.04s/it][A
Training...:  31% 803/2609 [45:20<2:24:51,  4.81s/it][A
Training...:  31% 804/2609 [45:27<2:38:27,  5.27s/it][A
Training...:  31% 805/2609 [45:32<2:44:31,  5.47s/it][A
Training...:  31% 806/2609 [45:38<2:46:24,  5.54s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:51:41<45:30:49, 9102.74s/it]
Training...:  31% 806/2609 [45:44<2:46:24,  5.54s/it][A
Training...:  31% 807/2609 [45:44<2:53:04,  5.76s/it][A
Training...:  31% 808/2609 [45:50<2:48:13,  5.60s/it][A
Training...:  31% 809/2609 [45:55<2:43:17,  5.44s/it][A
Training...:  31% 810/2609 [46:00<2:37:34,  5.26s/it][A
Training...:  31% 811/2609 [46:04<2:33:34,  5.12s/it][A
Training...:  31% 812/2609 [46:09<2:28:42,  4.97s/it][A
Training...:  31% 813/2609 [46:14<2:24:58,  4.84s/it][A
Training...:  31% 814/2609 [46:18<2:20:26,  4.69s/it][A
Training...:  31% 815/2609 [46:22<2:16:04,  4.55s/it][A
Training...:  31% 816/2609 [46:26<2:11:13,  4.39s/it][A
Training...:  31% 817/2609 [46:30<2:07:18,  4.26s/it][A
Training...:  31% 818/2609 [46:34<2:02:49,  4.11s/it][A
Training...:  31% 819/2609 [46:38<1:59:01,  3.99s/it][A
Training...:  31% 820/2609 [46:41<1:55:12,  3.86s/it][A
Training...:  31% 821/2609 [46:45<1:52:06,  3.76s/it][A
Training...:  32% 822/2609 [46:48<1:49:09,  3.66s/it][A
Training...:  32% 823/2609 [46:51<1:46:02,  3.56s/it][A
Training...:  32% 824/2609 [46:55<1:43:23,  3.48s/it][A
Training...:  32% 825/2609 [46:58<1:40:13,  3.37s/it][A
Training...:  32% 826/2609 [47:01<1:37:41,  3.29s/it][A
Training...:  32% 827/2609 [47:04<1:35:23,  3.21s/it][A
Training...:  32% 828/2609 [47:07<1:32:15,  3.11s/it][A
Training...:  32% 829/2609 [47:10<1:29:54,  3.03s/it][A
Training...:  32% 830/2609 [47:12<1:27:22,  2.95s/it][A
Training...:  32% 831/2609 [47:15<1:24:26,  2.85s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:53:14<45:30:49, 9102.74s/it]
Training...:  32% 831/2609 [47:18<1:24:26,  2.85s/it][A
Training...:  32% 832/2609 [47:18<1:25:47,  2.90s/it][A
Training...:  32% 833/2609 [47:20<1:21:57,  2.77s/it][A
Training...:  32% 834/2609 [47:23<1:18:34,  2.66s/it][A
Training...:  32% 835/2609 [47:25<1:15:54,  2.57s/it][A
Training...:  32% 836/2609 [47:27<1:12:42,  2.46s/it][A
Training...:  32% 837/2609 [47:30<1:09:56,  2.37s/it][A
Training...:  32% 838/2609 [47:32<1:06:57,  2.27s/it][A
Training...:  32% 839/2609 [47:34<1:04:15,  2.18s/it][A
Training...:  32% 840/2609 [47:35<1:01:23,  2.08s/it][A
Training...:  32% 841/2609 [47:37<58:35,  1.99s/it]  [A
Training...:  32% 842/2609 [47:39<56:00,  1.90s/it][A
Training...:  32% 843/2609 [47:41<53:21,  1.81s/it][A
Training...:  32% 844/2609 [47:42<50:24,  1.71s/it][A
Training...:  32% 845/2609 [47:43<47:25,  1.61s/it][A
Training...:  32% 846/2609 [47:45<44:14,  1.51s/it][A
Training...:  32% 847/2609 [47:46<40:50,  1.39s/it][A
Training...:  33% 848/2609 [47:47<37:15,  1.27s/it][A
Training...:  33% 849/2609 [47:48<33:10,  1.13s/it][A
Training...:  33% 850/2609 [47:48<28:25,  1.03it/s][A
Training...:  33% 851/2609 [47:55<1:21:40,  2.79s/it][A
Training...:  33% 852/2609 [48:02<1:57:39,  4.02s/it][A
Training...:  33% 853/2609 [48:09<2:18:56,  4.75s/it][A
Training...:  33% 854/2609 [48:15<2:31:43,  5.19s/it][A
Training...:  33% 855/2609 [48:21<2:39:21,  5.45s/it][A
Training...:  33% 856/2609 [48:27<2:42:15,  5.55s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:54:29<45:30:49, 9102.74s/it]
Training...:  33% 856/2609 [48:33<2:42:15,  5.55s/it][A
Training...:  33% 857/2609 [48:33<2:48:06,  5.76s/it][A
Training...:  33% 858/2609 [48:38<2:42:27,  5.57s/it][A
Training...:  33% 859/2609 [48:43<2:38:07,  5.42s/it][A
Training...:  33% 860/2609 [48:48<2:32:56,  5.25s/it][A
Training...:  33% 861/2609 [48:53<2:27:53,  5.08s/it][A
Training...:  33% 862/2609 [48:57<2:22:47,  4.90s/it][A
Training...:  33% 863/2609 [49:01<2:18:27,  4.76s/it][A
Training...:  33% 864/2609 [49:06<2:14:18,  4.62s/it][A
Training...:  33% 865/2609 [49:10<2:10:33,  4.49s/it][A
Training...:  33% 866/2609 [49:14<2:07:38,  4.39s/it][A
Training...:  33% 867/2609 [49:18<2:04:45,  4.30s/it][A
Training...:  33% 868/2609 [49:22<2:01:18,  4.18s/it][A
Training...:  33% 869/2609 [49:26<1:57:54,  4.07s/it][A
Training...:  33% 870/2609 [49:30<1:54:11,  3.94s/it][A
Training...:  33% 871/2609 [49:33<1:50:59,  3.83s/it][A
Training...:  33% 872/2609 [49:37<1:48:02,  3.73s/it][A
Training...:  33% 873/2609 [49:40<1:45:04,  3.63s/it][A
Training...:  33% 874/2609 [49:43<1:42:14,  3.54s/it][A
Training...:  34% 875/2609 [49:47<1:39:51,  3.46s/it][A
Training...:  34% 876/2609 [49:50<1:37:07,  3.36s/it][A
Training...:  34% 877/2609 [49:53<1:34:08,  3.26s/it][A
Training...:  34% 878/2609 [49:56<1:31:28,  3.17s/it][A
Training...:  34% 879/2609 [49:59<1:28:49,  3.08s/it][A
Training...:  34% 880/2609 [50:01<1:25:50,  2.98s/it][A
Training...:  34% 881/2609 [50:04<1:23:09,  2.89s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:56:03<45:30:49, 9102.74s/it]
Training...:  34% 881/2609 [50:07<1:23:09,  2.89s/it][A
Training...:  34% 882/2609 [50:07<1:24:23,  2.93s/it][A
Training...:  34% 883/2609 [50:10<1:20:36,  2.80s/it][A
Training...:  34% 884/2609 [50:12<1:17:01,  2.68s/it][A
Training...:  34% 885/2609 [50:14<1:13:54,  2.57s/it][A
Training...:  34% 886/2609 [50:17<1:11:26,  2.49s/it][A
Training...:  34% 887/2609 [50:19<1:08:31,  2.39s/it][A
Training...:  34% 888/2609 [50:21<1:05:42,  2.29s/it][A
Training...:  34% 889/2609 [50:23<1:02:33,  2.18s/it][A
Training...:  34% 890/2609 [50:25<59:23,  2.07s/it]  [A
Training...:  34% 891/2609 [50:26<56:49,  1.98s/it][A
Training...:  34% 892/2609 [50:28<54:26,  1.90s/it][A
Training...:  34% 893/2609 [50:30<51:41,  1.81s/it][A
Training...:  34% 894/2609 [50:31<48:54,  1.71s/it][A
Training...:  34% 895/2609 [50:32<45:43,  1.60s/it][A
Training...:  34% 896/2609 [50:34<42:31,  1.49s/it][A
Training...:  34% 897/2609 [50:35<39:08,  1.37s/it][A
Training...:  34% 898/2609 [50:36<35:28,  1.24s/it][A
Training...:  34% 899/2609 [50:37<31:28,  1.10s/it][A
Training...:  34% 900/2609 [50:37<26:36,  1.07it/s][A
Training...:  35% 901/2609 [50:44<1:18:54,  2.77s/it][A
Training...:  35% 902/2609 [50:51<1:56:04,  4.08s/it][A
Training...:  35% 903/2609 [50:58<2:16:08,  4.79s/it][A
Training...:  35% 904/2609 [51:04<2:27:36,  5.19s/it][A
Training...:  35% 905/2609 [51:10<2:33:30,  5.40s/it][A
Training...:  35% 906/2609 [51:15<2:36:05,  5.50s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:57:18<45:30:49, 9102.74s/it]
Training...:  35% 906/2609 [51:22<2:36:05,  5.50s/it][A
Training...:  35% 907/2609 [51:22<2:43:23,  5.76s/it][A
Training...:  35% 908/2609 [51:27<2:38:23,  5.59s/it][A
Training...:  35% 909/2609 [51:32<2:34:05,  5.44s/it][A
Training...:  35% 910/2609 [51:37<2:29:01,  5.26s/it][A
Training...:  35% 911/2609 [51:42<2:25:06,  5.13s/it][A
Training...:  35% 912/2609 [51:46<2:20:38,  4.97s/it][A
Training...:  35% 913/2609 [51:51<2:16:30,  4.83s/it][A
Training...:  35% 914/2609 [51:55<2:12:56,  4.71s/it][A
Training...:  35% 915/2609 [52:00<2:09:19,  4.58s/it][A
Training...:  35% 916/2609 [52:04<2:04:57,  4.43s/it][A
Training...:  35% 917/2609 [52:08<2:00:37,  4.28s/it][A
Training...:  35% 918/2609 [52:11<1:56:36,  4.14s/it][A
Training...:  35% 919/2609 [52:15<1:52:51,  4.01s/it][A
Training...:  35% 920/2609 [52:19<1:49:15,  3.88s/it][A
Training...:  35% 921/2609 [52:22<1:46:19,  3.78s/it][A
Training...:  35% 922/2609 [52:26<1:42:39,  3.65s/it][A
Training...:  35% 923/2609 [52:29<1:39:46,  3.55s/it][A
Training...:  35% 924/2609 [52:32<1:37:19,  3.47s/it][A
Training...:  35% 925/2609 [52:35<1:34:29,  3.37s/it][A
Training...:  35% 926/2609 [52:38<1:31:28,  3.26s/it][A
Training...:  36% 927/2609 [52:41<1:28:37,  3.16s/it][A
Training...:  36% 928/2609 [52:44<1:25:43,  3.06s/it][A
Training...:  36% 929/2609 [52:47<1:23:09,  2.97s/it][A
Training...:  36% 930/2609 [52:49<1:20:33,  2.88s/it][A
Training...:  36% 931/2609 [52:52<1:18:17,  2.80s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [5:58:51<45:30:49, 9102.74s/it]
Training...:  36% 931/2609 [52:55<1:18:17,  2.80s/it][A
Training...:  36% 932/2609 [52:55<1:19:40,  2.85s/it][A
Training...:  36% 933/2609 [52:57<1:16:13,  2.73s/it][A
Training...:  36% 934/2609 [53:00<1:12:56,  2.61s/it][A
Training...:  36% 935/2609 [53:02<1:10:19,  2.52s/it][A
Training...:  36% 936/2609 [53:04<1:07:23,  2.42s/it][A
Training...:  36% 937/2609 [53:06<1:04:32,  2.32s/it][A
Training...:  36% 938/2609 [53:08<1:02:09,  2.23s/it][A
Training...:  36% 939/2609 [53:10<59:47,  2.15s/it]  [A
Training...:  36% 940/2609 [53:12<57:20,  2.06s/it][A
Training...:  36% 941/2609 [53:14<54:42,  1.97s/it][A
Training...:  36% 942/2609 [53:16<52:17,  1.88s/it][A
Training...:  36% 943/2609 [53:17<49:30,  1.78s/it][A
Training...:  36% 944/2609 [53:19<46:29,  1.68s/it][A
Training...:  36% 945/2609 [53:20<43:30,  1.57s/it][A
Training...:  36% 946/2609 [53:21<40:22,  1.46s/it][A
Training...:  36% 947/2609 [53:22<36:59,  1.34s/it][A
Training...:  36% 948/2609 [53:23<33:25,  1.21s/it][A
Training...:  36% 949/2609 [53:24<29:40,  1.07s/it][A
Training...:  36% 950/2609 [53:24<24:59,  1.11it/s][A
Training...:  36% 951/2609 [53:31<1:15:11,  2.72s/it][A
Training...:  36% 952/2609 [53:38<1:49:53,  3.98s/it][A
Training...:  37% 953/2609 [53:45<2:10:08,  4.72s/it][A
Training...:  37% 954/2609 [53:51<2:22:48,  5.18s/it][A
Training...:  37% 955/2609 [53:57<2:29:41,  5.43s/it][A
Training...:  37% 956/2609 [54:03<2:32:31,  5.54s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [6:00:05<45:30:49, 9102.74s/it]
Training...:  37% 956/2609 [54:09<2:32:31,  5.54s/it][A
Training...:  37% 957/2609 [54:09<2:37:59,  5.74s/it][A
Training...:  37% 958/2609 [54:14<2:33:17,  5.57s/it][A
Training...:  37% 959/2609 [54:19<2:28:57,  5.42s/it][A
Training...:  37% 960/2609 [54:24<2:24:42,  5.27s/it][A
Training...:  37% 961/2609 [54:29<2:21:02,  5.13s/it][A
Training...:  37% 962/2609 [54:34<2:16:35,  4.98s/it][A
Training...:  37% 963/2609 [54:38<2:12:31,  4.83s/it][A
Training...:  37% 964/2609 [54:42<2:08:18,  4.68s/it][A
Training...:  37% 965/2609 [54:47<2:04:19,  4.54s/it][A
Training...:  37% 966/2609 [54:51<2:00:30,  4.40s/it][A
Training...:  37% 967/2609 [54:55<1:57:31,  4.29s/it][A
Training...:  37% 968/2609 [54:59<1:53:57,  4.17s/it][A
Training...:  37% 969/2609 [55:02<1:50:54,  4.06s/it][A
Training...:  37% 970/2609 [55:06<1:47:16,  3.93s/it][A
Training...:  37% 971/2609 [55:10<1:44:27,  3.83s/it][A
Training...:  37% 972/2609 [55:13<1:41:33,  3.72s/it][A
Training...:  37% 973/2609 [55:16<1:39:02,  3.63s/it][A
Training...:  37% 974/2609 [55:20<1:35:52,  3.52s/it][A
Training...:  37% 975/2609 [55:23<1:33:38,  3.44s/it][A
Training...:  37% 976/2609 [55:26<1:30:41,  3.33s/it][A
Training...:  37% 977/2609 [55:29<1:27:54,  3.23s/it][A
Training...:  37% 978/2609 [55:32<1:25:13,  3.14s/it][A
Training...:  38% 979/2609 [55:35<1:22:54,  3.05s/it][A
Training...:  38% 980/2609 [55:38<1:20:38,  2.97s/it][A
Training...:  38% 981/2609 [55:40<1:18:17,  2.89s/it][A                                                           
                                                     [AEpoch ... (1/20):  10% 2/20 [6:01:39<45:30:49, 9102.74s/it]
Training...:  38% 981/2609 [55:43<1:18:17,  2.89s/it][A
Training...:  38% 982/2609 [55:43<1:19:14,  2.92s/it][A
Training...:  38% 983/2609 [55:46<1:16:02,  2.81s/it][A
Training...:  38% 984/2609 [55:48<1:13:06,  2.70s/it][A
Training...:  38% 985/2609 [55:51<1:10:32,  2.61s/it][A
Training...:  38% 986/2609 [55:53<1:08:25,  2.53s/it][A
Training...:  38% 987/2609 [55:55<1:05:35,  2.43s/it][A
Training...:  38% 988/2609 [55:57<1:02:53,  2.33s/it][A
Training...:  38% 989/2609 [55:59<1:00:28,  2.24s/it][A
Training...:  38% 990/2609 [56:01<57:47,  2.14s/it]  [A
Training...:  38% 991/2609 [56:03<55:09,  2.05s/it][A
Training...:  38% 992/2609 [56:05<52:20,  1.94s/it][A
Training...:  38% 993/2609 [56:06<49:25,  1.84s/it][A
Training...:  38% 994/2609 [56:08<46:26,  1.73s/it][A
Training...:  38% 995/2609 [56:09<43:17,  1.61s/it][A
Training...:  38% 996/2609 [56:10<39:54,  1.48s/it][A
Training...:  38% 997/2609 [56:11<36:15,  1.35s/it][A
Training...:  38% 998/2609 [56:12<32:32,  1.21s/it][A
Training...:  38% 999/2609 [56:13<28:40,  1.07s/it][A
Training...:  38% 1000/2609 [56:14<24:09,  1.11it/s][A
Training...:  38% 1001/2609 [56:21<1:14:32,  2.78s/it][A
Training...:  38% 1002/2609 [56:28<1:48:21,  4.05s/it][A
Training...:  38% 1003/2609 [56:34<2:07:46,  4.77s/it][A
Training...:  38% 1004/2609 [56:40<2:19:05,  5.20s/it][A
Training...:  39% 1005/2609 [56:46<2:24:37,  5.41s/it][A
Training...:  39% 1006/2609 [56:52<2:26:05,  5.47s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [6:02:54<45:30:49, 9102.74s/it]
Training...:  39% 1006/2609 [56:58<2:26:05,  5.47s/it][A
Training...:  39% 1007/2609 [56:58<2:31:50,  5.69s/it][A
Training...:  39% 1008/2609 [57:03<2:26:49,  5.50s/it][A
Training...:  39% 1009/2609 [57:08<2:23:57,  5.40s/it][A
Training...:  39% 1010/2609 [57:13<2:18:27,  5.20s/it][A
Training...:  39% 1011/2609 [57:18<2:13:55,  5.03s/it][A
Training...:  39% 1012/2609 [57:22<2:09:11,  4.85s/it][A
Training...:  39% 1013/2609 [57:27<2:06:15,  4.75s/it][A
Training...:  39% 1014/2609 [57:31<2:03:13,  4.64s/it][A
Training...:  39% 1015/2609 [57:35<1:59:12,  4.49s/it][A
Training...:  39% 1016/2609 [57:39<1:55:02,  4.33s/it][A
Training...:  39% 1017/2609 [57:43<1:51:27,  4.20s/it][A
Training...:  39% 1018/2609 [57:47<1:47:56,  4.07s/it][A
Training...:  39% 1019/2609 [57:51<1:45:14,  3.97s/it][A
Training...:  39% 1020/2609 [57:54<1:42:54,  3.89s/it][A
Training...:  39% 1021/2609 [57:58<1:40:20,  3.79s/it][A
Training...:  39% 1022/2609 [58:01<1:37:13,  3.68s/it][A
Training...:  39% 1023/2609 [58:05<1:34:24,  3.57s/it][A
Training...:  39% 1024/2609 [58:08<1:31:33,  3.47s/it][A
Training...:  39% 1025/2609 [58:11<1:29:12,  3.38s/it][A
Training...:  39% 1026/2609 [58:14<1:26:40,  3.29s/it][A
Training...:  39% 1027/2609 [58:17<1:24:29,  3.20s/it][A
Training...:  39% 1028/2609 [58:20<1:22:14,  3.12s/it][A
Training...:  39% 1029/2609 [58:23<1:19:50,  3.03s/it][A
Training...:  39% 1030/2609 [58:25<1:17:38,  2.95s/it][A
Training...:  40% 1031/2609 [58:28<1:15:07,  2.86s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [6:04:27<45:30:49, 9102.74s/it]
Training...:  40% 1031/2609 [58:31<1:15:07,  2.86s/it][A
Training...:  40% 1032/2609 [58:31<1:16:11,  2.90s/it][A
Training...:  40% 1033/2609 [58:34<1:12:51,  2.77s/it][A
Training...:  40% 1034/2609 [58:36<1:09:56,  2.66s/it][A
Training...:  40% 1035/2609 [58:38<1:07:07,  2.56s/it][A
Training...:  40% 1036/2609 [58:41<1:04:18,  2.45s/it][A
Training...:  40% 1037/2609 [58:43<1:01:47,  2.36s/it][A
Training...:  40% 1038/2609 [58:45<59:17,  2.26s/it]  [A
Training...:  40% 1039/2609 [58:47<57:04,  2.18s/it][A
Training...:  40% 1040/2609 [58:49<54:52,  2.10s/it][A
Training...:  40% 1041/2609 [58:50<52:19,  2.00s/it][A
Training...:  40% 1042/2609 [58:52<49:55,  1.91s/it][A
Training...:  40% 1043/2609 [58:54<47:25,  1.82s/it][A
Training...:  40% 1044/2609 [58:55<44:48,  1.72s/it][A
Training...:  40% 1045/2609 [58:57<42:09,  1.62s/it][A
Training...:  40% 1046/2609 [58:58<39:02,  1.50s/it][A
Training...:  40% 1047/2609 [58:59<35:49,  1.38s/it][A
Training...:  40% 1048/2609 [59:00<32:32,  1.25s/it][A
Training...:  40% 1049/2609 [59:01<28:50,  1.11s/it][A
Training...:  40% 1050/2609 [59:01<24:16,  1.07it/s][A
Training...:  40% 1051/2609 [59:08<1:11:20,  2.75s/it][A
Training...:  40% 1052/2609 [59:15<1:44:39,  4.03s/it][A
Training...:  40% 1053/2609 [59:22<2:04:09,  4.79s/it][A
Training...:  40% 1054/2609 [59:28<2:15:36,  5.23s/it][A
Training...:  40% 1055/2609 [59:34<2:22:22,  5.50s/it][A
Training...:  40% 1056/2609 [59:40<2:24:34,  5.59s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [6:05:42<45:30:49, 9102.74s/it]
Training...:  40% 1056/2609 [59:46<2:24:34,  5.59s/it][A
Training...:  41% 1057/2609 [59:46<2:30:20,  5.81s/it][A
Training...:  41% 1058/2609 [59:51<2:26:10,  5.65s/it][A
Training...:  41% 1059/2609 [59:57<2:21:43,  5.49s/it][A
Training...:  41% 1060/2609 [1:00:01<2:17:10,  5.31s/it][A
Training...:  41% 1061/2609 [1:00:06<2:13:21,  5.17s/it][A
Training...:  41% 1062/2609 [1:00:11<2:09:01,  5.00s/it][A
Training...:  41% 1063/2609 [1:00:16<2:05:59,  4.89s/it][A
Training...:  41% 1064/2609 [1:00:20<2:02:24,  4.75s/it][A
Training...:  41% 1065/2609 [1:00:24<1:58:56,  4.62s/it][A
Training...:  41% 1066/2609 [1:00:28<1:54:49,  4.46s/it][A
Training...:  41% 1067/2609 [1:00:32<1:51:35,  4.34s/it][A
Training...:  41% 1068/2609 [1:00:36<1:47:48,  4.20s/it][A
Training...:  41% 1069/2609 [1:00:40<1:44:46,  4.08s/it][A
Training...:  41% 1070/2609 [1:00:44<1:41:50,  3.97s/it][A
Training...:  41% 1071/2609 [1:00:47<1:39:09,  3.87s/it][A
Training...:  41% 1072/2609 [1:00:51<1:36:12,  3.76s/it][A
Training...:  41% 1073/2609 [1:00:54<1:33:27,  3.65s/it][A
Training...:  41% 1074/2609 [1:00:58<1:30:48,  3.55s/it][A
Training...:  41% 1075/2609 [1:01:01<1:28:42,  3.47s/it][A
Training...:  41% 1076/2609 [1:01:04<1:26:02,  3.37s/it][A
Training...:  41% 1077/2609 [1:01:07<1:24:09,  3.30s/it][A
Training...:  41% 1078/2609 [1:01:10<1:21:31,  3.19s/it][A
Training...:  41% 1079/2609 [1:01:13<1:19:02,  3.10s/it][A
Training...:  41% 1080/2609 [1:01:16<1:16:24,  3.00s/it][A
Training...:  41% 1081/2609 [1:01:19<1:13:59,  2.91s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:07:18<45:30:49, 9102.74s/it]
Training...:  41% 1081/2609 [1:01:22<1:13:59,  2.91s/it][A
Training...:  41% 1082/2609 [1:01:22<1:15:11,  2.95s/it][A
Training...:  42% 1083/2609 [1:01:24<1:12:07,  2.84s/it][A
Training...:  42% 1084/2609 [1:01:27<1:09:13,  2.72s/it][A
Training...:  42% 1085/2609 [1:01:29<1:06:49,  2.63s/it][A
Training...:  42% 1086/2609 [1:01:31<1:04:28,  2.54s/it][A
Training...:  42% 1087/2609 [1:01:34<1:01:41,  2.43s/it][A
Training...:  42% 1088/2609 [1:01:36<58:52,  2.32s/it]  [A
Training...:  42% 1089/2609 [1:01:38<56:20,  2.22s/it][A
Training...:  42% 1090/2609 [1:01:40<53:59,  2.13s/it][A
Training...:  42% 1091/2609 [1:01:41<51:26,  2.03s/it][A
Training...:  42% 1092/2609 [1:01:43<48:59,  1.94s/it][A
Training...:  42% 1093/2609 [1:01:45<46:24,  1.84s/it][A
Training...:  42% 1094/2609 [1:01:46<43:47,  1.73s/it][A
Training...:  42% 1095/2609 [1:01:48<41:04,  1.63s/it][A
Training...:  42% 1096/2609 [1:01:49<38:07,  1.51s/it][A
Training...:  42% 1097/2609 [1:01:50<34:49,  1.38s/it][A
Training...:  42% 1098/2609 [1:01:51<31:32,  1.25s/it][A
Training...:  42% 1099/2609 [1:01:52<27:50,  1.11s/it][A
Training...:  42% 1100/2609 [1:01:52<23:38,  1.06it/s][A
Training...:  42% 1101/2609 [1:01:59<1:10:50,  2.82s/it][A
Training...:  42% 1102/2609 [1:02:06<1:42:36,  4.08s/it][A
Training...:  42% 1103/2609 [1:02:13<2:01:10,  4.83s/it][A
Training...:  42% 1104/2609 [1:02:19<2:12:30,  5.28s/it][A
Training...:  42% 1105/2609 [1:02:25<2:18:29,  5.53s/it][A
Training...:  42% 1106/2609 [1:02:31<2:20:13,  5.60s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:08:34<45:30:49, 9102.74s/it]
Training...:  42% 1106/2609 [1:02:38<2:20:13,  5.60s/it][A
Training...:  42% 1107/2609 [1:02:38<2:26:07,  5.84s/it][A
Training...:  42% 1108/2609 [1:02:43<2:22:24,  5.69s/it][A
Training...:  43% 1109/2609 [1:02:48<2:18:20,  5.53s/it][A
Training...:  43% 1110/2609 [1:02:53<2:13:55,  5.36s/it][A
Training...:  43% 1111/2609 [1:02:58<2:10:01,  5.21s/it][A
Training...:  43% 1112/2609 [1:03:03<2:06:04,  5.05s/it][A
Training...:  43% 1113/2609 [1:03:07<2:02:28,  4.91s/it][A
Training...:  43% 1114/2609 [1:03:11<1:58:26,  4.75s/it][A
Training...:  43% 1115/2609 [1:03:16<1:55:29,  4.64s/it][A
Training...:  43% 1116/2609 [1:03:20<1:52:08,  4.51s/it][A
Training...:  43% 1117/2609 [1:03:24<1:49:54,  4.42s/it][A
Training...:  43% 1118/2609 [1:03:28<1:46:47,  4.30s/it][A
Training...:  43% 1119/2609 [1:03:32<1:43:58,  4.19s/it][A
Training...:  43% 1120/2609 [1:03:36<1:40:40,  4.06s/it][A
Training...:  43% 1121/2609 [1:03:40<1:37:23,  3.93s/it][A
Training...:  43% 1122/2609 [1:03:43<1:34:10,  3.80s/it][A
Training...:  43% 1123/2609 [1:03:47<1:31:23,  3.69s/it][A
Training...:  43% 1124/2609 [1:03:50<1:28:42,  3.58s/it][A
Training...:  43% 1125/2609 [1:03:53<1:26:32,  3.50s/it][A
Training...:  43% 1126/2609 [1:03:56<1:24:04,  3.40s/it][A
Training...:  43% 1127/2609 [1:03:59<1:21:48,  3.31s/it][A
Training...:  43% 1128/2609 [1:04:02<1:19:20,  3.21s/it][A
Training...:  43% 1129/2609 [1:04:05<1:17:14,  3.13s/it][A
Training...:  43% 1130/2609 [1:04:08<1:14:43,  3.03s/it][A
Training...:  43% 1131/2609 [1:04:11<1:13:00,  2.96s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:10:10<45:30:49, 9102.74s/it]
Training...:  43% 1131/2609 [1:04:14<1:13:00,  2.96s/it][A
Training...:  43% 1132/2609 [1:04:14<1:13:51,  3.00s/it][A
Training...:  43% 1133/2609 [1:04:17<1:10:27,  2.86s/it][A
Training...:  43% 1134/2609 [1:04:19<1:07:40,  2.75s/it][A
Training...:  44% 1135/2609 [1:04:22<1:05:07,  2.65s/it][A
Training...:  44% 1136/2609 [1:04:24<1:02:25,  2.54s/it][A
Training...:  44% 1137/2609 [1:04:26<59:58,  2.44s/it]  [A
Training...:  44% 1138/2609 [1:04:28<57:29,  2.35s/it][A
Training...:  44% 1139/2609 [1:04:30<54:59,  2.24s/it][A
Training...:  44% 1140/2609 [1:04:32<52:23,  2.14s/it][A
Training...:  44% 1141/2609 [1:04:34<49:50,  2.04s/it][A
Training...:  44% 1142/2609 [1:04:36<47:39,  1.95s/it][A
Training...:  44% 1143/2609 [1:04:37<45:09,  1.85s/it][A
Training...:  44% 1144/2609 [1:04:39<42:39,  1.75s/it][A
Training...:  44% 1145/2609 [1:04:40<40:00,  1.64s/it][A
Training...:  44% 1146/2609 [1:04:41<37:10,  1.52s/it][A
Training...:  44% 1147/2609 [1:04:42<34:02,  1.40s/it][A
Training...:  44% 1148/2609 [1:04:43<30:52,  1.27s/it][A
Training...:  44% 1149/2609 [1:04:44<27:25,  1.13s/it][A
Training...:  44% 1150/2609 [1:04:45<23:10,  1.05it/s][A
Training...:  44% 1151/2609 [1:04:52<1:06:28,  2.74s/it][A
Training...:  44% 1152/2609 [1:04:59<1:36:59,  3.99s/it][A
Training...:  44% 1153/2609 [1:05:05<1:54:24,  4.71s/it][A
Training...:  44% 1154/2609 [1:05:11<2:05:08,  5.16s/it][A
Training...:  44% 1155/2609 [1:05:17<2:09:55,  5.36s/it][A
Training...:  44% 1156/2609 [1:05:23<2:11:56,  5.45s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:11:25<45:30:49, 9102.74s/it]
Training...:  44% 1156/2609 [1:05:29<2:11:56,  5.45s/it][A
Training...:  44% 1157/2609 [1:05:29<2:17:07,  5.67s/it][A
Training...:  44% 1158/2609 [1:05:34<2:13:11,  5.51s/it][A
Training...:  44% 1159/2609 [1:05:39<2:10:42,  5.41s/it][A
Training...:  44% 1160/2609 [1:05:44<2:07:47,  5.29s/it][A
Training...:  44% 1161/2609 [1:05:49<2:05:21,  5.19s/it][A
Training...:  45% 1162/2609 [1:05:54<2:00:51,  5.01s/it][A
Training...:  45% 1163/2609 [1:05:58<1:57:20,  4.87s/it][A
Training...:  45% 1164/2609 [1:06:03<1:52:55,  4.69s/it][A
Training...:  45% 1165/2609 [1:06:07<1:49:16,  4.54s/it][A
Training...:  45% 1166/2609 [1:06:11<1:45:23,  4.38s/it][A
Training...:  45% 1167/2609 [1:06:15<1:42:07,  4.25s/it][A
Training...:  45% 1168/2609 [1:06:18<1:38:49,  4.12s/it][A
Training...:  45% 1169/2609 [1:06:22<1:36:08,  4.01s/it][A
Training...:  45% 1170/2609 [1:06:26<1:33:27,  3.90s/it][A
Training...:  45% 1171/2609 [1:06:29<1:30:38,  3.78s/it][A
Training...:  45% 1172/2609 [1:06:33<1:28:21,  3.69s/it][A
Training...:  45% 1173/2609 [1:06:36<1:25:36,  3.58s/it][A
Training...:  45% 1174/2609 [1:06:39<1:23:20,  3.48s/it][A
Training...:  45% 1175/2609 [1:06:43<1:20:58,  3.39s/it][A
Training...:  45% 1176/2609 [1:06:46<1:18:17,  3.28s/it][A
Training...:  45% 1177/2609 [1:06:49<1:16:13,  3.19s/it][A
Training...:  45% 1178/2609 [1:06:51<1:13:52,  3.10s/it][A
Training...:  45% 1179/2609 [1:06:54<1:12:11,  3.03s/it][A
Training...:  45% 1180/2609 [1:06:57<1:10:06,  2.94s/it][A
Training...:  45% 1181/2609 [1:07:00<1:07:24,  2.83s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:12:59<45:30:49, 9102.74s/it]
Training...:  45% 1181/2609 [1:07:03<1:07:24,  2.83s/it][A
Training...:  45% 1182/2609 [1:07:03<1:08:17,  2.87s/it][A
Training...:  45% 1183/2609 [1:07:05<1:05:09,  2.74s/it][A
Training...:  45% 1184/2609 [1:07:07<1:02:10,  2.62s/it][A
Training...:  45% 1185/2609 [1:07:10<59:38,  2.51s/it]  [A
Training...:  45% 1186/2609 [1:07:12<57:10,  2.41s/it][A
Training...:  45% 1187/2609 [1:07:14<54:52,  2.32s/it][A
Training...:  46% 1188/2609 [1:07:16<53:06,  2.24s/it][A
Training...:  46% 1189/2609 [1:07:18<51:05,  2.16s/it][A
Training...:  46% 1190/2609 [1:07:20<49:02,  2.07s/it][A
Training...:  46% 1191/2609 [1:07:22<47:14,  2.00s/it][A
Training...:  46% 1192/2609 [1:07:23<44:53,  1.90s/it][A
Training...:  46% 1193/2609 [1:07:25<42:36,  1.81s/it][A
Training...:  46% 1194/2609 [1:07:26<40:09,  1.70s/it][A
Training...:  46% 1195/2609 [1:07:28<37:42,  1.60s/it][A
Training...:  46% 1196/2609 [1:07:29<35:08,  1.49s/it][A
Training...:  46% 1197/2609 [1:07:30<32:15,  1.37s/it][A
Training...:  46% 1198/2609 [1:07:31<29:02,  1.23s/it][A
Training...:  46% 1199/2609 [1:07:32<25:22,  1.08s/it][A
Training...:  46% 1200/2609 [1:07:32<21:11,  1.11it/s][A
Training...:  46% 1201/2609 [1:07:39<1:04:14,  2.74s/it][A
Training...:  46% 1202/2609 [1:07:46<1:32:59,  3.97s/it][A
Training...:  46% 1203/2609 [1:07:52<1:49:48,  4.69s/it][A
Training...:  46% 1204/2609 [1:07:59<2:01:43,  5.20s/it][A
Training...:  46% 1205/2609 [1:08:05<2:07:08,  5.43s/it][A
Training...:  46% 1206/2609 [1:08:10<2:07:41,  5.46s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:14:13<45:30:49, 9102.74s/it]
Training...:  46% 1206/2609 [1:08:17<2:07:41,  5.46s/it][A
Training...:  46% 1207/2609 [1:08:17<2:13:09,  5.70s/it][A
Training...:  46% 1208/2609 [1:08:22<2:09:08,  5.53s/it][A
Training...:  46% 1209/2609 [1:08:27<2:05:43,  5.39s/it][A
Training...:  46% 1210/2609 [1:08:32<2:02:01,  5.23s/it][A
Training...:  46% 1211/2609 [1:08:36<1:58:25,  5.08s/it][A
Training...:  46% 1212/2609 [1:08:41<1:54:18,  4.91s/it][A
Training...:  46% 1213/2609 [1:08:45<1:50:52,  4.77s/it][A
Training...:  47% 1214/2609 [1:08:50<1:47:07,  4.61s/it][A
Training...:  47% 1215/2609 [1:08:54<1:44:14,  4.49s/it][A
Training...:  47% 1216/2609 [1:08:58<1:41:20,  4.37s/it][A
Training...:  47% 1217/2609 [1:09:02<1:38:36,  4.25s/it][A
Training...:  47% 1218/2609 [1:09:06<1:35:47,  4.13s/it][A
Training...:  47% 1219/2609 [1:09:09<1:33:25,  4.03s/it][A
Training...:  47% 1220/2609 [1:09:13<1:30:35,  3.91s/it][A
Training...:  47% 1221/2609 [1:09:17<1:28:25,  3.82s/it][A
Training...:  47% 1222/2609 [1:09:20<1:25:48,  3.71s/it][A
Training...:  47% 1223/2609 [1:09:24<1:23:32,  3.62s/it][A
Training...:  47% 1224/2609 [1:09:27<1:21:09,  3.52s/it][A
Training...:  47% 1225/2609 [1:09:30<1:19:12,  3.43s/it][A
Training...:  47% 1226/2609 [1:09:33<1:17:44,  3.37s/it][A
Training...:  47% 1227/2609 [1:09:36<1:15:51,  3.29s/it][A
Training...:  47% 1228/2609 [1:09:39<1:13:34,  3.20s/it][A
Training...:  47% 1229/2609 [1:09:42<1:11:26,  3.11s/it][A
Training...:  47% 1230/2609 [1:09:45<1:08:54,  3.00s/it][A
Training...:  47% 1231/2609 [1:09:48<1:06:31,  2.90s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:15:47<45:30:49, 9102.74s/it]
Training...:  47% 1231/2609 [1:09:51<1:06:31,  2.90s/it][A
Training...:  47% 1232/2609 [1:09:51<1:07:19,  2.93s/it][A
Training...:  47% 1233/2609 [1:09:53<1:04:17,  2.80s/it][A
Training...:  47% 1234/2609 [1:09:56<1:01:25,  2.68s/it][A
Training...:  47% 1235/2609 [1:09:58<59:12,  2.59s/it]  [A
Training...:  47% 1236/2609 [1:10:00<57:08,  2.50s/it][A
Training...:  47% 1237/2609 [1:10:02<55:12,  2.41s/it][A
Training...:  47% 1238/2609 [1:10:05<52:54,  2.32s/it][A
Training...:  47% 1239/2609 [1:10:07<50:45,  2.22s/it][A
Training...:  48% 1240/2609 [1:10:08<48:23,  2.12s/it][A
Training...:  48% 1241/2609 [1:10:10<46:08,  2.02s/it][A
Training...:  48% 1242/2609 [1:10:12<43:47,  1.92s/it][A
Training...:  48% 1243/2609 [1:10:14<41:38,  1.83s/it][A
Training...:  48% 1244/2609 [1:10:15<39:14,  1.73s/it][A
Training...:  48% 1245/2609 [1:10:16<36:57,  1.63s/it][A
Training...:  48% 1246/2609 [1:10:18<34:29,  1.52s/it][A
Training...:  48% 1247/2609 [1:10:19<31:59,  1.41s/it][A
Training...:  48% 1248/2609 [1:10:20<29:09,  1.29s/it][A
Training...:  48% 1249/2609 [1:10:21<25:53,  1.14s/it][A
Training...:  48% 1250/2609 [1:10:21<22:02,  1.03it/s][A
Training...:  48% 1251/2609 [1:10:28<1:02:47,  2.77s/it][A
Training...:  48% 1252/2609 [1:10:35<1:31:04,  4.03s/it][A
Training...:  48% 1253/2609 [1:10:42<1:47:26,  4.75s/it][A
Training...:  48% 1254/2609 [1:10:48<1:58:58,  5.27s/it][A
Training...:  48% 1255/2609 [1:10:54<2:03:19,  5.46s/it][A
Training...:  48% 1256/2609 [1:11:00<2:04:24,  5.52s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:17:02<45:30:49, 9102.74s/it]
Training...:  48% 1256/2609 [1:11:06<2:04:24,  5.52s/it][A
Training...:  48% 1257/2609 [1:11:06<2:08:57,  5.72s/it][A
Training...:  48% 1258/2609 [1:11:11<2:04:47,  5.54s/it][A
Training...:  48% 1259/2609 [1:11:16<2:01:17,  5.39s/it][A
Training...:  48% 1260/2609 [1:11:21<1:57:33,  5.23s/it][A
Training...:  48% 1261/2609 [1:11:26<1:54:21,  5.09s/it][A
Training...:  48% 1262/2609 [1:11:30<1:50:21,  4.92s/it][A
Training...:  48% 1263/2609 [1:11:35<1:46:42,  4.76s/it][A
Training...:  48% 1264/2609 [1:11:39<1:42:47,  4.59s/it][A
Training...:  48% 1265/2609 [1:11:43<1:39:51,  4.46s/it][A
Training...:  49% 1266/2609 [1:11:47<1:36:37,  4.32s/it][A
Training...:  49% 1267/2609 [1:11:51<1:33:42,  4.19s/it][A
Training...:  49% 1268/2609 [1:11:55<1:30:50,  4.06s/it][A
Training...:  49% 1269/2609 [1:11:58<1:27:57,  3.94s/it][A
Training...:  49% 1270/2609 [1:12:02<1:25:22,  3.83s/it][A
Training...:  49% 1271/2609 [1:12:05<1:23:05,  3.73s/it][A
Training...:  49% 1272/2609 [1:12:09<1:20:55,  3.63s/it][A
Training...:  49% 1273/2609 [1:12:12<1:19:07,  3.55s/it][A
Training...:  49% 1274/2609 [1:12:15<1:16:29,  3.44s/it][A
Training...:  49% 1275/2609 [1:12:18<1:14:39,  3.36s/it][A
Training...:  49% 1276/2609 [1:12:21<1:12:49,  3.28s/it][A
Training...:  49% 1277/2609 [1:12:24<1:11:02,  3.20s/it][A
Training...:  49% 1278/2609 [1:12:27<1:08:46,  3.10s/it][A
Training...:  49% 1279/2609 [1:12:30<1:06:32,  3.00s/it][A
Training...:  49% 1280/2609 [1:12:33<1:04:26,  2.91s/it][A
Training...:  49% 1281/2609 [1:12:35<1:02:35,  2.83s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:18:35<45:30:49, 9102.74s/it]
Training...:  49% 1281/2609 [1:12:38<1:02:35,  2.83s/it][A
Training...:  49% 1282/2609 [1:12:38<1:03:30,  2.87s/it][A
Training...:  49% 1283/2609 [1:12:41<1:00:29,  2.74s/it][A
Training...:  49% 1284/2609 [1:12:43<57:52,  2.62s/it]  [A
Training...:  49% 1285/2609 [1:12:45<55:25,  2.51s/it][A
Training...:  49% 1286/2609 [1:12:48<53:35,  2.43s/it][A
Training...:  49% 1287/2609 [1:12:50<51:10,  2.32s/it][A
Training...:  49% 1288/2609 [1:12:52<48:53,  2.22s/it][A
Training...:  49% 1289/2609 [1:12:54<46:50,  2.13s/it][A
Training...:  49% 1290/2609 [1:12:55<44:39,  2.03s/it][A
Training...:  49% 1291/2609 [1:12:57<42:29,  1.93s/it][A
Training...:  50% 1292/2609 [1:12:59<40:32,  1.85s/it][A
Training...:  50% 1293/2609 [1:13:00<38:29,  1.75s/it][A
Training...:  50% 1294/2609 [1:13:02<36:28,  1.66s/it][A
Training...:  50% 1295/2609 [1:13:03<34:13,  1.56s/it][A
Training...:  50% 1296/2609 [1:13:04<31:59,  1.46s/it][A
Training...:  50% 1297/2609 [1:13:05<29:27,  1.35s/it][A
Training...:  50% 1298/2609 [1:13:06<26:23,  1.21s/it][A
Training...:  50% 1299/2609 [1:13:07<23:13,  1.06s/it][A
Training...:  50% 1300/2609 [1:13:08<19:31,  1.12it/s][A
Training...:  50% 1301/2609 [1:13:15<59:30,  2.73s/it][A
Training...:  50% 1302/2609 [1:13:21<1:26:57,  3.99s/it][A
Training...:  50% 1303/2609 [1:13:28<1:42:43,  4.72s/it][A
Training...:  50% 1304/2609 [1:13:34<1:52:05,  5.15s/it][A
Training...:  50% 1305/2609 [1:13:40<1:56:57,  5.38s/it][A
Training...:  50% 1306/2609 [1:13:46<1:58:45,  5.47s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:19:48<45:30:49, 9102.74s/it]
Training...:  50% 1306/2609 [1:13:52<1:58:45,  5.47s/it][A
Training...:  50% 1307/2609 [1:13:52<2:04:54,  5.76s/it][A
Training...:  50% 1308/2609 [1:13:57<2:02:00,  5.63s/it][A
Training...:  50% 1309/2609 [1:14:03<1:59:58,  5.54s/it][A
Training...:  50% 1310/2609 [1:14:08<1:56:40,  5.39s/it][A
Training...:  50% 1311/2609 [1:14:13<1:53:03,  5.23s/it][A
Training...:  50% 1312/2609 [1:14:17<1:48:47,  5.03s/it][A
Training...:  50% 1313/2609 [1:14:22<1:45:21,  4.88s/it][A
Training...:  50% 1314/2609 [1:14:26<1:41:33,  4.71s/it][A
Training...:  50% 1315/2609 [1:14:30<1:38:06,  4.55s/it][A
Training...:  50% 1316/2609 [1:14:34<1:34:49,  4.40s/it][A
Training...:  50% 1317/2609 [1:14:38<1:31:42,  4.26s/it][A
Training...:  51% 1318/2609 [1:14:42<1:29:02,  4.14s/it][A
Training...:  51% 1319/2609 [1:14:46<1:26:37,  4.03s/it][A
Training...:  51% 1320/2609 [1:14:49<1:23:46,  3.90s/it][A
Training...:  51% 1321/2609 [1:14:53<1:21:49,  3.81s/it][A
Training...:  51% 1322/2609 [1:14:57<1:19:41,  3.72s/it][A
Training...:  51% 1323/2609 [1:15:00<1:17:53,  3.63s/it][A
Training...:  51% 1324/2609 [1:15:03<1:15:33,  3.53s/it][A
Training...:  51% 1325/2609 [1:15:06<1:13:33,  3.44s/it][A
Training...:  51% 1326/2609 [1:15:10<1:11:15,  3.33s/it][A
Training...:  51% 1327/2609 [1:15:13<1:09:09,  3.24s/it][A
Training...:  51% 1328/2609 [1:15:15<1:06:56,  3.14s/it][A
Training...:  51% 1329/2609 [1:15:18<1:05:16,  3.06s/it][A
Training...:  51% 1330/2609 [1:15:21<1:03:16,  2.97s/it][A
Training...:  51% 1331/2609 [1:15:24<1:01:49,  2.90s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:21:23<45:30:49, 9102.74s/it]
Training...:  51% 1331/2609 [1:15:27<1:01:49,  2.90s/it][A
Training...:  51% 1332/2609 [1:15:27<1:02:46,  2.95s/it][A
Training...:  51% 1333/2609 [1:15:29<59:48,  2.81s/it]  [A
Training...:  51% 1334/2609 [1:15:32<57:02,  2.68s/it][A
Training...:  51% 1335/2609 [1:15:34<54:53,  2.59s/it][A
Training...:  51% 1336/2609 [1:15:36<52:38,  2.48s/it][A
Training...:  51% 1337/2609 [1:15:39<50:36,  2.39s/it][A
Training...:  51% 1338/2609 [1:15:41<48:29,  2.29s/it][A
Training...:  51% 1339/2609 [1:15:43<46:43,  2.21s/it][A
Training...:  51% 1340/2609 [1:15:45<44:37,  2.11s/it][A
Training...:  51% 1341/2609 [1:15:46<42:35,  2.02s/it][A
Training...:  51% 1342/2609 [1:15:48<40:34,  1.92s/it][A
Training...:  51% 1343/2609 [1:15:50<38:23,  1.82s/it][A
Training...:  52% 1344/2609 [1:15:51<36:07,  1.71s/it][A
Training...:  52% 1345/2609 [1:15:52<33:59,  1.61s/it][A
Training...:  52% 1346/2609 [1:15:54<31:35,  1.50s/it][A
Training...:  52% 1347/2609 [1:15:55<29:02,  1.38s/it][A
Training...:  52% 1348/2609 [1:15:56<26:02,  1.24s/it][A
Training...:  52% 1349/2609 [1:15:56<22:49,  1.09s/it][A
Training...:  52% 1350/2609 [1:15:57<19:05,  1.10it/s][A
Training...:  52% 1351/2609 [1:16:04<57:19,  2.73s/it][A
Training...:  52% 1352/2609 [1:16:11<1:24:48,  4.05s/it][A
Training...:  52% 1353/2609 [1:16:18<1:40:13,  4.79s/it][A
Training...:  52% 1354/2609 [1:16:24<1:49:19,  5.23s/it][A
Training...:  52% 1355/2609 [1:16:30<1:53:16,  5.42s/it][A
Training...:  52% 1356/2609 [1:16:35<1:53:43,  5.45s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:22:38<45:30:49, 9102.74s/it]
Training...:  52% 1356/2609 [1:16:41<1:53:43,  5.45s/it][A
Training...:  52% 1357/2609 [1:16:41<1:58:13,  5.67s/it][A
Training...:  52% 1358/2609 [1:16:46<1:54:56,  5.51s/it][A
Training...:  52% 1359/2609 [1:16:52<1:52:00,  5.38s/it][A
Training...:  52% 1360/2609 [1:16:56<1:48:28,  5.21s/it][A
Training...:  52% 1361/2609 [1:17:01<1:45:02,  5.05s/it][A
Training...:  52% 1362/2609 [1:17:06<1:41:33,  4.89s/it][A
Training...:  52% 1363/2609 [1:17:10<1:38:42,  4.75s/it][A
Training...:  52% 1364/2609 [1:17:14<1:35:22,  4.60s/it][A
Training...:  52% 1365/2609 [1:17:18<1:32:43,  4.47s/it][A
Training...:  52% 1366/2609 [1:17:22<1:29:54,  4.34s/it][A
Training...:  52% 1367/2609 [1:17:26<1:27:24,  4.22s/it][A
Training...:  52% 1368/2609 [1:17:30<1:24:49,  4.10s/it][A
Training...:  52% 1369/2609 [1:17:34<1:22:32,  3.99s/it][A
Training...:  53% 1370/2609 [1:17:38<1:20:34,  3.90s/it][A
Training...:  53% 1371/2609 [1:17:41<1:18:40,  3.81s/it][A
Training...:  53% 1372/2609 [1:17:45<1:16:24,  3.71s/it][A
Training...:  53% 1373/2609 [1:17:48<1:14:24,  3.61s/it][A
Training...:  53% 1374/2609 [1:17:51<1:12:01,  3.50s/it][A
Training...:  53% 1375/2609 [1:17:54<1:09:56,  3.40s/it][A
Training...:  53% 1376/2609 [1:17:58<1:08:02,  3.31s/it][A
Training...:  53% 1377/2609 [1:18:01<1:06:29,  3.24s/it][A
Training...:  53% 1378/2609 [1:18:04<1:04:48,  3.16s/it][A
Training...:  53% 1379/2609 [1:18:06<1:02:53,  3.07s/it][A
Training...:  53% 1380/2609 [1:18:09<1:01:10,  2.99s/it][A
Training...:  53% 1381/2609 [1:18:12<59:32,  2.91s/it]  [A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [6:24:11<45:30:49, 9102.74s/it]
Training...:  53% 1381/2609 [1:18:15<59:32,  2.91s/it][A
Training...:  53% 1382/2609 [1:18:15<1:00:13,  2.94s/it][A
Training...:  53% 1383/2609 [1:18:18<57:45,  2.83s/it]  [A
Training...:  53% 1384/2609 [1:18:20<55:12,  2.70s/it][A
Training...:  53% 1385/2609 [1:18:22<52:51,  2.59s/it][A
Training...:  53% 1386/2609 [1:18:25<50:45,  2.49s/it][A
Training...:  53% 1387/2609 [1:18:27<48:51,  2.40s/it][A
Training...:  53% 1388/2609 [1:18:29<46:54,  2.31s/it][A
Training...:  53% 1389/2609 [1:18:31<45:16,  2.23s/it][A
Training...:  53% 1390/2609 [1:18:33<43:11,  2.13s/it][A
Training...:  53% 1391/2609 [1:18:35<41:10,  2.03s/it][A
Training...:  53% 1392/2609 [1:18:36<39:19,  1.94s/it][A
Training...:  53% 1393/2609 [1:18:38<36:59,  1.82s/it][A
Training...:  53% 1394/2609 [1:18:39<34:39,  1.71s/it][A
Training...:  53% 1395/2609 [1:18:41<32:10,  1.59s/it][A
Training...:  54% 1396/2609 [1:18:42<29:44,  1.47s/it][A
Training...:  54% 1397/2609 [1:18:43<27:13,  1.35s/it][A
Training...:  54% 1398/2609 [1:18:44<24:36,  1.22s/it][A
Training...:  54% 1399/2609 [1:18:45<21:53,  1.09s/it][A
Training...:  54% 1400/2609 [1:18:45<18:35,  1.08it/s][A
Training...:  54% 1401/2609 [1:18:52<55:54,  2.78s/it][A
Training...:  54% 1402/2609 [1:18:59<1:20:18,  3.99s/it][A
Training...:  54% 1403/2609 [1:19:05<1:34:45,  4.71s/it][A
Training...:  54% 1404/2609 [1:19:12<1:43:59,  5.18s/it][A
Training...:  54% 1405/2609 [1:19:18<1:47:56,  5.38s/it][A
Training...:  54% 1406/2609 [1:19:23<1:49:04,  5.44s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:25:26<45:30:49, 9102.74s/it]
Training...:  54% 1406/2609 [1:19:29<1:49:04,  5.44s/it][A
Training...:  54% 1407/2609 [1:19:29<1:54:04,  5.69s/it][A
Training...:  54% 1408/2609 [1:19:35<1:50:50,  5.54s/it][A
Training...:  54% 1409/2609 [1:19:40<1:48:20,  5.42s/it][A
Training...:  54% 1410/2609 [1:19:45<1:45:20,  5.27s/it][A
Training...:  54% 1411/2609 [1:19:49<1:42:28,  5.13s/it][A
Training...:  54% 1412/2609 [1:19:54<1:39:14,  4.97s/it][A
Training...:  54% 1413/2609 [1:19:59<1:36:39,  4.85s/it][A
Training...:  54% 1414/2609 [1:20:03<1:34:00,  4.72s/it][A
Training...:  54% 1415/2609 [1:20:07<1:31:20,  4.59s/it][A
Training...:  54% 1416/2609 [1:20:11<1:28:28,  4.45s/it][A
Training...:  54% 1417/2609 [1:20:16<1:26:09,  4.34s/it][A
Training...:  54% 1418/2609 [1:20:19<1:23:30,  4.21s/it][A
Training...:  54% 1419/2609 [1:20:23<1:21:17,  4.10s/it][A
Training...:  54% 1420/2609 [1:20:27<1:18:32,  3.96s/it][A
Training...:  54% 1421/2609 [1:20:31<1:16:55,  3.88s/it][A
Training...:  55% 1422/2609 [1:20:34<1:14:52,  3.78s/it][A
Training...:  55% 1423/2609 [1:20:38<1:12:22,  3.66s/it][A
Training...:  55% 1424/2609 [1:20:41<1:09:53,  3.54s/it][A
Training...:  55% 1425/2609 [1:20:44<1:07:51,  3.44s/it][A
Training...:  55% 1426/2609 [1:20:47<1:05:54,  3.34s/it][A
Training...:  55% 1427/2609 [1:20:50<1:04:24,  3.27s/it][A
Training...:  55% 1428/2609 [1:20:53<1:02:27,  3.17s/it][A
Training...:  55% 1429/2609 [1:20:56<1:00:39,  3.08s/it][A
Training...:  55% 1430/2609 [1:20:59<58:43,  2.99s/it]  [A
Training...:  55% 1431/2609 [1:21:02<57:14,  2.92s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [6:27:01<45:30:49, 9102.74s/it]
Training...:  55% 1431/2609 [1:21:05<57:14,  2.92s/it][A
Training...:  55% 1432/2609 [1:21:05<58:12,  2.97s/it][A
Training...:  55% 1433/2609 [1:21:07<55:40,  2.84s/it][A
Training...:  55% 1434/2609 [1:21:10<53:32,  2.73s/it][A
Training...:  55% 1435/2609 [1:21:12<51:26,  2.63s/it][A
Training...:  55% 1436/2609 [1:21:14<49:39,  2.54s/it][A
Training...:  55% 1437/2609 [1:21:17<47:41,  2.44s/it][A
Training...:  55% 1438/2609 [1:21:19<45:51,  2.35s/it][A
Training...:  55% 1439/2609 [1:21:21<43:56,  2.25s/it][A
Training...:  55% 1440/2609 [1:21:23<42:02,  2.16s/it][A
Training...:  55% 1441/2609 [1:21:25<40:07,  2.06s/it][A
Training...:  55% 1442/2609 [1:21:26<38:06,  1.96s/it][A
Training...:  55% 1443/2609 [1:21:28<36:05,  1.86s/it][A
Training...:  55% 1444/2609 [1:21:29<33:57,  1.75s/it][A
Training...:  55% 1445/2609 [1:21:31<31:43,  1.63s/it][A
Training...:  55% 1446/2609 [1:21:32<29:30,  1.52s/it][A
Training...:  55% 1447/2609 [1:21:33<27:17,  1.41s/it][A
Training...:  56% 1448/2609 [1:21:34<24:42,  1.28s/it][A
Training...:  56% 1449/2609 [1:21:35<21:53,  1.13s/it][A
Training...:  56% 1450/2609 [1:21:36<18:36,  1.04it/s][A
Training...:  56% 1451/2609 [1:21:42<52:41,  2.73s/it][A
Training...:  56% 1452/2609 [1:21:49<1:16:49,  3.98s/it][A
Training...:  56% 1453/2609 [1:21:56<1:30:18,  4.69s/it][A
Training...:  56% 1454/2609 [1:22:02<1:38:19,  5.11s/it][A
Training...:  56% 1455/2609 [1:22:07<1:41:55,  5.30s/it][A
Training...:  56% 1456/2609 [1:22:13<1:43:38,  5.39s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:28:15<45:30:49, 9102.74s/it]
Training...:  56% 1456/2609 [1:22:19<1:43:38,  5.39s/it][A
Training...:  56% 1457/2609 [1:22:19<1:47:15,  5.59s/it][A
Training...:  56% 1458/2609 [1:22:24<1:44:42,  5.46s/it][A
Training...:  56% 1459/2609 [1:22:29<1:42:30,  5.35s/it][A
Training...:  56% 1460/2609 [1:22:34<1:39:56,  5.22s/it][A
Training...:  56% 1461/2609 [1:22:39<1:37:09,  5.08s/it][A
Training...:  56% 1462/2609 [1:22:44<1:34:58,  4.97s/it][A
Training...:  56% 1463/2609 [1:22:48<1:32:19,  4.83s/it][A
Training...:  56% 1464/2609 [1:22:53<1:29:48,  4.71s/it][A
Training...:  56% 1465/2609 [1:22:57<1:26:50,  4.56s/it][A
Training...:  56% 1466/2609 [1:23:01<1:24:04,  4.41s/it][A
Training...:  56% 1467/2609 [1:23:05<1:21:25,  4.28s/it][A
Training...:  56% 1468/2609 [1:23:09<1:18:46,  4.14s/it][A
Training...:  56% 1469/2609 [1:23:13<1:16:36,  4.03s/it][A
Training...:  56% 1470/2609 [1:23:16<1:14:46,  3.94s/it][A
Training...:  56% 1471/2609 [1:23:20<1:12:43,  3.83s/it][A
Training...:  56% 1472/2609 [1:23:23<1:10:27,  3.72s/it][A
Training...:  56% 1473/2609 [1:23:27<1:08:30,  3.62s/it][A
Training...:  56% 1474/2609 [1:23:30<1:06:40,  3.52s/it][A
Training...:  57% 1475/2609 [1:23:33<1:05:16,  3.45s/it][A
Training...:  57% 1476/2609 [1:23:36<1:03:16,  3.35s/it][A
Training...:  57% 1477/2609 [1:23:39<1:01:10,  3.24s/it][A
Training...:  57% 1478/2609 [1:23:42<59:21,  3.15s/it]  [A
Training...:  57% 1479/2609 [1:23:45<57:31,  3.05s/it][A
Training...:  57% 1480/2609 [1:23:48<55:41,  2.96s/it][A
Training...:  57% 1481/2609 [1:23:51<54:08,  2.88s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [6:29:50<45:30:49, 9102.74s/it]
Training...:  57% 1481/2609 [1:23:54<54:08,  2.88s/it][A
Training...:  57% 1482/2609 [1:23:54<54:56,  2.92s/it][A
Training...:  57% 1483/2609 [1:23:56<52:26,  2.79s/it][A
Training...:  57% 1484/2609 [1:23:58<50:22,  2.69s/it][A
Training...:  57% 1485/2609 [1:24:01<48:12,  2.57s/it][A
Training...:  57% 1486/2609 [1:24:03<46:27,  2.48s/it][A
Training...:  57% 1487/2609 [1:24:05<44:38,  2.39s/it][A
Training...:  57% 1488/2609 [1:24:07<42:41,  2.29s/it][A
Training...:  57% 1489/2609 [1:24:09<40:55,  2.19s/it][A
Training...:  57% 1490/2609 [1:24:11<39:00,  2.09s/it][A
Training...:  57% 1491/2609 [1:24:13<37:07,  1.99s/it][A
Training...:  57% 1492/2609 [1:24:15<35:25,  1.90s/it][A
Training...:  57% 1493/2609 [1:24:16<33:45,  1.81s/it][A
Training...:  57% 1494/2609 [1:24:18<31:42,  1.71s/it][A
Training...:  57% 1495/2609 [1:24:19<29:41,  1.60s/it][A
Training...:  57% 1496/2609 [1:24:20<27:38,  1.49s/it][A
Training...:  57% 1497/2609 [1:24:21<25:21,  1.37s/it][A
Training...:  57% 1498/2609 [1:24:22<22:59,  1.24s/it][A
Training...:  57% 1499/2609 [1:24:23<20:17,  1.10s/it][A
Training...:  57% 1500/2609 [1:24:24<17:05,  1.08it/s][A
Training...:  58% 1501/2609 [1:24:30<49:59,  2.71s/it][A
Training...:  58% 1502/2609 [1:24:37<1:12:30,  3.93s/it][A
Training...:  58% 1503/2609 [1:24:43<1:25:22,  4.63s/it][A
Training...:  58% 1504/2609 [1:24:50<1:35:21,  5.18s/it][A
Training...:  58% 1505/2609 [1:24:56<1:39:53,  5.43s/it][A
Training...:  58% 1506/2609 [1:25:02<1:40:52,  5.49s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:31:04<45:30:49, 9102.74s/it]
Training...:  58% 1506/2609 [1:25:08<1:40:52,  5.49s/it][A
Training...:  58% 1507/2609 [1:25:08<1:44:36,  5.70s/it][A
Training...:  58% 1508/2609 [1:25:13<1:41:27,  5.53s/it][A
Training...:  58% 1509/2609 [1:25:18<1:38:38,  5.38s/it][A
Training...:  58% 1510/2609 [1:25:23<1:35:16,  5.20s/it][A
Training...:  58% 1511/2609 [1:25:27<1:32:23,  5.05s/it][A
Training...:  58% 1512/2609 [1:25:32<1:29:43,  4.91s/it][A
Training...:  58% 1513/2609 [1:25:36<1:27:07,  4.77s/it][A
Training...:  58% 1514/2609 [1:25:41<1:24:16,  4.62s/it][A
Training...:  58% 1515/2609 [1:25:45<1:22:08,  4.50s/it][A
Training...:  58% 1516/2609 [1:25:49<1:20:07,  4.40s/it][A
Training...:  58% 1517/2609 [1:25:53<1:17:32,  4.26s/it][A
Training...:  58% 1518/2609 [1:25:57<1:15:01,  4.13s/it][A
Training...:  58% 1519/2609 [1:26:01<1:12:50,  4.01s/it][A
Training...:  58% 1520/2609 [1:26:04<1:10:42,  3.90s/it][A
Training...:  58% 1521/2609 [1:26:08<1:08:57,  3.80s/it][A
Training...:  58% 1522/2609 [1:26:11<1:07:16,  3.71s/it][A
Training...:  58% 1523/2609 [1:26:15<1:05:38,  3.63s/it][A
Training...:  58% 1524/2609 [1:26:18<1:03:42,  3.52s/it][A
Training...:  58% 1525/2609 [1:26:21<1:01:50,  3.42s/it][A
Training...:  58% 1526/2609 [1:26:24<59:52,  3.32s/it]  [A
Training...:  59% 1527/2609 [1:26:27<57:57,  3.21s/it][A
Training...:  59% 1528/2609 [1:26:30<56:21,  3.13s/it][A
Training...:  59% 1529/2609 [1:26:33<55:03,  3.06s/it][A
Training...:  59% 1530/2609 [1:26:36<53:41,  2.99s/it][A
Training...:  59% 1531/2609 [1:26:39<52:06,  2.90s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [6:32:38<45:30:49, 9102.74s/it]
Training...:  59% 1531/2609 [1:26:42<52:06,  2.90s/it][A
Training...:  59% 1532/2609 [1:26:42<52:36,  2.93s/it][A
Training...:  59% 1533/2609 [1:26:44<49:59,  2.79s/it][A
Training...:  59% 1534/2609 [1:26:46<47:51,  2.67s/it][A
Training...:  59% 1535/2609 [1:26:49<45:50,  2.56s/it][A
Training...:  59% 1536/2609 [1:26:51<44:22,  2.48s/it][A
Training...:  59% 1537/2609 [1:26:53<42:36,  2.39s/it][A
Training...:  59% 1538/2609 [1:26:55<40:53,  2.29s/it][A
Training...:  59% 1539/2609 [1:26:57<39:06,  2.19s/it][A
Training...:  59% 1540/2609 [1:26:59<37:23,  2.10s/it][A
Training...:  59% 1541/2609 [1:27:01<35:42,  2.01s/it][A
Training...:  59% 1542/2609 [1:27:03<33:50,  1.90s/it][A
Training...:  59% 1543/2609 [1:27:04<32:07,  1.81s/it][A
Training...:  59% 1544/2609 [1:27:06<30:16,  1.71s/it][A
Training...:  59% 1545/2609 [1:27:07<28:16,  1.59s/it][A
Training...:  59% 1546/2609 [1:27:08<26:20,  1.49s/it][A
Training...:  59% 1547/2609 [1:27:09<24:21,  1.38s/it][A
Training...:  59% 1548/2609 [1:27:10<22:08,  1.25s/it][A
Training...:  59% 1549/2609 [1:27:11<19:41,  1.11s/it][A
Training...:  59% 1550/2609 [1:27:12<16:37,  1.06it/s][A
Training...:  59% 1551/2609 [1:27:19<48:45,  2.77s/it][A
Training...:  59% 1552/2609 [1:27:26<1:11:28,  4.06s/it][A
Training...:  60% 1553/2609 [1:27:32<1:24:58,  4.83s/it][A
Training...:  60% 1554/2609 [1:27:39<1:32:33,  5.26s/it][A
Training...:  60% 1555/2609 [1:27:45<1:36:04,  5.47s/it][A
Training...:  60% 1556/2609 [1:27:50<1:36:48,  5.52s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:33:53<45:30:49, 9102.74s/it]
Training...:  60% 1556/2609 [1:27:56<1:36:48,  5.52s/it][A
Training...:  60% 1557/2609 [1:27:56<1:40:53,  5.75s/it][A
Training...:  60% 1558/2609 [1:28:02<1:37:53,  5.59s/it][A
Training...:  60% 1559/2609 [1:28:07<1:36:22,  5.51s/it][A
Training...:  60% 1560/2609 [1:28:12<1:32:59,  5.32s/it][A
Training...:  60% 1561/2609 [1:28:17<1:29:59,  5.15s/it][A
Training...:  60% 1562/2609 [1:28:21<1:26:54,  4.98s/it][A
Training...:  60% 1563/2609 [1:28:26<1:24:12,  4.83s/it][A
Training...:  60% 1564/2609 [1:28:30<1:20:59,  4.65s/it][A
Training...:  60% 1565/2609 [1:28:34<1:18:44,  4.53s/it][A
Training...:  60% 1566/2609 [1:28:38<1:15:56,  4.37s/it][A
Training...:  60% 1567/2609 [1:28:42<1:13:51,  4.25s/it][A
Training...:  60% 1568/2609 [1:28:46<1:11:25,  4.12s/it][A
Training...:  60% 1569/2609 [1:28:50<1:09:58,  4.04s/it][A
Training...:  60% 1570/2609 [1:28:53<1:07:46,  3.91s/it][A
Training...:  60% 1571/2609 [1:28:57<1:05:56,  3.81s/it][A
Training...:  60% 1572/2609 [1:29:00<1:03:46,  3.69s/it][A
Training...:  60% 1573/2609 [1:29:04<1:01:48,  3.58s/it][A
Training...:  60% 1574/2609 [1:29:07<59:53,  3.47s/it]  [A
Training...:  60% 1575/2609 [1:29:10<58:16,  3.38s/it][A
Training...:  60% 1576/2609 [1:29:13<56:26,  3.28s/it][A
Training...:  60% 1577/2609 [1:29:16<54:47,  3.19s/it][A
Training...:  60% 1578/2609 [1:29:19<53:15,  3.10s/it][A
Training...:  61% 1579/2609 [1:29:22<51:40,  3.01s/it][A
Training...:  61% 1580/2609 [1:29:25<50:33,  2.95s/it][A
Training...:  61% 1581/2609 [1:29:27<48:58,  2.86s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [6:35:26<45:30:49, 9102.74s/it]
Training...:  61% 1581/2609 [1:29:30<48:58,  2.86s/it][A
Training...:  61% 1582/2609 [1:29:30<49:43,  2.91s/it][A
Training...:  61% 1583/2609 [1:29:33<47:49,  2.80s/it][A
Training...:  61% 1584/2609 [1:29:35<45:40,  2.67s/it][A
Training...:  61% 1585/2609 [1:29:37<43:38,  2.56s/it][A
Training...:  61% 1586/2609 [1:29:40<41:39,  2.44s/it][A
Training...:  61% 1587/2609 [1:29:42<39:59,  2.35s/it][A
Training...:  61% 1588/2609 [1:29:44<38:31,  2.26s/it][A
Training...:  61% 1589/2609 [1:29:46<36:51,  2.17s/it][A
Training...:  61% 1590/2609 [1:29:48<35:13,  2.07s/it][A
Training...:  61% 1591/2609 [1:29:49<33:42,  1.99s/it][A
Training...:  61% 1592/2609 [1:29:51<32:10,  1.90s/it][A
Training...:  61% 1593/2609 [1:29:53<30:38,  1.81s/it][A
Training...:  61% 1594/2609 [1:29:54<29:02,  1.72s/it][A
Training...:  61% 1595/2609 [1:29:56<27:28,  1.63s/it][A
Training...:  61% 1596/2609 [1:29:57<25:46,  1.53s/it][A
Training...:  61% 1597/2609 [1:29:58<23:47,  1.41s/it][A
Training...:  61% 1598/2609 [1:29:59<21:30,  1.28s/it][A
Training...:  61% 1599/2609 [1:30:00<19:02,  1.13s/it][A
Training...:  61% 1600/2609 [1:30:00<15:54,  1.06it/s][A
Training...:  61% 1601/2609 [1:30:08<47:54,  2.85s/it][A
Training...:  61% 1602/2609 [1:30:15<1:08:47,  4.10s/it][A
Training...:  61% 1603/2609 [1:30:21<1:20:48,  4.82s/it][A
Training...:  61% 1604/2609 [1:30:27<1:28:11,  5.27s/it][A
Training...:  62% 1605/2609 [1:30:33<1:31:19,  5.46s/it][A
Training...:  62% 1606/2609 [1:30:39<1:32:03,  5.51s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:36:41<45:30:49, 9102.74s/it]
Training...:  62% 1606/2609 [1:30:45<1:32:03,  5.51s/it][A
Training...:  62% 1607/2609 [1:30:45<1:35:31,  5.72s/it][A
Training...:  62% 1608/2609 [1:30:50<1:32:42,  5.56s/it][A
Training...:  62% 1609/2609 [1:30:56<1:30:54,  5.45s/it][A
Training...:  62% 1610/2609 [1:31:00<1:27:47,  5.27s/it][A
Training...:  62% 1611/2609 [1:31:05<1:25:27,  5.14s/it][A
Training...:  62% 1612/2609 [1:31:10<1:22:26,  4.96s/it][A
Training...:  62% 1613/2609 [1:31:14<1:20:13,  4.83s/it][A
Training...:  62% 1614/2609 [1:31:19<1:17:46,  4.69s/it][A
Training...:  62% 1615/2609 [1:31:23<1:15:19,  4.55s/it][A
Training...:  62% 1616/2609 [1:31:27<1:12:47,  4.40s/it][A
Training...:  62% 1617/2609 [1:31:31<1:10:49,  4.28s/it][A
Training...:  62% 1618/2609 [1:31:35<1:08:34,  4.15s/it][A
Training...:  62% 1619/2609 [1:31:39<1:06:41,  4.04s/it][A
Training...:  62% 1620/2609 [1:31:42<1:04:24,  3.91s/it][A
Training...:  62% 1621/2609 [1:31:46<1:02:19,  3.78s/it][A
Training...:  62% 1622/2609 [1:31:49<1:00:26,  3.67s/it][A
Training...:  62% 1623/2609 [1:31:52<58:42,  3.57s/it]  [A
Training...:  62% 1624/2609 [1:31:56<56:52,  3.46s/it][A
Training...:  62% 1625/2609 [1:31:59<55:11,  3.37s/it][A
Training...:  62% 1626/2609 [1:32:02<53:32,  3.27s/it][A
Training...:  62% 1627/2609 [1:32:05<52:17,  3.20s/it][A
Training...:  62% 1628/2609 [1:32:08<50:52,  3.11s/it][A
Training...:  62% 1629/2609 [1:32:11<49:38,  3.04s/it][A
Training...:  62% 1630/2609 [1:32:13<48:08,  2.95s/it][A
Training...:  63% 1631/2609 [1:32:16<46:22,  2.85s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [6:38:15<45:30:49, 9102.74s/it]
Training...:  63% 1631/2609 [1:32:19<46:22,  2.85s/it][A
Training...:  63% 1632/2609 [1:32:19<47:15,  2.90s/it][A
Training...:  63% 1633/2609 [1:32:21<45:02,  2.77s/it][A
Training...:  63% 1634/2609 [1:32:24<43:10,  2.66s/it][A
Training...:  63% 1635/2609 [1:32:26<41:35,  2.56s/it][A
Training...:  63% 1636/2609 [1:32:28<40:05,  2.47s/it][A
Training...:  63% 1637/2609 [1:32:31<38:40,  2.39s/it][A
Training...:  63% 1638/2609 [1:32:33<37:07,  2.29s/it][A
Training...:  63% 1639/2609 [1:32:35<35:41,  2.21s/it][A
Training...:  63% 1640/2609 [1:32:37<34:17,  2.12s/it][A
Training...:  63% 1641/2609 [1:32:39<32:58,  2.04s/it][A
Training...:  63% 1642/2609 [1:32:40<31:27,  1.95s/it][A
Training...:  63% 1643/2609 [1:32:42<30:02,  1.87s/it][A
Training...:  63% 1644/2609 [1:32:43<28:24,  1.77s/it][A
Training...:  63% 1645/2609 [1:32:45<26:37,  1.66s/it][A
Training...:  63% 1646/2609 [1:32:46<24:49,  1.55s/it][A
Training...:  63% 1647/2609 [1:32:47<22:49,  1.42s/it][A
Training...:  63% 1648/2609 [1:32:48<20:36,  1.29s/it][A
Training...:  63% 1649/2609 [1:32:49<18:03,  1.13s/it][A
Training...:  63% 1650/2609 [1:32:50<15:08,  1.06it/s][A
Training...:  63% 1651/2609 [1:32:57<44:23,  2.78s/it][A
Training...:  63% 1652/2609 [1:33:04<1:03:57,  4.01s/it][A
Training...:  63% 1653/2609 [1:33:10<1:15:18,  4.73s/it][A
Training...:  63% 1654/2609 [1:33:16<1:21:48,  5.14s/it][A
Training...:  63% 1655/2609 [1:33:22<1:25:30,  5.38s/it][A
Training...:  63% 1656/2609 [1:33:28<1:27:02,  5.48s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:39:30<45:30:49, 9102.74s/it]
Training...:  63% 1656/2609 [1:33:34<1:27:02,  5.48s/it][A
Training...:  64% 1657/2609 [1:33:34<1:30:50,  5.73s/it][A
Training...:  64% 1658/2609 [1:33:39<1:28:27,  5.58s/it][A
Training...:  64% 1659/2609 [1:33:44<1:26:37,  5.47s/it][A
Training...:  64% 1660/2609 [1:33:49<1:23:54,  5.31s/it][A
Training...:  64% 1661/2609 [1:33:54<1:21:57,  5.19s/it][A
Training...:  64% 1662/2609 [1:33:59<1:19:41,  5.05s/it][A
Training...:  64% 1663/2609 [1:34:04<1:17:34,  4.92s/it][A
Training...:  64% 1664/2609 [1:34:08<1:14:48,  4.75s/it][A
Training...:  64% 1665/2609 [1:34:12<1:12:35,  4.61s/it][A
Training...:  64% 1666/2609 [1:34:16<1:10:27,  4.48s/it][A
Training...:  64% 1667/2609 [1:34:20<1:08:26,  4.36s/it][A
Training...:  64% 1668/2609 [1:34:24<1:06:25,  4.23s/it][A
Training...:  64% 1669/2609 [1:34:28<1:04:19,  4.11s/it][A
Training...:  64% 1670/2609 [1:34:32<1:01:57,  3.96s/it][A
Training...:  64% 1671/2609 [1:34:35<1:00:18,  3.86s/it][A
Training...:  64% 1672/2609 [1:34:39<58:15,  3.73s/it]  [A
Training...:  64% 1673/2609 [1:34:42<56:35,  3.63s/it][A
Training...:  64% 1674/2609 [1:34:46<54:54,  3.52s/it][A
Training...:  64% 1675/2609 [1:34:49<53:14,  3.42s/it][A
Training...:  64% 1676/2609 [1:34:52<51:37,  3.32s/it][A
Training...:  64% 1677/2609 [1:34:55<50:05,  3.23s/it][A
Training...:  64% 1678/2609 [1:34:58<48:34,  3.13s/it][A
Training...:  64% 1679/2609 [1:35:01<47:28,  3.06s/it][A
Training...:  64% 1680/2609 [1:35:03<46:08,  2.98s/it][A
Training...:  64% 1681/2609 [1:35:06<44:59,  2.91s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [6:41:05<45:30:49, 9102.74s/it]
Training...:  64% 1681/2609 [1:35:09<44:59,  2.91s/it][A
Training...:  64% 1682/2609 [1:35:09<45:28,  2.94s/it][A
Training...:  65% 1683/2609 [1:35:12<43:23,  2.81s/it][A
Training...:  65% 1684/2609 [1:35:14<41:34,  2.70s/it][A
Training...:  65% 1685/2609 [1:35:16<39:54,  2.59s/it][A
Training...:  65% 1686/2609 [1:35:19<38:22,  2.49s/it][A
Training...:  65% 1687/2609 [1:35:21<36:54,  2.40s/it][A
Training...:  65% 1688/2609 [1:35:23<35:19,  2.30s/it][A
Training...:  65% 1689/2609 [1:35:25<33:47,  2.20s/it][A
Training...:  65% 1690/2609 [1:35:27<32:15,  2.11s/it][A
Training...:  65% 1691/2609 [1:35:29<30:42,  2.01s/it][A
Training...:  65% 1692/2609 [1:35:30<29:09,  1.91s/it][A
Training...:  65% 1693/2609 [1:35:32<27:46,  1.82s/it][A
Training...:  65% 1694/2609 [1:35:33<26:12,  1.72s/it][A
Training...:  65% 1695/2609 [1:35:35<24:40,  1.62s/it][A
Training...:  65% 1696/2609 [1:35:36<23:01,  1.51s/it][A
Training...:  65% 1697/2609 [1:35:37<21:20,  1.40s/it][A
Training...:  65% 1698/2609 [1:35:38<19:24,  1.28s/it][A
Training...:  65% 1699/2609 [1:35:39<17:10,  1.13s/it][A
Training...:  65% 1700/2609 [1:35:40<14:21,  1.06it/s][A
Training...:  65% 1701/2609 [1:35:46<41:40,  2.75s/it][A
Training...:  65% 1702/2609 [1:35:53<1:00:24,  4.00s/it][A
Training...:  65% 1703/2609 [1:36:00<1:11:22,  4.73s/it][A
Training...:  65% 1704/2609 [1:36:06<1:18:19,  5.19s/it][A
Training...:  65% 1705/2609 [1:36:12<1:21:47,  5.43s/it][A
Training...:  65% 1706/2609 [1:36:18<1:23:07,  5.52s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:42:20<45:30:49, 9102.74s/it]
Training...:  65% 1706/2609 [1:36:24<1:23:07,  5.52s/it][A
Training...:  65% 1707/2609 [1:36:24<1:27:11,  5.80s/it][A
Training...:  65% 1708/2609 [1:36:30<1:25:36,  5.70s/it][A
Training...:  66% 1709/2609 [1:36:35<1:23:22,  5.56s/it][A
Training...:  66% 1710/2609 [1:36:40<1:20:33,  5.38s/it][A
Training...:  66% 1711/2609 [1:36:45<1:17:46,  5.20s/it][A
Training...:  66% 1712/2609 [1:36:49<1:15:09,  5.03s/it][A
Training...:  66% 1713/2609 [1:36:54<1:13:02,  4.89s/it][A
Training...:  66% 1714/2609 [1:36:58<1:10:33,  4.73s/it][A
Training...:  66% 1715/2609 [1:37:02<1:08:21,  4.59s/it][A
Training...:  66% 1716/2609 [1:37:07<1:06:03,  4.44s/it][A
Training...:  66% 1717/2609 [1:37:11<1:04:14,  4.32s/it][A
Training...:  66% 1718/2609 [1:37:14<1:02:02,  4.18s/it][A
Training...:  66% 1719/2609 [1:37:18<1:00:04,  4.05s/it][A
Training...:  66% 1720/2609 [1:37:22<58:17,  3.93s/it]  [A
Training...:  66% 1721/2609 [1:37:25<56:45,  3.84s/it][A
Training...:  66% 1722/2609 [1:37:29<55:00,  3.72s/it][A
Training...:  66% 1723/2609 [1:37:32<53:31,  3.63s/it][A
Training...:  66% 1724/2609 [1:37:36<52:08,  3.54s/it][A
Training...:  66% 1725/2609 [1:37:39<50:42,  3.44s/it][A
Training...:  66% 1726/2609 [1:37:42<49:05,  3.34s/it][A
Training...:  66% 1727/2609 [1:37:45<47:35,  3.24s/it][A
Training...:  66% 1728/2609 [1:37:48<46:14,  3.15s/it][A
Training...:  66% 1729/2609 [1:37:51<44:57,  3.06s/it][A
Training...:  66% 1730/2609 [1:37:54<43:43,  2.98s/it][A
Training...:  66% 1731/2609 [1:37:56<42:33,  2.91s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [6:43:56<45:30:49, 9102.74s/it]
Training...:  66% 1731/2609 [1:37:59<42:33,  2.91s/it][A
Training...:  66% 1732/2609 [1:37:59<43:11,  2.95s/it][A
Training...:  66% 1733/2609 [1:38:02<41:09,  2.82s/it][A
Training...:  66% 1734/2609 [1:38:04<39:30,  2.71s/it][A
Training...:  67% 1735/2609 [1:38:07<37:56,  2.60s/it][A
Training...:  67% 1736/2609 [1:38:09<36:19,  2.50s/it][A
Training...:  67% 1737/2609 [1:38:11<34:50,  2.40s/it][A
Training...:  67% 1738/2609 [1:38:13<33:26,  2.30s/it][A
Training...:  67% 1739/2609 [1:38:15<31:58,  2.20s/it][A
Training...:  67% 1740/2609 [1:38:17<30:28,  2.10s/it][A
Training...:  67% 1741/2609 [1:38:19<29:11,  2.02s/it][A
Training...:  67% 1742/2609 [1:38:21<27:57,  1.93s/it][A
Training...:  67% 1743/2609 [1:38:22<26:50,  1.86s/it][A
Training...:  67% 1744/2609 [1:38:24<25:15,  1.75s/it][A
Training...:  67% 1745/2609 [1:38:25<23:45,  1.65s/it][A
Training...:  67% 1746/2609 [1:38:26<22:01,  1.53s/it][A
Training...:  67% 1747/2609 [1:38:28<20:23,  1.42s/it][A
Training...:  67% 1748/2609 [1:38:29<18:27,  1.29s/it][A
Training...:  67% 1749/2609 [1:38:29<16:14,  1.13s/it][A
Training...:  67% 1750/2609 [1:38:30<13:42,  1.04it/s][A
Training...:  67% 1751/2609 [1:38:37<40:17,  2.82s/it][A
Training...:  67% 1752/2609 [1:38:44<57:59,  4.06s/it][A
Training...:  67% 1753/2609 [1:38:51<1:08:27,  4.80s/it][A
Training...:  67% 1754/2609 [1:38:57<1:14:23,  5.22s/it][A
Training...:  67% 1755/2609 [1:39:03<1:17:22,  5.44s/it][A
Training...:  67% 1756/2609 [1:39:08<1:18:23,  5.51s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:45:11<45:30:49, 9102.74s/it]
Training...:  67% 1756/2609 [1:39:15<1:18:23,  5.51s/it][A
Training...:  67% 1757/2609 [1:39:15<1:21:51,  5.76s/it][A
Training...:  67% 1758/2609 [1:39:20<1:19:33,  5.61s/it][A
Training...:  67% 1759/2609 [1:39:25<1:17:11,  5.45s/it][A
Training...:  67% 1760/2609 [1:39:30<1:14:59,  5.30s/it][A
Training...:  67% 1761/2609 [1:39:35<1:12:42,  5.15s/it][A
Training...:  68% 1762/2609 [1:39:39<1:10:33,  5.00s/it][A
Training...:  68% 1763/2609 [1:39:44<1:08:22,  4.85s/it][A
Training...:  68% 1764/2609 [1:39:48<1:05:54,  4.68s/it][A
Training...:  68% 1765/2609 [1:39:52<1:03:42,  4.53s/it][A
Training...:  68% 1766/2609 [1:39:56<1:01:31,  4.38s/it][A
Training...:  68% 1767/2609 [1:40:00<59:52,  4.27s/it]  [A
Training...:  68% 1768/2609 [1:40:04<58:35,  4.18s/it][A
Training...:  68% 1769/2609 [1:40:08<57:17,  4.09s/it][A
Training...:  68% 1770/2609 [1:40:12<55:29,  3.97s/it][A
Training...:  68% 1771/2609 [1:40:16<53:51,  3.86s/it][A
Training...:  68% 1772/2609 [1:40:19<52:10,  3.74s/it][A
Training...:  68% 1773/2609 [1:40:22<50:37,  3.63s/it][A
Training...:  68% 1774/2609 [1:40:26<49:00,  3.52s/it][A
Training...:  68% 1775/2609 [1:40:29<47:47,  3.44s/it][A
Training...:  68% 1776/2609 [1:40:32<46:11,  3.33s/it][A
Training...:  68% 1777/2609 [1:40:35<44:53,  3.24s/it][A
Training...:  68% 1778/2609 [1:40:38<43:32,  3.14s/it][A
Training...:  68% 1779/2609 [1:40:41<42:23,  3.06s/it][A
Training...:  68% 1780/2609 [1:40:44<41:02,  2.97s/it][A
Training...:  68% 1781/2609 [1:40:46<39:43,  2.88s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [6:46:45<45:30:49, 9102.74s/it]
Training...:  68% 1781/2609 [1:40:49<39:43,  2.88s/it][AStep... (5225 | Loss: 0.3014695942401886, Learning Rate: 9.045656042871997e-05, Gradient Norm: 0.9721595048904419)
Step... (5250 | Loss: 0.23404443264007568, Learning Rate: 9.040605800691992e-05, Gradient Norm: 0.9759597778320312)
Step... (5275 | Loss: 0.313398152589798, Learning Rate: 9.035555558511987e-05, Gradient Norm: 0.9186710715293884)
Step... (5300 | Loss: 0.28712961077690125, Learning Rate: 9.030504588736221e-05, Gradient Norm: 0.964677631855011)
Step... (5325 | Loss: 0.2889121174812317, Learning Rate: 9.025454346556216e-05, Gradient Norm: 0.9370468854904175)
Step... (5350 | Loss: 0.16305671632289886, Learning Rate: 9.020404104376212e-05, Gradient Norm: 0.7784634232521057)
Step... (5375 | Loss: 0.2100411206483841, Learning Rate: 9.015353134600446e-05, Gradient Norm: 0.7455685138702393)
Step... (5400 | Loss: 0.1552850753068924, Learning Rate: 9.010302892420441e-05, Gradient Norm: 0.742534875869751)
Step... (5425 | Loss: 0.31686416268348694, Learning Rate: 9.005252650240436e-05, Gradient Norm: 0.9033991694450378)
Step... (5450 | Loss: 0.20829707384109497, Learning Rate: 9.00020168046467e-05, Gradient Norm: 0.9142488241195679)
Step... (5475 | Loss: 0.3099064528942108, Learning Rate: 8.995151438284665e-05, Gradient Norm: 0.8799360990524292)
Step... (5500 | Loss: 0.1907263845205307, Learning Rate: 8.99010119610466e-05, Gradient Norm: 1.0153077840805054)
Step... (5525 | Loss: 0.2933598756790161, Learning Rate: 8.985050226328894e-05, Gradient Norm: 0.9810291528701782)
Step... (5550 | Loss: 0.19361084699630737, Learning Rate: 8.97999998414889e-05, Gradient Norm: 1.0593633651733398)
Step... (5575 | Loss: 0.3027535080909729, Learning Rate: 8.974949741968885e-05, Gradient Norm: 1.0016725063323975)
Step... (5600 | Loss: 0.16610084474086761, Learning Rate: 8.969898772193119e-05, Gradient Norm: 0.682960033416748)
Step... (5625 | Loss: 0.2559366524219513, Learning Rate: 8.964848530013114e-05, Gradient Norm: 1.092612862586975)
Step... (5650 | Loss: 0.15391233563423157, Learning Rate: 8.95979828783311e-05, Gradient Norm: 0.9095710515975952)
Step... (5675 | Loss: 0.3080757260322571, Learning Rate: 8.954747318057343e-05, Gradient Norm: 0.9702921509742737)
Step... (5700 | Loss: 0.19874782860279083, Learning Rate: 8.949697075877339e-05, Gradient Norm: 0.8707507252693176)
Step... (5725 | Loss: 0.2878202199935913, Learning Rate: 8.944646833697334e-05, Gradient Norm: 0.9897356033325195)
Step... (5750 | Loss: 0.22032488882541656, Learning Rate: 8.939595863921568e-05, Gradient Norm: 1.082598328590393)
Step... (5775 | Loss: 0.3149130046367645, Learning Rate: 8.934545621741563e-05, Gradient Norm: 1.6999574899673462)
Step... (5800 | Loss: 0.18886108696460724, Learning Rate: 8.929494651965797e-05, Gradient Norm: 0.9045830965042114)
Step... (5825 | Loss: 0.2624252140522003, Learning Rate: 8.924444409785792e-05, Gradient Norm: 0.916043221950531)
Step... (5850 | Loss: 0.24197782576084137, Learning Rate: 8.919393440010026e-05, Gradient Norm: 1.1962276697158813)
Step... (5875 | Loss: 0.24557644128799438, Learning Rate: 8.914343197830021e-05, Gradient Norm: 0.7459127306938171)
Step... (5900 | Loss: 0.3625950515270233, Learning Rate: 8.909292955650017e-05, Gradient Norm: 1.2463065385818481)
Step... (5925 | Loss: 0.25608277320861816, Learning Rate: 8.90424198587425e-05, Gradient Norm: 0.8964154124259949)
Step... (5950 | Loss: 0.21231870353221893, Learning Rate: 8.899191743694246e-05, Gradient Norm: 0.9446232318878174)
Step... (5975 | Loss: 0.30193522572517395, Learning Rate: 8.89414077391848e-05, Gradient Norm: 0.9793286919593811)
Step... (6000 | Loss: 0.1752944141626358, Learning Rate: 8.889090531738475e-05, Gradient Norm: 0.8039700984954834)
Step... (6025 | Loss: 0.25697776675224304, Learning Rate: 8.884039561962709e-05, Gradient Norm: 1.0914063453674316)
Step... (6050 | Loss: 0.238473042845726, Learning Rate: 8.878989319782704e-05, Gradient Norm: 0.9882888197898865)
Step... (6075 | Loss: 0.28188666701316833, Learning Rate: 8.8739390776027e-05, Gradient Norm: 0.892693042755127)
Step... (6100 | Loss: 0.24122984707
3555, Learning Rate: 8.868888107826933e-05, Gradient Norm: 1.1681188344955444)
Step... (6125 | Loss: 0.33408015966415405, Learning Rate: 8.863837865646929e-05, Gradient Norm: 0.93986976146698)
Step... (6150 | Loss: 0.1870025247335434, Learning Rate: 8.858787623466924e-05, Gradient Norm: 0.8772351145744324)
Step... (6175 | Loss: 0.3007602095603943, Learning Rate: 8.853736653691158e-05, Gradient Norm: 1.024712085723877)
Step... (6200 | Loss: 0.20224982500076294, Learning Rate: 8.848686411511153e-05, Gradient Norm: 1.011132001876831)
Step... (6225 | Loss: 0.30398955941200256, Learning Rate: 8.843636169331148e-05, Gradient Norm: 0.9128224849700928)
Step... (6250 | Loss: 0.13246017694473267, Learning Rate: 8.838585199555382e-05, Gradient Norm: 0.832003116607666)
Step... (6275 | Loss: 0.2927093207836151, Learning Rate: 8.833534957375377e-05, Gradient Norm: 0.9056219458580017)
Step... (6300 | Loss: 0.19849765300750732, Learning Rate: 8.828484715195373e-05, Gradient Norm: 1.7336574792861938)
Step... (6325 | Loss: 0.2959216237068176, Learning Rate: 8.823433745419607e-05, Gradient Norm: 0.7860323190689087)
Step... (6350 | Loss: 0.12352680414915085, Learning Rate: 8.818383503239602e-05, Gradient Norm: 0.7870961427688599)
Step... (6375 | Loss: 0.2380978763103485, Learning Rate: 8.813333261059597e-05, Gradient Norm: 0.7777591347694397)
Step... (6400 | Loss: 0.20764629542827606, Learning Rate: 8.808282291283831e-05, Gradient Norm: 1.286539912223816)
Step... (6425 | Loss: 0.25198087096214294, Learning Rate: 8.803232049103826e-05, Gradient Norm: 0.756534218788147)
Step... (6450 | Loss: 0.1942438781261444, Learning Rate: 8.798181806923822e-05, Gradient Norm: 0.8389199376106262)
Step... (6475 | Loss: 0.2984435260295868, Learning Rate: 8.793130837148055e-05, Gradient Norm: 0.9714925289154053)
Step... (6500 | Loss: 0.24153289198875427, Learning Rate: 8.788080594968051e-05, Gradient Norm: 1.0923516750335693)
Step... (6525 | Loss: 0.28231266140937805, Learning Rate: 8.783030352788046e-05, Gradient Norm: 0.9005967974662781)
Step... (6550 | Loss: 0.25807085633277893, Learning Rate: 8.77797938301228e-05, Gradient Norm: 0.9018853902816772)
Step... (6575 | Loss: 0.27812379598617554, Learning Rate: 8.772929140832275e-05, Gradient Norm: 0.8389224410057068)
Step... (6600 | Loss: 0.24373915791511536, Learning Rate: 8.76787889865227e-05, Gradient Norm: 0.9673104286193848)
Step... (6625 | Loss: 0.2806253135204315, Learning Rate: 8.762827928876504e-05, Gradient Norm: 0.7760187983512878)
Step... (6650 | Loss: 0.18339556455612183, Learning Rate: 8.7577776866965e-05, Gradient Norm: 2.372765064239502)
Step... (6675 | Loss: 0.2602772116661072, Learning Rate: 8.752727444516495e-05, Gradient Norm: 0.8570871353149414)
Step... (6700 | Loss: 0.177622988820076, Learning Rate: 8.747676474740729e-05, Gradient Norm: 0.9042191505432129)
Step... (6725 | Loss: 0.37926167249679565, Learning Rate: 8.742626232560724e-05, Gradient Norm: 0.8987273573875427)
Step... (6750 | Loss: 0.1821192502975464, Learning Rate: 8.737575990380719e-05, Gradient Norm: 0.7741758227348328)
Step... (6775 | Loss: 0.28038230538368225, Learning Rate: 8.732525020604953e-05, Gradient Norm: 0.8397089838981628)
Step... (6800 | Loss: 0.26396259665489197, Learning Rate: 8.727474778424948e-05, Gradient Norm: 1.2591909170150757)
Step... (6825 | Loss: 0.299520879983902, Learning Rate: 8.722424536244944e-05, Gradient Norm: 0.8231440782546997)
Step... (6850 | Loss: 0.2742516100406647, Learning Rate: 8.717373566469178e-05, Gradient Norm: 0.9461944103240967)
Step... (6875 | Loss: 0.35231098532676697, Learning Rate: 8.712323324289173e-05, Gradient Norm: 1.2640608549118042)
Step... (6900 | Loss: 0.22477495670318604, Learning Rate: 8.707273082109168e-05, Gradient Norm: 0.909501850605011)
Step... (6925 | Loss: 0.29935553669929504, Learning Rate: 8.702222112333402e-05, Gradient Norm: 0.9989660978317261)
Step... (6950 | Loss: 0.18741658329963684, Learning Rate: 8.697171870153397e-05, Gradient Norm: 1.2391960620880127)
Step... (6975 | Loss: 0.22440995275974274, Learning Rate: 8.69212Training...:  68% 1782/2609 [1:40:49<40:09,  2.91s/it][A1627973393e-05, Gradient Norm: 0.7573191523551941)

Training...:  68% 1783/2609 [1:40:52<38:46,  2.82s/it][A
Training...:  68% 1784/2609 [1:40:54<36:51,  2.68s/it][A
Training...:  68% 1785/2609 [1:40:57<35:26,  2.58s/it][A
Training...:  68% 1786/2609 [1:40:59<33:59,  2.48s/it][A
Training...:  68% 1787/2609 [1:41:01<32:36,  2.38s/it][A
Training...:  69% 1788/2609 [1:41:03<31:16,  2.29s/it][A
Training...:  69% 1789/2609 [1:41:05<29:55,  2.19s/it][A
Training...:  69% 1790/2609 [1:41:07<28:35,  2.09s/it][A
Training...:  69% 1791/2609 [1:41:09<27:24,  2.01s/it][A
Training...:  69% 1792/2609 [1:41:10<26:03,  1.91s/it][A
Training...:  69% 1793/2609 [1:41:12<24:48,  1.82s/it][A
Training...:  69% 1794/2609 [1:41:13<23:24,  1.72s/it][A
Training...:  69% 1795/2609 [1:41:15<22:04,  1.63s/it][A
Training...:  69% 1796/2609 [1:41:16<20:42,  1.53s/it][A
Training...:  69% 1797/2609 [1:41:17<19:11,  1.42s/it][A
Training...:  69% 1798/2609 [1:41:18<17:33,  1.30s/it][A
Training...:  69% 1799/2609 [1:41:19<15:39,  1.16s/it][A
Training...:  69% 1800/2609 [1:41:20<13:11,  1.02it/s][A
Training...:  69% 1801/2609 [1:41:27<37:13,  2.76s/it][A
Training...:  69% 1802/2609 [1:41:34<53:40,  3.99s/it][A
Training...:  69% 1803/2609 [1:41:40<1:03:13,  4.71s/it][A
Training...:  69% 1804/2609 [1:41:46<1:09:00,  5.14s/it][A
Training...:  69% 1805/2609 [1:41:52<1:11:50,  5.36s/it][A
Training...:  69% 1806/2609 [1:41:58<1:12:36,  5.42s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:48:00<45:30:49, 9102.74s/it]
Training...:  69% 1806/2609 [1:42:04<1:12:36,  5.42s/it][A
Training...:  69% 1807/2609 [1:42:04<1:16:13,  5.70s/it][A
Training...:  69% 1808/2609 [1:42:09<1:14:18,  5.57s/it][A
Training...:  69% 1809/2609 [1:42:14<1:12:45,  5.46s/it][A
Training...:  69% 1810/2609 [1:42:19<1:10:57,  5.33s/it][A
Training...:  69% 1811/2609 [1:42:24<1:09:15,  5.21s/it][A
Training...:  69% 1812/2609 [1:42:29<1:06:56,  5.04s/it][A
Training...:  69% 1813/2609 [1:42:33<1:04:32,  4.87s/it][A
Training...:  70% 1814/2609 [1:42:38<1:02:16,  4.70s/it][A
Training...:  70% 1815/2609 [1:42:42<1:00:15,  4.55s/it][A
Training...:  70% 1816/2609 [1:42:46<58:04,  4.39s/it]  [A
Training...:  70% 1817/2609 [1:42:50<56:23,  4.27s/it][A
Training...:  70% 1818/2609 [1:42:54<54:47,  4.16s/it][A
Training...:  70% 1819/2609 [1:42:58<53:15,  4.05s/it][A
Training...:  70% 1820/2609 [1:43:01<51:40,  3.93s/it][A
Training...:  70% 1821/2609 [1:43:05<50:09,  3.82s/it][A
Training...:  70% 1822/2609 [1:43:08<48:36,  3.71s/it][A
Training...:  70% 1823/2609 [1:43:12<47:28,  3.62s/it][A
Training...:  70% 1824/2609 [1:43:15<46:00,  3.52s/it][A
Training...:  70% 1825/2609 [1:43:18<44:58,  3.44s/it][A
Training...:  70% 1826/2609 [1:43:21<43:23,  3.33s/it][A
Training...:  70% 1827/2609 [1:43:24<42:06,  3.23s/it][A
Training...:  70% 1828/2609 [1:43:27<40:50,  3.14s/it][A
Training...:  70% 1829/2609 [1:43:30<39:42,  3.05s/it][A
Training...:  70% 1830/2609 [1:43:33<38:41,  2.98s/it][A
Training...:  70% 1831/2609 [1:43:36<37:26,  2.89s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [6:49:35<45:30:49, 9102.74s/it]
Training...:  70% 1831/2609 [1:43:39<37:26,  2.89s/it][A
Training...:  70% 1832/2609 [1:43:39<38:01,  2.94s/it][A
Training...:  70% 1833/2609 [1:43:41<36:13,  2.80s/it][A
Training...:  70% 1834/2609 [1:43:43<34:33,  2.68s/it][A
Training...:  70% 1835/2609 [1:43:46<33:13,  2.58s/it][A
Training...:  70% 1836/2609 [1:43:48<31:45,  2.46s/it][A
Training...:  70% 1837/2609 [1:43:50<30:27,  2.37s/it][A
Training...:  70% 1838/2609 [1:43:52<29:08,  2.27s/it][A
Training...:  70% 1839/2609 [1:43:54<27:56,  2.18s/it][A
Training...:  71% 1840/2609 [1:43:56<26:47,  2.09s/it][A
Training...:  71% 1841/2609 [1:43:58<25:31,  1.99s/it][A
Training...:  71% 1842/2609 [1:44:00<24:25,  1.91s/it][A
Training...:  71% 1843/2609 [1:44:01<23:16,  1.82s/it][A
Training...:  71% 1844/2609 [1:44:03<22:05,  1.73s/it][A
Training...:  71% 1845/2609 [1:44:04<20:37,  1.62s/it][A
Training...:  71% 1846/2609 [1:44:05<19:06,  1.50s/it][A
Training...:  71% 1847/2609 [1:44:06<17:37,  1.39s/it][A
Training...:  71% 1848/2609 [1:44:07<15:54,  1.25s/it][A
Training...:  71% 1849/2609 [1:44:08<13:58,  1.10s/it][A
Training...:  71% 1850/2609 [1:44:09<11:43,  1.08it/s][A
Training...:  71% 1851/2609 [1:44:16<34:38,  2.74s/it][A
Training...:  71% 1852/2609 [1:44:22<49:51,  3.95s/it][A
Training...:  71% 1853/2609 [1:44:29<59:11,  4.70s/it][A
Training...:  71% 1854/2609 [1:44:35<1:04:48,  5.15s/it][A
Training...:  71% 1855/2609 [1:44:41<1:07:56,  5.41s/it][A
Training...:  71% 1856/2609 [1:44:47<1:09:06,  5.51s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:50:49<45:30:49, 9102.74s/it]
Training...:  71% 1856/2609 [1:44:53<1:09:06,  5.51s/it][A
Training...:  71% 1857/2609 [1:44:53<1:12:05,  5.75s/it][A
Training...:  71% 1858/2609 [1:44:58<1:09:45,  5.57s/it][A
Training...:  71% 1859/2609 [1:45:03<1:07:56,  5.43s/it][A
Training...:  71% 1860/2609 [1:45:08<1:05:29,  5.25s/it][A
Training...:  71% 1861/2609 [1:45:13<1:03:25,  5.09s/it][A
Training...:  71% 1862/2609 [1:45:17<1:01:06,  4.91s/it][A
Training...:  71% 1863/2609 [1:45:22<59:11,  4.76s/it]  [A
Training...:  71% 1864/2609 [1:45:26<57:09,  4.60s/it][A
Training...:  71% 1865/2609 [1:45:30<55:25,  4.47s/it][A
Training...:  72% 1866/2609 [1:45:34<53:40,  4.33s/it][A
Training...:  72% 1867/2609 [1:45:38<52:14,  4.22s/it][A
Training...:  72% 1868/2609 [1:45:42<50:34,  4.09s/it][A
Training...:  72% 1869/2609 [1:45:46<49:25,  4.01s/it][A
Training...:  72% 1870/2609 [1:45:49<47:45,  3.88s/it][A
Training...:  72% 1871/2609 [1:45:53<46:31,  3.78s/it][A
Training...:  72% 1872/2609 [1:45:56<45:18,  3.69s/it][A
Training...:  72% 1873/2609 [1:46:00<44:10,  3.60s/it][A
Training...:  72% 1874/2609 [1:46:03<42:44,  3.49s/it][A
Training...:  72% 1875/2609 [1:46:06<41:31,  3.39s/it][A
Training...:  72% 1876/2609 [1:46:09<40:28,  3.31s/it][A
Training...:  72% 1877/2609 [1:46:12<39:26,  3.23s/it][A
Training...:  72% 1878/2609 [1:46:15<38:19,  3.15s/it][A
Training...:  72% 1879/2609 [1:46:18<37:18,  3.07s/it][A
Training...:  72% 1880/2609 [1:46:21<36:08,  2.97s/it][A
Training...:  72% 1881/2609 [1:46:24<35:10,  2.90s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [6:52:23<45:30:49, 9102.74s/it]
Training...:  72% 1881/2609 [1:46:27<35:10,  2.90s/it][A
Training...:  72% 1882/2609 [1:46:27<35:37,  2.94s/it][A
Training...:  72% 1883/2609 [1:46:29<34:01,  2.81s/it][A
Training...:  72% 1884/2609 [1:46:32<32:36,  2.70s/it][A
Training...:  72% 1885/2609 [1:46:34<31:26,  2.61s/it][A
Training...:  72% 1886/2609 [1:46:36<30:20,  2.52s/it][A
Training...:  72% 1887/2609 [1:46:39<29:15,  2.43s/it][A
Training...:  72% 1888/2609 [1:46:41<28:08,  2.34s/it][A
Training...:  72% 1889/2609 [1:46:43<27:02,  2.25s/it][A
Training...:  72% 1890/2609 [1:46:45<25:52,  2.16s/it][A
Training...:  72% 1891/2609 [1:46:46<24:36,  2.06s/it][A
Training...:  73% 1892/2609 [1:46:48<23:22,  1.96s/it][A
Training...:  73% 1893/2609 [1:46:50<22:03,  1.85s/it][A
Training...:  73% 1894/2609 [1:46:51<20:37,  1.73s/it][A
Training...:  73% 1895/2609 [1:46:53<19:22,  1.63s/it][A
Training...:  73% 1896/2609 [1:46:54<18:08,  1.53s/it][A
Training...:  73% 1897/2609 [1:46:55<16:43,  1.41s/it][A
Training...:  73% 1898/2609 [1:46:56<15:13,  1.28s/it][A
Training...:  73% 1899/2609 [1:46:57<13:25,  1.13s/it][A
Training...:  73% 1900/2609 [1:46:57<11:16,  1.05it/s][A
Training...:  73% 1901/2609 [1:47:05<33:21,  2.83s/it][A
Training...:  73% 1902/2609 [1:47:12<48:20,  4.10s/it][A
Training...:  73% 1903/2609 [1:47:18<57:06,  4.85s/it][A
Training...:  73% 1904/2609 [1:47:24<1:01:48,  5.26s/it][A
Training...:  73% 1905/2609 [1:47:30<1:03:54,  5.45s/it][A
Training...:  73% 1906/2609 [1:47:36<1:04:32,  5.51s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:53:38<45:30:49, 9102.74s/it]
Training...:  73% 1906/2609 [1:47:42<1:04:32,  5.51s/it][A
Training...:  73% 1907/2609 [1:47:42<1:07:19,  5.75s/it][A
Training...:  73% 1908/2609 [1:47:47<1:05:18,  5.59s/it][A
Training...:  73% 1909/2609 [1:47:53<1:03:23,  5.43s/it][A
Training...:  73% 1910/2609 [1:47:57<1:01:24,  5.27s/it][A
Training...:  73% 1911/2609 [1:48:02<59:40,  5.13s/it]  [A
Training...:  73% 1912/2609 [1:48:07<57:41,  4.97s/it][A
Training...:  73% 1913/2609 [1:48:11<56:01,  4.83s/it][A
Training...:  73% 1914/2609 [1:48:16<54:45,  4.73s/it][A
Training...:  73% 1915/2609 [1:48:20<53:06,  4.59s/it][A
Training...:  73% 1916/2609 [1:48:24<51:25,  4.45s/it][A
Training...:  73% 1917/2609 [1:48:28<49:47,  4.32s/it][A
Training...:  74% 1918/2609 [1:48:32<48:07,  4.18s/it][A
Training...:  74% 1919/2609 [1:48:36<46:33,  4.05s/it][A
Training...:  74% 1920/2609 [1:48:40<45:15,  3.94s/it][A
Training...:  74% 1921/2609 [1:48:43<44:04,  3.84s/it][A
Training...:  74% 1922/2609 [1:48:47<42:35,  3.72s/it][A
Training...:  74% 1923/2609 [1:48:50<41:31,  3.63s/it][A
Training...:  74% 1924/2609 [1:48:53<40:07,  3.52s/it][A
Training...:  74% 1925/2609 [1:48:56<39:05,  3.43s/it][A
Training...:  74% 1926/2609 [1:49:00<37:59,  3.34s/it][A
Training...:  74% 1927/2609 [1:49:03<37:06,  3.26s/it][A
Training...:  74% 1928/2609 [1:49:06<36:11,  3.19s/it][A
Training...:  74% 1929/2609 [1:49:09<35:17,  3.11s/it][A
Training...:  74% 1930/2609 [1:49:11<34:02,  3.01s/it][A
Training...:  74% 1931/2609 [1:49:14<32:55,  2.91s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [6:55:13<45:30:49, 9102.74s/it]
Training...:  74% 1931/2609 [1:49:17<32:55,  2.91s/it][A
Training...:  74% 1932/2609 [1:49:17<33:11,  2.94s/it][A
Training...:  74% 1933/2609 [1:49:20<31:43,  2.82s/it][A
Training...:  74% 1934/2609 [1:49:22<30:13,  2.69s/it][A
Training...:  74% 1935/2609 [1:49:24<29:02,  2.59s/it][A
Training...:  74% 1936/2609 [1:49:27<28:00,  2.50s/it][A
Training...:  74% 1937/2609 [1:49:29<26:49,  2.39s/it][A
Training...:  74% 1938/2609 [1:49:31<25:47,  2.31s/it][A
Training...:  74% 1939/2609 [1:49:33<25:44,  2.31s/it][A
Training...:  74% 1940/2609 [1:49:35<24:33,  2.20s/it][A
Training...:  74% 1941/2609 [1:49:37<23:12,  2.08s/it][A
Training...:  74% 1942/2609 [1:49:39<21:50,  1.96s/it][A
Training...:  74% 1943/2609 [1:49:40<20:30,  1.85s/it][A
Training...:  75% 1944/2609 [1:49:42<19:12,  1.73s/it][A
Training...:  75% 1945/2609 [1:49:43<18:03,  1.63s/it][A
Training...:  75% 1946/2609 [1:49:44<16:43,  1.51s/it][A
Training...:  75% 1947/2609 [1:49:45<15:26,  1.40s/it][A
Training...:  75% 1948/2609 [1:49:46<14:00,  1.27s/it][A
Training...:  75% 1949/2609 [1:49:47<12:21,  1.12s/it][A
Training...:  75% 1950/2609 [1:49:48<10:20,  1.06it/s][A
Training...:  75% 1951/2609 [1:49:55<30:31,  2.78s/it][A
Training...:  75% 1952/2609 [1:50:02<43:54,  4.01s/it][A
Training...:  75% 1953/2609 [1:50:08<52:00,  4.76s/it][A
Training...:  75% 1954/2609 [1:50:14<56:39,  5.19s/it][A
Training...:  75% 1955/2609 [1:50:21<59:45,  5.48s/it][A
Training...:  75% 1956/2609 [1:50:27<1:01:21,  5.64s/it][A                                                           
                                                        [AEpoch ... (1/20):  10% 2/20 [6:56:29<45:30:49, 9102.74s/it]
Training...:  75% 1956/2609 [1:50:33<1:01:21,  5.64s/it][A
Training...:  75% 1957/2609 [1:50:33<1:03:31,  5.85s/it][A
Training...:  75% 1958/2609 [1:50:38<1:01:35,  5.68s/it][A
Training...:  75% 1959/2609 [1:50:43<59:47,  5.52s/it]  [A
Training...:  75% 1960/2609 [1:50:48<57:41,  5.33s/it][A
Training...:  75% 1961/2609 [1:50:53<55:49,  5.17s/it][A
Training...:  75% 1962/2609 [1:50:58<53:43,  4.98s/it][A
Training...:  75% 1963/2609 [1:51:02<52:06,  4.84s/it][A
Training...:  75% 1964/2609 [1:51:06<50:12,  4.67s/it][A
Training...:  75% 1965/2609 [1:51:11<48:45,  4.54s/it][A
Training...:  75% 1966/2609 [1:51:15<47:08,  4.40s/it][A
Training...:  75% 1967/2609 [1:51:19<45:39,  4.27s/it][A
Training...:  75% 1968/2609 [1:51:22<44:17,  4.15s/it][A
Training...:  75% 1969/2609 [1:51:26<43:00,  4.03s/it][A
Training...:  76% 1970/2609 [1:51:30<41:39,  3.91s/it][A
Training...:  76% 1971/2609 [1:51:33<40:35,  3.82s/it][A
Training...:  76% 1972/2609 [1:51:37<39:19,  3.70s/it][A
Training...:  76% 1973/2609 [1:51:40<38:22,  3.62s/it][A
Training...:  76% 1974/2609 [1:51:44<37:09,  3.51s/it][A
Training...:  76% 1975/2609 [1:51:47<36:15,  3.43s/it][A
Training...:  76% 1976/2609 [1:51:50<35:07,  3.33s/it][A
Training...:  76% 1977/2609 [1:51:53<33:56,  3.22s/it][A
Training...:  76% 1978/2609 [1:51:56<32:48,  3.12s/it][A
Training...:  76% 1979/2609 [1:51:59<31:53,  3.04s/it][A
Training...:  76% 1980/2609 [1:52:01<31:13,  2.98s/it][A
Training...:  76% 1981/2609 [1:52:04<30:15,  2.89s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [6:58:03<45:30:49, 9102.74s/it]
Training...:  76% 1981/2609 [1:52:07<30:15,  2.89s/it][A
Training...:  76% 1982/2609 [1:52:07<30:44,  2.94s/it][A
Training...:  76% 1983/2609 [1:52:10<29:22,  2.82s/it][A
Training...:  76% 1984/2609 [1:52:12<28:07,  2.70s/it][A
Training...:  76% 1985/2609 [1:52:15<27:03,  2.60s/it][A
Training...:  76% 1986/2609 [1:52:17<25:55,  2.50s/it][A
Training...:  76% 1987/2609 [1:52:19<24:44,  2.39s/it][A
Training...:  76% 1988/2609 [1:52:21<23:41,  2.29s/it][A
Training...:  76% 1989/2609 [1:52:23<22:39,  2.19s/it][A
Training...:  76% 1990/2609 [1:52:25<21:39,  2.10s/it][A
Training...:  76% 1991/2609 [1:52:27<20:36,  2.00s/it][A
Training...:  76% 1992/2609 [1:52:28<19:39,  1.91s/it][A
Training...:  76% 1993/2609 [1:52:30<18:41,  1.82s/it][A
Training...:  76% 1994/2609 [1:52:31<17:37,  1.72s/it][A
Training...:  76% 1995/2609 [1:52:33<16:36,  1.62s/it][A
Training...:  77% 1996/2609 [1:52:34<15:27,  1.51s/it][A
Training...:  77% 1997/2609 [1:52:35<14:18,  1.40s/it][A
Training...:  77% 1998/2609 [1:52:36<12:57,  1.27s/it][A
Training...:  77% 1999/2609 [1:52:37<11:29,  1.13s/it][A
Training...:  77% 2000/2609 [1:52:38<09:42,  1.04it/s][A
Training...:  77% 2001/2609 [1:52:45<28:12,  2.78s/it][A
Training...:  77% 2002/2609 [1:52:52<40:59,  4.05s/it][A
Training...:  77% 2003/2609 [1:52:58<48:25,  4.79s/it][A
Training...:  77% 2004/2609 [1:53:04<52:47,  5.23s/it][A
Training...:  77% 2005/2609 [1:53:10<54:59,  5.46s/it][A
Training...:  77% 2006/2609 [1:53:16<55:48,  5.55s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [6:59:19<45:30:49, 9102.74s/it]
Training...:  77% 2006/2609 [1:53:23<55:48,  5.55s/it][A
Training...:  77% 2007/2609 [1:53:23<58:25,  5.82s/it][A
Training...:  77% 2008/2609 [1:53:28<57:35,  5.75s/it][A
Training...:  77% 2009/2609 [1:53:33<55:34,  5.56s/it][A
Training...:  77% 2010/2609 [1:53:38<53:30,  5.36s/it][A
Training...:  77% 2011/2609 [1:53:43<51:36,  5.18s/it][A
Training...:  77% 2012/2609 [1:53:47<49:43,  5.00s/it][A
Training...:  77% 2013/2609 [1:53:52<48:07,  4.84s/it][A
Training...:  77% 2014/2609 [1:53:56<46:20,  4.67s/it][A
Training...:  77% 2015/2609 [1:54:00<44:47,  4.52s/it][A
Training...:  77% 2016/2609 [1:54:04<43:21,  4.39s/it][A
Training...:  77% 2017/2609 [1:54:08<42:04,  4.26s/it][A
Training...:  77% 2018/2609 [1:54:12<40:44,  4.14s/it][A
Training...:  77% 2019/2609 [1:54:16<39:34,  4.02s/it][A
Training...:  77% 2020/2609 [1:54:20<38:19,  3.90s/it][A
Training...:  77% 2021/2609 [1:54:23<37:23,  3.82s/it][A
Training...:  78% 2022/2609 [1:54:27<36:23,  3.72s/it][A
Training...:  78% 2023/2609 [1:54:30<35:32,  3.64s/it][A
Training...:  78% 2024/2609 [1:54:34<34:33,  3.54s/it][A
Training...:  78% 2025/2609 [1:54:37<33:38,  3.46s/it][A
Training...:  78% 2026/2609 [1:54:40<32:32,  3.35s/it][A
Training...:  78% 2027/2609 [1:54:43<31:38,  3.26s/it][A
Training...:  78% 2028/2609 [1:54:46<30:31,  3.15s/it][A
Training...:  78% 2029/2609 [1:54:49<29:45,  3.08s/it][A
Training...:  78% 2030/2609 [1:54:52<28:48,  2.99s/it][A
Training...:  78% 2031/2609 [1:54:54<27:58,  2.90s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:00:54<45:30:49, 9102.74s/it]
Training...:  78% 2031/2609 [1:54:57<27:58,  2.90s/it][A
Training...:  78% 2032/2609 [1:54:57<28:27,  2.96s/it][A
Training...:  78% 2033/2609 [1:55:00<27:20,  2.85s/it][A
Training...:  78% 2034/2609 [1:55:02<26:14,  2.74s/it][A
Training...:  78% 2035/2609 [1:55:05<25:07,  2.63s/it][A
Training...:  78% 2036/2609 [1:55:07<24:04,  2.52s/it][A
Training...:  78% 2037/2609 [1:55:09<23:05,  2.42s/it][A
Training...:  78% 2038/2609 [1:55:11<22:02,  2.32s/it][A
Training...:  78% 2039/2609 [1:55:13<21:05,  2.22s/it][A
Training...:  78% 2040/2609 [1:55:15<20:08,  2.12s/it][A
Training...:  78% 2041/2609 [1:55:17<19:11,  2.03s/it][A
Training...:  78% 2042/2609 [1:55:19<18:16,  1.93s/it][A
Training...:  78% 2043/2609 [1:55:20<17:22,  1.84s/it][A
Training...:  78% 2044/2609 [1:55:22<16:21,  1.74s/it][A
Training...:  78% 2045/2609 [1:55:23<15:17,  1.63s/it][A
Training...:  78% 2046/2609 [1:55:24<14:12,  1.51s/it][A
Training...:  78% 2047/2609 [1:55:26<13:09,  1.40s/it][A
Training...:  78% 2048/2609 [1:55:27<12:02,  1.29s/it][A
Training...:  79% 2049/2609 [1:55:27<10:42,  1.15s/it][A
Training...:  79% 2050/2609 [1:55:28<09:00,  1.03it/s][A
Training...:  79% 2051/2609 [1:55:35<26:02,  2.80s/it][A
Training...:  79% 2052/2609 [1:55:42<37:19,  4.02s/it][A
Training...:  79% 2053/2609 [1:55:48<43:54,  4.74s/it][A
Training...:  79% 2054/2609 [1:55:55<48:08,  5.20s/it][A
Training...:  79% 2055/2609 [1:56:01<50:04,  5.42s/it][A
Training...:  79% 2056/2609 [1:56:06<50:37,  5.49s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:02:09<45:30:49, 9102.74s/it]
Training...:  79% 2056/2609 [1:56:13<50:37,  5.49s/it][A
Training...:  79% 2057/2609 [1:56:13<52:37,  5.72s/it][A
Training...:  79% 2058/2609 [1:56:18<50:50,  5.54s/it][A
Training...:  79% 2059/2609 [1:56:23<49:27,  5.40s/it][A
Training...:  79% 2060/2609 [1:56:28<48:00,  5.25s/it][A
Training...:  79% 2061/2609 [1:56:32<46:30,  5.09s/it][A
Training...:  79% 2062/2609 [1:56:37<44:58,  4.93s/it][A
Training...:  79% 2063/2609 [1:56:42<44:10,  4.85s/it][A
Training...:  79% 2064/2609 [1:56:46<42:32,  4.68s/it][A
Training...:  79% 2065/2609 [1:56:50<41:01,  4.53s/it][A
Training...:  79% 2066/2609 [1:56:54<39:42,  4.39s/it][A
Training...:  79% 2067/2609 [1:56:58<38:35,  4.27s/it][A
Training...:  79% 2068/2609 [1:57:02<37:16,  4.13s/it][A
Training...:  79% 2069/2609 [1:57:06<36:14,  4.03s/it][A
Training...:  79% 2070/2609 [1:57:09<35:07,  3.91s/it][A
Training...:  79% 2071/2609 [1:57:13<34:11,  3.81s/it][A
Training...:  79% 2072/2609 [1:57:16<33:16,  3.72s/it][A
Training...:  79% 2073/2609 [1:57:20<32:19,  3.62s/it][A
Training...:  79% 2074/2609 [1:57:23<31:22,  3.52s/it][A
Training...:  80% 2075/2609 [1:57:26<30:38,  3.44s/it][A
Training...:  80% 2076/2609 [1:57:29<29:41,  3.34s/it][A
Training...:  80% 2077/2609 [1:57:32<28:51,  3.25s/it][A
Training...:  80% 2078/2609 [1:57:35<28:01,  3.17s/it][A
Training...:  80% 2079/2609 [1:57:38<27:14,  3.08s/it][A
Training...:  80% 2080/2609 [1:57:41<26:28,  3.00s/it][A
Training...:  80% 2081/2609 [1:57:44<25:36,  2.91s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:03:43<45:30:49, 9102.74s/it]
Training...:  80% 2081/2609 [1:57:47<25:36,  2.91s/it][A
Training...:  80% 2082/2609 [1:57:47<25:58,  2.96s/it][A
Training...:  80% 2083/2609 [1:57:49<24:41,  2.82s/it][A
Training...:  80% 2084/2609 [1:57:52<23:42,  2.71s/it][A
Training...:  80% 2085/2609 [1:57:54<22:45,  2.61s/it][A
Training...:  80% 2086/2609 [1:57:56<21:48,  2.50s/it][A
Training...:  80% 2087/2609 [1:57:59<20:56,  2.41s/it][A
Training...:  80% 2088/2609 [1:58:01<20:00,  2.30s/it][A
Training...:  80% 2089/2609 [1:58:03<19:09,  2.21s/it][A
Training...:  80% 2090/2609 [1:58:05<18:14,  2.11s/it][A
Training...:  80% 2091/2609 [1:58:06<17:23,  2.01s/it][A
Training...:  80% 2092/2609 [1:58:08<16:30,  1.92s/it][A
Training...:  80% 2093/2609 [1:58:10<15:38,  1.82s/it][A
Training...:  80% 2094/2609 [1:58:11<14:46,  1.72s/it][A
Training...:  80% 2095/2609 [1:58:13<13:50,  1.62s/it][A
Training...:  80% 2096/2609 [1:58:14<12:57,  1.52s/it][A
Training...:  80% 2097/2609 [1:58:15<11:58,  1.40s/it][A
Training...:  80% 2098/2609 [1:58:16<10:51,  1.28s/it][A
Training...:  80% 2099/2609 [1:58:17<09:36,  1.13s/it][A
Training...:  80% 2100/2609 [1:58:17<08:10,  1.04it/s][A
Training...:  81% 2101/2609 [1:58:24<23:34,  2.79s/it][A
Training...:  81% 2102/2609 [1:58:31<34:26,  4.08s/it][A
Training...:  81% 2103/2609 [1:58:38<40:38,  4.82s/it][A
Training...:  81% 2104/2609 [1:58:44<44:27,  5.28s/it][A
Training...:  81% 2105/2609 [1:58:50<46:15,  5.51s/it][A
Training...:  81% 2106/2609 [1:58:56<46:27,  5.54s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:04:58<45:30:49, 9102.74s/it]
Training...:  81% 2106/2609 [1:59:02<46:27,  5.54s/it][A
Training...:  81% 2107/2609 [1:59:02<48:23,  5.78s/it][A
Training...:  81% 2108/2609 [1:59:08<46:54,  5.62s/it][A
Training...:  81% 2109/2609 [1:59:13<45:31,  5.46s/it][A
Training...:  81% 2110/2609 [1:59:17<43:52,  5.28s/it][A
Training...:  81% 2111/2609 [1:59:22<42:41,  5.14s/it][A
Training...:  81% 2112/2609 [1:59:27<41:04,  4.96s/it][A
Training...:  81% 2113/2609 [1:59:31<40:02,  4.84s/it][A
Training...:  81% 2114/2609 [1:59:36<38:37,  4.68s/it][A
Training...:  81% 2115/2609 [1:59:40<37:29,  4.55s/it][A
Training...:  81% 2116/2609 [1:59:44<36:07,  4.40s/it][A
Training...:  81% 2117/2609 [1:59:48<35:07,  4.28s/it][A
Training...:  81% 2118/2609 [1:59:52<34:04,  4.16s/it][A
Training...:  81% 2119/2609 [1:59:56<33:05,  4.05s/it][A
Training...:  81% 2120/2609 [1:59:59<31:58,  3.92s/it][A
Training...:  81% 2121/2609 [2:00:03<31:11,  3.84s/it][A
Training...:  81% 2122/2609 [2:00:06<30:11,  3.72s/it][A
Training...:  81% 2123/2609 [2:00:10<29:20,  3.62s/it][A
Training...:  81% 2124/2609 [2:00:13<28:31,  3.53s/it][A
Training...:  81% 2125/2609 [2:00:16<27:43,  3.44s/it][A
Training...:  81% 2126/2609 [2:00:19<26:54,  3.34s/it][A
Training...:  82% 2127/2609 [2:00:23<26:10,  3.26s/it][A
Training...:  82% 2128/2609 [2:00:25<25:26,  3.17s/it][A
Training...:  82% 2129/2609 [2:00:28<24:54,  3.11s/it][A
Training...:  82% 2130/2609 [2:00:31<24:21,  3.05s/it][A
Training...:  82% 2131/2609 [2:00:34<23:38,  2.97s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:06:33<45:30:49, 9102.74s/it]
Training...:  82% 2131/2609 [2:00:37<23:38,  2.97s/it][A
Training...:  82% 2132/2609 [2:00:37<23:56,  3.01s/it][A
Training...:  82% 2133/2609 [2:00:40<22:53,  2.89s/it][A
Training...:  82% 2134/2609 [2:00:42<21:59,  2.78s/it][A
Training...:  82% 2135/2609 [2:00:45<21:04,  2.67s/it][A
Training...:  82% 2136/2609 [2:00:47<20:12,  2.56s/it][A
Training...:  82% 2137/2609 [2:00:49<19:28,  2.48s/it][A
Training...:  82% 2138/2609 [2:00:52<18:44,  2.39s/it][A
Training...:  82% 2139/2609 [2:00:54<17:55,  2.29s/it][A
Training...:  82% 2140/2609 [2:00:56<17:06,  2.19s/it][A
Training...:  82% 2141/2609 [2:00:57<16:21,  2.10s/it][A
Training...:  82% 2142/2609 [2:00:59<15:32,  2.00s/it][A
Training...:  82% 2143/2609 [2:01:01<14:47,  1.90s/it][A
Training...:  82% 2144/2609 [2:01:03<14:03,  1.81s/it][A
Training...:  82% 2145/2609 [2:01:04<13:14,  1.71s/it][A
Training...:  82% 2146/2609 [2:01:05<12:26,  1.61s/it][A
Training...:  82% 2147/2609 [2:01:07<11:26,  1.48s/it][A
Training...:  82% 2148/2609 [2:01:08<10:18,  1.34s/it][A
Training...:  82% 2149/2609 [2:01:08<09:03,  1.18s/it][A
Training...:  82% 2150/2609 [2:01:09<07:36,  1.01it/s][A
Training...:  82% 2151/2609 [2:01:16<21:31,  2.82s/it][A
Training...:  82% 2152/2609 [2:01:23<30:52,  4.05s/it][A
Training...:  83% 2153/2609 [2:01:29<36:26,  4.79s/it][A
Training...:  83% 2154/2609 [2:01:36<39:35,  5.22s/it][A
Training...:  83% 2155/2609 [2:01:42<40:57,  5.41s/it][A
Training...:  83% 2156/2609 [2:01:47<41:41,  5.52s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:07:50<45:30:49, 9102.74s/it]
Training...:  83% 2156/2609 [2:01:54<41:41,  5.52s/it][A
Training...:  83% 2157/2609 [2:01:54<43:51,  5.82s/it][A
Training...:  83% 2158/2609 [2:01:59<42:17,  5.63s/it][A
Training...:  83% 2159/2609 [2:02:04<40:57,  5.46s/it][A
Training...:  83% 2160/2609 [2:02:09<39:34,  5.29s/it][A
Training...:  83% 2161/2609 [2:02:14<38:15,  5.12s/it][A
Training...:  83% 2162/2609 [2:02:18<36:51,  4.95s/it][A
Training...:  83% 2163/2609 [2:02:23<35:52,  4.83s/it][A
Training...:  83% 2164/2609 [2:02:27<34:41,  4.68s/it][A
Training...:  83% 2165/2609 [2:02:31<33:40,  4.55s/it][A
Training...:  83% 2166/2609 [2:02:36<32:49,  4.44s/it][A
Training...:  83% 2167/2609 [2:02:40<31:48,  4.32s/it][A
Training...:  83% 2168/2609 [2:02:44<30:50,  4.20s/it][A
Training...:  83% 2169/2609 [2:02:47<29:57,  4.08s/it][A
Training...:  83% 2170/2609 [2:02:51<28:55,  3.95s/it][A
Training...:  83% 2171/2609 [2:02:55<28:02,  3.84s/it][A
Training...:  83% 2172/2609 [2:02:58<27:14,  3.74s/it][A
Training...:  83% 2173/2609 [2:03:02<26:31,  3.65s/it][A
Training...:  83% 2174/2609 [2:03:05<25:51,  3.57s/it][A
Training...:  83% 2175/2609 [2:03:08<25:03,  3.47s/it][A
Training...:  83% 2176/2609 [2:03:11<24:15,  3.36s/it][A
Training...:  83% 2177/2609 [2:03:14<23:34,  3.27s/it][A
Training...:  83% 2178/2609 [2:03:17<22:48,  3.18s/it][A
Training...:  84% 2179/2609 [2:03:20<22:03,  3.08s/it][A
Training...:  84% 2180/2609 [2:03:23<21:20,  2.98s/it][A
Training...:  84% 2181/2609 [2:03:26<20:43,  2.91s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:09:25<45:30:49, 9102.74s/it]
Training...:  84% 2181/2609 [2:03:29<20:43,  2.91s/it][A
Training...:  84% 2182/2609 [2:03:29<21:06,  2.97s/it][A
Training...:  84% 2183/2609 [2:03:31<20:18,  2.86s/it][A
Training...:  84% 2184/2609 [2:03:34<19:29,  2.75s/it][A
Training...:  84% 2185/2609 [2:03:36<18:36,  2.63s/it][A
Training...:  84% 2186/2609 [2:03:38<17:49,  2.53s/it][A
Training...:  84% 2187/2609 [2:03:41<17:07,  2.44s/it][A
Training...:  84% 2188/2609 [2:03:43<16:24,  2.34s/it][A
Training...:  84% 2189/2609 [2:03:45<15:45,  2.25s/it][A
Training...:  84% 2190/2609 [2:03:47<14:59,  2.15s/it][A
Training...:  84% 2191/2609 [2:03:49<14:14,  2.04s/it][A
Training...:  84% 2192/2609 [2:03:50<13:33,  1.95s/it][A
Training...:  84% 2193/2609 [2:03:52<12:55,  1.86s/it][A
Training...:  84% 2194/2609 [2:03:53<12:10,  1.76s/it][A
Training...:  84% 2195/2609 [2:03:55<11:26,  1.66s/it][A
Training...:  84% 2196/2609 [2:03:56<10:43,  1.56s/it][A
Training...:  84% 2197/2609 [2:03:57<09:55,  1.45s/it][A
Training...:  84% 2198/2609 [2:03:58<09:01,  1.32s/it][A
Training...:  84% 2199/2609 [2:03:59<08:01,  1.17s/it][A
Training...:  84% 2200/2609 [2:04:00<06:47,  1.00it/s][A
Training...:  84% 2201/2609 [2:04:07<19:10,  2.82s/it][A
Training...:  84% 2202/2609 [2:04:14<27:45,  4.09s/it][A
Training...:  84% 2203/2609 [2:04:20<32:39,  4.83s/it][A
Training...:  84% 2204/2609 [2:04:27<35:46,  5.30s/it][A
Training...:  85% 2205/2609 [2:04:33<37:08,  5.51s/it][A
Training...:  85% 2206/2609 [2:04:39<37:31,  5.59s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:10:41<45:30:49, 9102.74s/it]
Training...:  85% 2206/2609 [2:04:45<37:31,  5.59s/it][A
Training...:  85% 2207/2609 [2:04:45<39:15,  5.86s/it][A
Training...:  85% 2208/2609 [2:04:50<38:05,  5.70s/it][A
Training...:  85% 2209/2609 [2:04:56<36:58,  5.55s/it][A
Training...:  85% 2210/2609 [2:05:01<35:28,  5.33s/it][A
Training...:  85% 2211/2609 [2:05:05<34:19,  5.17s/it][A
Training...:  85% 2212/2609 [2:05:10<33:09,  5.01s/it][A
Training...:  85% 2213/2609 [2:05:14<32:03,  4.86s/it][A
Training...:  85% 2214/2609 [2:05:19<31:01,  4.71s/it][A
Training...:  85% 2215/2609 [2:05:23<30:06,  4.59s/it][A
Training...:  85% 2216/2609 [2:05:27<29:04,  4.44s/it][A
Training...:  85% 2217/2609 [2:05:31<28:10,  4.31s/it][A
Training...:  85% 2218/2609 [2:05:35<27:10,  4.17s/it][A
Training...:  85% 2219/2609 [2:05:39<26:20,  4.05s/it][A
Training...:  85% 2220/2609 [2:05:42<25:21,  3.91s/it][A
Training...:  85% 2221/2609 [2:05:46<24:33,  3.80s/it][A
Training...:  85% 2222/2609 [2:05:49<23:49,  3.69s/it][A
Training...:  85% 2223/2609 [2:05:53<23:06,  3.59s/it][A
Training...:  85% 2224/2609 [2:05:56<22:27,  3.50s/it][A
Training...:  85% 2225/2609 [2:05:59<21:52,  3.42s/it][A
Training...:  85% 2226/2609 [2:06:02<21:10,  3.32s/it][A
Training...:  85% 2227/2609 [2:06:05<20:29,  3.22s/it][A
Training...:  85% 2228/2609 [2:06:08<19:46,  3.11s/it][A
Training...:  85% 2229/2609 [2:06:11<19:12,  3.03s/it][A
Training...:  85% 2230/2609 [2:06:14<18:32,  2.93s/it][A
Training...:  86% 2231/2609 [2:06:16<17:53,  2.84s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:12:16<45:30:49, 9102.74s/it]
Training...:  86% 2231/2609 [2:06:19<17:53,  2.84s/it][A
Training...:  86% 2232/2609 [2:06:19<18:07,  2.88s/it][A
Training...:  86% 2233/2609 [2:06:22<17:20,  2.77s/it][A
Training...:  86% 2234/2609 [2:06:24<16:39,  2.67s/it][A
Training...:  86% 2235/2609 [2:06:27<16:00,  2.57s/it][A
Training...:  86% 2236/2609 [2:06:29<15:27,  2.49s/it][A
Training...:  86% 2237/2609 [2:06:31<14:52,  2.40s/it][A
Training...:  86% 2238/2609 [2:06:33<14:17,  2.31s/it][A
Training...:  86% 2239/2609 [2:06:35<13:44,  2.23s/it][A
Training...:  86% 2240/2609 [2:06:37<13:07,  2.13s/it][A
Training...:  86% 2241/2609 [2:06:39<12:35,  2.05s/it][A
Training...:  86% 2242/2609 [2:06:41<11:57,  1.95s/it][A
Training...:  86% 2243/2609 [2:06:42<11:20,  1.86s/it][A
Training...:  86% 2244/2609 [2:06:44<10:37,  1.75s/it][A
Training...:  86% 2245/2609 [2:06:45<09:56,  1.64s/it][A
Training...:  86% 2246/2609 [2:06:47<09:11,  1.52s/it][A
Training...:  86% 2247/2609 [2:06:48<08:24,  1.39s/it][A
Training...:  86% 2248/2609 [2:06:49<07:37,  1.27s/it][A
Training...:  86% 2249/2609 [2:06:49<06:41,  1.12s/it][A
Training...:  86% 2250/2609 [2:06:50<05:35,  1.07it/s][A
Training...:  86% 2251/2609 [2:06:57<16:34,  2.78s/it][A
Training...:  86% 2252/2609 [2:07:04<24:14,  4.07s/it][A
Training...:  86% 2253/2609 [2:07:11<28:54,  4.87s/it][A
Training...:  86% 2254/2609 [2:07:17<31:36,  5.34s/it][A
Training...:  86% 2255/2609 [2:07:23<32:47,  5.56s/it][A
Training...:  86% 2256/2609 [2:07:29<33:09,  5.64s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:13:32<45:30:49, 9102.74s/it]
Training...:  86% 2256/2609 [2:07:36<33:09,  5.64s/it][A
Training...:  87% 2257/2609 [2:07:36<34:40,  5.91s/it][A
Training...:  87% 2258/2609 [2:07:41<33:43,  5.76s/it][A
Training...:  87% 2259/2609 [2:07:46<32:37,  5.59s/it][A
Training...:  87% 2260/2609 [2:07:51<31:15,  5.37s/it][A
Training...:  87% 2261/2609 [2:07:56<30:08,  5.20s/it][A
Training...:  87% 2262/2609 [2:08:01<29:07,  5.04s/it][A
Training...:  87% 2263/2609 [2:08:05<28:10,  4.89s/it][A
Training...:  87% 2264/2609 [2:08:09<27:07,  4.72s/it][A
Training...:  87% 2265/2609 [2:08:14<26:18,  4.59s/it][A
Training...:  87% 2266/2609 [2:08:18<25:21,  4.44s/it][A
Training...:  87% 2267/2609 [2:08:22<24:31,  4.30s/it][A
Training...:  87% 2268/2609 [2:08:26<23:42,  4.17s/it][A
Training...:  87% 2269/2609 [2:08:29<22:57,  4.05s/it][A
Training...:  87% 2270/2609 [2:08:33<22:21,  3.96s/it][A
Training...:  87% 2271/2609 [2:08:37<21:40,  3.85s/it][A
Training...:  87% 2272/2609 [2:08:40<20:59,  3.74s/it][A
Training...:  87% 2273/2609 [2:08:44<20:23,  3.64s/it][A
Training...:  87% 2274/2609 [2:08:47<19:41,  3.53s/it][A
Training...:  87% 2275/2609 [2:08:50<19:05,  3.43s/it][A
Training...:  87% 2276/2609 [2:08:53<18:28,  3.33s/it][A
Training...:  87% 2277/2609 [2:08:56<17:52,  3.23s/it][A
Training...:  87% 2278/2609 [2:08:59<17:19,  3.14s/it][A
Training...:  87% 2279/2609 [2:09:02<16:49,  3.06s/it][A
Training...:  87% 2280/2609 [2:09:05<16:20,  2.98s/it][A
Training...:  87% 2281/2609 [2:09:07<15:50,  2.90s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:15:07<45:30:49, 9102.74s/it]
Training...:  87% 2281/2609 [2:09:11<15:50,  2.90s/it][A
Training...:  87% 2282/2609 [2:09:11<16:03,  2.95s/it][A
Training...:  88% 2283/2609 [2:09:13<15:21,  2.83s/it][A
Training...:  88% 2284/2609 [2:09:16<14:43,  2.72s/it][A
Training...:  88% 2285/2609 [2:09:18<14:06,  2.61s/it][A
Training...:  88% 2286/2609 [2:09:20<13:31,  2.51s/it][A
Training...:  88% 2287/2609 [2:09:22<12:57,  2.42s/it][A
Training...:  88% 2288/2609 [2:09:24<12:23,  2.32s/it][A
Training...:  88% 2289/2609 [2:09:26<11:49,  2.22s/it][A
Training...:  88% 2290/2609 [2:09:28<11:12,  2.11s/it][A
Training...:  88% 2291/2609 [2:09:30<10:39,  2.01s/it][A
Training...:  88% 2292/2609 [2:09:32<10:08,  1.92s/it][A
Training...:  88% 2293/2609 [2:09:33<09:33,  1.82s/it][A
Training...:  88% 2294/2609 [2:09:35<09:03,  1.73s/it][A
Training...:  88% 2295/2609 [2:09:36<08:24,  1.61s/it][A
Training...:  88% 2296/2609 [2:09:38<07:51,  1.51s/it][A
Training...:  88% 2297/2609 [2:09:39<07:11,  1.38s/it][A
Training...:  88% 2298/2609 [2:09:40<06:28,  1.25s/it][A
Training...:  88% 2299/2609 [2:09:40<05:40,  1.10s/it][A
Training...:  88% 2300/2609 [2:09:41<04:45,  1.08it/s][A
Training...:  88% 2301/2609 [2:09:48<14:23,  2.80s/it][A
Training...:  88% 2302/2609 [2:09:55<20:54,  4.09s/it][A
Training...:  88% 2303/2609 [2:10:02<24:42,  4.84s/it][A
Training...:  88% 2304/2609 [2:10:08<26:47,  5.27s/it][A
Training...:  88% 2305/2609 [2:10:14<27:55,  5.51s/it][A
Training...:  88% 2306/2609 [2:10:20<28:12,  5.59s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:16:22<45:30:49, 9102.74s/it]
Training...:  88% 2306/2609 [2:10:26<28:12,  5.59s/it][A
Training...:  88% 2307/2609 [2:10:26<29:16,  5.82s/it][A
Training...:  88% 2308/2609 [2:10:31<28:21,  5.65s/it][A
Training...:  89% 2309/2609 [2:10:37<27:33,  5.51s/it][A
Training...:  89% 2310/2609 [2:10:41<26:31,  5.32s/it][A
Training...:  89% 2311/2609 [2:10:46<25:40,  5.17s/it][A
Training...:  89% 2312/2609 [2:10:51<24:36,  4.97s/it][A
Training...:  89% 2313/2609 [2:10:55<23:46,  4.82s/it][A
Training...:  89% 2314/2609 [2:10:59<22:48,  4.64s/it][A
Training...:  89% 2315/2609 [2:11:04<22:12,  4.53s/it][A
Training...:  89% 2316/2609 [2:11:08<21:39,  4.43s/it][A
Training...:  89% 2317/2609 [2:11:12<20:56,  4.30s/it][A
Training...:  89% 2318/2609 [2:11:16<20:09,  4.16s/it][A
Training...:  89% 2319/2609 [2:11:20<19:28,  4.03s/it][A
Training...:  89% 2320/2609 [2:11:23<18:47,  3.90s/it][A
Training...:  89% 2321/2609 [2:11:27<18:19,  3.82s/it][A
Training...:  89% 2322/2609 [2:11:30<17:46,  3.72s/it][A
Training...:  89% 2323/2609 [2:11:34<17:17,  3.63s/it][A
Training...:  89% 2324/2609 [2:11:37<16:43,  3.52s/it][A
Training...:  89% 2325/2609 [2:11:40<16:15,  3.44s/it][A
Training...:  89% 2326/2609 [2:11:43<15:47,  3.35s/it][A
Training...:  89% 2327/2609 [2:11:46<15:17,  3.25s/it][A
Training...:  89% 2328/2609 [2:11:49<14:45,  3.15s/it][A
Training...:  89% 2329/2609 [2:11:52<14:17,  3.06s/it][A
Training...:  89% 2330/2609 [2:11:55<13:52,  2.98s/it][A
Training...:  89% 2331/2609 [2:11:58<13:28,  2.91s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:17:57<45:30:49, 9102.74s/it]
Training...:  89% 2331/2609 [2:12:01<13:28,  2.91s/it][A
Training...:  89% 2332/2609 [2:12:01<13:42,  2.97s/it][A
Training...:  89% 2333/2609 [2:12:03<13:04,  2.84s/it][A
Training...:  89% 2334/2609 [2:12:06<12:29,  2.73s/it][A
Training...:  89% 2335/2609 [2:12:08<11:57,  2.62s/it][A
Training...:  90% 2336/2609 [2:12:10<11:27,  2.52s/it][A
Training...:  90% 2337/2609 [2:12:13<10:56,  2.41s/it][A
Training...:  90% 2338/2609 [2:12:15<10:25,  2.31s/it][A
Training...:  90% 2339/2609 [2:12:17<09:54,  2.20s/it][A
Training...:  90% 2340/2609 [2:12:18<09:27,  2.11s/it][A
Training...:  90% 2341/2609 [2:12:20<08:58,  2.01s/it][A
Training...:  90% 2342/2609 [2:12:22<08:29,  1.91s/it][A
Training...:  90% 2343/2609 [2:12:24<08:02,  1.81s/it][A
Training...:  90% 2344/2609 [2:12:25<07:33,  1.71s/it][A
Training...:  90% 2345/2609 [2:12:26<07:05,  1.61s/it][A
Training...:  90% 2346/2609 [2:12:28<06:32,  1.49s/it][A
Training...:  90% 2347/2609 [2:12:29<05:59,  1.37s/it][A
Training...:  90% 2348/2609 [2:12:30<05:23,  1.24s/it][A
Training...:  90% 2349/2609 [2:12:30<04:46,  1.10s/it][A
Training...:  90% 2350/2609 [2:12:31<04:02,  1.07it/s][A
Training...:  90% 2351/2609 [2:12:38<11:49,  2.75s/it][A
Training...:  90% 2352/2609 [2:12:45<17:19,  4.05s/it][A
Training...:  90% 2353/2609 [2:12:52<20:27,  4.79s/it][A
Training...:  90% 2354/2609 [2:12:58<22:03,  5.19s/it][A
Training...:  90% 2355/2609 [2:13:04<23:01,  5.44s/it][A
Training...:  90% 2356/2609 [2:13:09<23:24,  5.55s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:19:12<45:30:49, 9102.74s/it]
Training...:  90% 2356/2609 [2:13:16<23:24,  5.55s/it][A
Training...:  90% 2357/2609 [2:13:16<24:16,  5.78s/it][A
Training...:  90% 2358/2609 [2:13:21<23:31,  5.63s/it][A
Training...:  90% 2359/2609 [2:13:26<22:42,  5.45s/it][A
Training...:  90% 2360/2609 [2:13:31<21:44,  5.24s/it][A
Training...:  90% 2361/2609 [2:13:36<20:56,  5.07s/it][A
Training...:  91% 2362/2609 [2:13:40<20:07,  4.89s/it][A
Training...:  91% 2363/2609 [2:13:44<19:26,  4.74s/it][A
Training...:  91% 2364/2609 [2:13:49<18:43,  4.58s/it][A
Training...:  91% 2365/2609 [2:13:53<18:06,  4.45s/it][A
Training...:  91% 2366/2609 [2:13:57<17:25,  4.30s/it][A
Training...:  91% 2367/2609 [2:14:01<16:56,  4.20s/it][A
Training...:  91% 2368/2609 [2:14:04<16:19,  4.06s/it][A
Training...:  91% 2369/2609 [2:14:08<15:50,  3.96s/it][A
Training...:  91% 2370/2609 [2:14:12<15:22,  3.86s/it][A
Training...:  91% 2371/2609 [2:14:15<14:58,  3.77s/it][A
Training...:  91% 2372/2609 [2:14:19<14:28,  3.67s/it][A
Training...:  91% 2373/2609 [2:14:22<13:57,  3.55s/it][A
Training...:  91% 2374/2609 [2:14:25<13:33,  3.46s/it][A
Training...:  91% 2375/2609 [2:14:28<13:08,  3.37s/it][A
Training...:  91% 2376/2609 [2:14:31<12:42,  3.27s/it][A
Training...:  91% 2377/2609 [2:14:34<12:19,  3.19s/it][A
Training...:  91% 2378/2609 [2:14:37<11:59,  3.11s/it][A
Training...:  91% 2379/2609 [2:14:40<11:41,  3.05s/it][A
Training...:  91% 2380/2609 [2:14:43<11:22,  2.98s/it][A
Training...:  91% 2381/2609 [2:14:46<11:00,  2.90s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:20:45<45:30:49, 9102.74s/it]
Training...:  91% 2381/2609 [2:14:49<11:00,  2.90s/it][A
Training...:  91% 2382/2609 [2:14:49<11:07,  2.94s/it][A
Training...:  91% 2383/2609 [2:14:51<10:36,  2.82s/it][A
Training...:  91% 2384/2609 [2:14:54<10:07,  2.70s/it][A
Training...:  91% 2385/2609 [2:14:56<09:40,  2.59s/it][A
Training...:  91% 2386/2609 [2:14:58<09:16,  2.50s/it][A
Training...:  91% 2387/2609 [2:15:01<08:56,  2.42s/it][A
Training...:  92% 2388/2609 [2:15:03<08:31,  2.32s/it][A
Training...:  92% 2389/2609 [2:15:05<08:11,  2.24s/it][A
Training...:  92% 2390/2609 [2:15:07<07:50,  2.15s/it][A
Training...:  92% 2391/2609 [2:15:09<07:25,  2.04s/it][A
Training...:  92% 2392/2609 [2:15:10<07:01,  1.94s/it][A
Training...:  92% 2393/2609 [2:15:12<06:35,  1.83s/it][A
Training...:  92% 2394/2609 [2:15:13<06:10,  1.72s/it][A
Training...:  92% 2395/2609 [2:15:15<05:47,  1.62s/it][A
Training...:  92% 2396/2609 [2:15:16<05:22,  1.52s/it][A
Training...:  92% 2397/2609 [2:15:17<04:56,  1.40s/it][A
Training...:  92% 2398/2609 [2:15:18<04:29,  1.28s/it][A
Training...:  92% 2399/2609 [2:15:19<03:57,  1.13s/it][A
Training...:  92% 2400/2609 [2:15:19<03:19,  1.05it/s][A
Training...:  92% 2401/2609 [2:15:26<09:41,  2.80s/it][A
Training...:  92% 2402/2609 [2:15:33<13:55,  4.04s/it][A
Training...:  92% 2403/2609 [2:15:40<16:17,  4.75s/it][A
Training...:  92% 2404/2609 [2:15:46<17:40,  5.17s/it][A
Training...:  92% 2405/2609 [2:15:52<18:21,  5.40s/it][A
Training...:  92% 2406/2609 [2:15:58<18:32,  5.48s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:22:00<45:30:49, 9102.74s/it]
Training...:  92% 2406/2609 [2:16:04<18:32,  5.48s/it][A
Training...:  92% 2407/2609 [2:16:04<19:23,  5.76s/it][A
Training...:  92% 2408/2609 [2:16:09<18:44,  5.59s/it][A
Training...:  92% 2409/2609 [2:16:14<18:09,  5.45s/it][A
Training...:  92% 2410/2609 [2:16:19<17:27,  5.26s/it][A
Training...:  92% 2411/2609 [2:16:24<16:51,  5.11s/it][A
Training...:  92% 2412/2609 [2:16:28<16:12,  4.94s/it][A
Training...:  92% 2413/2609 [2:16:33<15:39,  4.79s/it][A
Training...:  93% 2414/2609 [2:16:37<15:02,  4.63s/it][A
Training...:  93% 2415/2609 [2:16:41<14:32,  4.50s/it][A
Training...:  93% 2416/2609 [2:16:45<14:07,  4.39s/it][A
Training...:  93% 2417/2609 [2:16:49<13:42,  4.28s/it][A
Training...:  93% 2418/2609 [2:16:53<13:20,  4.19s/it][A
Training...:  93% 2419/2609 [2:16:57<12:55,  4.08s/it][A
Training...:  93% 2420/2609 [2:17:01<12:33,  3.99s/it][A
Training...:  93% 2421/2609 [2:17:05<12:13,  3.90s/it][A
Training...:  93% 2422/2609 [2:17:08<11:49,  3.80s/it][A
Training...:  93% 2423/2609 [2:17:12<11:22,  3.67s/it][A
Training...:  93% 2424/2609 [2:17:15<10:59,  3.56s/it][A
Training...:  93% 2425/2609 [2:17:18<10:40,  3.48s/it][A
Training...:  93% 2426/2609 [2:17:21<10:16,  3.37s/it][A
Training...:  93% 2427/2609 [2:17:24<09:55,  3.27s/it][A
Training...:  93% 2428/2609 [2:17:27<09:35,  3.18s/it][A
Training...:  93% 2429/2609 [2:17:30<09:15,  3.09s/it][A
Training...:  93% 2430/2609 [2:17:33<08:55,  2.99s/it][A
Training...:  93% 2431/2609 [2:17:36<08:37,  2.91s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:23:35<45:30:49, 9102.74s/it]
Training...:  93% 2431/2609 [2:17:39<08:37,  2.91s/it][A
Training...:  93% 2432/2609 [2:17:39<08:43,  2.96s/it][A
Training...:  93% 2433/2609 [2:17:41<08:20,  2.84s/it][A
Training...:  93% 2434/2609 [2:17:44<07:58,  2.73s/it][A
Training...:  93% 2435/2609 [2:17:46<07:36,  2.62s/it][A
Training...:  93% 2436/2609 [2:17:49<07:15,  2.52s/it][A
Training...:  93% 2437/2609 [2:17:51<06:56,  2.42s/it][A
Training...:  93% 2438/2609 [2:17:53<06:37,  2.33s/it][A
Training...:  93% 2439/2609 [2:17:55<06:19,  2.23s/it][A
Training...:  94% 2440/2609 [2:17:57<06:00,  2.13s/it][A
Training...:  94% 2441/2609 [2:17:59<05:42,  2.04s/it][A
Training...:  94% 2442/2609 [2:18:00<05:25,  1.95s/it][A
Training...:  94% 2443/2609 [2:18:02<05:09,  1.86s/it][A
Training...:  94% 2444/2609 [2:18:03<04:50,  1.76s/it][A
Training...:  94% 2445/2609 [2:18:05<04:31,  1.66s/it][A
Training...:  94% 2446/2609 [2:18:06<04:13,  1.55s/it][A
Training...:  94% 2447/2609 [2:18:07<03:52,  1.44s/it][A
Training...:  94% 2448/2609 [2:18:08<03:29,  1.30s/it][A
Training...:  94% 2449/2609 [2:18:09<03:04,  1.15s/it][A
Training...:  94% 2450/2609 [2:18:10<02:33,  1.03it/s][A
Training...:  94% 2451/2609 [2:18:17<07:22,  2.80s/it][A
Training...:  94% 2452/2609 [2:18:24<10:38,  4.07s/it][A
Training...:  94% 2453/2609 [2:18:30<12:33,  4.83s/it][A
Training...:  94% 2454/2609 [2:18:37<13:33,  5.25s/it][A
Training...:  94% 2455/2609 [2:18:42<13:56,  5.43s/it][A
Training...:  94% 2456/2609 [2:18:48<14:00,  5.49s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:24:51<45:30:49, 9102.74s/it]
Training...:  94% 2456/2609 [2:18:54<14:00,  5.49s/it][A
Training...:  94% 2457/2609 [2:18:54<14:31,  5.73s/it][A
Training...:  94% 2458/2609 [2:19:00<14:06,  5.61s/it][A
Training...:  94% 2459/2609 [2:19:05<13:37,  5.45s/it][A
Training...:  94% 2460/2609 [2:19:10<13:05,  5.27s/it][A
Training...:  94% 2461/2609 [2:19:14<12:34,  5.10s/it][A
Training...:  94% 2462/2609 [2:19:19<12:05,  4.93s/it][A
Training...:  94% 2463/2609 [2:19:23<11:40,  4.80s/it][A
Training...:  94% 2464/2609 [2:19:28<11:13,  4.64s/it][A
Training...:  94% 2465/2609 [2:19:32<10:47,  4.50s/it][A
Training...:  95% 2466/2609 [2:19:36<10:23,  4.36s/it][A
Training...:  95% 2467/2609 [2:19:40<10:03,  4.25s/it][A
Training...:  95% 2468/2609 [2:19:44<09:39,  4.11s/it][A
Training...:  95% 2469/2609 [2:19:47<09:21,  4.01s/it][A
Training...:  95% 2470/2609 [2:19:51<09:02,  3.91s/it][A
Training...:  95% 2471/2609 [2:19:55<08:43,  3.80s/it][A
Training...:  95% 2472/2609 [2:19:58<08:26,  3.69s/it][A
Training...:  95% 2473/2609 [2:20:01<08:10,  3.61s/it][A
Training...:  95% 2474/2609 [2:20:05<07:55,  3.52s/it][A
Training...:  95% 2475/2609 [2:20:08<07:42,  3.45s/it][A
Training...:  95% 2476/2609 [2:20:11<07:25,  3.35s/it][A
Training...:  95% 2477/2609 [2:20:14<07:12,  3.28s/it][A
Training...:  95% 2478/2609 [2:20:17<06:57,  3.19s/it][A
Training...:  95% 2479/2609 [2:20:20<06:43,  3.10s/it][A
Training...:  95% 2480/2609 [2:20:23<06:29,  3.02s/it][A
Training...:  95% 2481/2609 [2:20:26<06:14,  2.93s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:26:25<45:30:49, 9102.74s/it]
Training...:  95% 2481/2609 [2:20:29<06:14,  2.93s/it][A
Training...:  95% 2482/2609 [2:20:29<06:16,  2.97s/it][A
Training...:  95% 2483/2609 [2:20:31<05:58,  2.84s/it][A
Training...:  95% 2484/2609 [2:20:34<05:44,  2.75s/it][A
Training...:  95% 2485/2609 [2:20:36<05:28,  2.65s/it][A
Training...:  95% 2486/2609 [2:20:39<05:14,  2.55s/it][A
Training...:  95% 2487/2609 [2:20:41<04:59,  2.45s/it][A
Training...:  95% 2488/2609 [2:20:43<04:43,  2.35s/it][A
Training...:  95% 2489/2609 [2:20:45<04:29,  2.24s/it][A
Training...:  95% 2490/2609 [2:20:47<04:14,  2.14s/it][A
Training...:  95% 2491/2609 [2:20:49<03:59,  2.03s/it][A
Training...:  96% 2492/2609 [2:20:50<03:45,  1.93s/it][A
Training...:  96% 2493/2609 [2:20:52<03:33,  1.84s/it][A
Training...:  96% 2494/2609 [2:20:53<03:20,  1.75s/it][A
Training...:  96% 2495/2609 [2:20:55<03:07,  1.64s/it][A
Training...:  96% 2496/2609 [2:20:56<02:54,  1.55s/it][A
Training...:  96% 2497/2609 [2:20:57<02:40,  1.43s/it][A
Training...:  96% 2498/2609 [2:20:58<02:24,  1.31s/it][A
Training...:  96% 2499/2609 [2:20:59<02:07,  1.16s/it][A
Training...:  96% 2500/2609 [2:21:00<01:45,  1.03it/s][A
Training...:  96% 2501/2609 [2:21:07<05:00,  2.79s/it][A
Training...:  96% 2502/2609 [2:21:14<07:10,  4.02s/it][A
Training...:  96% 2503/2609 [2:21:20<08:22,  4.74s/it][A
Training...:  96% 2504/2609 [2:21:26<09:01,  5.16s/it][A
Training...:  96% 2505/2609 [2:21:32<09:17,  5.36s/it][A
Training...:  96% 2506/2609 [2:21:38<09:19,  5.44s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:27:40<45:30:49, 9102.74s/it]
Training...:  96% 2506/2609 [2:21:44<09:19,  5.44s/it][A
Training...:  96% 2507/2609 [2:21:44<09:35,  5.64s/it][A
Training...:  96% 2508/2609 [2:21:49<09:13,  5.48s/it][A
Training...:  96% 2509/2609 [2:21:54<08:52,  5.33s/it][A
Training...:  96% 2510/2609 [2:21:59<08:32,  5.18s/it][A
Training...:  96% 2511/2609 [2:22:03<08:14,  5.04s/it][A
Training...:  96% 2512/2609 [2:22:08<07:53,  4.88s/it][A
Training...:  96% 2513/2609 [2:22:12<07:35,  4.74s/it][A
Training...:  96% 2514/2609 [2:22:17<07:17,  4.61s/it][A
Training...:  96% 2515/2609 [2:22:21<06:58,  4.46s/it][A
Training...:  96% 2516/2609 [2:22:25<06:42,  4.33s/it][A
Training...:  96% 2517/2609 [2:22:29<06:31,  4.26s/it][A
Training...:  97% 2518/2609 [2:22:33<06:19,  4.17s/it][A
Training...:  97% 2519/2609 [2:22:37<06:04,  4.05s/it][A
Training...:  97% 2520/2609 [2:22:40<05:49,  3.93s/it][A
Training...:  97% 2521/2609 [2:22:44<05:38,  3.84s/it][A
Training...:  97% 2522/2609 [2:22:47<05:26,  3.75s/it][A
Training...:  97% 2523/2609 [2:22:51<05:13,  3.65s/it][A
Training...:  97% 2524/2609 [2:22:54<05:01,  3.54s/it][A
Training...:  97% 2525/2609 [2:22:57<04:49,  3.45s/it][A
Training...:  97% 2526/2609 [2:23:00<04:38,  3.36s/it][A
Training...:  97% 2527/2609 [2:23:04<04:27,  3.27s/it][A
Training...:  97% 2528/2609 [2:23:06<04:17,  3.17s/it][A
Training...:  97% 2529/2609 [2:23:09<04:06,  3.08s/it][A
Training...:  97% 2530/2609 [2:23:12<03:57,  3.01s/it][A
Training...:  97% 2531/2609 [2:23:15<03:47,  2.92s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:29:14<45:30:49, 9102.74s/it]
Training...:  97% 2531/2609 [2:23:18<03:47,  2.92s/it][A
Training...:  97% 2532/2609 [2:23:18<03:47,  2.96s/it][A
Training...:  97% 2533/2609 [2:23:20<03:34,  2.83s/it][A
Training...:  97% 2534/2609 [2:23:23<03:24,  2.72s/it][A
Training...:  97% 2535/2609 [2:23:25<03:13,  2.62s/it][A
Training...:  97% 2536/2609 [2:23:28<03:04,  2.53s/it][A
Training...:  97% 2537/2609 [2:23:30<02:55,  2.44s/it][A
Training...:  97% 2538/2609 [2:23:32<02:45,  2.33s/it][A
Training...:  97% 2539/2609 [2:23:34<02:35,  2.22s/it][A
Training...:  97% 2540/2609 [2:23:36<02:25,  2.10s/it][A
Training...:  97% 2541/2609 [2:23:37<02:15,  2.00s/it][A
Training...:  97% 2542/2609 [2:23:39<02:07,  1.91s/it][A
Training...:  97% 2543/2609 [2:23:41<01:59,  1.80s/it][A
Training...:  98% 2544/2609 [2:23:42<01:50,  1.71s/it][A
Training...:  98% 2545/2609 [2:23:44<01:42,  1.60s/it][A
Training...:  98% 2546/2609 [2:23:45<01:34,  1.49s/it][A
Training...:  98% 2547/2609 [2:23:46<01:25,  1.39s/it][A
Training...:  98% 2548/2609 [2:23:47<01:17,  1.27s/it][A
Training...:  98% 2549/2609 [2:23:48<01:07,  1.13s/it][A
Training...:  98% 2550/2609 [2:23:48<00:56,  1.04it/s][A
Training...:  98% 2551/2609 [2:23:55<02:40,  2.77s/it][A
Training...:  98% 2552/2609 [2:24:02<03:51,  4.07s/it][A
Training...:  98% 2553/2609 [2:24:09<04:30,  4.83s/it][A
Training...:  98% 2554/2609 [2:24:15<04:50,  5.27s/it][A
Training...:  98% 2555/2609 [2:24:21<04:55,  5.48s/it][A
Training...:  98% 2556/2609 [2:24:27<04:57,  5.61s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:30:30<45:30:49, 9102.74s/it]
Training...:  98% 2556/2609 [2:24:34<04:57,  5.61s/it][A
Training...:  98% 2557/2609 [2:24:34<05:06,  5.90s/it][A
Training...:  98% 2558/2609 [2:24:39<04:53,  5.76s/it][A
Training...:  98% 2559/2609 [2:24:44<04:36,  5.54s/it][A
Training...:  98% 2560/2609 [2:24:49<04:20,  5.32s/it][A
Training...:  98% 2561/2609 [2:24:54<04:05,  5.12s/it][A
Training...:  98% 2562/2609 [2:24:58<03:51,  4.93s/it][A
Training...:  98% 2563/2609 [2:25:03<03:39,  4.77s/it][A
Training...:  98% 2564/2609 [2:25:07<03:27,  4.61s/it][A
Training...:  98% 2565/2609 [2:25:11<03:16,  4.47s/it][A
Training...:  98% 2566/2609 [2:25:15<03:07,  4.36s/it][A
Training...:  98% 2567/2609 [2:25:19<02:57,  4.24s/it][A
Training...:  98% 2568/2609 [2:25:23<02:48,  4.11s/it][A
Training...:  98% 2569/2609 [2:25:27<02:40,  4.02s/it][A
Training...:  99% 2570/2609 [2:25:30<02:32,  3.91s/it][A
Training...:  99% 2571/2609 [2:25:34<02:24,  3.81s/it][A
Training...:  99% 2572/2609 [2:25:37<02:16,  3.69s/it][A
Training...:  99% 2573/2609 [2:25:41<02:09,  3.60s/it][A
Training...:  99% 2574/2609 [2:25:44<02:02,  3.51s/it][A
Training...:  99% 2575/2609 [2:25:47<01:55,  3.40s/it][A
Training...:  99% 2576/2609 [2:25:50<01:48,  3.30s/it][A
Training...:  99% 2577/2609 [2:25:53<01:42,  3.21s/it][A
Training...:  99% 2578/2609 [2:25:56<01:36,  3.12s/it][A
Training...:  99% 2579/2609 [2:25:59<01:31,  3.04s/it][A
Training...:  99% 2580/2609 [2:26:02<01:25,  2.96s/it][A
Training...:  99% 2581/2609 [2:26:04<01:20,  2.88s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:32:04<45:30:49, 9102.74s/it]
Training...:  99% 2581/2609 [2:26:07<01:20,  2.88s/it][A
Training...:  99% 2582/2609 [2:26:07<01:18,  2.91s/it][A
Training...:  99% 2583/2609 [2:26:10<01:12,  2.79s/it][A
Training...:  99% 2584/2609 [2:26:12<01:06,  2.67s/it][A
Training...:  99% 2585/2609 [2:26:15<01:01,  2.56s/it][A
Training...:  99% 2586/2609 [2:26:17<00:56,  2.47s/it][A
Training...:  99% 2587/2609 [2:26:19<00:52,  2.37s/it][A
Training...:  99% 2588/2609 [2:26:21<00:47,  2.28s/it][A
Training...:  99% 2589/2609 [2:26:23<00:43,  2.19s/it][A
Training...:  99% 2590/2609 [2:26:25<00:39,  2.09s/it][A
Training...:  99% 2591/2609 [2:26:27<00:35,  1.99s/it][A
Training...:  99% 2592/2609 [2:26:28<00:32,  1.90s/it][A
Training...:  99% 2593/2609 [2:26:30<00:28,  1.80s/it][A
Training...:  99% 2594/2609 [2:26:31<00:25,  1.69s/it][A
Training...:  99% 2595/2609 [2:26:33<00:22,  1.59s/it][A
Training...: 100% 2596/2609 [2:26:34<00:19,  1.48s/it][A
Training...: 100% 2597/2609 [2:26:35<00:16,  1.37s/it][A
Training...: 100% 2598/2609 [2:26:36<00:13,  1.25s/it][A
Training...: 100% 2599/2609 [2:26:37<00:11,  1.11s/it][A
Training...: 100% 2600/2609 [2:26:37<00:08,  1.06it/s][A
Training...: 100% 2601/2609 [2:26:44<00:20,  2.60s/it][A
Training...: 100% 2602/2609 [2:26:49<00:24,  3.45s/it][A
Training...: 100% 2603/2609 [2:26:54<00:22,  3.81s/it][A
Training...: 100% 2604/2609 [2:26:58<00:19,  3.88s/it][A
Training...: 100% 2605/2609 [2:27:01<00:15,  3.76s/it][A
Training...: 100% 2606/2609 [2:27:04<00:10,  3.55s/it][A                                                           
                                                      [AEpoch ... (1/20):  10% 2/20 [7:33:04<45:30:49, 9102.74s/it]
Training...: 100% 2606/2609 [2:27:07<00:10,  3.55s/it][A
Training...: 100% 2607/2609 [2:27:07<00:06,  3.37s/it][A
Training...: 100% 2608/2609 [2:27:09<00:02,  2.96s/it][A
Training...: 100% 2609/2609 [2:27:11<00:00,  2.49s/it][ATraining...: 100% 2609/2609 [2:27:11<00:00,  3.38s/it]
Epoch ... (1/20):  15% 3/20 [7:33:07<42:24:09, 8979.37s/it]
Training...:   0% 0/2609 [00:00<?, ?it/s][AStep... (7000 | Loss: 0.22108982503414154, Learning Rate: 8.687070658197626e-05, Gradient Norm: 0.9378325939178467)
Step... (7025 | Loss: 0.2913883924484253, Learning Rate: 8.682020416017622e-05, Gradient Norm: 0.8712800145149231)
Step... (7050 | Loss: 0.22819334268569946, Learning Rate: 8.676969446241856e-05, Gradient Norm: 0.8018019795417786)
Step... (7075 | Loss: 0.26369738578796387, Learning Rate: 8.671919204061851e-05, Gradient Norm: 0.7888815402984619)
Step... (7100 | Loss: 0.19318248331546783, Learning Rate: 8.666868234286085e-05, Gradient Norm: 0.8933371305465698)
Step... (7125 | Loss: 0.2522275447845459, Learning Rate: 8.66181799210608e-05, Gradient Norm: 0.8134257793426514)
Step... (7150 | Loss: 0.2074965238571167, Learning Rate: 8.656767749926075e-05, Gradient Norm: 1.0629607439041138)
Step... (7175 | Loss: 0.27151086926460266, Learning Rate: 8.651716780150309e-05, Gradient Norm: 0.9217373132705688)
Step... (7200 | Loss: 0.15372374653816223, Learning Rate: 8.646666537970304e-05, Gradient Norm: 0.7746341228485107)
Step... (7225 | Loss: 0.340465784072876, Learning Rate: 8.641615568194538e-05, Gradient Norm: 0.8956970572471619)
Step... (7250 | Loss: 0.233696848154068, Learning Rate: 8.636565326014534e-05, Gradient Norm: 0.8990935683250427)
Step... (7275 | Loss: 0.3084237575531006, Learning Rate: 8.631515083834529e-05, Gradient Norm: 0.9281591176986694)
Step... (7300 | Loss: 0.21483038365840912, Learning Rate: 8.626464114058763e-05, Gradient Norm: 1.0781269073486328)
Step... (7325 | Loss: 0.3296087384223938, Learning Rate: 8.621413871878758e-05, Gradient Norm: 0.928702712059021)
Step... (7350 | Loss: 0.19388149678707123, Learning Rate: 8.616363629698753e-05, Gradient Norm: 0.793203592300415)
Step... (7375 | Loss: 0.21988597512245178, Learning Rate: 8.611312659922987e-05, Gradient Norm: 0.7862975001335144)
Step... (7400 | Loss: 0.23686769604682922, Learning Rate: 8.606262417742983e-05, Gradient Norm: 0.8797162771224976)
Step... (7425 | Loss: 0.2892290949821472, Learning Rate: 8.601211447967216e-05, Gradient Norm: 0.8013136386871338)
Step... (7450 | Loss: 0.15135619044303894, Learning Rate: 8.596161205787212e-05, Gradient Norm: 0.6794395446777344)
Step... (7475 | Loss: 0.3168451189994812, Learning Rate: 8.591110963607207e-05, Gradient Norm: 0.9607353210449219)
Step... (7500 | Loss: 0.1401064246892929, Learning Rate: 8.586059993831441e-05, Gradient Norm: 0.7907120585441589)
Step... (7525 | Loss: 0.25488123297691345, Learning Rate: 8.581009751651436e-05, Gradient Norm: 0.9393293857574463)
Step... (7550 | Loss: 0.2943701446056366, Learning Rate: 8.575959509471431e-05, Gradient Norm: 1.1179678440093994)
Step... (7575 | Loss: 0.21691101789474487, Learning Rate: 8.570908539695665e-05, Gradient Norm: 0.8213587403297424)
Step... (7600 | Loss: 0.19725783169269562, Learning Rate: 8.56585829751566e-05, Gradient Norm: 0.7679921984672546)
Step... (7625 | Loss: 0.2618676424026489, Learning Rate: 8.560808055335656e-05, Gradient Norm: 0.883567214012146)
Step... (7650 | Loss: 0.20871268212795258, Learning Rate: 8.55575708555989e-05, Gradient Norm: 1.0403374433517456)
Step... (7675 | Loss: 0.22520560026168823, Learning Rate: 8.550706843379885e-05, Gradient Norm: 0.8548232913017273)
Step... (7700 | Loss: 0.17584896087646484, Learning Rate: 8.545655873604119e-05, Gradient Norm: 0.7699703574180603)
Step... (7725 | Loss: 0.23776642978191376, Learning Rate: 8.540605631424114e-05, Gradient Norm: 0.6933832764625549)
Step... (7750 | Loss: 0.2274908423423767, Learning Rate: 8.53555538924411e-05, Gradient Norm: 0.8816570043563843)
Step... (7775 | Loss: 0.25675103068351746, Learning Rate: 8.530504419468343e-05, Gradient Norm: 0.8168942928314209)
Step... (7800 | Loss: 0.15102851390838623, Learning Rate: 8.525454177288339e-05, Gradient Norm: 0.7330562472343445)
Step... (7825 | Loss: 0.24253936111927032, Learning Rate: 8.520403935108334e-05, Gradient Norm: 1.1070386171340942)

Training...:   0% 1/2609 [00:07<5:14:51,  7.24s/it][A
Training...:   0% 2/2609 [00:14<5:03:56,  7.00s/it][A
Training...:   0% 3/2609 [00:20<4:52:25,  6.73s/it][A
Training...:   0% 4/2609 [00:26<4:44:07,  6.54s/it][A
Training...:   0% 5/2609 [00:32<4:33:17,  6.30s/it][A
Training...:   0% 6/2609 [00:38<4:21:54,  6.04s/it][A
Training...:   0% 7/2609 [00:43<4:13:43,  5.85s/it][A
Training...:   0% 8/2609 [00:48<4:05:54,  5.67s/it][A
Training...:   0% 9/2609 [00:54<3:58:20,  5.50s/it][A
Training...:   0% 10/2609 [00:58<3:49:27,  5.30s/it][A
Training...:   0% 11/2609 [01:03<3:40:46,  5.10s/it][A
Training...:   0% 12/2609 [01:08<3:33:20,  4.93s/it][A
Training...:   0% 13/2609 [01:12<3:26:59,  4.78s/it][A
Training...:   1% 14/2609 [01:16<3:19:51,  4.62s/it][A
Training...:   1% 15/2609 [01:20<3:13:52,  4.48s/it][A
Training...:   1% 16/2609 [01:24<3:07:52,  4.35s/it][A
Training...:   1% 17/2609 [01:28<3:03:39,  4.25s/it][A
Training...:   1% 18/2609 [01:32<2:58:29,  4.13s/it][A
Training...:   1% 19/2609 [01:36<2:53:11,  4.01s/it][A
Training...:   1% 20/2609 [01:40<2:47:52,  3.89s/it][A
Training...:   1% 21/2609 [01:43<2:43:47,  3.80s/it][A
Training...:   1% 22/2609 [01:47<2:39:47,  3.71s/it][A                                                           
                                                    [AEpoch ... (1/20):  15% 3/20 [7:34:59<42:24:09, 8979.37s/it]
Training...:   1% 22/2609 [01:51<2:39:47,  3.71s/it][A
Training...:   1% 23/2609 [01:51<2:43:26,  3.79s/it][A
Training...:   1% 24/2609 [01:54<2:36:26,  3.63s/it][A
Training...:   1% 25/2609 [01:57<2:30:25,  3.49s/it][A
Training...:   1% 26/2609 [02:00<2:24:51,  3.36s/it][A
Training...:   1% 27/2609 [02:03<2:20:41,  3.27s/it][A
Training...:   1% 28/2609 [02:06<2:15:47,  3.16s/it][A
Training...:   1% 29/2609 [02:09<2:11:57,  3.07s/it][A
Training...:   1% 30/2609 [02:12<2:08:31,  2.99s/it][A
Training...:   1% 31/2609 [02:15<2:05:31,  2.92s/it][A
Training...:   1% 32/2609 [02:17<2:01:17,  2.82s/it][A
Training...:   1% 33/2609 [02:20<1:57:42,  2.74s/it][A
Training...:   1% 34/2609 [02:22<1:54:06,  2.66s/it][A
Training...:   1% 35/2609 [02:25<1:50:05,  2.57s/it][A
Training...:   1% 36/2609 [02:27<1:45:52,  2.47s/it][A
Training...:   1% 37/2609 [02:29<1:41:59,  2.38s/it][A
Training...:   1% 38/2609 [02:31<1:38:04,  2.29s/it][A
Training...:   1% 39/2609 [02:33<1:34:45,  2.21s/it][A
Training...:   2% 40/2609 [02:35<1:30:25,  2.11s/it][A
Training...:   2% 41/2609 [02:37<1:26:24,  2.02s/it][A
Training...:   2% 42/2609 [02:39<1:22:55,  1.94s/it][A
Training...:   2% 43/2609 [02:40<1:18:58,  1.85s/it][A
Training...:   2% 44/2609 [02:42<1:14:52,  1.75s/it][A
Training...:   2% 45/2609 [02:43<1:10:36,  1.65s/it][A
Training...:   2% 46/2609 [02:44<1:05:22,  1.53s/it][A
Training...:   2% 47/2609 [02:45<1:00:11,  1.41s/it][A                                                           
                                                    [AEpoch ... (1/20):  15% 3/20 [7:35:55<42:24:09, 8979.37s/it]
Training...:   2% 47/2609 [02:47<1:00:11,  1.41s/it][A
Training...:   2% 48/2609 [02:47<59:09,  1.39s/it]  [A
Training...:   2% 49/2609 [02:48<51:47,  1.21s/it][A
Training...:   2% 50/2609 [02:48<43:35,  1.02s/it][A
Training...:   2% 51/2609 [02:56<2:04:19,  2.92s/it][A
Training...:   2% 52/2609 [03:03<2:57:00,  4.15s/it][A
Training...:   2% 53/2609 [03:09<3:28:13,  4.89s/it][A
Training...:   2% 54/2609 [03:16<3:46:53,  5.33s/it][A
Training...:   2% 55/2609 [03:21<3:55:00,  5.52s/it][A
Training...:   2% 56/2609 [03:27<3:56:51,  5.57s/it][A
Training...:   2% 57/2609 [03:33<3:55:21,  5.53s/it][A
Training...:   2% 58/2609 [03:38<3:51:25,  5.44s/it][A
Training...:   2% 59/2609 [03:43<3:47:58,  5.36s/it][A
Training...:   2% 60/2609 [03:48<3:41:22,  5.21s/it][A
Training...:   2% 61/2609 [03:53<3:35:34,  5.08s/it][A
Training...:   2% 62/2609 [03:57<3:29:34,  4.94s/it][A
Training...:   2% 63/2609 [04:02<3:23:37,  4.80s/it][A
Training...:   2% 64/2609 [04:06<3:17:08,  4.65s/it][A
Training...:   2% 65/2609 [04:10<3:12:02,  4.53s/it][A
Training...:   3% 66/2609 [04:14<3:06:16,  4.40s/it][A
Training...:   3% 67/2609 [04:18<3:01:09,  4.28s/it][A
Training...:   3% 68/2609 [04:22<2:55:49,  4.15s/it][A
Training...:   3% 69/2609 [04:26<2:50:46,  4.03s/it][A
Training...:   3% 70/2609 [04:30<2:46:04,  3.92s/it][A
Training...:   3% 71/2609 [04:33<2:42:26,  3.84s/it][A
Training...:   3% 72/2609 [04:37<2:38:56,  3.76s/it][A                                                           
                                                    [AEpoch ... (1/20):  15% 3/20 [7:37:50<42:24:09, 8979.37s/it]
Training...:   3% 72/2609 [04:41<2:38:56,  3.76s/it][A
Training...:   3% 73/2609 [04:41<2:43:51,  3.88s/it][A
Training...:   3% 74/2609 [04:44<2:37:58,  3.74s/it][A
Training...:   3% 75/2609 [04:48<2:31:27,  3.59s/it][A
Training...:   3% 76/2609 [04:51<2:25:30,  3.45s/it][A
Training...:   3% 77/2609 [04:54<2:20:12,  3.32s/it][A
Training...:   3% 78/2609 [04:57<2:15:14,  3.21s/it][A
Training...:   3% 79/2609 [05:00<2:11:16,  3.11s/it][A
Training...:   3% 80/2609 [05:02<2:07:14,  3.02s/it][A
Training...:   3% 81/2609 [05:05<2:02:49,  2.92s/it][A
Training...:   3% 82/2609 [05:08<1:58:57,  2.82s/it][A
Training...:   3% 83/2609 [05:10<1:55:19,  2.74s/it][A
Training...:   3% 84/2609 [05:13<1:51:22,  2.65s/it][A
Training...:   3% 85/2609 [05:15<1:47:15,  2.55s/it][A
Training...:   3% 86/2609 [05:17<1:43:22,  2.46s/it][A
Training...:   3% 87/2609 [05:19<1:39:36,  2.37s/it][A
Training...:   3% 88/2609 [05:21<1:35:41,  2.28s/it][A
Training...:   3% 89/2609 [05:23<1:31:56,  2.19s/it][A
Training...:   3% 90/2609 [05:25<1:28:05,  2.10s/it][A
Training...:   3% 91/2609 [05:27<1:24:11,  2.01s/it][A
Training...:   4% 92/2609 [05:29<1:20:01,  1.91s/it][A
Training...:   4% 93/2609 [05:30<1:15:52,  1.81s/it][A
Training...:   4% 94/2609 [05:32<1:11:11,  1.70s/it][A
Training...:   4% 95/2609 [05:33<1:06:40,  1.59s/it][A
Training...:   4% 96/2609 [05:34<1:02:16,  1.49s/it][A
Training...:   4% 97/2609 [05:36<57:04,  1.36s/it]  [A                                                           
                                                  [AEpoch ... (1/20):  15% 3/20 [7:38:45<42:24:09, 8979.37s/it]
Training...:   4% 97/2609 [05:37<57:04,  1.36s/it][A
Training...:   4% 98/2609 [05:37<55:44,  1.33s/it][A
Training...:   4% 99/2609 [05:38<48:30,  1.16s/it][A
Training...:   4% 100/2609 [05:38<40:48,  1.02it/s][A
Training...:   4% 101/2609 [05:45<1:57:27,  2.81s/it][A
Training...:   4% 102/2609 [05:52<2:50:50,  4.09s/it][A
Training...:   4% 103/2609 [05:59<3:21:08,  4.82s/it][A
Training...:   4% 104/2609 [06:05<3:38:19,  5.23s/it][A
Training...:   4% 105/2609 [06:11<3:45:59,  5.42s/it][A
Training...:   4% 106/2609 [06:16<3:49:14,  5.50s/it][A
Training...:   4% 107/2609 [06:22<3:49:35,  5.51s/it][A
Training...:   4% 108/2609 [06:27<3:44:55,  5.40s/it][A
Training...:   4% 109/2609 [06:32<3:40:19,  5.29s/it][A
Training...:   4% 110/2609 [06:37<3:34:33,  5.15s/it][A
Training...:   4% 111/2609 [06:42<3:29:53,  5.04s/it][A
Training...:   4% 112/2609 [06:46<3:24:31,  4.91s/it][A
Training...:   4% 113/2609 [06:51<3:19:06,  4.79s/it][A
Training...:   4% 114/2609 [06:55<3:13:09,  4.65s/it][A
Training...:   4% 115/2609 [06:59<3:06:48,  4.49s/it][A
Training...:   4% 116/2609 [07:03<3:01:15,  4.36s/it][A
Training...:   4% 117/2609 [07:07<2:57:00,  4.26s/it][A
Training...:   5% 118/2609 [07:11<2:51:28,  4.13s/it][A
Training...:   5% 119/2609 [07:15<2:47:04,  4.03s/it][A
Training...:   5% 120/2609 [07:19<2:42:23,  3.91s/it][A
Training...:   5% 121/2609 [07:22<2:37:59,  3.81s/it][A
Training...:   5% 122/2609 [07:26<2:33:34,  3.71s/it][A                                                           
                                                     [AEpoch ... (1/20):  15% 3/20 [7:40:38<42:24:09, 8979.37s/it]
Training...:   5% 122/2609 [07:30<2:33:34,  3.71s/it][A
Training...:   5% 123/2609 [07:30<2:37:51,  3.81s/it][A
Training...:   5% 124/2609 [07:33<2:31:40,  3.66s/it][A
Training...:   5% 125/2609 [07:36<2:26:18,  3.53s/it][A
Training...:   5% 126/2609 [07:39<2:21:16,  3.41s/it][A
Training...:   5% 127/2609 [07:43<2:16:53,  3.31s/it][A
Training...:   5% 128/2609 [07:45<2:12:34,  3.21s/it][A
Training...:   5% 129/2609 [07:48<2:08:23,  3.11s/it][A
Training...:   5% 130/2609 [07:51<2:04:09,  3.01s/it][A
Training...:   5% 131/2609 [07:54<2:00:20,  2.91s/it][A
Training...:   5% 132/2609 [07:56<1:57:01,  2.83s/it][A
Training...:   5% 133/2609 [07:59<1:53:45,  2.76s/it][A
Training...:   5% 134/2609 [08:02<1:50:22,  2.68s/it][A
Training...:   5% 135/2609 [08:04<1:46:53,  2.59s/it][A
Training...:   5% 136/2609 [08:06<1:43:29,  2.51s/it][A
Training...:   5% 137/2609 [08:08<1:39:43,  2.42s/it][A
Training...:   5% 138/2609 [08:11<1:36:17,  2.34s/it][A
Training...:   5% 139/2609 [08:13<1:32:30,  2.25s/it][A
Training...:   5% 140/2609 [08:15<1:28:45,  2.16s/it][A
Training...:   5% 141/2609 [08:16<1:25:04,  2.07s/it][A
Training...:   5% 142/2609 [08:18<1:21:00,  1.97s/it][A
Training...:   5% 143/2609 [08:20<1:17:07,  1.88s/it][A
Training...:   6% 144/2609 [08:21<1:12:57,  1.78s/it][A
Training...:   6% 145/2609 [08:23<1:08:35,  1.67s/it][A
Training...:   6% 146/2609 [08:24<1:03:54,  1.56s/it][A
Training...:   6% 147/2609 [08:25<58:59,  1.44s/it]  [A                                                           
                                                   [AEpoch ... (1/20):  15% 3/20 [7:41:35<42:24:09, 8979.37s/it]
Training...:   6% 147/2609 [08:27<58:59,  1.44s/it][A
Training...:   6% 148/2609 [08:27<57:30,  1.40s/it][A
Training...:   6% 149/2609 [08:27<50:07,  1.22s/it][A
Training...:   6% 150/2609 [08:28<42:09,  1.03s/it][A
Training...:   6% 151/2609 [08:35<1:56:01,  2.83s/it][A
Training...:   6% 152/2609 [08:42<2:46:41,  4.07s/it][A
Training...:   6% 153/2609 [08:48<3:15:55,  4.79s/it][A
Training...:   6% 154/2609 [08:55<3:35:11,  5.26s/it][A
Training...:   6% 155/2609 [09:01<3:43:56,  5.48s/it][A
Training...:   6% 156/2609 [09:06<3:45:58,  5.53s/it][A
Training...:   6% 157/2609 [09:12<3:43:09,  5.46s/it][A
Training...:   6% 158/2609 [09:17<3:38:23,  5.35s/it][A
Training...:   6% 159/2609 [09:22<3:33:16,  5.22s/it][A
Training...:   6% 160/2609 [09:27<3:27:26,  5.08s/it][A
Training...:   6% 161/2609 [09:31<3:21:13,  4.93s/it][A
Training...:   6% 162/2609 [09:36<3:15:56,  4.80s/it][A
Training...:   6% 163/2609 [09:40<3:10:59,  4.69s/it][A
Training...:   6% 164/2609 [09:44<3:05:34,  4.55s/it][A
Training...:   6% 165/2609 [09:48<3:00:10,  4.42s/it][A
Training...:   6% 166/2609 [09:52<2:54:49,  4.29s/it][A
Training...:   6% 167/2609 [09:56<2:49:55,  4.18s/it][A
Training...:   6% 168/2609 [10:00<2:45:29,  4.07s/it][A
Training...:   6% 169/2609 [10:04<2:41:15,  3.97s/it][A
Training...:   7% 170/2609 [10:07<2:37:52,  3.88s/it][A
Training...:   7% 171/2609 [10:11<2:33:25,  3.78s/it][A
Training...:   7% 172/2609 [10:14<2:29:26,  3.68s/it][A                                                           
                                                     [AEpoch ... (1/20):  15% 3/20 [7:43:27<42:24:09, 8979.37s/it]
Training...:   7% 172/2609 [10:18<2:29:26,  3.68s/it][A
Training...:   7% 173/2609 [10:18<2:33:27,  3.78s/it][A
Training...:   7% 174/2609 [10:22<2:27:43,  3.64s/it][A
Training...:   7% 175/2609 [10:25<2:22:56,  3.52s/it][A
Training...:   7% 176/2609 [10:28<2:18:43,  3.42s/it][A
Training...:   7% 177/2609 [10:31<2:14:09,  3.31s/it][A
Training...:   7% 178/2609 [10:34<2:09:59,  3.21s/it][A
Training...:   7% 179/2609 [10:37<2:06:12,  3.12s/it][A
Training...:   7% 180/2609 [10:40<2:02:59,  3.04s/it][A
Training...:   7% 181/2609 [10:43<1:59:45,  2.96s/it][A
Training...:   7% 182/2609 [10:45<1:56:23,  2.88s/it][A
Training...:   7% 183/2609 [10:48<1:52:48,  2.79s/it][A
Training...:   7% 184/2609 [10:51<1:48:54,  2.69s/it][A
Training...:   7% 185/2609 [10:53<1:45:14,  2.61s/it][A
Training...:   7% 186/2609 [10:55<1:41:43,  2.52s/it][A
Training...:   7% 187/2609 [10:57<1:38:09,  2.43s/it][A
Training...:   7% 188/2609 [11:00<1:34:04,  2.33s/it][A
Training...:   7% 189/2609 [11:02<1:30:01,  2.23s/it][A
Training...:   7% 190/2609 [11:04<1:26:17,  2.14s/it][A
Training...:   7% 191/2609 [11:05<1:22:33,  2.05s/it][A
Training...:   7% 192/2609 [11:07<1:19:12,  1.97s/it][A
Training...:   7% 193/2609 [11:09<1:15:24,  1.87s/it][A
Training...:   7% 194/2609 [11:10<1:11:14,  1.77s/it][A
Training...:   7% 195/2609 [11:12<1:06:47,  1.66s/it][A
Training...:   8% 196/2609 [11:13<1:02:12,  1.55s/it][A
Training...:   8% 197/2609 [11:14<57:35,  1.43s/it]  [A                                                           
                                                   [AEpoch ... (1/20):  15% 3/20 [7:44:24<42:24:09, 8979.37s/it]
Training...:   8% 197/2609 [11:15<57:35,  1.43s/it][A
Training...:   8% 198/2609 [11:15<56:08,  1.40s/it][A
Training...:   8% 199/2609 [11:16<48:31,  1.21s/it][A
Training...:   8% 200/2609 [11:17<40:08,  1.00it/s][A
Training...:   8% 201/2609 [11:24<1:54:01,  2.84s/it][A
Training...:   8% 202/2609 [11:31<2:43:21,  4.07s/it][A
Training...:   8% 203/2609 [11:37<3:12:28,  4.80s/it][A
Training...:   8% 204/2609 [11:43<3:28:43,  5.21s/it][A
Training...:   8% 205/2609 [11:49<3:37:38,  5.43s/it][A
Training...:   8% 206/2609 [11:55<3:38:48,  5.46s/it][A
Training...:   8% 207/2609 [12:00<3:38:32,  5.46s/it][A
Training...:   8% 208/2609 [12:06<3:35:48,  5.39s/it][A
Training...:   8% 209/2609 [12:11<3:31:12,  5.28s/it][A
Training...:   8% 210/2609 [12:16<3:25:53,  5.15s/it][A
Training...:   8% 211/2609 [12:20<3:22:49,  5.07s/it][A
Training...:   8% 212/2609 [12:25<3:18:02,  4.96s/it][A
Training...:   8% 213/2609 [12:30<3:11:45,  4.80s/it][A
Training...:   8% 214/2609 [12:34<3:05:41,  4.65s/it][A
Training...:   8% 215/2609 [12:38<3:00:30,  4.52s/it][A
Training...:   8% 216/2609 [12:42<2:54:21,  4.37s/it][A
Training...:   8% 217/2609 [12:46<2:49:26,  4.25s/it][A
Training...:   8% 218/2609 [12:50<2:44:58,  4.14s/it][A
Training...:   8% 219/2609 [12:54<2:39:45,  4.01s/it][A
Training...:   8% 220/2609 [12:57<2:35:07,  3.90s/it][A
Training...:   8% 221/2609 [13:01<2:31:18,  3.80s/it][A
Training...:   9% 222/2609 [13:04<2:26:33,  3.68s/it][A                                                           
                                                     [AEpoch ... (1/20):  15% 3/20 [7:46:17<42:24:09, 8979.37s/it]
Training...:   9% 222/2609 [13:08<2:26:33,  3.68s/it][A
Training...:   9% 223/2609 [13:08<2:29:37,  3.76s/it][A
Training...:   9% 224/2609 [13:11<2:22:48,  3.59s/it][A
Training...:   9% 225/2609 [13:15<2:17:28,  3.46s/it][A
Training...:   9% 226/2609 [13:18<2:12:43,  3.34s/it][A
Training...:   9% 227/2609 [13:21<2:08:30,  3.24s/it][A
Training...:   9% 228/2609 [13:24<2:04:43,  3.14s/it][A
Training...:   9% 229/2609 [13:26<2:01:06,  3.05s/it][A
Training...:   9% 230/2609 [13:29<1:57:54,  2.97s/it][A
Training...:   9% 231/2609 [13:32<1:54:11,  2.88s/it][A
Training...:   9% 232/2609 [13:34<1:50:35,  2.79s/it][A
Training...:   9% 233/2609 [13:37<1:46:53,  2.70s/it][A
Training...:   9% 234/2609 [13:39<1:43:31,  2.62s/it][A
Training...:   9% 235/2609 [13:42<1:39:59,  2.53s/it][A
Training...:   9% 236/2609 [13:44<1:36:48,  2.45s/it][A
Training...:   9% 237/2609 [13:46<1:33:50,  2.37s/it][A
Training...:   9% 238/2609 [13:48<1:30:28,  2.29s/it][A
Training...:   9% 239/2609 [13:50<1:26:56,  2.20s/it][A
Training...:   9% 240/2609 [13:52<1:23:26,  2.11s/it][A
Training...:   9% 241/2609 [13:54<1:19:42,  2.02s/it][A
Training...:   9% 242/2609 [13:56<1:15:50,  1.92s/it][A
Training...:   9% 243/2609 [13:57<1:11:46,  1.82s/it][A
Training...:   9% 244/2609 [13:59<1:07:25,  1.71s/it][A
Training...:   9% 245/2609 [14:00<1:03:11,  1.60s/it][A
Training...:   9% 246/2609 [14:01<59:09,  1.50s/it]  [A
Training...:   9% 247/2609 [14:02<54:32,  1.39s/it][A                                                           
                                                   [AEpoch ... (1/20):  15% 3/20 [7:47:12<42:24:09, 8979.37s/it]
Training...:   9% 247/2609 [14:04<54:32,  1.39s/it][A
Training...:  10% 248/2609 [14:04<53:27,  1.36s/it][A
Training...:  10% 249/2609 [14:04<46:35,  1.18s/it][A
Training...:  10% 250/2609 [14:05<38:59,  1.01it/s][A
Training...:  10% 251/2609 [14:12<1:51:08,  2.83s/it][A
Training...:  10% 252/2609 [14:19<2:39:44,  4.07s/it][A
Training...:  10% 253/2609 [14:26<3:08:32,  4.80s/it][A
Training...:  10% 254/2609 [14:32<3:25:48,  5.24s/it][A
Training...:  10% 255/2609 [14:38<3:34:09,  5.46s/it][A
Training...:  10% 256/2609 [14:44<3:37:36,  5.55s/it][A
Training...:  10% 257/2609 [14:49<3:37:01,  5.54s/it][A
Training...:  10% 258/2609 [14:54<3:35:08,  5.49s/it][A
Training...:  10% 259/2609 [15:00<3:31:44,  5.41s/it][A
Training...:  10% 260/2609 [15:05<3:27:02,  5.29s/it][A
Training...:  10% 261/2609 [15:09<3:21:09,  5.14s/it][A
Training...:  10% 262/2609 [15:14<3:14:59,  4.98s/it][A
Training...:  10% 263/2609 [15:19<3:09:08,  4.84s/it][A
Training...:  10% 264/2609 [15:23<3:03:00,  4.68s/it][A
Training...:  10% 265/2609 [15:27<2:56:46,  4.52s/it][A
Training...:  10% 266/2609 [15:31<2:50:54,  4.38s/it][A
Training...:  10% 267/2609 [15:35<2:46:26,  4.26s/it][A
Training...:  10% 268/2609 [15:39<2:42:18,  4.16s/it][A
Training...:  10% 269/2609 [15:43<2:38:57,  4.08s/it][A
Training...:  10% 270/2609 [15:47<2:33:52,  3.95s/it][A
Training...:  10% 271/2609 [15:50<2:29:54,  3.85s/it][A
Training...:  10% 272/2609 [15:54<2:25:14,  3.73s/it][A                                                           
                                                     [AEpoch ... (1/20):  15% 3/20 [7:49:06<42:24:09, 8979.37s/it]
Training...:  10% 272/2609 [15:58<2:25:14,  3.73s/it][A
Training...:  10% 273/2609 [15:58<2:27:55,  3.80s/it][A
Training...:  11% 274/2609 [16:01<2:21:45,  3.64s/it][A
Training...:  11% 275/2609 [16:04<2:16:43,  3.51s/it][A
Training...:  11% 276/2609 [16:07<2:12:33,  3.41s/it][A
Training...:  11% 277/2609 [16:10<2:07:59,  3.29s/it][A
Training...:  11% 278/2609 [16:13<2:04:14,  3.20s/it][A
Training...:  11% 279/2609 [16:16<2:00:41,  3.11s/it][A
Training...:  11% 280/2609 [16:19<1:57:08,  3.02s/it][A
Training...:  11% 281/2609 [16:22<1:52:57,  2.91s/it][A
Training...:  11% 282/2609 [16:24<1:49:00,  2.81s/it][A
Training...:  11% 283/2609 [16:27<1:44:47,  2.70s/it][A
Training...:  11% 284/2609 [16:29<1:40:56,  2.61s/it][A
Training...:  11% 285/2609 [16:31<1:37:32,  2.52s/it][A
Training...:  11% 286/2609 [16:34<1:34:12,  2.43s/it][A
Training...:  11% 287/2609 [16:36<1:30:37,  2.34s/it][A
Training...:  11% 288/2609 [16:38<1:27:12,  2.25s/it][A
Training...:  11% 289/2609 [16:40<1:23:37,  2.16s/it][A
Training...:  11% 290/2609 [16:42<1:20:31,  2.08s/it][A
Training...:  11% 291/2609 [16:43<1:16:54,  1.99s/it][A
Training...:  11% 292/2609 [16:45<1:13:21,  1.90s/it][A
Training...:  11% 293/2609 [16:47<1:09:35,  1.80s/it][A
Training...:  11% 294/2609 [16:48<1:05:35,  1.70s/it][A
Training...:  11% 295/2609 [16:49<1:01:35,  1.60s/it][A
Training...:  11% 296/2609 [16:51<57:24,  1.49s/it]  [A
Training...:  11% 297/2609 [16:52<53:23,  1.39s/it][A                                                           
                                                   [AEpoch ... (1/20):  15% 3/20 [7:50:02<42:24:09, 8979.37s/it]
Training...:  11% 297/2609 [16:53<53:23,  1.39s/it][A
Training...:  11% 298/2609 [16:53<52:18,  1.36s/it][A
Training...:  11% 299/2609 [16:54<45:30,  1.18s/it][A
Training...:  11% 300/2609 [16:54<38:11,  1.01it/s][A
Training...:  12% 301/2609 [17:02<1:48:35,  2.82s/it][A
Training...:  12% 302/2609 [17:09<2:39:05,  4.14s/it][A
Training...:  12% 303/2609 [17:15<3:07:27,  4.88s/it][A
Training...:  12% 304/2609 [17:22<3:24:31,  5.32s/it][A
Training...:  12% 305/2609 [17:28<3:32:48,  5.54s/it][A
Training...:  12% 306/2609 [17:33<3:35:03,  5.60s/it][A
Training...:  12% 307/2609 [17:39<3:33:49,  5.57s/it][A
Training...:  12% 308/2609 [17:44<3:31:18,  5.51s/it][A
Training...:  12% 309/2609 [17:50<3:27:11,  5.41s/it][A
Training...:  12% 310/2609 [17:54<3:21:50,  5.27s/it][A
Training...:  12% 311/2609 [17:59<3:16:18,  5.13s/it][A
Training...:  12% 312/2609 [18:04<3:09:47,  4.96s/it][A
Training...:  12% 313/2609 [18:08<3:05:29,  4.85s/it][A
Training...:  12% 314/2609 [18:13<3:00:25,  4.72s/it][A
Training...:  12% 315/2609 [18:17<2:56:04,  4.61s/it][A
Training...:  12% 316/2609 [18:21<2:51:32,  4.49s/it][A
Training...:  12% 317/2609 [18:25<2:46:54,  4.37s/it][A
Training...:  12% 318/2609 [18:29<2:42:14,  4.25s/it][A
Training...:  12% 319/2609 [18:33<2:37:37,  4.13s/it][A
Training...:  12% 320/2609 [18:37<2:33:12,  4.02s/it][A
Training...:  12% 321/2609 [18:41<2:30:24,  3.94s/it][A
Training...:  12% 322/2609 [18:44<2:26:28,  3.84s/it][A                                                           
                                                     [AEpoch ... (1/20):  15% 3/20 [7:51:57<42:24:09, 8979.37s/it]
Training...:  12% 322/2609 [18:49<2:26:28,  3.84s/it][A
Training...:  12% 323/2609 [18:49<2:29:33,  3.93s/it][A
Training...:  12% 324/2609 [18:52<2:22:51,  3.75s/it][A
Training...:  12% 325/2609 [18:55<2:18:39,  3.64s/it][A
Training...:  12% 326/2609 [18:59<2:13:46,  3.52s/it][A
Training...:  13% 327/2609 [19:02<2:08:39,  3.38s/it][A
Training...:  13% 328/2609 [19:05<2:04:16,  3.27s/it][A
Training...:  13% 329/2609 [19:07<1:59:59,  3.16s/it][A
Training...:  13% 330/2609 [19:10<1:56:03,  3.06s/it][A
Training...:  13% 331/2609 [19:13<1:53:00,  2.98s/it][A
Training...:  13% 332/2609 [19:16<1:48:38,  2.86s/it][A
Training...:  13% 333/2609 [19:18<1:45:11,  2.77s/it][A
Training...:  13% 334/2609 [19:21<1:41:48,  2.68s/it][A
Training...:  13% 335/2609 [19:23<1:38:34,  2.60s/it][A
Training...:  13% 336/2609 [19:25<1:35:12,  2.51s/it][A
Training...:  13% 337/2609 [19:28<1:32:11,  2.43s/it][A
Training...:  13% 338/2609 [19:30<1:28:07,  2.33s/it][A
Training...:  13% 339/2609 [19:32<1:25:00,  2.25s/it][A
Training...:  13% 340/2609 [19:34<1:21:19,  2.15s/it][A
Training...:  13% 341/2609 [19:36<1:18:04,  2.07s/it][A
Training...:  13% 342/2609 [19:37<1:14:40,  1.98s/it][A
Training...:  13% 343/2609 [19:39<1:11:05,  1.88s/it][A
Training...:  13% 344/2609 [19:41<1:07:05,  1.78s/it][A
Training...:  13% 345/2609 [19:42<1:03:01,  1.67s/it][A
Training...:  13% 346/2609 [19:43<58:37,  1.55s/it]  [A
Training...:  13% 347/2609 [19:44<53:37,  1.42s/it][A                                                           
                                                   [AEpoch ... (1/20):  15% 3/20 [7:52:54<42:24:09, 8979.37s/it]
Training...:  13% 347/2609 [19:46<53:37,  1.42s/it][A
Training...:  13% 348/2609 [19:46<51:57,  1.38s/it][A
Training...:  13% 349/2609 [19:46<45:00,  1.19s/it][A
Training...:  13% 350/2609 [19:47<37:25,  1.01it/s][A
Training...:  13% 351/2609 [19:54<1:46:29,  2.83s/it][A
Training...:  13% 352/2609 [20:01<2:34:05,  4.10s/it][A
Training...:  14% 353/2609 [20:08<3:00:06,  4.79s/it][A
Training...:  14% 354/2609 [20:14<3:15:17,  5.20s/it][A
Training...:  14% 355/2609 [20:20<3:23:36,  5.42s/it][A
Training...:  14% 356/2609 [20:25<3:27:45,  5.53s/it][A
Training...:  14% 357/2609 [20:31<3:28:36,  5.56s/it][A
Training...:  14% 358/2609 [20:36<3:25:16,  5.47s/it][A
Training...:  14% 359/2609 [20:42<3:22:09,  5.39s/it][A
Training...:  14% 360/2609 [20:46<3:15:47,  5.22s/it][A
Training...:  14% 361/2609 [20:51<3:10:15,  5.08s/it][A
Training...:  14% 362/2609 [20:56<3:04:13,  4.92s/it][A
Training...:  14% 363/2609 [21:00<2:59:30,  4.80s/it][A
Training...:  14% 364/2609 [21:04<2:54:11,  4.66s/it][A
Training...:  14% 365/2609 [21:09<2:49:56,  4.54s/it][A
Training...:  14% 366/2609 [21:13<2:44:54,  4.41s/it][A
Training...:  14% 367/2609 [21:17<2:40:05,  4.28s/it][A
Training...:  14% 368/2609 [21:21<2:35:21,  4.16s/it][A
Training...:  14% 369/2609 [21:25<2:31:07,  4.05s/it][A
Training...:  14% 370/2609 [21:28<2:26:11,  3.92s/it][A
Training...:  14% 371/2609 [21:32<2:23:14,  3.84s/it][A
Training...:  14% 372/2609 [21:35<2:18:19,  3.71s/it][A                                                           
                                                     [AEpoch ... (1/20):  15% 3/20 [7:54:48<42:24:09, 8979.37s/it]
Training...:  14% 372/2609 [21:39<2:18:19,  3.71s/it][A
Training...:  14% 373/2609 [21:39<2:21:23,  3.79s/it][A
Training...:  14% 374/2609 [21:42<2:15:52,  3.65s/it][A
Training...:  14% 375/2609 [21:46<2:10:29,  3.50s/it][A
Training...:  14% 376/2609 [21:49<2:05:40,  3.38s/it][A
Training...:  14% 377/2609 [21:52<2:02:20,  3.29s/it][A
Training...:  14% 378/2609 [21:55<1:58:26,  3.19s/it][A
Training...:  15% 379/2609 [21:58<1:54:56,  3.09s/it][A
Training...:  15% 380/2609 [22:00<1:51:09,  2.99s/it][A
Training...:  15% 381/2609 [22:03<1:48:42,  2.93s/it][A
Training...:  15% 382/2609 [22:06<1:45:18,  2.84s/it][A
Training...:  15% 383/2609 [22:08<1:41:46,  2.74s/it][A
Training...:  15% 384/2609 [22:11<1:38:20,  2.65s/it][A
Training...:  15% 385/2609 [22:13<1:35:32,  2.58s/it][A
Training...:  15% 386/2609 [22:15<1:32:32,  2.50s/it][A
Training...:  15% 387/2609 [22:18<1:29:23,  2.41s/it][A
Training...:  15% 388/2609 [22:20<1:26:19,  2.33s/it][A
Training...:  15% 389/2609 [22:22<1:23:16,  2.25s/it][A
Training...:  15% 390/2609 [22:24<1:19:38,  2.15s/it][A
Training...:  15% 391/2609 [22:26<1:16:18,  2.06s/it][A
Training...:  15% 392/2609 [22:27<1:12:46,  1.97s/it][A
Training...:  15% 393/2609 [22:29<1:08:51,  1.86s/it][A
Training...:  15% 394/2609 [22:31<1:04:49,  1.76s/it][A
Training...:  15% 395/2609 [22:32<1:00:40,  1.64s/it][A
Training...:  15% 396/2609 [22:33<56:19,  1.53s/it]  [A
Training...:  15% 397/2609 [22:34<51:52,  1.41s/it][A                                                           
                                                   [AEpoch ... (1/20):  15% 3/20 [7:55:44<42:24:09, 8979.37s/it]
Training...:  15% 397/2609 [22:36<51:52,  1.41s/it][A
Training...:  15% 398/2609 [22:36<50:32,  1.37s/it][A
Training...:  15% 399/2609 [22:36<44:15,  1.20s/it][A
Training...:  15% 400/2609 [22:37<36:53,  1.00s/it][A
Training...:  15% 401/2609 [22:44<1:44:58,  2.85s/it][A
Training...:  15% 402/2609 [22:51<2:31:33,  4.12s/it][A
Training...:  15% 403/2609 [22:58<2:57:25,  4.83s/it][A
Training...:  15% 404/2609 [23:04<3:12:05,  5.23s/it][A
Training...:  16% 405/2609 [23:10<3:18:52,  5.41s/it][A
Training...:  16% 406/2609 [23:15<3:20:54,  5.47s/it][A
Training...:  16% 407/2609 [23:21<3:20:37,  5.47s/it][A
Training...:  16% 408/2609 [23:26<3:17:52,  5.39s/it][A
Training...:  16% 409/2609 [23:31<3:13:32,  5.28s/it][A
Training...:  16% 410/2609 [23:36<3:08:05,  5.13s/it][A
Training...:  16% 411/2609 [23:41<3:04:47,  5.04s/it][A
Training...:  16% 412/2609 [23:45<3:00:07,  4.92s/it][A
Training...:  16% 413/2609 [23:50<2:56:05,  4.81s/it][A
Training...:  16% 414/2609 [23:54<2:51:09,  4.68s/it][A
Training...:  16% 415/2609 [23:58<2:46:20,  4.55s/it][A
Training...:  16% 416/2609 [24:03<2:41:51,  4.43s/it][A
Training...:  16% 417/2609 [24:07<2:38:36,  4.34s/it][A
Training...:  16% 418/2609 [24:11<2:34:07,  4.22s/it][A
Training...:  16% 419/2609 [24:14<2:29:23,  4.09s/it][A
Training...:  16% 420/2609 [24:18<2:24:35,  3.96s/it][A
Training...:  16% 421/2609 [24:22<2:20:48,  3.86s/it][A
Training...:  16% 422/2609 [24:25<2:17:14,  3.77s/it][A                                                           
                                                     [AEpoch ... (1/20):  15% 3/20 [7:57:38<42:24:09, 8979.37s/it]
Training...:  16% 422/2609 [24:29<2:17:14,  3.77s/it][A
Training...:  16% 423/2609 [24:29<2:19:56,  3.84s/it][A
Training...:  16% 424/2609 [24:33<2:13:56,  3.68s/it][A
Training...:  16% 425/2609 [24:36<2:09:11,  3.55s/it][A
Training...:  16% 426/2609 [24:39<2:04:15,  3.42s/it][A
Training...:  16% 427/2609 [24:42<1:59:43,  3.29s/it][A
Training...:  16% 428/2609 [24:45<1:55:49,  3.19s/it][A
Training...:  16% 429/2609 [24:48<1:52:14,  3.09s/it][A
Training...:  16% 430/2609 [24:50<1:48:19,  2.98s/it][A
Training...:  17% 431/2609 [24:53<1:45:13,  2.90s/it][A
Training...:  17% 432/2609 [24:56<1:41:42,  2.80s/it][A
Training...:  17% 433/2609 [24:58<1:38:13,  2.71s/it][A
Training...:  17% 434/2609 [25:01<1:34:48,  2.62s/it][A
Training...:  17% 435/2609 [25:03<1:31:24,  2.52s/it][A
Training...:  17% 436/2609 [25:05<1:28:25,  2.44s/it][A
Training...:  17% 437/2609 [25:07<1:25:06,  2.35s/it][A
Training...:  17% 438/2609 [25:09<1:21:56,  2.26s/it][A
Training...:  17% 439/2609 [25:11<1:18:39,  2.18s/it][A
Training...:  17% 440/2609 [25:13<1:15:11,  2.08s/it][A
Training...:  17% 441/2609 [25:15<1:11:41,  1.98s/it][A
Training...:  17% 442/2609 [25:17<1:08:26,  1.90s/it][A
Training...:  17% 443/2609 [25:18<1:04:55,  1.80s/it][A
Training...:  17% 444/2609 [25:20<1:01:13,  1.70s/it][A
Training...:  17% 445/2609 [25:21<57:32,  1.60s/it]  [A
Training...:  17% 446/2609 [25:22<53:56,  1.50s/it][A
Training...:  17% 447/2609 [25:23<50:05,  1.39s/it][A                                                           
                                                   [AEpoch ... (1/20):  15% 3/20 [7:58:33<42:24:09, 8979.37s/it]
Training...:  17% 447/2609 [25:25<50:05,  1.39s/it][A
Training...:  17% 448/2609 [25:25<49:19,  1.37s/it][A
Training...:  17% 449/2609 [25:26<43:03,  1.20s/it][A
Training...:  17% 450/2609 [25:26<36:09,  1.01s/it][A
Training...:  17% 451/2609 [25:33<1:40:15,  2.79s/it][A
Training...:  17% 452/2609 [25:40<2:26:06,  4.06s/it][A
Training...:  17% 453/2609 [25:47<2:53:07,  4.82s/it][A
Training...:  17% 454/2609 [25:53<3:08:37,  5.25s/it][A
Training...:  17% 455/2609 [25:59<3:15:34,  5.45s/it][A
Training...:  17% 456/2609 [26:05<3:18:24,  5.53s/it][A
Training...:  18% 457/2609 [26:10<3:18:05,  5.52s/it][A
Training...:  18% 458/2609 [26:15<3:14:49,  5.43s/it][A
Training...:  18% 459/2609 [26:20<3:10:58,  5.33s/it][A
Training...:  18% 460/2609 [26:25<3:06:05,  5.20s/it][A
Training...:  18% 461/2609 [26:30<3:01:51,  5.08s/it][A
Training...:  18% 462/2609 [26:35<2:57:29,  4.96s/it][A
Training...:  18% 463/2609 [26:39<2:51:36,  4.80s/it][A
Training...:  18% 464/2609 [26:44<2:46:13,  4.65s/it][A
Training...:  18% 465/2609 [26:48<2:41:07,  4.51s/it][A
Training...:  18% 466/2609 [26:52<2:36:54,  4.39s/it][A
Training...:  18% 467/2609 [26:56<2:32:12,  4.26s/it][A
Training...:  18% 468/2609 [27:00<2:27:47,  4.14s/it][A
Training...:  18% 469/2609 [27:03<2:24:07,  4.04s/it][A
Training...:  18% 470/2609 [27:07<2:19:53,  3.92s/it][A
Training...:  18% 471/2609 [27:11<2:16:02,  3.82s/it][A
Training...:  18% 472/2609 [27:14<2:12:21,  3.72s/it][A                                                           
                                                     [AEpoch ... (1/20):  15% 3/20 [8:00:27<42:24:09, 8979.37s/it]
Training...:  18% 472/2609 [27:18<2:12:21,  3.72s/it][A
Training...:  18% 473/2609 [27:18<2:15:23,  3.80s/it][A
Training...:  18% 474/2609 [27:21<2:09:06,  3.63s/it][A
Training...:  18% 475/2609 [27:25<2:04:22,  3.50s/it][A
Training...:  18% 476/2609 [27:28<1:59:46,  3.37s/it][A
Training...:  18% 477/2609 [27:31<1:55:48,  3.26s/it][A
Training...:  18% 478/2609 [27:34<1:52:14,  3.16s/it][A
Training...:  18% 479/2609 [27:36<1:48:48,  3.07s/it][A
Training...:  18% 480/2609 [27:39<1:45:30,  2.97s/it][A
Training...:  18% 481/2609 [27:42<1:41:26,  2.86s/it][A
Training...:  18% 482/2609 [27:44<1:37:46,  2.76s/it][A
Training...:  19% 483/2609 [27:47<1:34:58,  2.68s/it][A
Training...:  19% 484/2609 [27:49<1:32:00,  2.60s/it][A
Training...:  19% 485/2609 [27:52<1:29:14,  2.52s/it][A
Training...:  19% 486/2609 [27:54<1:26:24,  2.44s/it][A
Training...:  19% 487/2609 [27:56<1:23:25,  2.36s/it][A
Training...:  19% 488/2609 [27:58<1:20:04,  2.27s/it][A
Training...:  19% 489/2609 [28:00<1:16:36,  2.17s/it][A
Training...:  19% 490/2609 [28:02<1:13:08,  2.07s/it][A
Training...:  19% 491/2609 [28:04<1:09:59,  1.98s/it][A
Training...:  19% 492/2609 [28:05<1:06:43,  1.89s/it][A
Training...:  19% 493/2609 [28:07<1:03:13,  1.79s/it][A
Training...:  19% 494/2609 [28:08<59:38,  1.69s/it]  [A
Training...:  19% 495/2609 [28:10<56:13,  1.60s/it][A
Training...:  19% 496/2609 [28:11<52:40,  1.50s/it][A
Training...:  19% 497/2609 [28:12<49:00,  1.39s/it][A                                                           
                                                   [AEpoch ... (1/20):  15% 3/20 [8:01:22<42:24:09, 8979.37s/it]
Training...:  19% 497/2609 [28:13<49:00,  1.39s/it][A
Training...:  19% 498/2609 [28:13<48:24,  1.38s/it][A
Training...:  19% 499/2609 [28:14<42:23,  1.21s/it][A
Training...:  19% 500/2609 [28:15<35:33,  1.01s/it][A
Training...:  19% 501/2609 [28:22<1:38:04,  2.79s/it][A
Training...:  19% 502/2609 [28:29<2:22:45,  4.07s/it][A
Training...:  19% 503/2609 [28:35<2:48:36,  4.80s/it][A
Training...:  19% 504/2609 [28:42<3:03:57,  5.24s/it][A
Training...:  19% 505/2609 [28:48<3:12:13,  5.48s/it][A
Training...:  19% 506/2609 [28:53<3:15:23,  5.57s/it][A
Training...:  19% 507/2609 [28:59<3:13:01,  5.51s/it][A
Training...:  19% 508/2609 [29:04<3:09:06,  5.40s/it][A
Training...:  20% 509/2609 [29:09<3:05:33,  5.30s/it][A
Training...:  20% 510/2609 [29:14<3:01:34,  5.19s/it][A
Training...:  20% 511/2609 [29:19<2:57:38,  5.08s/it][A
Training...:  20% 512/2609 [29:23<2:52:02,  4.92s/it][A
Training...:  20% 513/2609 [29:28<2:47:06,  4.78s/it][A
Training...:  20% 514/2609 [29:32<2:42:47,  4.66s/it][A
Training...:  20% 515/2609 [29:36<2:38:08,  4.53s/it][A
Training...:  20% 516/2609 [29:40<2:32:54,  4.38s/it][A
Training...:  20% 517/2609 [29:44<2:28:18,  4.25s/it][A
Training...:  20% 518/2609 [29:48<2:23:54,  4.13s/it][A
Training...:  20% 519/2609 [29:52<2:20:12,  4.03s/it][A
Training...:  20% 520/2609 [29:56<2:16:22,  3.92s/it][A
Training...:  20% 521/2609 [29:59<2:12:55,  3.82s/it][A
Training...:  20% 522/2609 [30:03<2:08:43,  3.70s/it][A                                                           
                                                     [AEpoch ... (1/20):  15% 3/20 [8:03:15<42:24:09, 8979.37s/it]
Training...:  20% 522/2609 [30:07<2:08:43,  3.70s/it][A
Training...:  20% 523/2609 [30:07<2:11:36,  3.79s/it][A
Training...:  20% 524/2609 [30:10<2:06:22,  3.64s/it][A
Training...:  20% 525/2609 [30:13<2:02:08,  3.52s/it][A
Training...:  20% 526/2609 [30:16<1:57:58,  3.40s/it][A
Training...:  20% 527/2609 [30:19<1:54:09,  3.29s/it][A
Training...:  20% 528/2609 [30:22<1:50:16,  3.18s/it][A
Training...:  20% 529/2609 [30:25<1:46:36,  3.08s/it][A
Training...:  20% 530/2609 [30:28<1:43:39,  2.99s/it][A
Training...:  20% 531/2609 [30:30<1:40:15,  2.89s/it][A
Training...:  20% 532/2609 [30:33<1:37:23,  2.81s/it][A
Training...:  20% 533/2609 [30:36<1:34:05,  2.72s/it][A
Training...:  20% 534/2609 [30:38<1:30:46,  2.62s/it][A
Training...:  21% 535/2609 [30:40<1:27:38,  2.54s/it][A
Training...:  21% 536/2609 [30:43<1:25:03,  2.46s/it][A
Training...:  21% 537/2609 [30:45<1:22:20,  2.38s/it][A
Training...:  21% 538/2609 [30:47<1:19:31,  2.30s/it][A
Training...:  21% 539/2609 [30:49<1:16:02,  2.20s/it][A
Training...:  21% 540/2609 [30:51<1:12:43,  2.11s/it][A
Training...:  21% 541/2609 [30:53<1:09:08,  2.01s/it][A
Training...:  21% 542/2609 [30:54<1:05:44,  1.91s/it][A
Training...:  21% 543/2609 [30:56<1:02:32,  1.82s/it][A
Training...:  21% 544/2609 [30:57<59:11,  1.72s/it]  [A
Training...:  21% 545/2609 [30:59<55:42,  1.62s/it][A
Training...:  21% 546/2609 [31:00<52:11,  1.52s/it][A
Training...:  21% 547/2609 [31:01<48:12,  1.40s/it][A                                                           
                                                   [AEpoch ... (1/20):  15% 3/20 [8:04:11<42:24:09, 8979.37s/it]
Training...:  21% 547/2609 [31:02<48:12,  1.40s/it][A
Training...:  21% 548/2609 [31:02<47:31,  1.38s/it][A
Training...:  21% 549/2609 [31:03<41:16,  1.20s/it][A
Training...:  21% 550/2609 [31:04<34:26,  1.00s/it][A
Training...:  21% 551/2609 [31:11<1:36:35,  2.82s/it][A
Training...:  21% 552/2609 [31:18<2:18:43,  4.05s/it][A
Training...:  21% 553/2609 [31:24<2:43:09,  4.76s/it][A
Training...:  21% 554/2609 [31:30<2:58:04,  5.20s/it][A
Training...:  21% 555/2609 [31:36<3:05:24,  5.42s/it][A
Training...:  21% 556/2609 [31:42<3:08:31,  5.51s/it][A
Training...:  21% 557/2609 [31:48<3:08:36,  5.51s/it][A
Training...:  21% 558/2609 [31:53<3:07:17,  5.48s/it][A
Training...:  21% 559/2609 [31:58<3:04:30,  5.40s/it][A
Training...:  21% 560/2609 [32:03<2:59:07,  5.25s/it][A
Training...:  22% 561/2609 [32:08<2:54:22,  5.11s/it][A
Training...:  22% 562/2609 [32:12<2:49:13,  4.96s/it][A
Training...:  22% 563/2609 [32:17<2:44:42,  4.83s/it][A
Training...:  22% 564/2609 [32:21<2:40:55,  4.72s/it][A
Training...:  22% 565/2609 [32:26<2:38:14,  4.65s/it][A
Training...:  22% 566/2609 [32:30<2:33:17,  4.50s/it][A
Training...:  22% 567/2609 [32:34<2:29:05,  4.38s/it][A
Training...:  22% 568/2609 [32:38<2:24:16,  4.24s/it][A
Training...:  22% 569/2609 [32:42<2:20:22,  4.13s/it][A
Training...:  22% 570/2609 [32:46<2:15:48,  4.00s/it][A
Training...:  22% 571/2609 [32:49<2:11:41,  3.88s/it][A
Training...:  22% 572/2609 [32:53<2:08:02,  3.77s/it][A                                                           
                                                     [AEpoch ... (1/20):  15% 3/20 [8:06:06<42:24:09, 8979.37s/it]
Training...:  22% 572/2609 [32:57<2:08:02,  3.77s/it][A
Training...:  22% 573/2609 [32:57<2:11:22,  3.87s/it][A
Training...:  22% 574/2609 [33:00<2:05:55,  3.71s/it][A
Training...:  22% 575/2609 [33:04<2:01:42,  3.59s/it][A
Training...:  22% 576/2609 [33:07<1:57:35,  3.47s/it][A
Training...:  22% 577/2609 [33:10<1:54:03,  3.37s/it][A
Training...:  22% 578/2609 [33:13<1:50:11,  3.26s/it][A
Training...:  22% 579/2609 [33:16<1:47:00,  3.16s/it][A
Training...:  22% 580/2609 [33:19<1:43:34,  3.06s/it][A
Training...:  22% 581/2609 [33:21<1:40:26,  2.97s/it][A
Training...:  22% 582/2609 [33:24<1:36:30,  2.86s/it][A
Training...:  22% 583/2609 [33:27<1:33:18,  2.76s/it][A
Training...:  22% 584/2609 [33:29<1:30:05,  2.67s/it][A
Training...:  22% 585/2609 [33:31<1:27:01,  2.58s/it][A
Training...:  22% 586/2609 [33:34<1:24:02,  2.49s/it][A
Training...:  22% 587/2609 [33:36<1:20:56,  2.40s/it][A
Training...:  23% 588/2609 [33:38<1:17:48,  2.31s/it][A
Training...:  23% 589/2609 [33:40<1:15:00,  2.23s/it][A
Training...:  23% 590/2609 [33:42<1:11:49,  2.13s/it][A
Training...:  23% 591/2609 [33:44<1:08:31,  2.04s/it][A
Training...:  23% 592/2609 [33:45<1:05:53,  1.96s/it][A
Training...:  23% 593/2609 [33:47<1:02:31,  1.86s/it][A
Training...:  23% 594/2609 [33:49<59:01,  1.76s/it]  [A
Training...:  23% 595/2609 [33:50<55:40,  1.66s/it][A
Training...:  23% 596/2609 [33:51<52:11,  1.56s/it][A
Training...:  23% 597/2609 [33:53<48:01,  1.43s/it][A                                                           
                                                   [AEpoch ... (1/20):  15% 3/20 [8:07:03<42:24:09, 8979.37s/it]
Training...:  23% 597/2609 [33:54<48:01,  1.43s/it][A
Training...:  23% 598/2609 [33:54<46:49,  1.40s/it][A
Training...:  23% 599/2609 [33:55<40:37,  1.21s/it][A
Training...:  23% 600/2609 [33:55<33:50,  1.01s/it][A
Training...:  23% 601/2609 [34:02<1:34:15,  2.82s/it][A
Training...:  23% 602/2609 [34:09<2:15:51,  4.06s/it][A
Training...:  23% 603/2609 [34:16<2:39:54,  4.78s/it][A
Training...:  23% 604/2609 [34:22<2:56:51,  5.29s/it][A
Training...:  23% 605/2609 [34:28<3:03:35,  5.50s/it][A
Training...:  23% 606/2609 [34:34<3:05:45,  5.56s/it][A
Training...:  23% 607/2609 [34:39<3:04:58,  5.54s/it][A
Training...:  23% 608/2609 [34:45<3:01:49,  5.45s/it][A
Training...:  23% 609/2609 [34:50<2:58:15,  5.35s/it][A
Training...:  23% 610/2609 [34:55<2:53:37,  5.21s/it][A
Training...:  23% 611/2609 [34:59<2:49:17,  5.08s/it][A
Training...:  23% 612/2609 [35:04<2:44:10,  4.93s/it][A
Training...:  23% 613/2609 [35:08<2:39:17,  4.79s/it][A
Training...:  24% 614/2609 [35:13<2:34:23,  4.64s/it][A
Training...:  24% 615/2609 [35:17<2:29:57,  4.51s/it][A
Training...:  24% 616/2609 [35:21<2:25:26,  4.38s/it][A
Training...:  24% 617/2609 [35:25<2:21:03,  4.25s/it][A
Training...:  24% 618/2609 [35:29<2:16:59,  4.13s/it][A
Training...:  24% 619/2609 [35:32<2:13:30,  4.03s/it][A
Training...:  24% 620/2609 [35:36<2:09:36,  3.91s/it][A
Training...:  24% 621/2609 [35:40<2:07:33,  3.85s/it][A
Training...:  24% 622/2609 [35:43<2:03:42,  3.74s/it][A                                                           
                                                     [AEpoch ... (1/20):  15% 3/20 [8:08:56<42:24:09, 8979.37s/it]
Training...:  24% 622/2609 [35:47<2:03:42,  3.74s/it][A
Training...:  24% 623/2609 [35:47<2:07:07,  3.84s/it][A
Training...:  24% 624/2609 [35:51<2:01:37,  3.68s/it][A
Training...:  24% 625/2609 [35:54<1:57:22,  3.55s/it][A
Training...:  24% 626/2609 [35:57<1:53:18,  3.43s/it][A
Training...:  24% 627/2609 [36:00<1:50:01,  3.33s/it][A
Training...:  24% 628/2609 [36:03<1:47:10,  3.25s/it][A
Training...:  24% 629/2609 [36:06<1:44:30,  3.17s/it][A
Training...:  24% 630/2609 [36:09<1:40:43,  3.05s/it][A
Training...:  24% 631/2609 [36:12<1:37:41,  2.96s/it][A
Training...:  24% 632/2609 [36:14<1:34:18,  2.86s/it][A
Training...:  24% 633/2609 [36:17<1:31:30,  2.78s/it][A
Training...:  24% 634/2609 [36:19<1:28:22,  2.68s/it][A
Training...:  24% 635/2609 [36:22<1:25:28,  2.60s/it][A
Training...:  24% 636/2609 [36:24<1:22:25,  2.51s/it][A
Training...:  24% 637/2609 [36:26<1:19:27,  2.42s/it][A
Training...:  24% 638/2609 [36:28<1:16:20,  2.32s/it][A
Training...:  24% 639/2609 [36:30<1:13:04,  2.23s/it][A
Training...:  25% 640/2609 [36:32<1:10:17,  2.14s/it][A
Training...:  25% 641/2609 [36:34<1:07:08,  2.05s/it][A
Training...:  25% 642/2609 [36:36<1:03:51,  1.95s/it][A
Training...:  25% 643/2609 [36:38<1:00:56,  1.86s/it][A
Training...:  25% 644/2609 [36:39<57:29,  1.76s/it]  [A
Training...:  25% 645/2609 [36:41<54:09,  1.65s/it][A
Training...:  25% 646/2609 [36:42<50:23,  1.54s/it][A
Training...:  25% 647/2609 [36:43<46:36,  1.43s/it][A                                                           
                                                   [AEpoch ... (1/20):  15% 3/20 [8:09:53<42:24:09, 8979.37s/it]
Training...:  25% 647/2609 [36:44<46:36,  1.43s/it][A
Training...:  25% 648/2609 [36:44<45:32,  1.39s/it][A
Training...:  25% 649/2609 [36:45<39:44,  1.22s/it][A
Training...:  25% 650/2609 [36:46<33:16,  1.02s/it][A
Training...:  25% 651/2609 [36:53<1:32:13,  2.83s/it][A
Training...:  25% 652/2609 [37:00<2:12:18,  4.06s/it][A
Training...:  25% 653/2609 [37:06<2:36:05,  4.79s/it][A
Training...:  25% 654/2609 [37:12<2:50:54,  5.25s/it][A
Training...:  25% 655/2609 [37:18<2:58:04,  5.47s/it][A
Training...:  25% 656/2609 [37:24<3:00:17,  5.54s/it][A
Training...:  25% 657/2609 [37:30<3:00:00,  5.53s/it][A
Training...:  25% 658/2609 [37:35<2:57:57,  5.47s/it][A
Training...:  25% 659/2609 [37:40<2:53:51,  5.35s/it][A
Training...:  25% 660/2609 [37:45<2:49:35,  5.22s/it][A
Training...:  25% 661/2609 [37:50<2:45:12,  5.09s/it][A
Training...:  25% 662/2609 [37:54<2:41:22,  4.97s/it][A
Training...:  25% 663/2609 [37:59<2:37:59,  4.87s/it][A
Training...:  25% 664/2609 [38:03<2:33:21,  4.73s/it][A
Training...:  25% 665/2609 [38:08<2:29:04,  4.60s/it][A
Training...:  26% 666/2609 [38:12<2:24:02,  4.45s/it][A
Training...:  26% 667/2609 [38:16<2:19:50,  4.32s/it][A
Training...:  26% 668/2609 [38:20<2:15:30,  4.19s/it][A
Training...:  26% 669/2609 [38:24<2:12:01,  4.08s/it][A
Training...:  26% 670/2609 [38:27<2:08:22,  3.97s/it][A
Training...:  26% 671/2609 [38:31<2:04:37,  3.86s/it][A
Training...:  26% 672/2609 [38:34<2:01:19,  3.76s/it][A                                                           
                                                     [AEpoch ... (1/20):  15% 3/20 [8:11:47<42:24:09, 8979.37s/it]
Training...:  26% 672/2609 [38:38<2:01:19,  3.76s/it][A
Training...:  26% 673/2609 [38:38<2:04:18,  3.85s/it][A
Training...:  26% 674/2609 [38:42<1:59:34,  3.71s/it][A
Training...:  26% 675/2609 [38:45<1:55:31,  3.58s/it][A
Training...:  26% 676/2609 [38:48<1:51:23,  3.46s/it][A
Training...:  26% 677/2609 [38:51<1:47:31,  3.34s/it][A
Training...:  26% 678/2609 [38:54<1:43:48,  3.23s/it][A
Training...:  26% 679/2609 [38:57<1:40:39,  3.13s/it][A
Training...:  26% 680/2609 [39:00<1:37:42,  3.04s/it][A
Training...:  26% 681/2609 [39:03<1:34:57,  2.96s/it][A
Training...:  26% 682/2609 [39:05<1:31:40,  2.85s/it][A
Training...:  26% 683/2609 [39:08<1:29:02,  2.77s/it][A
Training...:  26% 684/2609 [39:11<1:26:05,  2.68s/it][A
Training...:  26% 685/2609 [39:13<1:23:17,  2.60s/it][A
Training...:  26% 686/2609 [39:15<1:20:13,  2.50s/it][A
Training...:  26% 687/2609 [39:17<1:17:22,  2.42s/it][A
Training...:  26% 688/2609 [39:20<1:14:21,  2.32s/it][A
Training...:  26% 689/2609 [39:22<1:11:28,  2.23s/it][A
Training...:  26% 690/2609 [39:23<1:08:31,  2.14s/it][A
Training...:  26% 691/2609 [39:25<1:05:15,  2.04s/it][A
Training...:  27% 692/2609 [39:27<1:02:17,  1.95s/it][A
Training...:  27% 693/2609 [39:29<59:16,  1.86s/it]  [A
Training...:  27% 694/2609 [39:30<55:48,  1.75s/it][A
Training...:  27% 695/2609 [39:31<52:06,  1.63s/it][A
Training...:  27% 696/2609 [39:33<48:05,  1.51s/it][A
Training...:  27% 697/2609 [39:34<43:56,  1.38s/it][A                                                           
                                                   [AEpoch ... (1/20):  15% 3/20 [8:12:44<42:24:09, 8979.37s/it]
Training...:  27% 697/2609 [39:35<43:56,  1.38s/it][A
Training...:  27% 698/2609 [39:35<42:53,  1.35s/it][A
Training...:  27% 699/2609 [39:36<37:21,  1.17s/it][A
Training...:  27% 700/2609 [39:36<31:14,  1.02it/s][A
Training...:  27% 701/2609 [39:43<1:28:15,  2.78s/it][A
Training...:  27% 702/2609 [39:50<2:08:35,  4.05s/it][A
Training...:  27% 703/2609 [39:57<2:33:54,  4.84s/it][A
Training...:  27% 704/2609 [40:03<2:48:48,  5.32s/it][A
Training...:  27% 705/2609 [40:10<2:57:07,  5.58s/it][A
Training...:  27% 706/2609 [40:16<3:00:39,  5.70s/it][A
Training...:  27% 707/2609 [40:21<2:59:35,  5.67s/it][A
Training...:  27% 708/2609 [40:27<2:56:18,  5.56s/it][A
Training...:  27% 709/2609 [40:32<2:52:25,  5.44s/it][A
Training...:  27% 710/2609 [40:37<2:47:20,  5.29s/it][A
Training...:  27% 711/2609 [40:41<2:42:50,  5.15s/it][A
Training...:  27% 712/2609 [40:46<2:37:31,  4.98s/it][A
Training...:  27% 713/2609 [40:51<2:33:17,  4.85s/it][A
Training...:  27% 714/2609 [40:55<2:28:43,  4.71s/it][A
Training...:  27% 715/2609 [40:59<2:24:41,  4.58s/it][A
Training...:  27% 716/2609 [41:03<2:20:24,  4.45s/it][A
Training...:  27% 717/2609 [41:07<2:16:45,  4.34s/it][A
Training...:  28% 718/2609 [41:11<2:13:19,  4.23s/it][A
Training...:  28% 719/2609 [41:15<2:10:03,  4.13s/it][A
Training...:  28% 720/2609 [41:19<2:06:15,  4.01s/it][A
Training...:  28% 721/2609 [41:23<2:02:57,  3.91s/it][A
Training...:  28% 722/2609 [41:26<1:59:36,  3.80s/it][A                                                           
                                                     [AEpoch ... (1/20):  15% 3/20 [8:14:39<42:24:09, 8979.37s/it]
Training...:  28% 722/2609 [41:30<1:59:36,  3.80s/it][A
Training...:  28% 723/2609 [41:30<2:01:36,  3.87s/it][A
Training...:  28% 724/2609 [41:34<1:56:21,  3.70s/it][A
Training...:  28% 725/2609 [41:37<1:52:26,  3.58s/it][A
Training...:  28% 726/2609 [41:40<1:48:08,  3.45s/it][A
Training...:  28% 727/2609 [41:43<1:44:24,  3.33s/it][A
Training...:  28% 728/2609 [41:46<1:40:49,  3.22s/it][A
Training...:  28% 729/2609 [41:49<1:37:37,  3.12s/it][A
Training...:  28% 730/2609 [41:52<1:34:32,  3.02s/it][A
Training...:  28% 731/2609 [41:55<1:31:50,  2.93s/it][A
Training...:  28% 732/2609 [41:57<1:29:30,  2.86s/it][A
Training...:  28% 733/2609 [42:00<1:27:02,  2.78s/it][A
Training...:  28% 734/2609 [42:02<1:24:49,  2.71s/it][A
Training...:  28% 735/2609 [42:05<1:22:20,  2.64s/it][A
Training...:  28% 736/2609 [42:07<1:19:15,  2.54s/it][A
Training...:  28% 737/2609 [42:09<1:16:40,  2.46s/it][A
Training...:  28% 738/2609 [42:12<1:13:52,  2.37s/it][A
Training...:  28% 739/2609 [42:14<1:10:41,  2.27s/it][A
Training...:  28% 740/2609 [42:16<1:07:35,  2.17s/it][A
Training...:  28% 741/2609 [42:17<1:04:43,  2.08s/it][A
Training...:  28% 742/2609 [42:19<1:01:30,  1.98s/it][A
Training...:  28% 743/2609 [42:21<58:34,  1.88s/it]  [A
Training...:  29% 744/2609 [42:22<55:12,  1.78s/it][A
Training...:  29% 745/2609 [42:24<51:55,  1.67s/it][A
Training...:  29% 746/2609 [42:25<48:18,  1.56s/it][A
Training...:  29% 747/2609 [42:26<44:33,  1.44s/it][A                                                           
                                                   [AEpoch ... (1/20):  15% 3/20 [8:15:36<42:24:09, 8979.37s/it]
Training...:  29% 747/2609 [42:27<44:33,  1.44s/it][A
Training...:  29% 748/2609 [42:27<43:17,  1.40s/it][A
Training...:  29% 749/2609 [42:28<37:34,  1.21s/it][A
Training...:  29% 750/2609 [42:29<31:22,  1.01s/it][A
Training...:  29% 751/2609 [42:36<1:27:54,  2.84s/it][A
Training...:  29% 752/2609 [42:43<2:07:23,  4.12s/it][A
Training...:  29% 753/2609 [42:49<2:28:56,  4.81s/it][A
Training...:  29% 754/2609 [42:56<2:41:09,  5.21s/it][A
Training...:  29% 755/2609 [43:01<2:46:50,  5.40s/it][A
Training...:  29% 756/2609 [43:07<2:48:41,  5.46s/it][A
Training...:  29% 757/2609 [43:13<2:49:01,  5.48s/it][A
Training...:  29% 758/2609 [43:18<2:46:47,  5.41s/it][A
Training...:  29% 759/2609 [43:23<2:44:08,  5.32s/it][A
Training...:  29% 760/2609 [43:28<2:40:13,  5.20s/it][A
Training...:  29% 761/2609 [43:33<2:37:20,  5.11s/it][A
Training...:  29% 762/2609 [43:38<2:35:05,  5.04s/it][A
Training...:  29% 763/2609 [43:42<2:30:36,  4.90s/it][A
Training...:  29% 764/2609 [43:47<2:25:37,  4.74s/it][A
Training...:  29% 765/2609 [43:51<2:20:38,  4.58s/it][A
Training...:  29% 766/2609 [43:55<2:16:34,  4.45s/it][A
Training...:  29% 767/2609 [43:59<2:13:14,  4.34s/it][A
Training...:  29% 768/2609 [44:03<2:09:10,  4.21s/it][A
Training...:  29% 769/2609 [44:07<2:05:36,  4.10s/it][A
Training...:  30% 770/2609 [44:10<2:01:58,  3.98s/it][A
Training...:  30% 771/2609 [44:14<1:59:02,  3.89s/it][A
Training...:  30% 772/2609 [44:18<1:55:25,  3.77s/it][A                                                           
                                                     [AEpoch ... (1/20):  15% 3/20 [8:17:30<42:24:09, 8979.37s/it]
Training...:  30% 772/2609 [44:22<1:55:25,  3.77s/it][A
Training...:  30% 773/2609 [44:22<1:58:31,  3.87s/it][A
Training...:  30% 774/2609 [44:25<1:53:29,  3.71s/it][A
Training...:  30% 775/2609 [44:28<1:48:52,  3.56s/it][A
Training...:  30% 776/2609 [44:31<1:44:49,  3.43s/it][A
Training...:  30% 777/2609 [44:34<1:40:53,  3.30s/it][A
Training...:  30% 778/2609 [44:37<1:37:22,  3.19s/it][A
Training...:  30% 779/2609 [44:40<1:34:06,  3.09s/it][A
Training...:  30% 780/2609 [44:43<1:31:05,  2.99s/it][A
Training...:  30% 781/2609 [44:46<1:28:53,  2.92s/it][A
Training...:  30% 782/2609 [44:48<1:25:52,  2.82s/it][A
Training...:  30% 783/2609 [44:51<1:23:15,  2.74s/it][A
Training...:  30% 784/2609 [44:53<1:21:05,  2.67s/it][A
Training...:  30% 785/2609 [44:56<1:18:49,  2.59s/it][A
Training...:  30% 786/2609 [44:58<1:16:11,  2.51s/it][A
Training...:  30% 787/2609 [45:00<1:13:26,  2.42s/it][A
Training...:  30% 788/2609 [45:02<1:10:25,  2.32s/it][A
Training...:  30% 789/2609 [45:04<1:07:51,  2.24s/it][A
Training...:  30% 790/2609 [45:06<1:05:12,  2.15s/it][A
Training...:  30% 791/2609 [45:08<1:02:02,  2.05s/it][A
Training...:  30% 792/2609 [45:10<58:59,  1.95s/it]  [A
Training...:  30% 793/2609 [45:11<56:18,  1.86s/it][A
Training...:  30% 794/2609 [45:13<53:12,  1.76s/it][A
Training...:  30% 795/2609 [45:14<50:23,  1.67s/it][A
Training...:  31% 796/2609 [45:16<47:12,  1.56s/it][A
Training...:  31% 797/2609 [45:17<43:48,  1.45s/it][A                                                           
                                                   [AEpoch ... (1/20):  15% 3/20 [8:18:27<42:24:09, 8979.37s/it]
Training...:  31% 797/2609 [45:18<43:48,  1.45s/it][A
Training...:  31% 798/2609 [45:18<42:43,  1.42s/it][A
Training...:  31% 799/2609 [45:19<37:01,  1.23s/it][A
Training...:  31% 800/2609 [45:20<30:54,  1.03s/it][A
Training...:  31% 801/2609 [45:27<1:26:34,  2.87s/it][A
Training...:  31% 802/2609 [45:34<2:05:21,  4.16s/it][A
Training...:  31% 803/2609 [45:40<2:26:08,  4.86s/it][A
Training...:  31% 804/2609 [45:47<2:38:29,  5.27s/it][A
Training...:  31% 805/2609 [45:53<2:44:34,  5.47s/it][A
Training...:  31% 806/2609 [45:58<2:46:26,  5.54s/it][A
Training...:  31% 807/2609 [46:04<2:46:01,  5.53s/it][A
Training...:  31% 808/2609 [46:09<2:43:20,  5.44s/it][A
Training...:  31% 809/2609 [46:14<2:40:53,  5.36s/it][A
Training...:  31% 810/2609 [46:19<2:37:22,  5.25s/it][A
Training...:  31% 811/2609 [46:24<2:33:33,  5.12s/it][A
Training...:  31% 812/2609 [46:29<2:28:56,  4.97s/it][A
Training...:  31% 813/2609 [46:33<2:25:33,  4.86s/it][A
Training...:  31% 814/2609 [46:38<2:20:56,  4.71s/it][A
Training...:  31% 815/2609 [46:42<2:18:01,  4.62s/it][A
Training...:  31% 816/2609 [46:46<2:14:47,  4.51s/it][A
Training...:  31% 817/2609 [46:50<2:10:32,  4.37s/it][A
Training...:  31% 818/2609 [46:54<2:06:27,  4.24s/it][A
Training...:  31% 819/2609 [46:58<2:03:29,  4.14s/it][A
Training...:  31% 820/2609 [47:02<1:59:46,  4.02s/it][A
Training...:  31% 821/2609 [47:06<1:56:05,  3.90s/it][A
Training...:  32% 822/2609 [47:09<1:52:11,  3.77s/it][A                                                           
                                                     [AEpoch ... (1/20):  15% 3/20 [8:20:22<42:24:09, 8979.37s/it]
Training...:  32% 822/2609 [47:13<1:52:11,  3.77s/it][A
Training...:  32% 823/2609 [47:13<1:54:57,  3.86s/it][A
Training...:  32% 824/2609 [47:16<1:50:30,  3.71s/it][A
Training...:  32% 825/2609 [47:20<1:46:47,  3.59s/it][A
Training...:  32% 826/2609 [47:23<1:42:08,  3.44s/it][A
Training...:  32% 827/2609 [47:26<1:38:37,  3.32s/it][A
Training...:  32% 828/2609 [47:29<1:35:18,  3.21s/it][A
Training...:  32% 829/2609 [47:32<1:32:16,  3.11s/it][A
Training...:  32% 830/2609 [47:35<1:29:29,  3.02s/it][A
Training...:  32% 831/2609 [47:37<1:27:05,  2.94s/it][A
Training...:  32% 832/2609 [47:40<1:24:14,  2.84s/it][A
Training...:  32% 833/2609 [47:42<1:21:43,  2.76s/it][A
Training...:  32% 834/2609 [47:45<1:18:58,  2.67s/it][A
Training...:  32% 835/2609 [47:47<1:16:42,  2.59s/it][A
Training...:  32% 836/2609 [47:50<1:13:58,  2.50s/it][A
Training...:  32% 837/2609 [47:52<1:11:27,  2.42s/it][A
Training...:  32% 838/2609 [47:54<1:09:04,  2.34s/it][A
Training...:  32% 839/2609 [47:56<1:06:20,  2.25s/it][A
Training...:  32% 840/2609 [47:58<1:06:45,  2.26s/it][A
Training...:  32% 841/2609 [48:00<1:03:07,  2.14s/it][A
Training...:  32% 842/2609 [48:02<59:21,  2.02s/it]  [A
Training...:  32% 843/2609 [48:04<55:58,  1.90s/it][A
Training...:  32% 844/2609 [48:05<52:29,  1.78s/it][A
Training...:  32% 845/2609 [48:06<48:57,  1.67s/it][A
Training...:  32% 846/2609 [48:08<45:41,  1.56s/it][A
Training...:  32% 847/2609 [48:09<42:02,  1.43s/it][A                                                           
                                                   [AEpoch ... (1/20):  15% 3/20 [8:21:19<42:24:09, 8979.37s/it]
Training...:  32% 847/2609 [48:10<42:02,  1.43s/it][A
Training...:  33% 848/2609 [48:10<41:03,  1.40s/it][A
Training...:  33% 849/2609 [48:11<35:39,  1.22s/it][A
Training...:  33% 850/2609 [48:12<29:47,  1.02s/it][A
Training...:  33% 851/2609 [48:19<1:23:17,  2.84s/it][A
Training...:  33% 852/2609 [48:26<1:59:16,  4.07s/it][A
Training...:  33% 853/2609 [48:32<2:20:01,  4.78s/it][A
Training...:  33% 854/2609 [48:38<2:33:10,  5.24s/it][A
Training...:  33% 855/2609 [48:45<2:40:56,  5.51s/it][A
Training...:  33% 856/2609 [48:50<2:43:03,  5.58s/it][A
Training...:  33% 857/2609 [48:56<2:41:59,  5.55s/it][A
Training...:  33% 858/2609 [49:01<2:40:34,  5.50s/it][A
Training...:  33% 859/2609 [49:06<2:38:54,  5.45s/it][A
Training...:  33% 860/2609 [49:11<2:33:59,  5.28s/it][A
Training...:  33% 861/2609 [49:16<2:29:56,  5.15s/it][A
Training...:  33% 862/2609 [49:21<2:25:38,  5.00s/it][A
Training...:  33% 863/2609 [49:25<2:21:55,  4.88s/it][A
Training...:  33% 864/2609 [49:30<2:17:41,  4.73s/it][A
Training...:  33% 865/2609 [49:34<2:13:35,  4.60s/it][A
Training...:  33% 866/2609 [49:38<2:08:50,  4.43s/it][A
Training...:  33% 867/2609 [49:42<2:05:21,  4.32s/it][A
Training...:  33% 868/2609 [49:46<2:01:25,  4.18s/it][A
Training...:  33% 869/2609 [49:50<1:58:26,  4.08s/it][A
Training...:  33% 870/2609 [49:54<1:54:42,  3.96s/it][A
Training...:  33% 871/2609 [49:57<1:51:22,  3.85s/it][A
Training...:  33% 872/2609 [50:01<1:47:59,  3.73s/it][A                                                           
                                                     [AEpoch ... (1/20):  15% 3/20 [8:23:13<42:24:09, 8979.37s/it]
Training...:  33% 872/2609 [50:05<1:47:59,  3.73s/it][A
Training...:  33% 873/2609 [50:05<1:50:06,  3.81s/it][A
Training...:  33% 874/2609 [50:08<1:45:12,  3.64s/it][A
Training...:  34% 875/2609 [50:11<1:40:55,  3.49s/it][A
Training...:  34% 876/2609 [50:14<1:36:48,  3.35s/it][A
Training...:  34% 877/2609 [50:17<1:33:36,  3.24s/it][A
Training...:  34% 878/2609 [50:20<1:30:47,  3.15s/it][A
Training...:  34% 879/2609 [50:23<1:28:01,  3.05s/it][A
Training...:  34% 880/2609 [50:26<1:25:25,  2.96s/it][A
Training...:  34% 881/2609 [50:28<1:22:51,  2.88s/it][A
Training...:  34% 882/2609 [50:31<1:19:48,  2.77s/it][A
Training...:  34% 883/2609 [50:33<1:17:18,  2.69s/it][A
Training...:  34% 884/2609 [50:36<1:14:26,  2.59s/it][A
Training...:  34% 885/2609 [50:38<1:11:55,  2.50s/it][A
Training...:  34% 886/2609 [50:40<1:09:27,  2.42s/it][A
Training...:  34% 887/2609 [50:42<1:06:48,  2.33s/it][A
Training...:  34% 888/2609 [50:44<1:04:32,  2.25s/it][A
Training...:  34% 889/2609 [50:46<1:01:58,  2.16s/it][A
Training...:  34% 890/2609 [50:48<59:29,  2.08s/it]  [A
Training...:  34% 891/2609 [50:50<56:43,  1.98s/it][A
Training...:  34% 892/2609 [50:52<54:23,  1.90s/it][A
Training...:  34% 893/2609 [50:53<51:52,  1.81s/it][A
Training...:  34% 894/2609 [50:55<48:53,  1.71s/it][A
Training...:  34% 895/2609 [50:56<45:52,  1.61s/it][A
Training...:  34% 896/2609 [50:57<43:00,  1.51s/it][A
Training...:  34% 897/2609 [50:58<39:45,  1.39s/it][A                                                           
                                                   [AEpoch ... (1/20):  15% 3/20 [8:24:08<42:24:09, 8979.37s/it]
Training...:  34% 897/2609 [51:00<39:45,  1.39s/it][A
Training...:  34% 898/2609 [51:00<38:57,  1.37s/it][A
Training...:  34% 899/2609 [51:01<34:02,  1.19s/it][A
Training...:  34% 900/2609 [51:01<28:29,  1.00s/it][A
Training...:  35% 901/2609 [51:08<1:20:14,  2.82s/it][A
Training...:  35% 902/2609 [51:15<1:55:18,  4.05s/it][A
Training...:  35% 903/2609 [51:22<2:17:03,  4.82s/it][A
Training...:  35% 904/2609 [51:28<2:30:41,  5.30s/it][A
Training...:  35% 905/2609 [51:34<2:35:34,  5.48s/it][A
Training...:  35% 906/2609 [51:40<2:37:43,  5.56s/it][A
Training...:  35% 907/2609 [51:45<2:37:21,  5.55s/it][A
Training...:  35% 908/2609 [51:51<2:34:36,  5.45s/it][A
Training...:  35% 909/2609 [51:56<2:31:27,  5.35s/it][A
Training...:  35% 910/2609 [52:01<2:27:57,  5.23s/it][A
Training...:  35% 911/2609 [52:05<2:24:31,  5.11s/it][A
Training...:  35% 912/2609 [52:10<2:20:10,  4.96s/it][A
Training...:  35% 913/2609 [52:14<2:16:09,  4.82s/it][A
Training...:  35% 914/2609 [52:19<2:12:26,  4.69s/it][A
Training...:  35% 915/2609 [52:23<2:09:02,  4.57s/it][A
Training...:  35% 916/2609 [52:27<2:05:37,  4.45s/it][A
Training...:  35% 917/2609 [52:31<2:02:03,  4.33s/it][A
Training...:  35% 918/2609 [52:35<1:58:31,  4.21s/it][A
Training...:  35% 919/2609 [52:39<1:55:07,  4.09s/it][A
Training...:  35% 920/2609 [52:43<1:51:43,  3.97s/it][A
Training...:  35% 921/2609 [52:46<1:48:50,  3.87s/it][A
Training...:  35% 922/2609 [52:50<1:45:49,  3.76s/it][A                                                           
                                                     [AEpoch ... (1/20):  15% 3/20 [8:26:03<42:24:09, 8979.37s/it]
Training...:  35% 922/2609 [52:54<1:45:49,  3.76s/it][A
Training...:  35% 923/2609 [52:54<1:48:12,  3.85s/it][A
Training...:  35% 924/2609 [52:57<1:43:36,  3.69s/it][A
Training...:  35% 925/2609 [53:01<1:39:40,  3.55s/it][A
Training...:  35% 926/2609 [53:04<1:37:27,  3.47s/it][A
Training...:  36% 927/2609 [53:07<1:34:41,  3.38s/it][A
Training...:  36% 928/2609 [53:10<1:31:56,  3.28s/it][A
Training...:  36% 929/2609 [53:13<1:28:34,  3.16s/it][A
Training...:  36% 930/2609 [53:16<1:25:19,  3.05s/it][A
Training...:  36% 931/2609 [53:18<1:22:43,  2.96s/it][A
Training...:  36% 932/2609 [53:21<1:20:04,  2.87s/it][A
Training...:  36% 933/2609 [53:24<1:17:56,  2.79s/it][A
Training...:  36% 934/2609 [53:26<1:15:27,  2.70s/it][A
Training...:  36% 935/2609 [53:29<1:12:39,  2.60s/it][A
Training...:  36% 936/2609 [53:31<1:10:04,  2.51s/it][A
Training...:  36% 937/2609 [53:33<1:07:25,  2.42s/it][A
Training...:  36% 938/2609 [53:35<1:04:37,  2.32s/it][A
Training...:  36% 939/2609 [53:37<1:02:00,  2.23s/it][A
Training...:  36% 940/2609 [53:39<59:15,  2.13s/it]  [A
Training...:  36% 941/2609 [53:41<56:34,  2.03s/it][A
Training...:  36% 942/2609 [53:43<54:17,  1.95s/it][A
Training...:  36% 943/2609 [53:44<51:27,  1.85s/it][A
Training...:  36% 944/2609 [53:46<48:43,  1.76s/it][A
Training...:  36% 945/2609 [53:47<45:55,  1.66s/it][A
Training...:  36% 946/2609 [53:49<42:50,  1.55s/it][A
Training...:  36% 947/2609 [53:50<39:23,  1.42s/it][A                                                           
                                                   [AEpoch ... (1/20):  15% 3/20 [8:27:00<42:24:09, 8979.37s/it]
Training...:  36% 947/2609 [53:51<39:23,  1.42s/it][A
Training...:  36% 948/2609 [53:51<38:31,  1.39s/it][A
Training...:  36% 949/2609 [53:52<33:33,  1.21s/it][A
Training...:  36% 950/2609 [53:52<28:05,  1.02s/it][A
Training...:  36% 951/2609 [53:59<1:18:04,  2.83s/it][A
Training...:  36% 952/2609 [54:06<1:52:52,  4.09s/it][A
Training...:  37% 953/2609 [54:13<2:11:45,  4.77s/it][A
Training...:  37% 954/2609 [54:19<2:22:24,  5.16s/it][A
Training...:  37% 955/2609 [54:25<2:27:28,  5.35s/it][A
Training...:  37% 956/2609 [54:30<2:29:18,  5.42s/it][A
Training...:  37% 957/2609 [54:36<2:28:35,  5.40s/it][A
Training...:  37% 958/2609 [54:41<2:26:38,  5.33s/it][A
Training...:  37% 959/2609 [54:46<2:25:12,  5.28s/it][A
Training...:  37% 960/2609 [54:51<2:22:08,  5.17s/it][A
Training...:  37% 961/2609 [54:55<2:17:26,  5.00s/it][A
Training...:  37% 962/2609 [55:00<2:13:08,  4.85s/it][A
Training...:  37% 963/2609 [55:04<2:09:26,  4.72s/it][A
Training...:  37% 964/2609 [55:09<2:04:58,  4.56s/it][A
Training...:  37% 965/2609 [55:13<2:01:16,  4.43s/it][A
Training...:  37% 966/2609 [55:17<1:57:47,  4.30s/it][A
Training...:  37% 967/2609 [55:21<1:54:23,  4.18s/it][A
Training...:  37% 968/2609 [55:24<1:50:50,  4.05s/it][A
Training...:  37% 969/2609 [55:28<1:47:40,  3.94s/it][A
Training...:  37% 970/2609 [55:32<1:44:33,  3.83s/it][A
Training...:  37% 971/2609 [55:35<1:41:45,  3.73s/it][A
Training...:  37% 972/2609 [55:38<1:39:03,  3.63s/it][A                                                           
                                                     [AEpoch ... (1/20):  15% 3/20 [8:28:51<42:24:09, 8979.37s/it]
Training...:  37% 972/2609 [55:42<1:39:03,  3.63s/it][A
Training...:  37% 973/2609 [55:42<1:41:00,  3.70s/it][A
Training...:  37% 974/2609 [55:45<1:36:19,  3.54s/it][A
Training...:  37% 975/2609 [55:49<1:32:55,  3.41s/it][A
Training...:  37% 976/2609 [55:52<1:29:44,  3.30s/it][A
Training...:  37% 977/2609 [55:55<1:26:56,  3.20s/it][A
Training...:  37% 978/2609 [55:57<1:24:20,  3.10s/it][A
Training...:  38% 979/2609 [56:00<1:21:51,  3.01s/it][A
Training...:  38% 980/2609 [56:03<1:19:21,  2.92s/it][A
Training...:  38% 981/2609 [56:06<1:16:52,  2.83s/it][A
Training...:  38% 982/2609 [56:08<1:14:34,  2.75s/it][A
Training...:  38% 983/2609 [56:11<1:12:02,  2.66s/it][A
Training...:  38% 984/2609 [56:13<1:09:40,  2.57s/it][A
Training...:  38% 985/2609 [56:15<1:07:34,  2.50s/it][A
Training...:  38% 986/2609 [56:18<1:05:00,  2.40s/it][A
Training...:  38% 987/2609 [56:20<1:02:36,  2.32s/it][A
Training...:  38% 988/2609 [56:22<1:00:13,  2.23s/it][A
Training...:  38% 989/2609 [56:24<58:23,  2.16s/it]  [A
Training...:  38% 990/2609 [56:26<55:55,  2.07s/it][A
Training...:  38% 991/2609 [56:27<53:57,  2.00s/it][A
Training...:  38% 992/2609 [56:29<51:45,  1.92s/it][A
Training...:  38% 993/2609 [56:31<49:22,  1.83s/it][A
Training...:  38% 994/2609 [56:32<46:41,  1.73s/it][A
Training...:  38% 995/2609 [56:34<43:46,  1.63s/it][A
Training...:  38% 996/2609 [56:35<40:40,  1.51s/it][A
Training...:  38% 997/2609 [56:36<37:36,  1.40s/it][A                                                           
                                                   [AEpoch ... (1/20):  15% 3/20 [8:29:46<42:24:09, 8979.37s/it]
Training...:  38% 997/2609 [56:37<37:36,  1.40s/it][A
Training...:  38% 998/2609 [56:37<36:58,  1.38s/it][A
Training...:  38% 999/2609 [56:38<32:25,  1.21s/it][A
Training...:  38% 1000/2609 [56:39<27:09,  1.01s/it][A
Training...:  38% 1001/2609 [56:46<1:17:48,  2.90s/it][A
Training...:  38% 1002/2609 [56:53<1:50:10,  4.11s/it][A
Training...:  38% 1003/2609 [56:59<2:09:41,  4.85s/it][A
Training...:  38% 1004/2609 [57:06<2:19:49,  5.23s/it][A
Training...:  39% 1005/2609 [57:12<2:25:29,  5.44s/it][A
Training...:  39% 1006/2609 [57:17<2:27:26,  5.52s/it][A
Training...:  39% 1007/2609 [57:23<2:27:14,  5.51s/it][A
Training...:  39% 1008/2609 [57:28<2:25:07,  5.44s/it][A
Training...:  39% 1009/2609 [57:33<2:22:45,  5.35s/it][A
Training...:  39% 1010/2609 [57:38<2:19:25,  5.23s/it][A
Training...:  39% 1011/2609 [57:43<2:15:24,  5.08s/it][A
Training...:  39% 1012/2609 [57:47<2:10:44,  4.91s/it][A
Training...:  39% 1013/2609 [57:52<2:06:56,  4.77s/it][A
Training...:  39% 1014/2609 [57:56<2:03:41,  4.65s/it][A
Training...:  39% 1015/2609 [58:00<2:00:08,  4.52s/it][A
Training...:  39% 1016/2609 [58:05<1:57:22,  4.42s/it][A
Training...:  39% 1017/2609 [58:09<1:53:50,  4.29s/it][A
Training...:  39% 1018/2609 [58:12<1:50:22,  4.16s/it][A
Training...:  39% 1019/2609 [58:16<1:47:21,  4.05s/it][A
Training...:  39% 1020/2609 [58:20<1:44:58,  3.96s/it][A
Training...:  39% 1021/2609 [58:24<1:42:22,  3.87s/it][A
Training...:  39% 1022/2609 [58:27<1:39:44,  3.77s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [8:31:40<42:24:09, 8979.37s/it]
Training...:  39% 1022/2609 [58:31<1:39:44,  3.77s/it][A
Training...:  39% 1023/2609 [58:31<1:41:33,  3.84s/it][A
Training...:  39% 1024/2609 [58:34<1:37:13,  3.68s/it][A
Training...:  39% 1025/2609 [58:38<1:33:16,  3.53s/it][A
Training...:  39% 1026/2609 [58:41<1:29:36,  3.40s/it][A
Training...:  39% 1027/2609 [58:44<1:26:46,  3.29s/it][A
Training...:  39% 1028/2609 [58:47<1:23:36,  3.17s/it][A
Training...:  39% 1029/2609 [58:50<1:20:57,  3.07s/it][A
Training...:  39% 1030/2609 [58:52<1:18:23,  2.98s/it][A
Training...:  40% 1031/2609 [58:55<1:15:45,  2.88s/it][A
Training...:  40% 1032/2609 [58:57<1:12:48,  2.77s/it][A
Training...:  40% 1033/2609 [59:00<1:09:59,  2.66s/it][A
Training...:  40% 1034/2609 [59:02<1:07:31,  2.57s/it][A
Training...:  40% 1035/2609 [59:04<1:05:02,  2.48s/it][A
Training...:  40% 1036/2609 [59:07<1:02:43,  2.39s/it][A
Training...:  40% 1037/2609 [59:09<1:00:07,  2.30s/it][A
Training...:  40% 1038/2609 [59:11<57:56,  2.21s/it]  [A
Training...:  40% 1039/2609 [59:13<55:30,  2.12s/it][A
Training...:  40% 1040/2609 [59:15<53:20,  2.04s/it][A
Training...:  40% 1041/2609 [59:16<51:10,  1.96s/it][A
Training...:  40% 1042/2609 [59:18<48:44,  1.87s/it][A
Training...:  40% 1043/2609 [59:19<46:09,  1.77s/it][A
Training...:  40% 1044/2609 [59:21<43:49,  1.68s/it][A
Training...:  40% 1045/2609 [59:22<41:13,  1.58s/it][A
Training...:  40% 1046/2609 [59:24<38:39,  1.48s/it][A
Training...:  40% 1047/2609 [59:25<35:46,  1.37s/it][A                                                           
                                                    [AEpoch ... (1/20):  15% 3/20 [8:32:35<42:24:09, 8979.37s/it]
Training...:  40% 1047/2609 [59:26<35:46,  1.37s/it][A
Training...:  40% 1048/2609 [59:26<35:00,  1.35s/it][A
Training...:  40% 1049/2609 [59:27<30:27,  1.17s/it][A
Training...:  40% 1050/2609 [59:27<25:27,  1.02it/s][A
Training...:  40% 1051/2609 [59:34<1:11:53,  2.77s/it][A
Training...:  40% 1052/2609 [59:41<1:44:58,  4.05s/it][A
Training...:  40% 1053/2609 [59:48<2:04:40,  4.81s/it][A
Training...:  40% 1054/2609 [59:54<2:15:51,  5.24s/it][A
Training...:  40% 1055/2609 [1:00:00<2:20:14,  5.41s/it][A
Training...:  40% 1056/2609 [1:00:06<2:22:18,  5.50s/it][A
Training...:  41% 1057/2609 [1:00:11<2:21:43,  5.48s/it][A
Training...:  41% 1058/2609 [1:00:16<2:20:01,  5.42s/it][A
Training...:  41% 1059/2609 [1:00:21<2:17:18,  5.32s/it][A
Training...:  41% 1060/2609 [1:00:26<2:14:02,  5.19s/it][A
Training...:  41% 1061/2609 [1:00:31<2:11:52,  5.11s/it][A
Training...:  41% 1062/2609 [1:00:36<2:09:19,  5.02s/it][A
Training...:  41% 1063/2609 [1:00:41<2:05:38,  4.88s/it][A
Training...:  41% 1064/2609 [1:00:45<2:01:17,  4.71s/it][A
Training...:  41% 1065/2609 [1:00:49<1:57:47,  4.58s/it][A
Training...:  41% 1066/2609 [1:00:53<1:53:46,  4.42s/it][A
Training...:  41% 1067/2609 [1:00:57<1:50:24,  4.30s/it][A
Training...:  41% 1068/2609 [1:01:01<1:47:00,  4.17s/it][A
Training...:  41% 1069/2609 [1:01:05<1:43:57,  4.05s/it][A
Training...:  41% 1070/2609 [1:01:09<1:41:09,  3.94s/it][A
Training...:  41% 1071/2609 [1:01:12<1:38:38,  3.85s/it][A
Training...:  41% 1072/2609 [1:01:16<1:36:16,  3.76s/it][A                                                           
                                                        [AEpoch ... (1/20):  15% 3/20 [8:34:29<42:24:09, 8979.37s/it]
Training...:  41% 1072/2609 [1:01:20<1:36:16,  3.76s/it][A
Training...:  41% 1073/2609 [1:01:20<1:38:51,  3.86s/it][A
Training...:  41% 1074/2609 [1:01:23<1:34:36,  3.70s/it][A
Training...:  41% 1075/2609 [1:01:26<1:31:33,  3.58s/it][A
Training...:  41% 1076/2609 [1:01:30<1:28:29,  3.46s/it][A
Training...:  41% 1077/2609 [1:01:33<1:25:59,  3.37s/it][A
Training...:  41% 1078/2609 [1:01:36<1:22:56,  3.25s/it][A
Training...:  41% 1079/2609 [1:01:39<1:20:31,  3.16s/it][A
Training...:  41% 1080/2609 [1:01:42<1:18:07,  3.07s/it][A
Training...:  41% 1081/2609 [1:01:44<1:15:29,  2.96s/it][A
Training...:  41% 1082/2609 [1:01:47<1:13:02,  2.87s/it][A
Training...:  42% 1083/2609 [1:01:50<1:10:59,  2.79s/it][A
Training...:  42% 1084/2609 [1:01:52<1:08:52,  2.71s/it][A
Training...:  42% 1085/2609 [1:01:54<1:06:22,  2.61s/it][A
Training...:  42% 1086/2609 [1:01:57<1:04:14,  2.53s/it][A
Training...:  42% 1087/2609 [1:01:59<1:01:53,  2.44s/it][A
Training...:  42% 1088/2609 [1:02:01<59:20,  2.34s/it]  [A
Training...:  42% 1089/2609 [1:02:03<56:57,  2.25s/it][A
Training...:  42% 1090/2609 [1:02:05<54:40,  2.16s/it][A
Training...:  42% 1091/2609 [1:02:07<52:08,  2.06s/it][A
Training...:  42% 1092/2609 [1:02:09<49:25,  1.96s/it][A
Training...:  42% 1093/2609 [1:02:10<47:13,  1.87s/it][A
Training...:  42% 1094/2609 [1:02:12<44:36,  1.77s/it][A
Training...:  42% 1095/2609 [1:02:13<42:08,  1.67s/it][A
Training...:  42% 1096/2609 [1:02:15<39:21,  1.56s/it][A
Training...:  42% 1097/2609 [1:02:16<36:30,  1.45s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [8:35:26<42:24:09, 8979.37s/it]
Training...:  42% 1097/2609 [1:02:17<36:30,  1.45s/it][A
Training...:  42% 1098/2609 [1:02:17<35:35,  1.41s/it][A
Training...:  42% 1099/2609 [1:02:18<30:59,  1.23s/it][A
Training...:  42% 1100/2609 [1:02:18<25:47,  1.03s/it][A
Training...:  42% 1101/2609 [1:02:26<1:12:58,  2.90s/it][A
Training...:  42% 1102/2609 [1:02:33<1:44:24,  4.16s/it][A
Training...:  42% 1103/2609 [1:02:39<2:03:20,  4.91s/it][A
Training...:  42% 1104/2609 [1:02:46<2:12:46,  5.29s/it][A
Training...:  42% 1105/2609 [1:02:52<2:17:19,  5.48s/it][A
Training...:  42% 1106/2609 [1:02:57<2:18:22,  5.52s/it][A
Training...:  42% 1107/2609 [1:03:03<2:17:49,  5.51s/it][A
Training...:  42% 1108/2609 [1:03:08<2:15:02,  5.40s/it][A
Training...:  43% 1109/2609 [1:03:13<2:12:18,  5.29s/it][A
Training...:  43% 1110/2609 [1:03:18<2:08:15,  5.13s/it][A
Training...:  43% 1111/2609 [1:03:22<2:05:20,  5.02s/it][A
Training...:  43% 1112/2609 [1:03:27<2:01:31,  4.87s/it][A
Training...:  43% 1113/2609 [1:03:31<1:58:27,  4.75s/it][A
Training...:  43% 1114/2609 [1:03:36<1:54:52,  4.61s/it][A
Training...:  43% 1115/2609 [1:03:40<1:51:53,  4.49s/it][A
Training...:  43% 1116/2609 [1:03:44<1:48:23,  4.36s/it][A
Training...:  43% 1117/2609 [1:03:48<1:44:59,  4.22s/it][A
Training...:  43% 1118/2609 [1:03:52<1:42:31,  4.13s/it][A
Training...:  43% 1119/2609 [1:03:55<1:39:47,  4.02s/it][A
Training...:  43% 1120/2609 [1:03:59<1:36:40,  3.90s/it][A
Training...:  43% 1121/2609 [1:04:03<1:34:20,  3.80s/it][A
Training...:  43% 1122/2609 [1:04:06<1:31:50,  3.71s/it][A                                                           
                                                        [AEpoch ... (1/20):  15% 3/20 [8:37:19<42:24:09, 8979.37s/it]
Training...:  43% 1122/2609 [1:04:10<1:31:50,  3.71s/it][A
Training...:  43% 1123/2609 [1:04:10<1:33:41,  3.78s/it][A
Training...:  43% 1124/2609 [1:04:13<1:29:11,  3.60s/it][A
Training...:  43% 1125/2609 [1:04:16<1:25:34,  3.46s/it][A
Training...:  43% 1126/2609 [1:04:20<1:22:32,  3.34s/it][A
Training...:  43% 1127/2609 [1:04:23<1:19:59,  3.24s/it][A
Training...:  43% 1128/2609 [1:04:25<1:17:15,  3.13s/it][A
Training...:  43% 1129/2609 [1:04:28<1:14:52,  3.04s/it][A
Training...:  43% 1130/2609 [1:04:31<1:12:45,  2.95s/it][A
Training...:  43% 1131/2609 [1:04:34<1:10:09,  2.85s/it][A
Training...:  43% 1132/2609 [1:04:36<1:07:48,  2.75s/it][A
Training...:  43% 1133/2609 [1:04:39<1:05:27,  2.66s/it][A
Training...:  43% 1134/2609 [1:04:41<1:03:26,  2.58s/it][A
Training...:  44% 1135/2609 [1:04:43<1:01:34,  2.51s/it][A
Training...:  44% 1136/2609 [1:04:46<59:44,  2.43s/it]  [A
Training...:  44% 1137/2609 [1:04:48<57:46,  2.36s/it][A
Training...:  44% 1138/2609 [1:04:50<55:46,  2.28s/it][A
Training...:  44% 1139/2609 [1:04:52<53:24,  2.18s/it][A
Training...:  44% 1140/2609 [1:04:54<51:01,  2.08s/it][A
Training...:  44% 1141/2609 [1:04:55<48:38,  1.99s/it][A
Training...:  44% 1142/2609 [1:04:57<46:15,  1.89s/it][A
Training...:  44% 1143/2609 [1:04:59<43:52,  1.80s/it][A
Training...:  44% 1144/2609 [1:05:00<41:27,  1.70s/it][A
Training...:  44% 1145/2609 [1:05:01<38:57,  1.60s/it][A
Training...:  44% 1146/2609 [1:05:03<36:22,  1.49s/it][A
Training...:  44% 1147/2609 [1:05:04<33:59,  1.39s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [8:38:14<42:24:09, 8979.37s/it]
Training...:  44% 1147/2609 [1:05:05<33:59,  1.39s/it][A
Training...:  44% 1148/2609 [1:05:05<33:24,  1.37s/it][A
Training...:  44% 1149/2609 [1:05:06<29:06,  1.20s/it][A
Training...:  44% 1150/2609 [1:05:06<24:15,  1.00it/s][A
Training...:  44% 1151/2609 [1:05:14<1:08:34,  2.82s/it][A
Training...:  44% 1152/2609 [1:05:20<1:38:00,  4.04s/it][A
Training...:  44% 1153/2609 [1:05:27<1:54:45,  4.73s/it][A
Training...:  44% 1154/2609 [1:05:33<2:05:32,  5.18s/it][A
Training...:  44% 1155/2609 [1:05:39<2:10:53,  5.40s/it][A
Training...:  44% 1156/2609 [1:05:45<2:12:15,  5.46s/it][A
Training...:  44% 1157/2609 [1:05:50<2:11:52,  5.45s/it][A
Training...:  44% 1158/2609 [1:05:55<2:10:13,  5.38s/it][A
Training...:  44% 1159/2609 [1:06:00<2:08:33,  5.32s/it][A
Training...:  44% 1160/2609 [1:06:05<2:05:21,  5.19s/it][A
Training...:  44% 1161/2609 [1:06:10<2:01:52,  5.05s/it][A
Training...:  45% 1162/2609 [1:06:14<1:57:46,  4.88s/it][A
Training...:  45% 1163/2609 [1:06:19<1:53:56,  4.73s/it][A
Training...:  45% 1164/2609 [1:06:23<1:50:43,  4.60s/it][A
Training...:  45% 1165/2609 [1:06:27<1:47:45,  4.48s/it][A
Training...:  45% 1166/2609 [1:06:31<1:44:36,  4.35s/it][A
Training...:  45% 1167/2609 [1:06:35<1:41:50,  4.24s/it][A
Training...:  45% 1168/2609 [1:06:39<1:38:30,  4.10s/it][A
Training...:  45% 1169/2609 [1:06:43<1:36:18,  4.01s/it][A
Training...:  45% 1170/2609 [1:06:47<1:33:33,  3.90s/it][A
Training...:  45% 1171/2609 [1:06:50<1:31:25,  3.81s/it][A
Training...:  45% 1172/2609 [1:06:54<1:29:00,  3.72s/it][A                                                           
                                                        [AEpoch ... (1/20):  15% 3/20 [8:40:06<42:24:09, 8979.37s/it]
Training...:  45% 1172/2609 [1:06:58<1:29:00,  3.72s/it][A
Training...:  45% 1173/2609 [1:06:58<1:31:24,  3.82s/it][A
Training...:  45% 1174/2609 [1:07:01<1:27:22,  3.65s/it][A
Training...:  45% 1175/2609 [1:07:04<1:24:31,  3.54s/it][A
Training...:  45% 1176/2609 [1:07:07<1:21:40,  3.42s/it][A
Training...:  45% 1177/2609 [1:07:10<1:18:58,  3.31s/it][A
Training...:  45% 1178/2609 [1:07:13<1:16:37,  3.21s/it][A
Training...:  45% 1179/2609 [1:07:16<1:14:34,  3.13s/it][A
Training...:  45% 1180/2609 [1:07:19<1:12:14,  3.03s/it][A
Training...:  45% 1181/2609 [1:07:22<1:10:30,  2.96s/it][A
Training...:  45% 1182/2609 [1:07:25<1:08:09,  2.87s/it][A
Training...:  45% 1183/2609 [1:07:27<1:05:55,  2.77s/it][A
Training...:  45% 1184/2609 [1:07:30<1:03:37,  2.68s/it][A
Training...:  45% 1185/2609 [1:07:32<1:01:24,  2.59s/it][A
Training...:  45% 1186/2609 [1:07:34<59:10,  2.50s/it]  [A
Training...:  45% 1187/2609 [1:07:37<57:10,  2.41s/it][A
Training...:  46% 1188/2609 [1:07:39<54:57,  2.32s/it][A
Training...:  46% 1189/2609 [1:07:41<53:09,  2.25s/it][A
Training...:  46% 1190/2609 [1:07:43<50:52,  2.15s/it][A
Training...:  46% 1191/2609 [1:07:44<48:37,  2.06s/it][A
Training...:  46% 1192/2609 [1:07:46<46:07,  1.95s/it][A
Training...:  46% 1193/2609 [1:07:48<43:50,  1.86s/it][A
Training...:  46% 1194/2609 [1:07:49<41:09,  1.75s/it][A
Training...:  46% 1195/2609 [1:07:51<38:47,  1.65s/it][A
Training...:  46% 1196/2609 [1:07:52<36:17,  1.54s/it][A
Training...:  46% 1197/2609 [1:07:53<33:32,  1.43s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [8:41:03<42:24:09, 8979.37s/it]
Training...:  46% 1197/2609 [1:07:55<33:32,  1.43s/it][A
Training...:  46% 1198/2609 [1:07:55<33:03,  1.41s/it][A
Training...:  46% 1199/2609 [1:07:55<28:50,  1.23s/it][A
Training...:  46% 1200/2609 [1:07:56<23:57,  1.02s/it][A
Training...:  46% 1201/2609 [1:08:03<1:06:15,  2.82s/it][A
Training...:  46% 1202/2609 [1:08:10<1:35:50,  4.09s/it][A
Training...:  46% 1203/2609 [1:08:17<1:53:14,  4.83s/it][A
Training...:  46% 1204/2609 [1:08:23<2:02:11,  5.22s/it][A
Training...:  46% 1205/2609 [1:08:29<2:06:53,  5.42s/it][A
Training...:  46% 1206/2609 [1:08:34<2:07:34,  5.46s/it][A
Training...:  46% 1207/2609 [1:08:40<2:07:38,  5.46s/it][A
Training...:  46% 1208/2609 [1:08:45<2:05:27,  5.37s/it][A
Training...:  46% 1209/2609 [1:08:50<2:03:33,  5.30s/it][A
Training...:  46% 1210/2609 [1:08:55<2:01:15,  5.20s/it][A
Training...:  46% 1211/2609 [1:09:00<1:57:54,  5.06s/it][A
Training...:  46% 1212/2609 [1:09:04<1:54:10,  4.90s/it][A
Training...:  46% 1213/2609 [1:09:09<1:50:47,  4.76s/it][A
Training...:  47% 1214/2609 [1:09:13<1:47:35,  4.63s/it][A
Training...:  47% 1215/2609 [1:09:17<1:44:29,  4.50s/it][A
Training...:  47% 1216/2609 [1:09:21<1:41:40,  4.38s/it][A
Training...:  47% 1217/2609 [1:09:25<1:38:52,  4.26s/it][A
Training...:  47% 1218/2609 [1:09:29<1:36:08,  4.15s/it][A
Training...:  47% 1219/2609 [1:09:33<1:33:59,  4.06s/it][A
Training...:  47% 1220/2609 [1:09:37<1:31:22,  3.95s/it][A
Training...:  47% 1221/2609 [1:09:40<1:29:20,  3.86s/it][A
Training...:  47% 1222/2609 [1:09:44<1:26:32,  3.74s/it][A                                                           
                                                        [AEpoch ... (1/20):  15% 3/20 [8:42:56<42:24:09, 8979.37s/it]
Training...:  47% 1222/2609 [1:09:48<1:26:32,  3.74s/it][A
Training...:  47% 1223/2609 [1:09:48<1:28:08,  3.82s/it][A
Training...:  47% 1224/2609 [1:09:51<1:24:22,  3.66s/it][A
Training...:  47% 1225/2609 [1:09:54<1:21:48,  3.55s/it][A
Training...:  47% 1226/2609 [1:09:57<1:19:26,  3.45s/it][A
Training...:  47% 1227/2609 [1:10:01<1:17:02,  3.34s/it][A
Training...:  47% 1228/2609 [1:10:04<1:14:34,  3.24s/it][A
Training...:  47% 1229/2609 [1:10:06<1:11:58,  3.13s/it][A
Training...:  47% 1230/2609 [1:10:09<1:09:33,  3.03s/it][A
Training...:  47% 1231/2609 [1:10:12<1:07:19,  2.93s/it][A
Training...:  47% 1232/2609 [1:10:14<1:04:55,  2.83s/it][A
Training...:  47% 1233/2609 [1:10:17<1:03:14,  2.76s/it][A
Training...:  47% 1234/2609 [1:10:20<1:01:21,  2.68s/it][A
Training...:  47% 1235/2609 [1:10:22<59:12,  2.59s/it]  [A
Training...:  47% 1236/2609 [1:10:24<57:01,  2.49s/it][A
Training...:  47% 1237/2609 [1:10:26<55:10,  2.41s/it][A
Training...:  47% 1238/2609 [1:10:29<52:54,  2.32s/it][A
Training...:  47% 1239/2609 [1:10:31<50:47,  2.22s/it][A
Training...:  48% 1240/2609 [1:10:33<49:03,  2.15s/it][A
Training...:  48% 1241/2609 [1:10:34<46:52,  2.06s/it][A
Training...:  48% 1242/2609 [1:10:36<44:37,  1.96s/it][A
Training...:  48% 1243/2609 [1:10:38<42:19,  1.86s/it][A
Training...:  48% 1244/2609 [1:10:39<39:48,  1.75s/it][A
Training...:  48% 1245/2609 [1:10:41<37:20,  1.64s/it][A
Training...:  48% 1246/2609 [1:10:42<34:40,  1.53s/it][A
Training...:  48% 1247/2609 [1:10:43<31:58,  1.41s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [8:43:53<42:24:09, 8979.37s/it]
Training...:  48% 1247/2609 [1:10:44<31:58,  1.41s/it][A
Training...:  48% 1248/2609 [1:10:44<31:18,  1.38s/it][A
Training...:  48% 1249/2609 [1:10:45<27:15,  1.20s/it][A
Training...:  48% 1250/2609 [1:10:46<22:47,  1.01s/it][A
Training...:  48% 1251/2609 [1:10:53<1:04:12,  2.84s/it][A
Training...:  48% 1252/2609 [1:11:00<1:32:33,  4.09s/it][A
Training...:  48% 1253/2609 [1:11:06<1:48:15,  4.79s/it][A
Training...:  48% 1254/2609 [1:11:12<1:57:40,  5.21s/it][A
Training...:  48% 1255/2609 [1:11:18<2:02:10,  5.41s/it][A
Training...:  48% 1256/2609 [1:11:24<2:04:31,  5.52s/it][A
Training...:  48% 1257/2609 [1:11:30<2:04:33,  5.53s/it][A
Training...:  48% 1258/2609 [1:11:35<2:02:17,  5.43s/it][A
Training...:  48% 1259/2609 [1:11:40<1:59:26,  5.31s/it][A
Training...:  48% 1260/2609 [1:11:45<1:56:16,  5.17s/it][A
Training...:  48% 1261/2609 [1:11:50<1:54:13,  5.08s/it][A
Training...:  48% 1262/2609 [1:11:54<1:51:26,  4.96s/it][A
Training...:  48% 1263/2609 [1:11:59<1:47:39,  4.80s/it][A
Training...:  48% 1264/2609 [1:12:03<1:44:30,  4.66s/it][A
Training...:  48% 1265/2609 [1:12:07<1:41:16,  4.52s/it][A
Training...:  49% 1266/2609 [1:12:11<1:37:51,  4.37s/it][A
Training...:  49% 1267/2609 [1:12:15<1:34:51,  4.24s/it][A
Training...:  49% 1268/2609 [1:12:19<1:32:15,  4.13s/it][A
Training...:  49% 1269/2609 [1:12:23<1:29:35,  4.01s/it][A
Training...:  49% 1270/2609 [1:12:26<1:26:46,  3.89s/it][A
Training...:  49% 1271/2609 [1:12:30<1:24:18,  3.78s/it][A
Training...:  49% 1272/2609 [1:12:33<1:21:46,  3.67s/it][A                                                           
                                                        [AEpoch ... (1/20):  15% 3/20 [8:45:46<42:24:09, 8979.37s/it]
Training...:  49% 1272/2609 [1:12:37<1:21:46,  3.67s/it][A
Training...:  49% 1273/2609 [1:12:37<1:23:34,  3.75s/it][A
Training...:  49% 1274/2609 [1:12:40<1:19:57,  3.59s/it][A
Training...:  49% 1275/2609 [1:12:44<1:17:04,  3.47s/it][A
Training...:  49% 1276/2609 [1:12:47<1:14:19,  3.35s/it][A
Training...:  49% 1277/2609 [1:12:50<1:12:00,  3.24s/it][A
Training...:  49% 1278/2609 [1:12:53<1:09:44,  3.14s/it][A
Training...:  49% 1279/2609 [1:12:55<1:07:44,  3.06s/it][A
Training...:  49% 1280/2609 [1:12:58<1:06:05,  2.98s/it][A
Training...:  49% 1281/2609 [1:13:01<1:04:08,  2.90s/it][A
Training...:  49% 1282/2609 [1:13:04<1:01:51,  2.80s/it][A
Training...:  49% 1283/2609 [1:13:06<1:00:04,  2.72s/it][A
Training...:  49% 1284/2609 [1:13:08<57:50,  2.62s/it]  [A
Training...:  49% 1285/2609 [1:13:11<55:58,  2.54s/it][A
Training...:  49% 1286/2609 [1:13:13<53:58,  2.45s/it][A
Training...:  49% 1287/2609 [1:13:15<52:13,  2.37s/it][A
Training...:  49% 1288/2609 [1:13:17<50:14,  2.28s/it][A
Training...:  49% 1289/2609 [1:13:19<48:25,  2.20s/it][A
Training...:  49% 1290/2609 [1:13:21<46:26,  2.11s/it][A
Training...:  49% 1291/2609 [1:13:23<44:26,  2.02s/it][A
Training...:  50% 1292/2609 [1:13:25<42:32,  1.94s/it][A
Training...:  50% 1293/2609 [1:13:26<40:37,  1.85s/it][A
Training...:  50% 1294/2609 [1:13:28<38:18,  1.75s/it][A
Training...:  50% 1295/2609 [1:13:29<35:57,  1.64s/it][A
Training...:  50% 1296/2609 [1:13:31<33:30,  1.53s/it][A
Training...:  50% 1297/2609 [1:13:32<30:39,  1.40s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [8:46:42<42:24:09, 8979.37s/it]
Training...:  50% 1297/2609 [1:13:33<30:39,  1.40s/it][A
Training...:  50% 1298/2609 [1:13:33<29:53,  1.37s/it][A
Training...:  50% 1299/2609 [1:13:34<25:57,  1.19s/it][A
Training...:  50% 1300/2609 [1:13:34<21:31,  1.01it/s][A
Training...:  50% 1301/2609 [1:13:41<1:01:46,  2.83s/it][A
Training...:  50% 1302/2609 [1:13:48<1:29:18,  4.10s/it][A
Training...:  50% 1303/2609 [1:13:55<1:45:26,  4.84s/it][A
Training...:  50% 1304/2609 [1:14:01<1:55:11,  5.30s/it][A
Training...:  50% 1305/2609 [1:14:07<1:59:19,  5.49s/it][A
Training...:  50% 1306/2609 [1:14:13<2:00:35,  5.55s/it][A
Training...:  50% 1307/2609 [1:14:19<2:00:06,  5.53s/it][A
Training...:  50% 1308/2609 [1:14:24<1:58:32,  5.47s/it][A
Training...:  50% 1309/2609 [1:14:29<1:56:18,  5.37s/it][A
Training...:  50% 1310/2609 [1:14:34<1:52:49,  5.21s/it][A
Training...:  50% 1311/2609 [1:14:39<1:49:41,  5.07s/it][A
Training...:  50% 1312/2609 [1:14:43<1:46:22,  4.92s/it][A
Training...:  50% 1313/2609 [1:14:48<1:43:48,  4.81s/it][A
Training...:  50% 1314/2609 [1:14:52<1:41:00,  4.68s/it][A
Training...:  50% 1315/2609 [1:14:56<1:37:42,  4.53s/it][A
Training...:  50% 1316/2609 [1:15:00<1:34:40,  4.39s/it][A
Training...:  50% 1317/2609 [1:15:04<1:32:06,  4.28s/it][A
Training...:  51% 1318/2609 [1:15:08<1:29:12,  4.15s/it][A
Training...:  51% 1319/2609 [1:15:12<1:26:40,  4.03s/it][A
Training...:  51% 1320/2609 [1:15:16<1:24:00,  3.91s/it][A
Training...:  51% 1321/2609 [1:15:19<1:21:37,  3.80s/it][A
Training...:  51% 1322/2609 [1:15:23<1:19:21,  3.70s/it][A                                                           
                                                        [AEpoch ... (1/20):  15% 3/20 [8:48:35<42:24:09, 8979.37s/it]
Training...:  51% 1322/2609 [1:15:27<1:19:21,  3.70s/it][A
Training...:  51% 1323/2609 [1:15:27<1:21:10,  3.79s/it][A
Training...:  51% 1324/2609 [1:15:30<1:18:11,  3.65s/it][A
Training...:  51% 1325/2609 [1:15:33<1:15:34,  3.53s/it][A
Training...:  51% 1326/2609 [1:15:36<1:12:54,  3.41s/it][A
Training...:  51% 1327/2609 [1:15:39<1:10:32,  3.30s/it][A
Training...:  51% 1328/2609 [1:15:42<1:08:28,  3.21s/it][A
Training...:  51% 1329/2609 [1:15:45<1:06:36,  3.12s/it][A
Training...:  51% 1330/2609 [1:15:48<1:04:27,  3.02s/it][A
Training...:  51% 1331/2609 [1:15:51<1:02:42,  2.94s/it][A
Training...:  51% 1332/2609 [1:15:53<1:00:38,  2.85s/it][A
Training...:  51% 1333/2609 [1:15:56<58:37,  2.76s/it]  [A
Training...:  51% 1334/2609 [1:15:58<56:55,  2.68s/it][A
Training...:  51% 1335/2609 [1:16:01<55:04,  2.59s/it][A
Training...:  51% 1336/2609 [1:16:03<53:23,  2.52s/it][A
Training...:  51% 1337/2609 [1:16:05<51:52,  2.45s/it][A
Training...:  51% 1338/2609 [1:16:08<49:54,  2.36s/it][A
Training...:  51% 1339/2609 [1:16:10<47:54,  2.26s/it][A
Training...:  51% 1340/2609 [1:16:12<45:53,  2.17s/it][A
Training...:  51% 1341/2609 [1:16:13<43:55,  2.08s/it][A
Training...:  51% 1342/2609 [1:16:15<42:01,  1.99s/it][A
Training...:  51% 1343/2609 [1:16:17<40:15,  1.91s/it][A
Training...:  52% 1344/2609 [1:16:19<38:17,  1.82s/it][A
Training...:  52% 1345/2609 [1:16:20<36:07,  1.71s/it][A
Training...:  52% 1346/2609 [1:16:21<34:02,  1.62s/it][A
Training...:  52% 1347/2609 [1:16:23<31:27,  1.50s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [8:49:33<42:24:09, 8979.37s/it]
Training...:  52% 1347/2609 [1:16:24<31:27,  1.50s/it][A
Training...:  52% 1348/2609 [1:16:24<30:35,  1.46s/it][A
Training...:  52% 1349/2609 [1:16:25<26:30,  1.26s/it][A
Training...:  52% 1350/2609 [1:16:25<22:06,  1.05s/it][A
Training...:  52% 1351/2609 [1:16:33<1:00:43,  2.90s/it][A
Training...:  52% 1352/2609 [1:16:40<1:27:23,  4.17s/it][A
Training...:  52% 1353/2609 [1:16:46<1:41:19,  4.84s/it][A
Training...:  52% 1354/2609 [1:16:52<1:50:05,  5.26s/it][A
Training...:  52% 1355/2609 [1:16:58<1:54:14,  5.47s/it][A
Training...:  52% 1356/2609 [1:17:04<1:55:39,  5.54s/it][A
Training...:  52% 1357/2609 [1:17:10<1:55:33,  5.54s/it][A
Training...:  52% 1358/2609 [1:17:15<1:53:49,  5.46s/it][A
Training...:  52% 1359/2609 [1:17:20<1:52:11,  5.38s/it][A
Training...:  52% 1360/2609 [1:17:25<1:49:16,  5.25s/it][A
Training...:  52% 1361/2609 [1:17:30<1:46:00,  5.10s/it][A
Training...:  52% 1362/2609 [1:17:34<1:42:57,  4.95s/it][A
Training...:  52% 1363/2609 [1:17:39<1:40:33,  4.84s/it][A
Training...:  52% 1364/2609 [1:17:43<1:37:27,  4.70s/it][A
Training...:  52% 1365/2609 [1:17:48<1:34:23,  4.55s/it][A
Training...:  52% 1366/2609 [1:17:52<1:31:21,  4.41s/it][A
Training...:  52% 1367/2609 [1:17:56<1:28:34,  4.28s/it][A
Training...:  52% 1368/2609 [1:17:59<1:25:56,  4.16s/it][A
Training...:  52% 1369/2609 [1:18:03<1:23:33,  4.04s/it][A
Training...:  53% 1370/2609 [1:18:07<1:21:41,  3.96s/it][A
Training...:  53% 1371/2609 [1:18:11<1:19:47,  3.87s/it][A
Training...:  53% 1372/2609 [1:18:14<1:17:18,  3.75s/it][A                                                           
                                                        [AEpoch ... (1/20):  15% 3/20 [8:51:27<42:24:09, 8979.37s/it]
Training...:  53% 1372/2609 [1:18:18<1:17:18,  3.75s/it][A
Training...:  53% 1373/2609 [1:18:18<1:18:50,  3.83s/it][A
Training...:  53% 1374/2609 [1:18:21<1:15:36,  3.67s/it][A
Training...:  53% 1375/2609 [1:18:25<1:12:33,  3.53s/it][A
Training...:  53% 1376/2609 [1:18:28<1:09:54,  3.40s/it][A
Training...:  53% 1377/2609 [1:18:31<1:07:27,  3.29s/it][A
Training...:  53% 1378/2609 [1:18:34<1:05:24,  3.19s/it][A
Training...:  53% 1379/2609 [1:18:37<1:03:05,  3.08s/it][A
Training...:  53% 1380/2609 [1:18:39<1:01:02,  2.98s/it][A
Training...:  53% 1381/2609 [1:18:42<58:54,  2.88s/it]  [A
Training...:  53% 1382/2609 [1:18:44<56:52,  2.78s/it][A
Training...:  53% 1383/2609 [1:18:47<55:02,  2.69s/it][A
Training...:  53% 1384/2609 [1:18:49<52:55,  2.59s/it][A
Training...:  53% 1385/2609 [1:18:52<50:58,  2.50s/it][A
Training...:  53% 1386/2609 [1:18:54<49:17,  2.42s/it][A
Training...:  53% 1387/2609 [1:18:56<47:49,  2.35s/it][A
Training...:  53% 1388/2609 [1:18:58<46:06,  2.27s/it][A
Training...:  53% 1389/2609 [1:19:00<44:22,  2.18s/it][A
Training...:  53% 1390/2609 [1:19:02<42:41,  2.10s/it][A
Training...:  53% 1391/2609 [1:19:04<40:55,  2.02s/it][A
Training...:  53% 1392/2609 [1:19:05<39:01,  1.92s/it][A
Training...:  53% 1393/2609 [1:19:07<37:14,  1.84s/it][A
Training...:  53% 1394/2609 [1:19:09<35:06,  1.73s/it][A
Training...:  53% 1395/2609 [1:19:10<32:59,  1.63s/it][A
Training...:  54% 1396/2609 [1:19:11<30:46,  1.52s/it][A
Training...:  54% 1397/2609 [1:19:12<28:23,  1.41s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [8:52:22<42:24:09, 8979.37s/it]
Training...:  54% 1397/2609 [1:19:14<28:23,  1.41s/it][A
Training...:  54% 1398/2609 [1:19:14<27:53,  1.38s/it][A
Training...:  54% 1399/2609 [1:19:15<24:16,  1.20s/it][A
Training...:  54% 1400/2609 [1:19:15<20:10,  1.00s/it][A
Training...:  54% 1401/2609 [1:19:22<56:42,  2.82s/it][A
Training...:  54% 1402/2609 [1:19:29<1:21:52,  4.07s/it][A
Training...:  54% 1403/2609 [1:19:36<1:37:21,  4.84s/it][A
Training...:  54% 1404/2609 [1:19:42<1:45:39,  5.26s/it][A
Training...:  54% 1405/2609 [1:19:48<1:49:24,  5.45s/it][A
Training...:  54% 1406/2609 [1:19:54<1:50:40,  5.52s/it][A
Training...:  54% 1407/2609 [1:19:59<1:51:38,  5.57s/it][A
Training...:  54% 1408/2609 [1:20:05<1:50:05,  5.50s/it][A
Training...:  54% 1409/2609 [1:20:10<1:47:25,  5.37s/it][A
Training...:  54% 1410/2609 [1:20:15<1:44:33,  5.23s/it][A
Training...:  54% 1411/2609 [1:20:19<1:42:18,  5.12s/it][A
Training...:  54% 1412/2609 [1:20:24<1:39:22,  4.98s/it][A
Training...:  54% 1413/2609 [1:20:29<1:36:39,  4.85s/it][A
Training...:  54% 1414/2609 [1:20:33<1:33:30,  4.69s/it][A
Training...:  54% 1415/2609 [1:20:37<1:30:24,  4.54s/it][A
Training...:  54% 1416/2609 [1:20:41<1:27:51,  4.42s/it][A
Training...:  54% 1417/2609 [1:20:45<1:25:13,  4.29s/it][A
Training...:  54% 1418/2609 [1:20:49<1:22:31,  4.16s/it][A
Training...:  54% 1419/2609 [1:20:53<1:20:33,  4.06s/it][A
Training...:  54% 1420/2609 [1:20:57<1:18:06,  3.94s/it][A
Training...:  54% 1421/2609 [1:21:00<1:16:31,  3.87s/it][A
Training...:  55% 1422/2609 [1:21:04<1:14:10,  3.75s/it][A                                                           
                                                        [AEpoch ... (1/20):  15% 3/20 [8:54:17<42:24:09, 8979.37s/it]
Training...:  55% 1422/2609 [1:21:08<1:14:10,  3.75s/it][A
Training...:  55% 1423/2609 [1:21:08<1:15:53,  3.84s/it][A
Training...:  55% 1424/2609 [1:21:11<1:12:28,  3.67s/it][A
Training...:  55% 1425/2609 [1:21:14<1:09:36,  3.53s/it][A
Training...:  55% 1426/2609 [1:21:17<1:07:00,  3.40s/it][A
Training...:  55% 1427/2609 [1:21:20<1:04:43,  3.29s/it][A
Training...:  55% 1428/2609 [1:21:23<1:02:42,  3.19s/it][A
Training...:  55% 1429/2609 [1:21:26<1:00:56,  3.10s/it][A
Training...:  55% 1430/2609 [1:21:29<58:49,  2.99s/it]  [A
Training...:  55% 1431/2609 [1:21:32<57:07,  2.91s/it][A
Training...:  55% 1432/2609 [1:21:34<55:17,  2.82s/it][A
Training...:  55% 1433/2609 [1:21:37<53:48,  2.75s/it][A
Training...:  55% 1434/2609 [1:21:39<52:14,  2.67s/it][A
Training...:  55% 1435/2609 [1:21:42<50:35,  2.59s/it][A
Training...:  55% 1436/2609 [1:21:44<48:59,  2.51s/it][A
Training...:  55% 1437/2609 [1:21:46<47:09,  2.41s/it][A
Training...:  55% 1438/2609 [1:21:48<45:10,  2.31s/it][A
Training...:  55% 1439/2609 [1:21:50<43:14,  2.22s/it][A
Training...:  55% 1440/2609 [1:21:52<41:24,  2.13s/it][A
Training...:  55% 1441/2609 [1:21:54<39:22,  2.02s/it][A
Training...:  55% 1442/2609 [1:21:56<37:34,  1.93s/it][A
Training...:  55% 1443/2609 [1:21:57<35:30,  1.83s/it][A
Training...:  55% 1444/2609 [1:21:59<33:16,  1.71s/it][A
Training...:  55% 1445/2609 [1:22:00<31:19,  1.61s/it][A
Training...:  55% 1446/2609 [1:22:02<29:20,  1.51s/it][A
Training...:  55% 1447/2609 [1:22:03<27:02,  1.40s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [8:55:13<42:24:09, 8979.37s/it]
Training...:  55% 1447/2609 [1:22:04<27:02,  1.40s/it][A
Training...:  56% 1448/2609 [1:22:04<26:24,  1.36s/it][A
Training...:  56% 1449/2609 [1:22:05<23:05,  1.19s/it][A
Training...:  56% 1450/2609 [1:22:05<19:29,  1.01s/it][A
Training...:  56% 1451/2609 [1:22:12<54:24,  2.82s/it][A
Training...:  56% 1452/2609 [1:22:19<1:18:26,  4.07s/it][A
Training...:  56% 1453/2609 [1:22:26<1:32:13,  4.79s/it][A
Training...:  56% 1454/2609 [1:22:32<1:40:02,  5.20s/it][A
Training...:  56% 1455/2609 [1:22:38<1:43:22,  5.37s/it][A
Training...:  56% 1456/2609 [1:22:43<1:44:52,  5.46s/it][A
Training...:  56% 1457/2609 [1:22:49<1:44:29,  5.44s/it][A
Training...:  56% 1458/2609 [1:22:54<1:42:45,  5.36s/it][A
Training...:  56% 1459/2609 [1:22:59<1:41:13,  5.28s/it][A
Training...:  56% 1460/2609 [1:23:04<1:38:52,  5.16s/it][A
Training...:  56% 1461/2609 [1:23:09<1:36:38,  5.05s/it][A
Training...:  56% 1462/2609 [1:23:13<1:33:47,  4.91s/it][A
Training...:  56% 1463/2609 [1:23:18<1:31:16,  4.78s/it][A
Training...:  56% 1464/2609 [1:23:22<1:28:09,  4.62s/it][A
Training...:  56% 1465/2609 [1:23:26<1:25:24,  4.48s/it][A
Training...:  56% 1466/2609 [1:23:30<1:22:57,  4.35s/it][A
Training...:  56% 1467/2609 [1:23:34<1:20:27,  4.23s/it][A
Training...:  56% 1468/2609 [1:23:38<1:17:53,  4.10s/it][A
Training...:  56% 1469/2609 [1:23:42<1:15:52,  3.99s/it][A
Training...:  56% 1470/2609 [1:23:45<1:13:39,  3.88s/it][A
Training...:  56% 1471/2609 [1:23:49<1:11:37,  3.78s/it][A
Training...:  56% 1472/2609 [1:23:52<1:09:45,  3.68s/it][A                                                           
                                                        [AEpoch ... (1/20):  15% 3/20 [8:57:05<42:24:09, 8979.37s/it]
Training...:  56% 1472/2609 [1:23:56<1:09:45,  3.68s/it][A
Training...:  56% 1473/2609 [1:23:56<1:11:27,  3.77s/it][A
Training...:  56% 1474/2609 [1:24:00<1:08:28,  3.62s/it][A
Training...:  57% 1475/2609 [1:24:03<1:05:54,  3.49s/it][A
Training...:  57% 1476/2609 [1:24:06<1:03:55,  3.39s/it][A
Training...:  57% 1477/2609 [1:24:09<1:01:49,  3.28s/it][A
Training...:  57% 1478/2609 [1:24:12<59:57,  3.18s/it]  [A
Training...:  57% 1479/2609 [1:24:15<58:10,  3.09s/it][A
Training...:  57% 1480/2609 [1:24:17<56:07,  2.98s/it][A
Training...:  57% 1481/2609 [1:24:20<54:12,  2.88s/it][A
Training...:  57% 1482/2609 [1:24:23<52:18,  2.78s/it][A
Training...:  57% 1483/2609 [1:24:25<50:46,  2.71s/it][A
Training...:  57% 1484/2609 [1:24:28<48:58,  2.61s/it][A
Training...:  57% 1485/2609 [1:24:30<47:02,  2.51s/it][A
Training...:  57% 1486/2609 [1:24:32<45:32,  2.43s/it][A
Training...:  57% 1487/2609 [1:24:34<43:52,  2.35s/it][A
Training...:  57% 1488/2609 [1:24:36<42:09,  2.26s/it][A
Training...:  57% 1489/2609 [1:24:38<40:32,  2.17s/it][A
Training...:  57% 1490/2609 [1:24:40<38:50,  2.08s/it][A
Training...:  57% 1491/2609 [1:24:42<37:02,  1.99s/it][A
Training...:  57% 1492/2609 [1:24:44<35:06,  1.89s/it][A
Training...:  57% 1493/2609 [1:24:45<33:08,  1.78s/it][A
Training...:  57% 1494/2609 [1:24:47<31:09,  1.68s/it][A
Training...:  57% 1495/2609 [1:24:48<29:09,  1.57s/it][A
Training...:  57% 1496/2609 [1:24:49<27:03,  1.46s/it][A
Training...:  57% 1497/2609 [1:24:50<25:00,  1.35s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [8:58:00<42:24:09, 8979.37s/it]
Training...:  57% 1497/2609 [1:24:51<25:00,  1.35s/it][A
Training...:  57% 1498/2609 [1:24:51<24:32,  1.33s/it][A
Training...:  57% 1499/2609 [1:24:52<21:28,  1.16s/it][A
Training...:  57% 1500/2609 [1:24:53<17:45,  1.04it/s][A
Training...:  58% 1501/2609 [1:25:00<51:55,  2.81s/it][A
Training...:  58% 1502/2609 [1:25:07<1:15:31,  4.09s/it][A
Training...:  58% 1503/2609 [1:25:13<1:29:02,  4.83s/it][A
Training...:  58% 1504/2609 [1:25:20<1:37:19,  5.28s/it][A
Training...:  58% 1505/2609 [1:25:26<1:41:16,  5.50s/it][A
Training...:  58% 1506/2609 [1:25:32<1:42:38,  5.58s/it][A
Training...:  58% 1507/2609 [1:25:37<1:42:34,  5.58s/it][A
Training...:  58% 1508/2609 [1:25:42<1:40:54,  5.50s/it][A
Training...:  58% 1509/2609 [1:25:48<1:39:33,  5.43s/it][A
Training...:  58% 1510/2609 [1:25:53<1:37:14,  5.31s/it][A
Training...:  58% 1511/2609 [1:25:58<1:34:47,  5.18s/it][A
Training...:  58% 1512/2609 [1:26:02<1:32:12,  5.04s/it][A
Training...:  58% 1513/2609 [1:26:07<1:30:01,  4.93s/it][A
Training...:  58% 1514/2609 [1:26:12<1:27:51,  4.81s/it][A
Training...:  58% 1515/2609 [1:26:16<1:24:48,  4.65s/it][A
Training...:  58% 1516/2609 [1:26:20<1:22:05,  4.51s/it][A
Training...:  58% 1517/2609 [1:26:24<1:19:46,  4.38s/it][A
Training...:  58% 1518/2609 [1:26:28<1:17:11,  4.25s/it][A
Training...:  58% 1519/2609 [1:26:32<1:14:39,  4.11s/it][A
Training...:  58% 1520/2609 [1:26:36<1:12:34,  4.00s/it][A
Training...:  58% 1521/2609 [1:26:39<1:10:07,  3.87s/it][A
Training...:  58% 1522/2609 [1:26:43<1:07:58,  3.75s/it][A                                                           
                                                        [AEpoch ... (1/20):  15% 3/20 [8:59:55<42:24:09, 8979.37s/it]
Training...:  58% 1522/2609 [1:26:47<1:07:58,  3.75s/it][A
Training...:  58% 1523/2609 [1:26:47<1:09:35,  3.84s/it][A
Training...:  58% 1524/2609 [1:26:50<1:06:44,  3.69s/it][A
Training...:  58% 1525/2609 [1:26:53<1:04:07,  3.55s/it][A
Training...:  58% 1526/2609 [1:26:56<1:01:48,  3.42s/it][A
Training...:  59% 1527/2609 [1:26:59<59:47,  3.32s/it]  [A
Training...:  59% 1528/2609 [1:27:02<57:49,  3.21s/it][A
Training...:  59% 1529/2609 [1:27:05<56:23,  3.13s/it][A
Training...:  59% 1530/2609 [1:27:08<54:43,  3.04s/it][A
Training...:  59% 1531/2609 [1:27:11<52:44,  2.94s/it][A
Training...:  59% 1532/2609 [1:27:13<50:46,  2.83s/it][A
Training...:  59% 1533/2609 [1:27:16<48:57,  2.73s/it][A
Training...:  59% 1534/2609 [1:27:18<47:12,  2.64s/it][A
Training...:  59% 1535/2609 [1:27:21<45:37,  2.55s/it][A
Training...:  59% 1536/2609 [1:27:23<44:03,  2.46s/it][A
Training...:  59% 1537/2609 [1:27:25<42:27,  2.38s/it][A
Training...:  59% 1538/2609 [1:27:27<40:54,  2.29s/it][A
Training...:  59% 1539/2609 [1:27:29<39:07,  2.19s/it][A
Training...:  59% 1540/2609 [1:27:31<37:20,  2.10s/it][A
Training...:  59% 1541/2609 [1:27:33<35:54,  2.02s/it][A
Training...:  59% 1542/2609 [1:27:35<34:11,  1.92s/it][A
Training...:  59% 1543/2609 [1:27:36<32:30,  1.83s/it][A
Training...:  59% 1544/2609 [1:27:38<30:38,  1.73s/it][A
Training...:  59% 1545/2609 [1:27:39<28:39,  1.62s/it][A
Training...:  59% 1546/2609 [1:27:40<26:36,  1.50s/it][A
Training...:  59% 1547/2609 [1:27:41<24:26,  1.38s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:00:51<42:24:09, 8979.37s/it]
Training...:  59% 1547/2609 [1:27:43<24:26,  1.38s/it][A
Training...:  59% 1548/2609 [1:27:43<23:51,  1.35s/it][A
Training...:  59% 1549/2609 [1:27:43<20:48,  1.18s/it][A
Training...:  59% 1550/2609 [1:27:44<17:27,  1.01it/s][A
Training...:  59% 1551/2609 [1:27:51<49:21,  2.80s/it][A
Training...:  59% 1552/2609 [1:27:58<1:10:32,  4.00s/it][A
Training...:  60% 1553/2609 [1:28:04<1:22:33,  4.69s/it][A
Training...:  60% 1554/2609 [1:28:10<1:30:00,  5.12s/it][A
Training...:  60% 1555/2609 [1:28:16<1:33:49,  5.34s/it][A
Training...:  60% 1556/2609 [1:28:22<1:35:22,  5.43s/it][A
Training...:  60% 1557/2609 [1:28:27<1:35:59,  5.47s/it][A
Training...:  60% 1558/2609 [1:28:33<1:34:47,  5.41s/it][A
Training...:  60% 1559/2609 [1:28:38<1:33:31,  5.34s/it][A
Training...:  60% 1560/2609 [1:28:43<1:30:52,  5.20s/it][A
Training...:  60% 1561/2609 [1:28:47<1:28:33,  5.07s/it][A
Training...:  60% 1562/2609 [1:28:52<1:25:40,  4.91s/it][A
Training...:  60% 1563/2609 [1:28:56<1:22:53,  4.75s/it][A
Training...:  60% 1564/2609 [1:29:01<1:20:04,  4.60s/it][A
Training...:  60% 1565/2609 [1:29:05<1:17:49,  4.47s/it][A
Training...:  60% 1566/2609 [1:29:09<1:15:17,  4.33s/it][A
Training...:  60% 1567/2609 [1:29:13<1:13:18,  4.22s/it][A
Training...:  60% 1568/2609 [1:29:16<1:10:52,  4.08s/it][A
Training...:  60% 1569/2609 [1:29:20<1:08:59,  3.98s/it][A
Training...:  60% 1570/2609 [1:29:24<1:07:06,  3.88s/it][A
Training...:  60% 1571/2609 [1:29:27<1:05:16,  3.77s/it][A
Training...:  60% 1572/2609 [1:29:31<1:03:28,  3.67s/it][A                                                           
                                                        [AEpoch ... (1/20):  15% 3/20 [9:02:44<42:24:09, 8979.37s/it]
Training...:  60% 1572/2609 [1:29:35<1:03:28,  3.67s/it][A
Training...:  60% 1573/2609 [1:29:35<1:04:59,  3.76s/it][A
Training...:  60% 1574/2609 [1:29:38<1:02:00,  3.59s/it][A
Training...:  60% 1575/2609 [1:29:41<59:37,  3.46s/it]  [A
Training...:  60% 1576/2609 [1:29:44<57:39,  3.35s/it][A
Training...:  60% 1577/2609 [1:29:47<55:38,  3.24s/it][A
Training...:  60% 1578/2609 [1:29:50<53:46,  3.13s/it][A
Training...:  61% 1579/2609 [1:29:53<52:07,  3.04s/it][A
Training...:  61% 1580/2609 [1:29:56<50:35,  2.95s/it][A
Training...:  61% 1581/2609 [1:29:58<49:06,  2.87s/it][A
Training...:  61% 1582/2609 [1:30:01<47:29,  2.77s/it][A
Training...:  61% 1583/2609 [1:30:03<45:57,  2.69s/it][A
Training...:  61% 1584/2609 [1:30:06<44:36,  2.61s/it][A
Training...:  61% 1585/2609 [1:30:08<43:04,  2.52s/it][A
Training...:  61% 1586/2609 [1:30:10<41:55,  2.46s/it][A
Training...:  61% 1587/2609 [1:30:13<40:38,  2.39s/it][A
Training...:  61% 1588/2609 [1:30:15<38:56,  2.29s/it][A
Training...:  61% 1589/2609 [1:30:17<37:25,  2.20s/it][A
Training...:  61% 1590/2609 [1:30:19<35:54,  2.11s/it][A
Training...:  61% 1591/2609 [1:30:20<34:23,  2.03s/it][A
Training...:  61% 1592/2609 [1:30:22<33:03,  1.95s/it][A
Training...:  61% 1593/2609 [1:30:24<31:22,  1.85s/it][A
Training...:  61% 1594/2609 [1:30:25<29:31,  1.75s/it][A
Training...:  61% 1595/2609 [1:30:27<27:41,  1.64s/it][A
Training...:  61% 1596/2609 [1:30:28<25:50,  1.53s/it][A
Training...:  61% 1597/2609 [1:30:29<23:52,  1.42s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:03:39<42:24:09, 8979.37s/it]
Training...:  61% 1597/2609 [1:30:30<23:52,  1.42s/it][A
Training...:  61% 1598/2609 [1:30:30<23:23,  1.39s/it][A
Training...:  61% 1599/2609 [1:30:31<20:25,  1.21s/it][A
Training...:  61% 1600/2609 [1:30:32<16:59,  1.01s/it][A
Training...:  61% 1601/2609 [1:30:39<47:54,  2.85s/it][A
Training...:  61% 1602/2609 [1:30:46<1:08:33,  4.08s/it][A
Training...:  61% 1603/2609 [1:30:52<1:20:17,  4.79s/it][A
Training...:  61% 1604/2609 [1:30:59<1:27:20,  5.21s/it][A
Training...:  62% 1605/2609 [1:31:04<1:30:34,  5.41s/it][A
Training...:  62% 1606/2609 [1:31:10<1:32:14,  5.52s/it][A
Training...:  62% 1607/2609 [1:31:16<1:31:54,  5.50s/it][A
Training...:  62% 1608/2609 [1:31:21<1:30:17,  5.41s/it][A
Training...:  62% 1609/2609 [1:31:26<1:28:31,  5.31s/it][A
Training...:  62% 1610/2609 [1:31:31<1:25:59,  5.16s/it][A
Training...:  62% 1611/2609 [1:31:35<1:23:41,  5.03s/it][A
Training...:  62% 1612/2609 [1:31:40<1:21:03,  4.88s/it][A
Training...:  62% 1613/2609 [1:31:44<1:18:53,  4.75s/it][A
Training...:  62% 1614/2609 [1:31:49<1:16:22,  4.61s/it][A
Training...:  62% 1615/2609 [1:31:53<1:14:02,  4.47s/it][A
Training...:  62% 1616/2609 [1:31:57<1:11:42,  4.33s/it][A
Training...:  62% 1617/2609 [1:32:01<1:09:57,  4.23s/it][A
Training...:  62% 1618/2609 [1:32:05<1:07:49,  4.11s/it][A
Training...:  62% 1619/2609 [1:32:08<1:06:00,  4.00s/it][A
Training...:  62% 1620/2609 [1:32:12<1:04:09,  3.89s/it][A
Training...:  62% 1621/2609 [1:32:16<1:02:25,  3.79s/it][A
Training...:  62% 1622/2609 [1:32:19<1:00:45,  3.69s/it][A                                                           
                                                        [AEpoch ... (1/20):  15% 3/20 [9:05:32<42:24:09, 8979.37s/it]
Training...:  62% 1622/2609 [1:32:23<1:00:45,  3.69s/it][A
Training...:  62% 1623/2609 [1:32:23<1:02:41,  3.81s/it][A
Training...:  62% 1624/2609 [1:32:27<1:00:28,  3.68s/it][A
Training...:  62% 1625/2609 [1:32:30<57:52,  3.53s/it]  [A
Training...:  62% 1626/2609 [1:32:33<55:42,  3.40s/it][A
Training...:  62% 1627/2609 [1:32:36<53:39,  3.28s/it][A
Training...:  62% 1628/2609 [1:32:39<51:43,  3.16s/it][A
Training...:  62% 1629/2609 [1:32:42<50:08,  3.07s/it][A
Training...:  62% 1630/2609 [1:32:44<48:47,  2.99s/it][A
Training...:  63% 1631/2609 [1:32:47<47:20,  2.90s/it][A
Training...:  63% 1632/2609 [1:32:50<45:41,  2.81s/it][A
Training...:  63% 1633/2609 [1:32:52<44:06,  2.71s/it][A
Training...:  63% 1634/2609 [1:32:55<42:35,  2.62s/it][A
Training...:  63% 1635/2609 [1:32:57<40:59,  2.52s/it][A
Training...:  63% 1636/2609 [1:32:59<39:34,  2.44s/it][A
Training...:  63% 1637/2609 [1:33:01<38:10,  2.36s/it][A
Training...:  63% 1638/2609 [1:33:03<36:30,  2.26s/it][A
Training...:  63% 1639/2609 [1:33:05<35:09,  2.17s/it][A
Training...:  63% 1640/2609 [1:33:07<33:40,  2.09s/it][A
Training...:  63% 1641/2609 [1:33:09<32:15,  2.00s/it][A
Training...:  63% 1642/2609 [1:33:11<30:36,  1.90s/it][A
Training...:  63% 1643/2609 [1:33:12<28:56,  1.80s/it][A
Training...:  63% 1644/2609 [1:33:14<27:15,  1.69s/it][A
Training...:  63% 1645/2609 [1:33:15<25:25,  1.58s/it][A
Training...:  63% 1646/2609 [1:33:16<23:35,  1.47s/it][A
Training...:  63% 1647/2609 [1:33:17<21:40,  1.35s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:06:27<42:24:09, 8979.37s/it]
Training...:  63% 1647/2609 [1:33:19<21:40,  1.35s/it][A
Training...:  63% 1648/2609 [1:33:19<21:05,  1.32s/it][A
Training...:  63% 1649/2609 [1:33:19<18:24,  1.15s/it][A
Training...:  63% 1650/2609 [1:33:20<15:29,  1.03it/s][A
Training...:  63% 1651/2609 [1:33:27<45:04,  2.82s/it][A
Training...:  63% 1652/2609 [1:33:34<1:05:22,  4.10s/it][A
Training...:  63% 1653/2609 [1:33:41<1:17:15,  4.85s/it][A
Training...:  63% 1654/2609 [1:33:47<1:23:49,  5.27s/it][A
Training...:  63% 1655/2609 [1:33:53<1:27:23,  5.50s/it][A
Training...:  63% 1656/2609 [1:33:59<1:28:30,  5.57s/it][A
Training...:  64% 1657/2609 [1:34:04<1:28:11,  5.56s/it][A
Training...:  64% 1658/2609 [1:34:10<1:27:12,  5.50s/it][A
Training...:  64% 1659/2609 [1:34:15<1:25:19,  5.39s/it][A
Training...:  64% 1660/2609 [1:34:20<1:22:50,  5.24s/it][A
Training...:  64% 1661/2609 [1:34:24<1:20:52,  5.12s/it][A
Training...:  64% 1662/2609 [1:34:29<1:18:41,  4.99s/it][A
Training...:  64% 1663/2609 [1:34:34<1:17:03,  4.89s/it][A
Training...:  64% 1664/2609 [1:34:38<1:14:23,  4.72s/it][A
Training...:  64% 1665/2609 [1:34:42<1:12:05,  4.58s/it][A
Training...:  64% 1666/2609 [1:34:46<1:09:47,  4.44s/it][A
Training...:  64% 1667/2609 [1:34:50<1:07:31,  4.30s/it][A
Training...:  64% 1668/2609 [1:34:54<1:05:23,  4.17s/it][A
Training...:  64% 1669/2609 [1:34:58<1:03:43,  4.07s/it][A
Training...:  64% 1670/2609 [1:35:02<1:01:43,  3.94s/it][A
Training...:  64% 1671/2609 [1:35:05<1:00:05,  3.84s/it][A
Training...:  64% 1672/2609 [1:35:09<58:29,  3.75s/it]  [A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:08:22<42:24:09, 8979.37s/it]
Training...:  64% 1672/2609 [1:35:13<58:29,  3.75s/it][A
Training...:  64% 1673/2609 [1:35:13<59:36,  3.82s/it][A
Training...:  64% 1674/2609 [1:35:16<57:14,  3.67s/it][A
Training...:  64% 1675/2609 [1:35:19<54:55,  3.53s/it][A
Training...:  64% 1676/2609 [1:35:23<52:51,  3.40s/it][A
Training...:  64% 1677/2609 [1:35:26<51:14,  3.30s/it][A
Training...:  64% 1678/2609 [1:35:29<49:31,  3.19s/it][A
Training...:  64% 1679/2609 [1:35:31<48:00,  3.10s/it][A
Training...:  64% 1680/2609 [1:35:34<46:37,  3.01s/it][A
Training...:  64% 1681/2609 [1:35:37<45:08,  2.92s/it][A
Training...:  64% 1682/2609 [1:35:39<43:31,  2.82s/it][A
Training...:  65% 1683/2609 [1:35:42<41:58,  2.72s/it][A
Training...:  65% 1684/2609 [1:35:44<40:26,  2.62s/it][A
Training...:  65% 1685/2609 [1:35:47<39:04,  2.54s/it][A
Training...:  65% 1686/2609 [1:35:49<37:47,  2.46s/it][A
Training...:  65% 1687/2609 [1:35:51<36:26,  2.37s/it][A
Training...:  65% 1688/2609 [1:35:53<35:17,  2.30s/it][A
Training...:  65% 1689/2609 [1:35:55<33:51,  2.21s/it][A
Training...:  65% 1690/2609 [1:35:57<32:19,  2.11s/it][A
Training...:  65% 1691/2609 [1:35:59<30:53,  2.02s/it][A
Training...:  65% 1692/2609 [1:36:01<29:23,  1.92s/it][A
Training...:  65% 1693/2609 [1:36:02<27:54,  1.83s/it][A
Training...:  65% 1694/2609 [1:36:04<26:23,  1.73s/it][A
Training...:  65% 1695/2609 [1:36:05<24:48,  1.63s/it][A
Training...:  65% 1696/2609 [1:36:06<23:09,  1.52s/it][A
Training...:  65% 1697/2609 [1:36:08<21:25,  1.41s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:09:18<42:24:09, 8979.37s/it]
Training...:  65% 1697/2609 [1:36:09<21:25,  1.41s/it][A
Training...:  65% 1698/2609 [1:36:09<21:05,  1.39s/it][A
Training...:  65% 1699/2609 [1:36:10<18:25,  1.21s/it][A
Training...:  65% 1700/2609 [1:36:10<15:25,  1.02s/it][A
Training...:  65% 1701/2609 [1:36:17<43:02,  2.84s/it][A
Training...:  65% 1702/2609 [1:36:24<1:02:02,  4.10s/it][A
Training...:  65% 1703/2609 [1:36:31<1:13:10,  4.85s/it][A
Training...:  65% 1704/2609 [1:36:37<1:19:27,  5.27s/it][A
Training...:  65% 1705/2609 [1:36:43<1:21:55,  5.44s/it][A
Training...:  65% 1706/2609 [1:36:49<1:23:19,  5.54s/it][A
Training...:  65% 1707/2609 [1:36:54<1:23:35,  5.56s/it][A
Training...:  65% 1708/2609 [1:37:00<1:22:14,  5.48s/it][A
Training...:  66% 1709/2609 [1:37:05<1:20:23,  5.36s/it][A
Training...:  66% 1710/2609 [1:37:10<1:18:05,  5.21s/it][A
Training...:  66% 1711/2609 [1:37:15<1:16:09,  5.09s/it][A
Training...:  66% 1712/2609 [1:37:19<1:13:47,  4.94s/it][A
Training...:  66% 1713/2609 [1:37:24<1:11:35,  4.79s/it][A
Training...:  66% 1714/2609 [1:37:28<1:09:21,  4.65s/it][A
Training...:  66% 1715/2609 [1:37:32<1:07:16,  4.52s/it][A
Training...:  66% 1716/2609 [1:37:36<1:05:24,  4.39s/it][A
Training...:  66% 1717/2609 [1:37:40<1:03:28,  4.27s/it][A
Training...:  66% 1718/2609 [1:37:44<1:01:30,  4.14s/it][A
Training...:  66% 1719/2609 [1:37:48<59:58,  4.04s/it]  [A
Training...:  66% 1720/2609 [1:37:52<58:25,  3.94s/it][A
Training...:  66% 1721/2609 [1:37:55<56:43,  3.83s/it][A
Training...:  66% 1722/2609 [1:37:59<54:43,  3.70s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:11:11<42:24:09, 8979.37s/it]
Training...:  66% 1722/2609 [1:38:02<54:43,  3.70s/it][A
Training...:  66% 1723/2609 [1:38:02<55:45,  3.78s/it][A
Training...:  66% 1724/2609 [1:38:06<53:21,  3.62s/it][A
Training...:  66% 1725/2609 [1:38:09<51:21,  3.49s/it][A
Training...:  66% 1726/2609 [1:38:12<49:31,  3.36s/it][A
Training...:  66% 1727/2609 [1:38:15<47:53,  3.26s/it][A
Training...:  66% 1728/2609 [1:38:18<46:09,  3.14s/it][A
Training...:  66% 1729/2609 [1:38:21<44:44,  3.05s/it][A
Training...:  66% 1730/2609 [1:38:23<43:12,  2.95s/it][A
Training...:  66% 1731/2609 [1:38:26<41:38,  2.85s/it][A
Training...:  66% 1732/2609 [1:38:29<40:09,  2.75s/it][A
Training...:  66% 1733/2609 [1:38:31<38:42,  2.65s/it][A
Training...:  66% 1734/2609 [1:38:33<37:32,  2.57s/it][A
Training...:  67% 1735/2609 [1:38:36<36:30,  2.51s/it][A
Training...:  67% 1736/2609 [1:38:38<35:22,  2.43s/it][A
Training...:  67% 1737/2609 [1:38:40<34:01,  2.34s/it][A
Training...:  67% 1738/2609 [1:38:42<32:37,  2.25s/it][A
Training...:  67% 1739/2609 [1:38:44<31:17,  2.16s/it][A
Training...:  67% 1740/2609 [1:38:46<29:54,  2.07s/it][A
Training...:  67% 1741/2609 [1:38:48<28:36,  1.98s/it][A
Training...:  67% 1742/2609 [1:38:49<27:16,  1.89s/it][A
Training...:  67% 1743/2609 [1:38:51<25:51,  1.79s/it][A
Training...:  67% 1744/2609 [1:38:52<24:28,  1.70s/it][A
Training...:  67% 1745/2609 [1:38:54<23:02,  1.60s/it][A
Training...:  67% 1746/2609 [1:38:55<21:32,  1.50s/it][A
Training...:  67% 1747/2609 [1:38:56<19:55,  1.39s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:12:06<42:24:09, 8979.37s/it]
Training...:  67% 1747/2609 [1:38:57<19:55,  1.39s/it][A
Training...:  67% 1748/2609 [1:38:57<19:28,  1.36s/it][A
Training...:  67% 1749/2609 [1:38:58<17:03,  1.19s/it][A
Training...:  67% 1750/2609 [1:38:59<14:15,  1.00it/s][A
Training...:  67% 1751/2609 [1:39:06<40:33,  2.84s/it][A
Training...:  67% 1752/2609 [1:39:13<58:32,  4.10s/it][A
Training...:  67% 1753/2609 [1:39:19<1:08:46,  4.82s/it][A
Training...:  67% 1754/2609 [1:39:26<1:14:27,  5.22s/it][A
Training...:  67% 1755/2609 [1:39:31<1:16:59,  5.41s/it][A
Training...:  67% 1756/2609 [1:39:37<1:18:22,  5.51s/it][A
Training...:  67% 1757/2609 [1:39:43<1:17:42,  5.47s/it][A
Training...:  67% 1758/2609 [1:39:48<1:16:20,  5.38s/it][A
Training...:  67% 1759/2609 [1:39:53<1:14:44,  5.28s/it][A
Training...:  67% 1760/2609 [1:39:58<1:12:43,  5.14s/it][A
Training...:  67% 1761/2609 [1:40:02<1:10:46,  5.01s/it][A
Training...:  68% 1762/2609 [1:40:07<1:09:11,  4.90s/it][A
Training...:  68% 1763/2609 [1:40:12<1:07:32,  4.79s/it][A
Training...:  68% 1764/2609 [1:40:16<1:05:16,  4.64s/it][A
Training...:  68% 1765/2609 [1:40:20<1:03:20,  4.50s/it][A
Training...:  68% 1766/2609 [1:40:24<1:01:18,  4.36s/it][A
Training...:  68% 1767/2609 [1:40:28<59:36,  4.25s/it]  [A
Training...:  68% 1768/2609 [1:40:32<57:52,  4.13s/it][A
Training...:  68% 1769/2609 [1:40:36<56:31,  4.04s/it][A
Training...:  68% 1770/2609 [1:40:39<54:38,  3.91s/it][A
Training...:  68% 1771/2609 [1:40:43<53:09,  3.81s/it][A
Training...:  68% 1772/2609 [1:40:46<51:53,  3.72s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:13:59<42:24:09, 8979.37s/it]
Training...:  68% 1772/2609 [1:40:50<51:53,  3.72s/it][A
Training...:  68% 1773/2609 [1:40:50<53:05,  3.81s/it][A
Training...:  68% 1774/2609 [1:40:54<50:50,  3.65s/it][A
Training...:  68% 1775/2609 [1:40:57<49:05,  3.53s/it][A
Training...:  68% 1776/2609 [1:41:00<47:31,  3.42s/it][A
Training...:  68% 1777/2609 [1:41:03<45:47,  3.30s/it][A
Training...:  68% 1778/2609 [1:41:06<44:17,  3.20s/it][A
Training...:  68% 1779/2609 [1:41:09<42:48,  3.09s/it][A
Training...:  68% 1780/2609 [1:41:12<41:31,  3.01s/it][A
Training...:  68% 1781/2609 [1:41:14<40:21,  2.92s/it][A
Training...:  68% 1782/2609 [1:41:17<38:47,  2.81s/it][A
Training...:  68% 1783/2609 [1:41:20<37:30,  2.72s/it][A
Training...:  68% 1784/2609 [1:41:22<36:17,  2.64s/it][A
Training...:  68% 1785/2609 [1:41:24<35:01,  2.55s/it][A
Training...:  68% 1786/2609 [1:41:27<33:51,  2.47s/it][A
Training...:  68% 1787/2609 [1:41:29<32:40,  2.38s/it][A
Training...:  69% 1788/2609 [1:41:31<31:24,  2.30s/it][A
Training...:  69% 1789/2609 [1:41:33<30:13,  2.21s/it][A
Training...:  69% 1790/2609 [1:41:35<28:59,  2.12s/it][A
Training...:  69% 1791/2609 [1:41:37<27:40,  2.03s/it][A
Training...:  69% 1792/2609 [1:41:38<26:24,  1.94s/it][A
Training...:  69% 1793/2609 [1:41:40<25:13,  1.85s/it][A
Training...:  69% 1794/2609 [1:41:42<23:48,  1.75s/it][A
Training...:  69% 1795/2609 [1:41:43<22:21,  1.65s/it][A
Training...:  69% 1796/2609 [1:41:44<20:46,  1.53s/it][A
Training...:  69% 1797/2609 [1:41:45<18:59,  1.40s/it][A                                                           
                                                      [AStep... (7850 | Loss: 0.11953308433294296, Learning Rate: 8.515352965332568e-05, Gradient Norm: 0.6538279056549072)
Step... (7875 | Loss: 0.22238890826702118, Learning Rate: 8.510302723152563e-05, Gradient Norm: 1.0759276151657104)
Step... (7900 | Loss: 0.1488715410232544, Learning Rate: 8.505252480972558e-05, Gradient Norm: 0.6043338179588318)
Step... (7925 | Loss: 0.18453572690486908, Learning Rate: 8.500201511196792e-05, Gradient Norm: 1.010591745376587)
Step... (7950 | Loss: 0.1222052127122879, Learning Rate: 8.495151269016787e-05, Gradient Norm: 0.7197508215904236)
Step... (7975 | Loss: 0.13374872505664825, Learning Rate: 8.490101026836783e-05, Gradient Norm: 1.0519617795944214)
Step... (8000 | Loss: 0.19655375182628632, Learning Rate: 8.485050057061017e-05, Gradient Norm: 0.81393963098526)
Step... (8025 | Loss: 0.14497914910316467, Learning Rate: 8.479999814881012e-05, Gradient Norm: 1.0942442417144775)
Step... (8050 | Loss: 0.17636679112911224, Learning Rate: 8.474949572701007e-05, Gradient Norm: 0.8002787828445435)
Step... (8075 | Loss: 0.16298805177211761, Learning Rate: 8.469898602925241e-05, Gradient Norm: 1.138575553894043)
Step... (8100 | Loss: 0.16268640756607056, Learning Rate: 8.464848360745236e-05, Gradient Norm: 0.6949784755706787)
Step... (8125 | Loss: 0.19303320348262787, Learning Rate: 8.459798118565232e-05, Gradient Norm: 1.1626194715499878)
Step... (8150 | Loss: 0.1544400453567505, Learning Rate: 8.454747148789465e-05, Gradient Norm: 0.663595974445343)
Step... (8175 | Loss: 0.23651152849197388, Learning Rate: 8.449696906609461e-05, Gradient Norm: 1.2223607301712036)
Step... (8200 | Loss: 0.22730053961277008, Learning Rate: 8.444646664429456e-05, Gradient Norm: 0.8467977643013)
Step... (8225 | Loss: 0.2381717711687088, Learning Rate: 8.43959569465369e-05, Gradient Norm: 1.414419174194336)
Step... (8250 | Loss: 0.20519733428955078, Learning Rate: 8.434545452473685e-05, Gradient Norm: 0.8806700706481934)
Step... (8275 | Loss: 0.17442680895328522, Learning Rate: 8.42949521029368e-05, Gradient Norm: 1.1489773988723755)
Step... (8300 | Loss: 0.1807723343372345, Learning Rate: 8.424444240517914e-05, Gradient Norm: 0.8510253429412842)
Step... (8325 | Loss: 0.22327172756195068, Learning Rate: 8.41939399833791e-05, Gradient Norm: 1.2421423196792603)
Step... (8350 | Loss: 0.16634944081306458, Learning Rate: 8.414343028562143e-05, Gradient Norm: 0.7792745232582092)
Step... (8375 | Loss: 0.21189077198505402, Learning Rate: 8.409292786382139e-05, Gradient Norm: 1.4987993240356445)
Step... (8400 | Loss: 0.1690301150083542, Learning Rate: 8.404242544202134e-05, Gradient Norm: 0.7834045886993408)
Step... (8425 | Loss: 0.242879256606102, Learning Rate: 8.399191574426368e-05, Gradient Norm: 1.4662415981292725)
Step... (8450 | Loss: 0.17199306190013885, Learning Rate: 8.394141332246363e-05, Gradient Norm: 0.7096899747848511)
Step... (8475 | Loss: 0.18437913060188293, Learning Rate: 8.389090362470597e-05, Gradient Norm: 1.0284143686294556)
Step... (8500 | Loss: 0.2048061639070511, Learning Rate: 8.384040120290592e-05, Gradient Norm: 0.7811646461486816)
Step... (8525 | Loss: 0.1847478747367859, Learning Rate: 8.378989150514826e-05, Gradient Norm: 1.5241302251815796)
Step... (8550 | Loss: 0.1641482561826706, Learning Rate: 8.373938908334821e-05, Gradient Norm: 0.7901219129562378)
Step... (8575 | Loss: 0.1770802140235901, Learning Rate: 8.368888666154817e-05, Gradient Norm: 1.481303095817566)
Step... (8600 | Loss: 0.1905636042356491, Learning Rate: 8.36383769637905e-05, Gradient Norm: 0.7141677737236023)
Step... (8625 | Loss: 0.24499018490314484, Learning Rate: 8.358787454199046e-05, Gradient Norm: 1.5435371398925781)
Step... (8650 | Loss: 0.1246071383357048, Learning Rate: 8.353737212019041e-05, Gradient Norm: 0.7082352638244629)
Step... (8675 | Loss: 0.18977776169776917, Learning Rate: 8.348686242243275e-05, Gradient Norm: 0.9293487071990967)
Step... (8700 | Loss: 0.17191652953624725, Learning Rate: 8.34363600006327e-05, Gradient Norm: 0.6900227665901184)
Step... (8725 | Loss: 0.190624Epoch ... (1/20):  15% 3/20 [9:14:55<42:24:09, 8979.37s/it]
Training...:  69% 1797/2609 [1:41:47<18:59,  1.40s/it][A
Training...:  69% 1798/2609 [1:41:47<18:27,  1.37s/it][A2072582245, Learning Rate: 8.338585757883266e-05, Gradient Norm: 1.2337489128112793)
Step... (8750 | Loss: 0.1772625595331192, Learning Rate: 8.3335347881075e-05, Gradient Norm: 0.9114310145378113)
Step... (8775 | Loss: 0.23838476836681366, Learning Rate: 8.328484545927495e-05, Gradient Norm: 1.1097935438156128)
Step... (8800 | Loss: 0.13972590863704681, Learning Rate: 8.32343430374749e-05, Gradient Norm: 0.6070741415023804)
Step... (8825 | Loss: 0.2239295095205307, Learning Rate: 8.318383333971724e-05, Gradient Norm: 1.3414820432662964)
Step... (8850 | Loss: 0.17457443475723267, Learning Rate: 8.313333091791719e-05, Gradient Norm: 1.502644419670105)
Step... (8875 | Loss: 0.21512730419635773, Learning Rate: 8.308282849611714e-05, Gradient Norm: 1.1077814102172852)
Step... (8900 | Loss: 0.24227678775787354, Learning Rate: 8.303231879835948e-05, Gradient Norm: 0.792661726474762)
Step... (8925 | Loss: 0.15142211318016052, Learning Rate: 8.298181637655944e-05, Gradient Norm: 0.8735862374305725)
Step... (8950 | Loss: 0.2348259538412094, Learning Rate: 8.293131395475939e-05, Gradient Norm: 0.785379946231842)
Step... (8975 | Loss: 0.232223242521286, Learning Rate: 8.288080425700173e-05, Gradient Norm: 1.424380898475647)
Step... (9000 | Loss: 0.18694593012332916, Learning Rate: 8.283030183520168e-05, Gradient Norm: 0.7369235157966614)
Step... (9025 | Loss: 0.1522071808576584, Learning Rate: 8.277979941340163e-05, Gradient Norm: 0.9636543989181519)
Step... (9050 | Loss: 0.17470289766788483, Learning Rate: 8.272928971564397e-05, Gradient Norm: 0.7150429487228394)
Step... (9075 | Loss: 0.233905628323555, Learning Rate: 8.267878729384392e-05, Gradient Norm: 1.347980260848999)
Step... (9100 | Loss: 0.16788317263126373, Learning Rate: 8.262828487204388e-05, Gradient Norm: 0.8473844528198242)
Step... (9125 | Loss: 0.1757078915834427, Learning Rate: 8.257777517428622e-05, Gradient Norm: 1.2093218564987183)
Step... (9150 | Loss: 0.1476430594921112, Learning Rate: 8.252727275248617e-05, Gradient Norm: 0.7347177863121033)
Step... (9175 | Loss: 0.21262848377227783, Learning Rate: 8.247677033068612e-05, Gradient Norm: 1.0195574760437012)
Step... (9200 | Loss: 0.1652774065732956, Learning Rate: 8.242626063292846e-05, Gradient Norm: 0.7463162541389465)
Step... (9225 | Loss: 0.3452998697757721, Learning Rate: 8.237575821112841e-05, Gradient Norm: 4.910520553588867)
Step... (9250 | Loss: 0.1791803538799286, Learning Rate: 8.232525578932837e-05, Gradient Norm: 0.8369795680046082)
Step... (9275 | Loss: 0.17436903715133667, Learning Rate: 8.22747460915707e-05, Gradient Norm: 1.7741612195968628)
Step... (9300 | Loss: 0.14670398831367493, Learning Rate: 8.222424366977066e-05, Gradient Norm: 0.6850996613502502)
Step... (9325 | Loss: 0.20983394980430603, Learning Rate: 8.217374124797061e-05, Gradient Norm: 1.2006179094314575)
Step... (9350 | Loss: 0.20509567856788635, Learning Rate: 8.212323155021295e-05, Gradient Norm: 0.8113400340080261)
Step... (9375 | Loss: 0.16039088368415833, Learning Rate: 8.20727291284129e-05, Gradient Norm: 0.9816299676895142)
Step... (9400 | Loss: 0.1400613635778427, Learning Rate: 8.202222670661286e-05, Gradient Norm: 0.6179342865943909)
Step... (9425 | Loss: 0.24119381606578827, Learning Rate: 8.19717170088552e-05, Gradient Norm: 1.3948156833648682)
Step... (9450 | Loss: 0.1878095120191574, Learning Rate: 8.192121458705515e-05, Gradient Norm: 0.7518097162246704)
Step... (9475 | Loss: 0.20686469972133636, Learning Rate: 8.18707121652551e-05, Gradient Norm: 1.0718512535095215)
Step... (9500 | Loss: 0.166559100151062, Learning Rate: 8.182020246749744e-05, Gradient Norm: 0.6616953015327454)
Step... (9525 | Loss: 0.1999739408493042, Learning Rate: 8.176970004569739e-05, Gradient Norm: 1.544345736503601)
Step... (9550 | Loss: 0.15435916185379028, Learning Rate: 8.171919034793973e-05, Gradient Norm: 0.9815359711647034)
Step... (9575 | Loss: 0.27953287959098816, Learning Rate: 8.166868792613968e-05, Gradient Norm: 1.3514609336853027)
Step... (9600 | Loss: 0.2014772742986679, Learning Rate: 8.161817822838202e-05, Gradient Norm: 0.7696059346199036)

Training...:  69% 1799/2609 [1:41:47<16:16,  1.21s/it][A
Training...:  69% 1800/2609 [1:41:48<13:29,  1.00s/it][A
Training...:  69% 1801/2609 [1:41:55<38:28,  2.86s/it][A
Training...:  69% 1802/2609 [1:42:02<54:50,  4.08s/it][A
Training...:  69% 1803/2609 [1:42:09<1:04:33,  4.81s/it][A
Training...:  69% 1804/2609 [1:42:15<1:10:09,  5.23s/it][A
Training...:  69% 1805/2609 [1:42:21<1:12:23,  5.40s/it][A
Training...:  69% 1806/2609 [1:42:26<1:12:57,  5.45s/it][A
Training...:  69% 1807/2609 [1:42:32<1:13:21,  5.49s/it][A
Training...:  69% 1808/2609 [1:42:37<1:12:08,  5.40s/it][A
Training...:  69% 1809/2609 [1:42:42<1:10:39,  5.30s/it][A
Training...:  69% 1810/2609 [1:42:47<1:08:34,  5.15s/it][A
Training...:  69% 1811/2609 [1:42:52<1:06:52,  5.03s/it][A
Training...:  69% 1812/2609 [1:42:56<1:04:50,  4.88s/it][A
Training...:  69% 1813/2609 [1:43:00<1:03:01,  4.75s/it][A
Training...:  70% 1814/2609 [1:43:05<1:01:12,  4.62s/it][A
Training...:  70% 1815/2609 [1:43:09<59:30,  4.50s/it]  [A
Training...:  70% 1816/2609 [1:43:13<57:51,  4.38s/it][A
Training...:  70% 1817/2609 [1:43:17<56:23,  4.27s/it][A
Training...:  70% 1818/2609 [1:43:21<54:38,  4.14s/it][A
Training...:  70% 1819/2609 [1:43:25<53:10,  4.04s/it][A
Training...:  70% 1820/2609 [1:43:28<51:38,  3.93s/it][A
Training...:  70% 1821/2609 [1:43:32<50:16,  3.83s/it][A
Training...:  70% 1822/2609 [1:43:36<48:49,  3.72s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:16:48<42:24:09, 8979.37s/it]
Training...:  70% 1822/2609 [1:43:40<48:49,  3.72s/it][A
Training...:  70% 1823/2609 [1:43:40<49:51,  3.81s/it][A
Training...:  70% 1824/2609 [1:43:43<47:45,  3.65s/it][A
Training...:  70% 1825/2609 [1:43:46<45:58,  3.52s/it][A
Training...:  70% 1826/2609 [1:43:49<44:10,  3.38s/it][A
Training...:  70% 1827/2609 [1:43:52<42:27,  3.26s/it][A
Training...:  70% 1828/2609 [1:43:55<40:59,  3.15s/it][A
Training...:  70% 1829/2609 [1:43:58<39:50,  3.06s/it][A
Training...:  70% 1830/2609 [1:44:01<38:40,  2.98s/it][A
Training...:  70% 1831/2609 [1:44:03<37:29,  2.89s/it][A
Training...:  70% 1832/2609 [1:44:06<36:04,  2.79s/it][A
Training...:  70% 1833/2609 [1:44:08<34:48,  2.69s/it][A
Training...:  70% 1834/2609 [1:44:11<33:37,  2.60s/it][A
Training...:  70% 1835/2609 [1:44:13<32:24,  2.51s/it][A
Training...:  70% 1836/2609 [1:44:15<31:19,  2.43s/it][A
Training...:  70% 1837/2609 [1:44:17<30:07,  2.34s/it][A
Training...:  70% 1838/2609 [1:44:19<28:51,  2.25s/it][A
Training...:  70% 1839/2609 [1:44:21<27:45,  2.16s/it][A
Training...:  71% 1840/2609 [1:44:23<26:30,  2.07s/it][A
Training...:  71% 1841/2609 [1:44:25<25:17,  1.98s/it][A
Training...:  71% 1842/2609 [1:44:27<24:09,  1.89s/it][A
Training...:  71% 1843/2609 [1:44:28<22:57,  1.80s/it][A
Training...:  71% 1844/2609 [1:44:30<21:40,  1.70s/it][A
Training...:  71% 1845/2609 [1:44:31<20:14,  1.59s/it][A
Training...:  71% 1846/2609 [1:44:32<18:52,  1.48s/it][A
Training...:  71% 1847/2609 [1:44:33<17:24,  1.37s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:17:43<42:24:09, 8979.37s/it]
Training...:  71% 1847/2609 [1:44:35<17:24,  1.37s/it][A
Training...:  71% 1848/2609 [1:44:35<17:09,  1.35s/it][A
Training...:  71% 1849/2609 [1:44:35<15:01,  1.19s/it][A
Training...:  71% 1850/2609 [1:44:36<12:34,  1.01it/s][A
Training...:  71% 1851/2609 [1:44:43<35:46,  2.83s/it][A
Training...:  71% 1852/2609 [1:44:50<52:04,  4.13s/it][A
Training...:  71% 1853/2609 [1:44:57<1:01:39,  4.89s/it][A
Training...:  71% 1854/2609 [1:45:03<1:07:38,  5.38s/it][A
Training...:  71% 1855/2609 [1:45:09<1:09:54,  5.56s/it][A
Training...:  71% 1856/2609 [1:45:15<1:10:22,  5.61s/it][A
Training...:  71% 1857/2609 [1:45:21<1:09:56,  5.58s/it][A
Training...:  71% 1858/2609 [1:45:26<1:08:39,  5.49s/it][A
Training...:  71% 1859/2609 [1:45:31<1:07:14,  5.38s/it][A
Training...:  71% 1860/2609 [1:45:36<1:05:17,  5.23s/it][A
Training...:  71% 1861/2609 [1:45:41<1:03:27,  5.09s/it][A
Training...:  71% 1862/2609 [1:45:45<1:01:14,  4.92s/it][A
Training...:  71% 1863/2609 [1:45:50<59:32,  4.79s/it]  [A
Training...:  71% 1864/2609 [1:45:54<57:55,  4.66s/it][A
Training...:  71% 1865/2609 [1:45:58<56:32,  4.56s/it][A
Training...:  72% 1866/2609 [1:46:03<54:51,  4.43s/it][A
Training...:  72% 1867/2609 [1:46:07<53:10,  4.30s/it][A
Training...:  72% 1868/2609 [1:46:10<51:24,  4.16s/it][A
Training...:  72% 1869/2609 [1:46:14<49:58,  4.05s/it][A
Training...:  72% 1870/2609 [1:46:18<48:33,  3.94s/it][A
Training...:  72% 1871/2609 [1:46:21<47:05,  3.83s/it][A
Training...:  72% 1872/2609 [1:46:25<45:39,  3.72s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:19:38<42:24:09, 8979.37s/it]
Training...:  72% 1872/2609 [1:46:29<45:39,  3.72s/it][A
Training...:  72% 1873/2609 [1:46:29<46:38,  3.80s/it][A
Training...:  72% 1874/2609 [1:46:32<44:31,  3.64s/it][A
Training...:  72% 1875/2609 [1:46:35<42:43,  3.49s/it][A
Training...:  72% 1876/2609 [1:46:38<41:05,  3.36s/it][A
Training...:  72% 1877/2609 [1:46:41<39:43,  3.26s/it][A
Training...:  72% 1878/2609 [1:46:44<38:22,  3.15s/it][A
Training...:  72% 1879/2609 [1:46:47<37:24,  3.07s/it][A
Training...:  72% 1880/2609 [1:46:50<36:09,  2.98s/it][A
Training...:  72% 1881/2609 [1:46:53<34:49,  2.87s/it][A
Training...:  72% 1882/2609 [1:46:55<33:34,  2.77s/it][A
Training...:  72% 1883/2609 [1:46:58<32:24,  2.68s/it][A
Training...:  72% 1884/2609 [1:47:00<31:16,  2.59s/it][A
Training...:  72% 1885/2609 [1:47:02<30:08,  2.50s/it][A
Training...:  72% 1886/2609 [1:47:04<29:02,  2.41s/it][A
Training...:  72% 1887/2609 [1:47:07<27:57,  2.32s/it][A
Training...:  72% 1888/2609 [1:47:09<26:50,  2.23s/it][A
Training...:  72% 1889/2609 [1:47:11<25:46,  2.15s/it][A
Training...:  72% 1890/2609 [1:47:12<24:41,  2.06s/it][A
Training...:  72% 1891/2609 [1:47:14<23:33,  1.97s/it][A
Training...:  73% 1892/2609 [1:47:16<22:33,  1.89s/it][A
Training...:  73% 1893/2609 [1:47:17<21:30,  1.80s/it][A
Training...:  73% 1894/2609 [1:47:19<20:25,  1.71s/it][A
Training...:  73% 1895/2609 [1:47:20<19:11,  1.61s/it][A
Training...:  73% 1896/2609 [1:47:22<17:54,  1.51s/it][A
Training...:  73% 1897/2609 [1:47:23<16:31,  1.39s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:20:33<42:24:09, 8979.37s/it]
Training...:  73% 1897/2609 [1:47:24<16:31,  1.39s/it][A
Training...:  73% 1898/2609 [1:47:24<16:11,  1.37s/it][A
Training...:  73% 1899/2609 [1:47:25<14:11,  1.20s/it][A
Training...:  73% 1900/2609 [1:47:25<11:49,  1.00s/it][A
Training...:  73% 1901/2609 [1:47:32<33:25,  2.83s/it][A
Training...:  73% 1902/2609 [1:47:39<48:03,  4.08s/it][A
Training...:  73% 1903/2609 [1:47:46<56:32,  4.81s/it][A
Training...:  73% 1904/2609 [1:47:52<1:01:24,  5.23s/it][A
Training...:  73% 1905/2609 [1:47:58<1:03:35,  5.42s/it][A
Training...:  73% 1906/2609 [1:48:04<1:04:23,  5.50s/it][A
Training...:  73% 1907/2609 [1:48:09<1:04:06,  5.48s/it][A
Training...:  73% 1908/2609 [1:48:14<1:03:23,  5.43s/it][A
Training...:  73% 1909/2609 [1:48:20<1:02:12,  5.33s/it][A
Training...:  73% 1910/2609 [1:48:24<1:00:37,  5.20s/it][A
Training...:  73% 1911/2609 [1:48:29<59:04,  5.08s/it]  [A
Training...:  73% 1912/2609 [1:48:34<57:13,  4.93s/it][A
Training...:  73% 1913/2609 [1:48:38<55:48,  4.81s/it][A
Training...:  73% 1914/2609 [1:48:43<54:27,  4.70s/it][A
Training...:  73% 1915/2609 [1:48:47<52:57,  4.58s/it][A
Training...:  73% 1916/2609 [1:48:51<51:29,  4.46s/it][A
Training...:  73% 1917/2609 [1:48:55<49:46,  4.32s/it][A
Training...:  74% 1918/2609 [1:48:59<48:05,  4.18s/it][A
Training...:  74% 1919/2609 [1:49:03<46:40,  4.06s/it][A
Training...:  74% 1920/2609 [1:49:07<45:14,  3.94s/it][A
Training...:  74% 1921/2609 [1:49:10<44:08,  3.85s/it][A
Training...:  74% 1922/2609 [1:49:14<42:45,  3.73s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:22:26<42:24:09, 8979.37s/it]
Training...:  74% 1922/2609 [1:49:18<42:45,  3.73s/it][A
Training...:  74% 1923/2609 [1:49:18<43:36,  3.81s/it][A
Training...:  74% 1924/2609 [1:49:21<41:32,  3.64s/it][A
Training...:  74% 1925/2609 [1:49:24<39:55,  3.50s/it][A
Training...:  74% 1926/2609 [1:49:27<38:22,  3.37s/it][A
Training...:  74% 1927/2609 [1:49:30<37:11,  3.27s/it][A
Training...:  74% 1928/2609 [1:49:33<36:08,  3.18s/it][A
Training...:  74% 1929/2609 [1:49:36<35:06,  3.10s/it][A
Training...:  74% 1930/2609 [1:49:39<33:57,  3.00s/it][A
Training...:  74% 1931/2609 [1:49:42<33:01,  2.92s/it][A
Training...:  74% 1932/2609 [1:49:44<31:57,  2.83s/it][A
Training...:  74% 1933/2609 [1:49:47<31:02,  2.76s/it][A
Training...:  74% 1934/2609 [1:49:49<29:58,  2.66s/it][A
Training...:  74% 1935/2609 [1:49:52<28:54,  2.57s/it][A
Training...:  74% 1936/2609 [1:49:54<27:53,  2.49s/it][A
Training...:  74% 1937/2609 [1:49:56<26:55,  2.40s/it][A
Training...:  74% 1938/2609 [1:49:58<25:49,  2.31s/it][A
Training...:  74% 1939/2609 [1:50:00<24:48,  2.22s/it][A
Training...:  74% 1940/2609 [1:50:02<23:42,  2.13s/it][A
Training...:  74% 1941/2609 [1:50:04<22:41,  2.04s/it][A
Training...:  74% 1942/2609 [1:50:06<21:36,  1.94s/it][A
Training...:  74% 1943/2609 [1:50:07<20:33,  1.85s/it][A
Training...:  75% 1944/2609 [1:50:09<19:26,  1.75s/it][A
Training...:  75% 1945/2609 [1:50:10<18:13,  1.65s/it][A
Training...:  75% 1946/2609 [1:50:11<16:51,  1.53s/it][A
Training...:  75% 1947/2609 [1:50:13<15:29,  1.40s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:23:23<42:24:09, 8979.37s/it]
Training...:  75% 1947/2609 [1:50:14<15:29,  1.40s/it][A
Training...:  75% 1948/2609 [1:50:14<15:04,  1.37s/it][A
Training...:  75% 1949/2609 [1:50:15<13:06,  1.19s/it][A
Training...:  75% 1950/2609 [1:50:15<11:02,  1.01s/it][A
Training...:  75% 1951/2609 [1:50:22<30:56,  2.82s/it][A
Training...:  75% 1952/2609 [1:50:29<44:45,  4.09s/it][A
Training...:  75% 1953/2609 [1:50:36<52:35,  4.81s/it][A
Training...:  75% 1954/2609 [1:50:42<57:11,  5.24s/it][A
Training...:  75% 1955/2609 [1:50:48<59:11,  5.43s/it][A
Training...:  75% 1956/2609 [1:50:54<59:40,  5.48s/it][A
Training...:  75% 1957/2609 [1:50:59<59:26,  5.47s/it][A
Training...:  75% 1958/2609 [1:51:04<58:27,  5.39s/it][A
Training...:  75% 1959/2609 [1:51:09<57:35,  5.32s/it][A
Training...:  75% 1960/2609 [1:51:14<56:00,  5.18s/it][A
Training...:  75% 1961/2609 [1:51:19<54:33,  5.05s/it][A
Training...:  75% 1962/2609 [1:51:23<52:41,  4.89s/it][A
Training...:  75% 1963/2609 [1:51:28<51:11,  4.75s/it][A
Training...:  75% 1964/2609 [1:51:32<49:26,  4.60s/it][A
Training...:  75% 1965/2609 [1:51:36<47:55,  4.47s/it][A
Training...:  75% 1966/2609 [1:51:40<46:21,  4.33s/it][A
Training...:  75% 1967/2609 [1:51:44<44:54,  4.20s/it][A
Training...:  75% 1968/2609 [1:51:48<43:37,  4.08s/it][A
Training...:  75% 1969/2609 [1:51:52<42:26,  3.98s/it][A
Training...:  76% 1970/2609 [1:51:55<41:10,  3.87s/it][A
Training...:  76% 1971/2609 [1:51:59<40:11,  3.78s/it][A
Training...:  76% 1972/2609 [1:52:02<38:56,  3.67s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:25:15<42:24:09, 8979.37s/it]
Training...:  76% 1972/2609 [1:52:06<38:56,  3.67s/it][A
Training...:  76% 1973/2609 [1:52:06<39:56,  3.77s/it][A
Training...:  76% 1974/2609 [1:52:10<38:16,  3.62s/it][A
Training...:  76% 1975/2609 [1:52:13<36:48,  3.48s/it][A
Training...:  76% 1976/2609 [1:52:16<35:31,  3.37s/it][A
Training...:  76% 1977/2609 [1:52:19<34:44,  3.30s/it][A
Training...:  76% 1978/2609 [1:52:22<33:39,  3.20s/it][A
Training...:  76% 1979/2609 [1:52:25<32:44,  3.12s/it][A
Training...:  76% 1980/2609 [1:52:28<31:38,  3.02s/it][A
Training...:  76% 1981/2609 [1:52:30<30:39,  2.93s/it][A
Training...:  76% 1982/2609 [1:52:33<29:37,  2.83s/it][A
Training...:  76% 1983/2609 [1:52:36<28:40,  2.75s/it][A
Training...:  76% 1984/2609 [1:52:38<27:43,  2.66s/it][A
Training...:  76% 1985/2609 [1:52:40<26:47,  2.58s/it][A
Training...:  76% 1986/2609 [1:52:43<25:47,  2.48s/it][A
Training...:  76% 1987/2609 [1:52:45<24:54,  2.40s/it][A
Training...:  76% 1988/2609 [1:52:47<23:59,  2.32s/it][A
Training...:  76% 1989/2609 [1:52:49<22:53,  2.22s/it][A
Training...:  76% 1990/2609 [1:52:51<21:48,  2.11s/it][A
Training...:  76% 1991/2609 [1:52:53<20:48,  2.02s/it][A
Training...:  76% 1992/2609 [1:52:54<19:53,  1.93s/it][A
Training...:  76% 1993/2609 [1:52:56<18:58,  1.85s/it][A
Training...:  76% 1994/2609 [1:52:57<17:49,  1.74s/it][A
Training...:  76% 1995/2609 [1:52:59<16:41,  1.63s/it][A
Training...:  77% 1996/2609 [1:53:00<15:28,  1.52s/it][A
Training...:  77% 1997/2609 [1:53:01<14:14,  1.40s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:26:11<42:24:09, 8979.37s/it]
Training...:  77% 1997/2609 [1:53:03<14:14,  1.40s/it][A
Training...:  77% 1998/2609 [1:53:03<13:55,  1.37s/it][A
Training...:  77% 1999/2609 [1:53:03<12:07,  1.19s/it][A
Training...:  77% 2000/2609 [1:53:04<11:04,  1.09s/it][A
Training...:  77% 2001/2609 [1:53:11<29:22,  2.90s/it][A
Training...:  77% 2002/2609 [1:53:18<42:01,  4.15s/it][A
Training...:  77% 2003/2609 [1:53:25<49:02,  4.85s/it][A
Training...:  77% 2004/2609 [1:53:31<52:42,  5.23s/it][A
Training...:  77% 2005/2609 [1:53:37<54:08,  5.38s/it][A
Training...:  77% 2006/2609 [1:53:42<55:03,  5.48s/it][A
Training...:  77% 2007/2609 [1:53:48<54:33,  5.44s/it][A
Training...:  77% 2008/2609 [1:53:53<53:26,  5.34s/it][A
Training...:  77% 2009/2609 [1:53:58<52:10,  5.22s/it][A
Training...:  77% 2010/2609 [1:54:03<51:02,  5.11s/it][A
Training...:  77% 2011/2609 [1:54:07<49:35,  4.98s/it][A
Training...:  77% 2012/2609 [1:54:12<48:00,  4.82s/it][A
Training...:  77% 2013/2609 [1:54:16<46:32,  4.69s/it][A
Training...:  77% 2014/2609 [1:54:20<45:00,  4.54s/it][A
Training...:  77% 2015/2609 [1:54:24<43:47,  4.42s/it][A
Training...:  77% 2016/2609 [1:54:28<42:27,  4.30s/it][A
Training...:  77% 2017/2609 [1:54:32<41:15,  4.18s/it][A
Training...:  77% 2018/2609 [1:54:36<40:12,  4.08s/it][A
Training...:  77% 2019/2609 [1:54:40<39:26,  4.01s/it][A
Training...:  77% 2020/2609 [1:54:44<38:34,  3.93s/it][A
Training...:  77% 2021/2609 [1:54:47<37:25,  3.82s/it][A
Training...:  78% 2022/2609 [1:54:51<36:12,  3.70s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:28:03<42:24:09, 8979.37s/it]
Training...:  78% 2022/2609 [1:54:55<36:12,  3.70s/it][A
Training...:  78% 2023/2609 [1:54:55<36:50,  3.77s/it][A
Training...:  78% 2024/2609 [1:54:58<35:23,  3.63s/it][A
Training...:  78% 2025/2609 [1:55:01<34:01,  3.50s/it][A
Training...:  78% 2026/2609 [1:55:04<32:49,  3.38s/it][A
Training...:  78% 2027/2609 [1:55:07<31:43,  3.27s/it][A
Training...:  78% 2028/2609 [1:55:10<30:52,  3.19s/it][A
Training...:  78% 2029/2609 [1:55:13<29:51,  3.09s/it][A
Training...:  78% 2030/2609 [1:55:16<28:54,  3.00s/it][A
Training...:  78% 2031/2609 [1:55:19<27:58,  2.90s/it][A
Training...:  78% 2032/2609 [1:55:21<26:58,  2.80s/it][A
Training...:  78% 2033/2609 [1:55:24<26:03,  2.71s/it][A
Training...:  78% 2034/2609 [1:55:26<25:10,  2.63s/it][A
Training...:  78% 2035/2609 [1:55:28<24:10,  2.53s/it][A
Training...:  78% 2036/2609 [1:55:31<23:19,  2.44s/it][A
Training...:  78% 2037/2609 [1:55:33<22:22,  2.35s/it][A
Training...:  78% 2038/2609 [1:55:35<21:27,  2.26s/it][A
Training...:  78% 2039/2609 [1:55:37<20:37,  2.17s/it][A
Training...:  78% 2040/2609 [1:55:39<19:49,  2.09s/it][A
Training...:  78% 2041/2609 [1:55:41<18:57,  2.00s/it][A
Training...:  78% 2042/2609 [1:55:42<18:06,  1.92s/it][A
Training...:  78% 2043/2609 [1:55:44<17:13,  1.83s/it][A
Training...:  78% 2044/2609 [1:55:45<16:13,  1.72s/it][A
Training...:  78% 2045/2609 [1:55:47<15:17,  1.63s/it][A
Training...:  78% 2046/2609 [1:55:48<14:12,  1.51s/it][A
Training...:  78% 2047/2609 [1:55:49<13:07,  1.40s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:28:59<42:24:09, 8979.37s/it]
Training...:  78% 2047/2609 [1:55:50<13:07,  1.40s/it][A
Training...:  78% 2048/2609 [1:55:50<12:51,  1.37s/it][A
Training...:  79% 2049/2609 [1:55:51<11:10,  1.20s/it][A
Training...:  79% 2050/2609 [1:55:52<09:22,  1.01s/it][A
Training...:  79% 2051/2609 [1:55:59<26:00,  2.80s/it][A
Training...:  79% 2052/2609 [1:56:06<37:36,  4.05s/it][A
Training...:  79% 2053/2609 [1:56:12<44:08,  4.76s/it][A
Training...:  79% 2054/2609 [1:56:18<47:57,  5.19s/it][A
Training...:  79% 2055/2609 [1:56:24<50:05,  5.43s/it][A
Training...:  79% 2056/2609 [1:56:30<51:01,  5.54s/it][A
Training...:  79% 2057/2609 [1:56:36<50:42,  5.51s/it][A
Training...:  79% 2058/2609 [1:56:41<49:47,  5.42s/it][A
Training...:  79% 2059/2609 [1:56:46<48:38,  5.31s/it][A
Training...:  79% 2060/2609 [1:56:51<47:15,  5.16s/it][A
Training...:  79% 2061/2609 [1:56:55<46:07,  5.05s/it][A
Training...:  79% 2062/2609 [1:57:00<44:25,  4.87s/it][A
Training...:  79% 2063/2609 [1:57:04<43:05,  4.74s/it][A
Training...:  79% 2064/2609 [1:57:09<41:57,  4.62s/it][A
Training...:  79% 2065/2609 [1:57:13<40:47,  4.50s/it][A
Training...:  79% 2066/2609 [1:57:17<39:35,  4.37s/it][A
Training...:  79% 2067/2609 [1:57:21<38:25,  4.25s/it][A
Training...:  79% 2068/2609 [1:57:25<37:19,  4.14s/it][A
Training...:  79% 2069/2609 [1:57:29<36:14,  4.03s/it][A
Training...:  79% 2070/2609 [1:57:32<35:07,  3.91s/it][A
Training...:  79% 2071/2609 [1:57:36<34:10,  3.81s/it][A
Training...:  79% 2072/2609 [1:57:39<33:05,  3.70s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:30:52<42:24:09, 8979.37s/it]
Training...:  79% 2072/2609 [1:57:43<33:05,  3.70s/it][A
Training...:  79% 2073/2609 [1:57:43<33:51,  3.79s/it][A
Training...:  79% 2074/2609 [1:57:47<32:30,  3.65s/it][A
Training...:  80% 2075/2609 [1:57:50<31:16,  3.51s/it][A
Training...:  80% 2076/2609 [1:57:53<30:13,  3.40s/it][A
Training...:  80% 2077/2609 [1:57:56<29:23,  3.31s/it][A
Training...:  80% 2078/2609 [1:57:59<28:32,  3.23s/it][A
Training...:  80% 2079/2609 [1:58:02<27:39,  3.13s/it][A
Training...:  80% 2080/2609 [1:58:05<26:54,  3.05s/it][A
Training...:  80% 2081/2609 [1:58:08<26:03,  2.96s/it][A
Training...:  80% 2082/2609 [1:58:10<25:11,  2.87s/it][A
Training...:  80% 2083/2609 [1:58:13<24:21,  2.78s/it][A
Training...:  80% 2084/2609 [1:58:15<23:29,  2.69s/it][A
Training...:  80% 2085/2609 [1:58:18<22:44,  2.60s/it][A
Training...:  80% 2086/2609 [1:58:20<21:59,  2.52s/it][A
Training...:  80% 2087/2609 [1:58:22<21:11,  2.44s/it][A
Training...:  80% 2088/2609 [1:58:24<20:20,  2.34s/it][A
Training...:  80% 2089/2609 [1:58:26<19:35,  2.26s/it][A
Training...:  80% 2090/2609 [1:58:28<18:40,  2.16s/it][A
Training...:  80% 2091/2609 [1:58:30<17:51,  2.07s/it][A
Training...:  80% 2092/2609 [1:58:32<16:59,  1.97s/it][A
Training...:  80% 2093/2609 [1:58:34<16:08,  1.88s/it][A
Training...:  80% 2094/2609 [1:58:35<15:13,  1.77s/it][A
Training...:  80% 2095/2609 [1:58:37<14:17,  1.67s/it][A
Training...:  80% 2096/2609 [1:58:38<13:18,  1.56s/it][A
Training...:  80% 2097/2609 [1:58:39<12:18,  1.44s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:31:49<42:24:09, 8979.37s/it]
Training...:  80% 2097/2609 [1:58:40<12:18,  1.44s/it][A
Training...:  80% 2098/2609 [1:58:40<12:03,  1.42s/it][A
Training...:  80% 2099/2609 [1:58:41<10:30,  1.24s/it][A
Training...:  80% 2100/2609 [1:58:42<08:46,  1.04s/it][A
Training...:  81% 2101/2609 [1:58:49<24:12,  2.86s/it][A
Training...:  81% 2102/2609 [1:58:56<34:38,  4.10s/it][A
Training...:  81% 2103/2609 [1:59:02<40:31,  4.80s/it][A
Training...:  81% 2104/2609 [1:59:09<43:52,  5.21s/it][A
Training...:  81% 2105/2609 [1:59:14<45:36,  5.43s/it][A
Training...:  81% 2106/2609 [1:59:20<46:07,  5.50s/it][A
Training...:  81% 2107/2609 [1:59:26<46:15,  5.53s/it][A
Training...:  81% 2108/2609 [1:59:31<45:33,  5.46s/it][A
Training...:  81% 2109/2609 [1:59:36<44:32,  5.35s/it][A
Training...:  81% 2110/2609 [1:59:41<43:20,  5.21s/it][A
Training...:  81% 2111/2609 [1:59:46<42:10,  5.08s/it][A
Training...:  81% 2112/2609 [1:59:50<40:50,  4.93s/it][A
Training...:  81% 2113/2609 [1:59:55<39:43,  4.81s/it][A
Training...:  81% 2114/2609 [1:59:59<38:22,  4.65s/it][A
Training...:  81% 2115/2609 [2:00:03<37:15,  4.53s/it][A
Training...:  81% 2116/2609 [2:00:07<36:01,  4.38s/it][A
Training...:  81% 2117/2609 [2:00:11<35:01,  4.27s/it][A
Training...:  81% 2118/2609 [2:00:15<33:51,  4.14s/it][A
Training...:  81% 2119/2609 [2:00:19<33:09,  4.06s/it][A
Training...:  81% 2120/2609 [2:00:23<32:00,  3.93s/it][A
Training...:  81% 2121/2609 [2:00:26<31:11,  3.84s/it][A
Training...:  81% 2122/2609 [2:00:30<30:14,  3.73s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:33:43<42:24:09, 8979.37s/it]
Training...:  81% 2122/2609 [2:00:34<30:14,  3.73s/it][A
Training...:  81% 2123/2609 [2:00:34<30:47,  3.80s/it][A
Training...:  81% 2124/2609 [2:00:37<29:30,  3.65s/it][A
Training...:  81% 2125/2609 [2:00:40<28:25,  3.52s/it][A
Training...:  81% 2126/2609 [2:00:44<27:29,  3.41s/it][A
Training...:  82% 2127/2609 [2:00:47<26:36,  3.31s/it][A
Training...:  82% 2128/2609 [2:00:50<25:50,  3.22s/it][A
Training...:  82% 2129/2609 [2:00:52<24:54,  3.11s/it][A
Training...:  82% 2130/2609 [2:00:55<24:01,  3.01s/it][A
Training...:  82% 2131/2609 [2:00:58<23:11,  2.91s/it][A
Training...:  82% 2132/2609 [2:01:00<22:19,  2.81s/it][A
Training...:  82% 2133/2609 [2:01:03<21:31,  2.71s/it][A
Training...:  82% 2134/2609 [2:01:05<20:44,  2.62s/it][A
Training...:  82% 2135/2609 [2:01:08<20:01,  2.54s/it][A
Training...:  82% 2136/2609 [2:01:10<19:21,  2.45s/it][A
Training...:  82% 2137/2609 [2:01:12<18:39,  2.37s/it][A
Training...:  82% 2138/2609 [2:01:14<17:54,  2.28s/it][A
Training...:  82% 2139/2609 [2:01:16<17:15,  2.20s/it][A
Training...:  82% 2140/2609 [2:01:18<16:30,  2.11s/it][A
Training...:  82% 2141/2609 [2:01:20<15:48,  2.03s/it][A
Training...:  82% 2142/2609 [2:01:22<15:07,  1.94s/it][A
Training...:  82% 2143/2609 [2:01:23<14:27,  1.86s/it][A
Training...:  82% 2144/2609 [2:01:25<13:36,  1.76s/it][A
Training...:  82% 2145/2609 [2:01:26<12:48,  1.66s/it][A
Training...:  82% 2146/2609 [2:01:28<11:52,  1.54s/it][A
Training...:  82% 2147/2609 [2:01:29<10:52,  1.41s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:34:39<42:24:09, 8979.37s/it]
Training...:  82% 2147/2609 [2:01:30<10:52,  1.41s/it][A
Training...:  82% 2148/2609 [2:01:30<10:30,  1.37s/it][A
Training...:  82% 2149/2609 [2:01:31<09:07,  1.19s/it][A
Training...:  82% 2150/2609 [2:01:31<07:34,  1.01it/s][A
Training...:  82% 2151/2609 [2:01:38<21:36,  2.83s/it][A
Training...:  82% 2152/2609 [2:01:46<31:31,  4.14s/it][A
Training...:  83% 2153/2609 [2:01:52<37:00,  4.87s/it][A
Training...:  83% 2154/2609 [2:01:59<40:16,  5.31s/it][A
Training...:  83% 2155/2609 [2:02:04<41:41,  5.51s/it][A
Training...:  83% 2156/2609 [2:02:10<42:09,  5.58s/it][A
Training...:  83% 2157/2609 [2:02:16<41:53,  5.56s/it][A
Training...:  83% 2158/2609 [2:02:21<41:00,  5.46s/it][A
Training...:  83% 2159/2609 [2:02:26<40:08,  5.35s/it][A
Training...:  83% 2160/2609 [2:02:31<38:56,  5.20s/it][A
Training...:  83% 2161/2609 [2:02:36<37:41,  5.05s/it][A
Training...:  83% 2162/2609 [2:02:40<36:25,  4.89s/it][A
Training...:  83% 2163/2609 [2:02:45<35:21,  4.76s/it][A
Training...:  83% 2164/2609 [2:02:49<34:23,  4.64s/it][A
Training...:  83% 2165/2609 [2:02:53<33:25,  4.52s/it][A
Training...:  83% 2166/2609 [2:02:57<32:33,  4.41s/it][A
Training...:  83% 2167/2609 [2:03:01<31:24,  4.26s/it][A
Training...:  83% 2168/2609 [2:03:05<30:23,  4.14s/it][A
Training...:  83% 2169/2609 [2:03:09<29:28,  4.02s/it][A
Training...:  83% 2170/2609 [2:03:12<28:36,  3.91s/it][A
Training...:  83% 2171/2609 [2:03:16<27:52,  3.82s/it][A
Training...:  83% 2172/2609 [2:03:20<27:01,  3.71s/it][A                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [9:36:32<42:24:09, 8979.37s/it]
Training...:  83% 2172/2609 [2:03:24<27:01,  3.71s/it][A

Evaluating ...:   0% 0/220 [00:00<?, ?it/s][A[AStep... (9625 | Loss: 0.3045438826084137, Learning Rate: 8.156767580658197e-05, Gradient Norm: 1.9281651973724365)
Step... (9650 | Loss: 0.17962849140167236, Learning Rate: 8.151717338478193e-05, Gradient Norm: 0.8367568850517273)
Step... (9675 | Loss: 0.2510397434234619, Learning Rate: 8.146666368702427e-05, Gradient Norm: 1.2599551677703857)
Step... (9700 | Loss: 0.21734519302845, Learning Rate: 8.141616126522422e-05, Gradient Norm: 0.7361257672309875)
Step... (9725 | Loss: 0.18393395841121674, Learning Rate: 8.136565156746656e-05, Gradient Norm: 1.0768240690231323)
Step... (9750 | Loss: 0.17582517862319946, Learning Rate: 8.131514914566651e-05, Gradient Norm: 0.7873477339744568)
Step... (9775 | Loss: 0.13998666405677795, Learning Rate: 8.126463944790885e-05, Gradient Norm: 0.9488430619239807)
Step... (9800 | Loss: 0.14127418398857117, Learning Rate: 8.12141370261088e-05, Gradient Norm: 0.7126149535179138)
Step... (9825 | Loss: 0.20665118098258972, Learning Rate: 8.116362732835114e-05, Gradient Norm: 1.2777687311172485)
Step... (9850 | Loss: 0.13976091146469116, Learning Rate: 8.111312490655109e-05, Gradient Norm: 0.7571658492088318)
Step... (9875 | Loss: 0.1400766670703888, Learning Rate: 8.106262248475105e-05, Gradient Norm: 1.2787868976593018)
Step... (9900 | Loss: 0.1616901159286499, Learning Rate: 8.101211278699338e-05, Gradient Norm: 0.75705486536026)
Step... (9925 | Loss: 0.23559588193893433, Learning Rate: 8.096161036519334e-05, Gradient Norm: 1.5422683954238892)
Step... (9950 | Loss: 0.18447288870811462, Learning Rate: 8.091110794339329e-05, Gradient Norm: 0.7579166889190674)
Step... (9975 | Loss: 0.2641181945800781, Learning Rate: 8.086059824563563e-05, Gradient Norm: 1.1932940483093262)
Step... (10000 | Loss: 0.12021994590759277, Learning Rate: 8.081009582383558e-05, Gradient Norm: 0.6882241368293762)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   0% 1/220 [01:19<4:49:14, 79.24s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   1% 2/220 [02:46<5:04:05, 83.69s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   1% 3/220 [04:06<4:57:14, 82.19s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   2% 4/220 [05:30<4:58:16, 82.85s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:   2% 5/220 [05:32<3:13:09, 53.91s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   3% 6/220 [06:54<3:45:55, 63.34s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:   3% 7/220 [06:56<2:34:03, 43.40s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   4% 8/220 [08:18<3:16:30, 55.62s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   4% 9/220 [09:37<3:41:11, 62.90s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:   5% 10/220 [09:40<2:35:00, 44.29s/it][A[A

Evaluating ...:   5% 11/220 [09:42<1:49:20, 31.39s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   5% 12/220 [10:54<2:32:12, 43.91s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:   6% 13/220 [10:56<1:47:40, 31.21s/it][A[A

Evaluating ...:   6% 14/220 [10:58<1:16:32, 22.30s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   7% 15/220 [12:07<2:04:24, 36.41s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:   7% 16/220 [12:10<1:28:58, 26.17s/it][A[A

Evaluating ...:   8% 17/220 [12:12<1:03:52, 18.88s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   8% 18/220 [13:16<1:50:03, 32.69s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:   9% 19/220 [13:19<1:19:29, 23.73s/it][A[A

Evaluating ...:   9% 20/220 [13:21<57:16, 17.18s/it]  [A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:  10% 21/220 [14:20<1:38:50, 29.80s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:  10% 22/220 [14:22<1:10:25, 21.34s/it][A[A

Evaluating ...:  10% 23/220 [14:24<50:49, 15.48s/it]  [A[A

Evaluating ...:  11% 24/220 [14:26<37:16, 11.41s/it][A[A

Evaluating ...:  11% 25/220 [14:28<27:45,  8.54s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:  12% 26/220 [15:26<1:16:29, 23.66s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:  12% 27/220 [15:28<54:49, 17.04s/it]  [A[A

Evaluating ...:  13% 28/220 [15:30<40:15, 12.58s/it][A[A

Evaluating ...:  13% 29/220 [15:32<29:54,  9.40s/it][A[A

Evaluating ...:  14% 30/220 [15:34<22:57,  7.25s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:  14% 31/220 [16:28<1:06:41, 21.17s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:  15% 32/220 [16:30<48:10, 15.37s/it]  [A[A

Evaluating ...:  15% 33/220 [16:33<36:21, 11.67s/it][A[A

Evaluating ...:  15% 34/220 [16:35<26:53,  8.67s/it][A[A

Evaluating ...:  16% 35/220 [16:37<20:39,  6.70s/it][A[A

Evaluating ...:  16% 36/220 [16:39<16:31,  5.39s/it][A[A

Evaluating ...:  17% 37/220 [16:41<13:24,  4.40s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:  17% 38/220 [17:29<52:49, 17.42s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:  18% 39/220 [17:31<38:46, 12.85s/it][A[A

Evaluating ...:  18% 40/220 [17:33<28:55,  9.64s/it][A[A

Evaluating ...:  19% 41/220 [17:36<22:19,  7.48s/it][A[A

Evaluating ...:  19% 42/220 [17:38<17:27,  5.88s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:  20% 43/220 [18:20<49:38, 16.83s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:  20% 44/220 [18:23<37:14, 12.70s/it][A[A

Evaluating ...:  20% 45/220 [18:26<28:27,  9.76s/it][A[A

Evaluating ...:  21% 46/220 [18:29<22:26,  7.74s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:  21% 47/220 [18:56<39:04, 13.55s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:  22% 48/220 [18:59<29:43, 10.37s/it][A[A

Evaluating ...:  22% 49/220 [19:02<23:11,  8.14s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:  23% 50/220 [19:30<39:38, 13.99s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:  23% 51/220 [19:35<31:44, 11.27s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:  24% 52/220 [20:51<1:26:30, 30.90s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:  24% 53/220 [20:54<1:02:33, 22.48s/it][A[A

Evaluating ...:  25% 54/220 [20:57<45:31, 16.45s/it]  [A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:  25% 55/220 [22:15<1:36:39, 35.15s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:  25% 56/220 [22:18<1:09:07, 25.29s/it][A[A

Evaluating ...:  26% 57/220 [22:20<50:02, 18.42s/it]  [A[A

Evaluating ...:  26% 58/220 [22:22<36:24, 13.48s/it][A[A

Evaluating ...:  27% 59/220 [22:24<26:58, 10.05s/it][A[A

Evaluating ...:  27% 60/220 [22:26<20:24,  7.65s/it][A[A

Evaluating ...:  28% 61/220 [22:28<15:38,  5.90s/it][A[A

Evaluating ...:  28% 62/220 [22:30<12:20,  4.69s/it][A[A

Evaluating ...:  29% 63/220 [22:32<09:59,  3.82s/it][A[A

Evaluating ...:  29% 64/220 [22:34<08:40,  3.34s/it][A[A

Evaluating ...:  30% 65/220 [22:36<07:29,  2.90s/it][A[A

Evaluating ...:  30% 66/220 [22:38<06:36,  2.58s/it][A[A

Evaluating ...:  30% 67/220 [22:39<05:58,  2.34s/it][A[A

Evaluating ...:  31% 68/220 [22:41<05:32,  2.19s/it][A[A

Evaluating ...:  31% 69/220 [22:43<05:31,  2.19s/it][A[A

Evaluating ...:  32% 70/220 [22:45<05:19,  2.13s/it][A[A

Evaluating ...:  32% 71/220 [22:47<05:14,  2.11s/it][A[A

Evaluating ...:  33% 72/220 [22:49<05:00,  2.03s/it][A[A

Evaluating ...:  33% 73/220 [22:51<04:47,  1.95s/it][A[A

Evaluating ...:  34% 74/220 [22:53<04:28,  1.84s/it][A[A

Evaluating ...:  34% 75/220 [22:55<04:32,  1.88s/it][A[A

Evaluating ...:  35% 76/220 [22:57<04:48,  2.01s/it][A[A

Evaluating ...:  35% 77/220 [22:59<04:27,  1.87s/it][A[A

Evaluating ...:  35% 78/220 [23:00<04:20,  1.84s/it][A[A

Evaluating ...:  36% 79/220 [23:02<04:26,  1.89s/it][A[A

Evaluating ...:  36% 80/220 [23:04<04:37,  1.98s/it][A[A

Evaluating ...:  37% 81/220 [23:07<04:37,  1.99s/it][A[A

Evaluating ...:  37% 82/220 [23:08<04:22,  1.90s/it][A[A

Evaluating ...:  38% 83/220 [23:10<04:14,  1.86s/it][A[A

Evaluating ...:  38% 84/220 [23:12<04:24,  1.95s/it][A[A

Evaluating ...:  39% 85/220 [23:14<04:33,  2.03s/it][A[A

Evaluating ...:  39% 86/220 [23:16<04:23,  1.96s/it][A[A

Evaluating ...:  40% 87/220 [23:18<04:26,  2.01s/it][A[A

Evaluating ...:  40% 88/220 [23:20<04:28,  2.03s/it][A[A

Evaluating ...:  40% 89/220 [23:22<04:17,  1.96s/it][A[A

Evaluating ...:  41% 90/220 [23:24<04:17,  1.98s/it][A[A

Evaluating ...:  41% 91/220 [23:27<04:40,  2.18s/it][A[A

Evaluating ...:  42% 92/220 [23:29<04:58,  2.33s/it][A[A

Evaluating ...:  42% 93/220 [23:32<05:03,  2.39s/it][A[A

Evaluating ...:  43% 94/220 [23:34<04:58,  2.37s/it][A[A

Evaluating ...:  43% 95/220 [23:37<05:20,  2.56s/it][A[A

Evaluating ...:  44% 96/220 [23:40<05:24,  2.61s/it][A[A

Evaluating ...:  44% 97/220 [23:43<05:21,  2.61s/it][A[A

Evaluating ...:  45% 98/220 [23:46<05:31,  2.72s/it][A[A

Evaluating ...:  45% 99/220 [23:49<05:37,  2.79s/it][A[A

Evaluating ...:  45% 100/220 [23:51<05:38,  2.82s/it][A[A

Evaluating ...:  46% 101/220 [23:56<06:41,  3.37s/it][A[A

Evaluating ...:  46% 102/220 [23:59<06:09,  3.13s/it][A[A

Evaluating ...:  47% 103/220 [24:01<05:49,  2.99s/it][A[A

Evaluating ...:  47% 104/220 [24:04<05:23,  2.79s/it][A[A

Evaluating ...:  48% 105/220 [24:06<05:12,  2.72s/it][A[A

Evaluating ...:  48% 106/220 [24:09<04:59,  2.63s/it][A[A

Evaluating ...:  49% 107/220 [24:11<04:38,  2.47s/it][A[A

Evaluating ...:  49% 108/220 [24:13<04:38,  2.49s/it][A[A

Evaluating ...:  50% 109/220 [24:15<04:19,  2.34s/it][A[A

Evaluating ...:  50% 110/220 [24:17<04:08,  2.26s/it][A[A

Evaluating ...:  50% 111/220 [24:19<03:56,  2.17s/it][A[A

Evaluating ...:  51% 112/220 [24:21<03:44,  2.07s/it][A[A

Evaluating ...:  51% 113/220 [24:23<03:42,  2.08s/it][A[A

Evaluating ...:  52% 114/220 [24:25<03:27,  1.96s/it][A[A

Evaluating ...:  52% 115/220 [24:27<03:19,  1.90s/it][A[A

Evaluating ...:  53% 116/220 [24:28<03:11,  1.84s/it][A[A

Evaluating ...:  53% 117/220 [24:30<03:14,  1.89s/it][A[A

Evaluating ...:  54% 118/220 [24:32<03:08,  1.85s/it][A[A

Evaluating ...:  54% 119/220 [24:34<03:04,  1.83s/it][A[A

Evaluating ...:  55% 120/220 [24:36<03:02,  1.82s/it][A[A

Evaluating ...:  55% 121/220 [24:38<02:59,  1.81s/it][A[A

Evaluating ...:  55% 122/220 [24:39<03:00,  1.84s/it][A[A

Evaluating ...:  56% 123/220 [24:42<03:10,  1.97s/it][A[A

Evaluating ...:  56% 124/220 [24:43<03:01,  1.89s/it][A[A

Evaluating ...:  57% 125/220 [24:45<02:56,  1.86s/it][A[A

Evaluating ...:  57% 126/220 [24:47<02:47,  1.79s/it][A[A

Evaluating ...:  58% 127/220 [24:48<02:41,  1.74s/it][A[A

Evaluating ...:  58% 128/220 [24:50<02:39,  1.73s/it][A[A

Evaluating ...:  59% 129/220 [24:52<02:43,  1.79s/it][A[A

Evaluating ...:  59% 130/220 [24:54<02:46,  1.85s/it][A[A

Evaluating ...:  60% 131/220 [24:56<02:37,  1.77s/it][A[A

Evaluating ...:  60% 132/220 [24:58<02:39,  1.81s/it][A[A

Evaluating ...:  60% 133/220 [24:59<02:35,  1.79s/it][A[A

Evaluating ...:  61% 134/220 [25:01<02:39,  1.86s/it][A[A

Evaluating ...:  61% 135/220 [25:04<02:46,  1.96s/it][A[A

Evaluating ...:  62% 136/220 [25:06<02:47,  1.99s/it][A[A

Evaluating ...:  62% 137/220 [25:07<02:39,  1.92s/it][A[A

Evaluating ...:  63% 138/220 [25:09<02:30,  1.83s/it][A[A

Evaluating ...:  63% 139/220 [25:11<02:32,  1.88s/it][A[A

Evaluating ...:  64% 140/220 [25:13<02:33,  1.92s/it][A[A

Evaluating ...:  64% 141/220 [25:16<02:55,  2.22s/it][A[A

Evaluating ...:  65% 142/220 [25:19<03:13,  2.48s/it][A[A

Evaluating ...:  65% 143/220 [25:22<03:22,  2.62s/it][A[A

Evaluating ...:  65% 144/220 [25:25<03:18,  2.61s/it][A[A

Evaluating ...:  66% 145/220 [25:26<03:00,  2.41s/it][A[A

Evaluating ...:  66% 146/220 [25:29<03:11,  2.59s/it][A[A

Evaluating ...:  67% 147/220 [25:32<03:00,  2.48s/it][A[A

Evaluating ...:  67% 148/220 [25:35<03:08,  2.62s/it][A[A

Evaluating ...:  68% 149/220 [25:38<03:12,  2.72s/it][A[A

Evaluating ...:  68% 150/220 [25:40<03:13,  2.76s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:  69% 151/220 [27:00<29:49, 25.93s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:  69% 152/220 [27:03<21:32, 19.01s/it][A[A

Evaluating ...:  70% 153/220 [27:06<15:42, 14.06s/it][A[A

Evaluating ...:  70% 154/220 [27:08<11:42, 10.65s/it][A[A

Evaluating ...:  70% 155/220 [27:11<08:47,  8.11s/it][A[A

Evaluating ...:  71% 156/220 [27:13<06:52,  6.45s/it][A[A

Evaluating ...:  71% 157/220 [27:15<05:23,  5.14s/it][A[A

Evaluating ...:  72% 158/220 [27:18<04:31,  4.38s/it][A[A

Evaluating ...:  72% 159/220 [27:20<03:42,  3.65s/it][A[A

Evaluating ...:  73% 160/220 [27:22<03:08,  3.15s/it][A[A

Evaluating ...:  73% 161/220 [27:24<02:41,  2.75s/it][A[A

Evaluating ...:  74% 162/220 [27:26<02:26,  2.52s/it][A[A

Evaluating ...:  74% 163/220 [27:28<02:14,  2.36s/it][A[A

Evaluating ...:  75% 164/220 [27:30<02:07,  2.28s/it][A[A

Evaluating ...:  75% 165/220 [27:32<02:09,  2.35s/it][A[A

Evaluating ...:  75% 166/220 [27:34<01:58,  2.19s/it][A[A

Evaluating ...:  76% 167/220 [27:36<01:51,  2.11s/it][A[A

Evaluating ...:  76% 168/220 [27:38<01:46,  2.04s/it][A[A

Evaluating ...:  77% 169/220 [27:40<01:52,  2.20s/it][A[A

Evaluating ...:  77% 170/220 [27:42<01:46,  2.14s/it][A[A

Evaluating ...:  78% 171/220 [27:44<01:37,  2.00s/it][A[A

Evaluating ...:  78% 172/220 [27:46<01:30,  1.89s/it][A[A

Evaluating ...:  79% 173/220 [27:48<01:30,  1.93s/it][A[A

Evaluating ...:  79% 174/220 [27:50<01:26,  1.87s/it][A[A

Evaluating ...:  80% 175/220 [27:51<01:18,  1.74s/it][A[A

Evaluating ...:  80% 176/220 [27:53<01:19,  1.81s/it][A[A

Evaluating ...:  80% 177/220 [27:55<01:17,  1.80s/it][A[A

Evaluating ...:  81% 178/220 [27:57<01:16,  1.82s/it][A[A

Evaluating ...:  81% 179/220 [27:58<01:15,  1.85s/it][A[A

Evaluating ...:  82% 180/220 [28:00<01:13,  1.83s/it][A[A

Evaluating ...:  82% 181/220 [28:02<01:05,  1.69s/it][A[A

Evaluating ...:  83% 182/220 [28:04<01:06,  1.74s/it][A[A

Evaluating ...:  83% 183/220 [28:06<01:09,  1.87s/it][A[A

Evaluating ...:  84% 184/220 [28:08<01:10,  1.95s/it][A[A

Evaluating ...:  84% 185/220 [28:10<01:06,  1.90s/it][A[A

Evaluating ...:  85% 186/220 [28:12<01:06,  1.96s/it][A[A

Evaluating ...:  85% 187/220 [28:14<01:03,  1.92s/it][A[A

Evaluating ...:  85% 188/220 [28:16<01:06,  2.08s/it][A[A

Evaluating ...:  86% 189/220 [28:18<01:06,  2.14s/it][A[A

Evaluating ...:  86% 190/220 [28:20<01:04,  2.14s/it][A[A

Evaluating ...:  87% 191/220 [28:23<01:09,  2.38s/it][A[A

Evaluating ...:  87% 192/220 [28:25<01:03,  2.26s/it][A[A

Evaluating ...:  88% 193/220 [28:28<01:04,  2.37s/it][A[A

Evaluating ...:  88% 194/220 [28:30<01:00,  2.31s/it][A[A

Evaluating ...:  89% 195/220 [28:33<01:03,  2.53s/it][A[A

Evaluating ...:  89% 196/220 [28:36<01:04,  2.67s/it][A[A

Evaluating ...:  90% 197/220 [28:39<01:03,  2.76s/it][A[A

Evaluating ...:  90% 198/220 [28:42<01:01,  2.81s/it][A[A

Evaluating ...:  90% 199/220 [28:45<00:59,  2.85s/it][A[A

Evaluating ...:  91% 200/220 [28:48<00:56,  2.82s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:  91% 201/220 [30:13<08:41, 27.42s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:  92% 202/220 [30:15<06:00, 20.03s/it][A[A

Evaluating ...:  92% 203/220 [30:18<04:12, 14.87s/it][A[A

Evaluating ...:  93% 204/220 [30:20<02:56, 11.02s/it][A[A

Evaluating ...:  93% 205/220 [30:22<02:03,  8.26s/it][A[A

Evaluating ...:  94% 206/220 [30:24<01:28,  6.30s/it][A[A

Evaluating ...:  94% 207/220 [30:26<01:04,  4.99s/it][A[A

Evaluating ...:  95% 208/220 [30:28<00:48,  4.06s/it][A[A

Evaluating ...:  95% 209/220 [30:30<00:38,  3.49s/it][A[A

Evaluating ...:  95% 210/220 [30:32<00:29,  2.99s/it][A[A

Evaluating ...:  96% 211/220 [30:34<00:26,  2.97s/it][A[A

Evaluating ...:  96% 212/220 [30:37<00:21,  2.75s/it][A[A

Evaluating ...:  97% 213/220 [30:39<00:17,  2.48s/it][A[A

Evaluating ...:  97% 214/220 [30:41<00:15,  2.56s/it][A[A

Evaluating ...:  98% 215/220 [30:44<00:13,  2.60s/it][A[A

Evaluating ...:  98% 216/220 [30:47<00:10,  2.64s/it][A[A

Evaluating ...:  99% 217/220 [30:50<00:08,  2.68s/it][A[A

Evaluating ...:  99% 218/220 [30:52<00:05,  2.70s/it][A[A

Evaluating ...: 100% 219/220 [30:55<00:02,  2.78s/it][A[A

Evaluating ...: 100% 220/220 [30:58<00:00,  2.82s/it][A[AEvaluating ...: 100% 220/220 [30:58<00:00,  8.45s/it]
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:51: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  device_metrics = jax.tree_map(lambda x: x[0], device_metrics)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:45: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(stack_args, *forest)
run_flax_speech_recognition_seq2seq.py:1392: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  eval_metrics = jax.tree_map(jnp.mean, eval_metrics)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
                                                           
                                                      [AEpoch ... (1/20):  15% 3/20 [10:07:32<42:24:09, 8979.37s/it]
Training...:  83% 2172/2609 [2:34:23<27:01,  3.71s/it][Arun_flax_speech_recognition_seq2seq.py:1425: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  params = jax.device_get(jax.tree_map(lambda x: x[0], state.params))
Configuration saved in /home/sanchitgandhi/train-flax-wav2vec2-2-bart-large-voxpopuli-black-box/flax-wav2vec2-2-bart-large-voxpopuli-black-box/config.json
tcmalloc: large alloc 1226489856 bytes == 0x38f4bc000 @  0x7f0edf2a6680 0x7f0edf2c6bdd 0x7f0da608226f 0x7f0da6091290 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da608cd74 0x7f0da608d52e 0x505166 0x56bbfa 0x569dba 0x5f6eb3 0x56cc1f 0x569dba 0x5f6eb3 0x56cc1f 0x5f6cd6 0x56bacd 0x569dba 0x50bca0 0x56cc1f 0x569dba 0x5f6eb3 0x56bacd 0x569dba 0x5f6eb3
tcmalloc: large alloc 2586787840 bytes == 0x3d8668000 @  0x7f0edf2a6680 0x7f0edf2c6bdd 0x7f0da608226f 0x7f0da6091290 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da608cd74 0x7f0da608d52e 0x505166 0x56bbfa 0x569dba 0x5f6eb3 0x56cc1f 0x569dba 0x5f6eb3 0x56cc1f 0x5f6cd6 0x56bacd 0x569dba 0x50bca0 0x56cc1f 0x569dba 0x5f6eb3 0x56bacd 0x569dba 0x5f6eb3
tcmalloc: large alloc 2353618944 bytes == 0x47295c000 @  0x7f0edf2a6680 0x7f0edf2c7824 0x5fb391 0x7f0da608ce19 0x7f0da608d52e 0x505166 0x56bbfa 0x569dba 0x5f6eb3 0x56cc1f 0x569dba 0x5f6eb3 0x56cc1f 0x5f6cd6 0x56bacd 0x569dba 0x50bca0 0x56cc1f 0x569dba 0x5f6eb3 0x56bacd 0x569dba 0x5f6eb3 0x56bacd 0x569dba 0x6902a7 0x67f951 0x67f9cf 0x67fa71 0x681b97 0x6b9d32
Model weights saved in /home/sanchitgandhi/train-flax-wav2vec2-2-bart-large-voxpopuli-black-box/flax-wav2vec2-2-bart-large-voxpopuli-black-box/flax_model.msgpack
tokenizer config file saved in ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/tokenizer_config.json
Special tokens file saved in ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/special_tokens_map.json

Training...:  83% 2173/2609 [2:35:12<69:48:26, 576.39s/it][A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:25: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(

Training...:  83% 2174/2609 [2:35:16<48:53:48, 404.66s/it][A
Training...:  83% 2175/2609 [2:35:20<34:16:29, 284.31s/it][A
Training...:  83% 2176/2609 [2:35:23<24:03:36, 200.04s/it][A
Training...:  83% 2177/2609 [2:35:26<16:55:10, 141.00s/it][A
Training...:  83% 2178/2609 [2:35:29<11:55:52, 99.66s/it] [A
Training...:  84% 2179/2609 [2:35:33<8:26:31, 70.68s/it] [A
Training...:  84% 2180/2609 [2:35:36<6:00:21, 50.40s/it][A
Training...:  84% 2181/2609 [2:35:38<4:17:45, 36.14s/it][A
Training...:  84% 2182/2609 [2:35:41<3:05:52, 26.12s/it][A
Training...:  84% 2183/2609 [2:35:44<2:15:33, 19.09s/it][A
Training...:  84% 2184/2609 [2:35:46<1:40:07, 14.13s/it][A
Training...:  84% 2185/2609 [2:35:49<1:15:06, 10.63s/it][A
Training...:  84% 2186/2609 [2:35:51<57:24,  8.14s/it]  [A
Training...:  84% 2187/2609 [2:35:54<45:00,  6.40s/it][A
Training...:  84% 2188/2609 [2:35:56<35:57,  5.12s/it][A
Training...:  84% 2189/2609 [2:35:58<29:27,  4.21s/it][A
Training...:  84% 2190/2609 [2:36:00<24:42,  3.54s/it][A
Training...:  84% 2191/2609 [2:36:02<21:12,  3.04s/it][A
Training...:  84% 2192/2609 [2:36:03<18:31,  2.66s/it][A
Training...:  84% 2193/2609 [2:36:05<16:28,  2.38s/it][A
Training...:  84% 2194/2609 [2:36:07<14:45,  2.13s/it][A
Training...:  84% 2195/2609 [2:36:08<13:17,  1.93s/it][A
Training...:  84% 2196/2609 [2:36:09<11:56,  1.74s/it][A
Training...:  84% 2197/2609 [2:36:11<10:48,  1.57s/it][A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:61: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x[0], tree)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
                                                            
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  15% 3/20 [10:09:21<42:24:09, 8979.37s/it]
Training...:  84% 2197/2609 [2:36:12<10:48,  1.57s/it][A
Training...:  84% 2198/2609 [2:36:12<10:23,  1.52s/it][A
Training...:  84% 2199/2609 [2:36:13<08:59,  1.32s/it][A
Training...:  84% 2200/2609 [2:36:14<07:29,  1.10s/it][A
Training...:  84% 2201/2609 [2:36:21<20:04,  2.95s/it][A
Training...:  84% 2202/2609 [2:36:28<29:16,  4.32s/it][A
Training...:  84% 2203/2609 [2:36:35<33:56,  5.02s/it][A
Training...:  84% 2204/2609 [2:36:41<36:31,  5.41s/it][A
Training...:  85% 2205/2609 [2:36:47<37:36,  5.59s/it][A
Training...:  85% 2206/2609 [2:36:53<37:38,  5.61s/it][A
Training...:  85% 2207/2609 [2:36:58<36:59,  5.52s/it][A
Training...:  85% 2208/2609 [2:37:03<36:17,  5.43s/it][A
Training...:  85% 2209/2609 [2:37:09<35:29,  5.32s/it][A
Training...:  85% 2210/2609 [2:37:13<34:33,  5.20s/it][A
Training...:  85% 2211/2609 [2:37:18<33:37,  5.07s/it][A
Training...:  85% 2212/2609 [2:37:23<32:34,  4.92s/it][A
Training...:  85% 2213/2609 [2:37:27<31:40,  4.80s/it][A
Training...:  85% 2214/2609 [2:37:32<30:43,  4.67s/it][A
Training...:  85% 2215/2609 [2:37:36<29:57,  4.56s/it][A
Training...:  85% 2216/2609 [2:37:40<28:54,  4.41s/it][A
Training...:  85% 2217/2609 [2:37:44<28:11,  4.32s/it][A
Training...:  85% 2218/2609 [2:37:48<27:19,  4.19s/it][A
Training...:  85% 2219/2609 [2:37:52<26:31,  4.08s/it][A
Training...:  85% 2220/2609 [2:37:56<25:43,  3.97s/it][A
Training...:  85% 2221/2609 [2:37:59<25:12,  3.90s/it][A
Training...:  85% 2222/2609 [2:38:03<24:35,  3.81s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  15% 3/20 [10:11:16<42:24:09, 8979.37s/it]
Training...:  85% 2222/2609 [2:38:07<24:35,  3.81s/it][A
Training...:  85% 2223/2609 [2:38:07<25:03,  3.90s/it][A
Training...:  85% 2224/2609 [2:38:10<23:53,  3.72s/it][A
Training...:  85% 2225/2609 [2:38:14<23:06,  3.61s/it][A
Training...:  85% 2226/2609 [2:38:17<22:15,  3.49s/it][A
Training...:  85% 2227/2609 [2:38:20<21:38,  3.40s/it][A
Training...:  85% 2228/2609 [2:38:23<20:51,  3.29s/it][A
Training...:  85% 2229/2609 [2:38:26<20:17,  3.20s/it][A
Training...:  85% 2230/2609 [2:38:29<19:45,  3.13s/it][A
Training...:  86% 2231/2609 [2:38:32<19:08,  3.04s/it][A
Training...:  86% 2232/2609 [2:38:35<18:30,  2.95s/it][A
Training...:  86% 2233/2609 [2:38:37<17:54,  2.86s/it][A
Training...:  86% 2234/2609 [2:38:40<17:16,  2.76s/it][A
Training...:  86% 2235/2609 [2:38:42<16:39,  2.67s/it][A
Training...:  86% 2236/2609 [2:38:45<16:01,  2.58s/it][A
Training...:  86% 2237/2609 [2:38:47<15:27,  2.49s/it][A
Training...:  86% 2238/2609 [2:38:49<14:49,  2.40s/it][A
Training...:  86% 2239/2609 [2:38:51<14:17,  2.32s/it][A
Training...:  86% 2240/2609 [2:38:53<13:34,  2.21s/it][A
Training...:  86% 2241/2609 [2:38:55<12:55,  2.11s/it][A
Training...:  86% 2242/2609 [2:38:57<12:15,  2.00s/it][A
Training...:  86% 2243/2609 [2:38:58<11:33,  1.90s/it][A
Training...:  86% 2244/2609 [2:39:00<10:51,  1.79s/it][A
Training...:  86% 2245/2609 [2:39:01<10:09,  1.67s/it][A
Training...:  86% 2246/2609 [2:39:03<09:23,  1.55s/it][A
Training...:  86% 2247/2609 [2:39:04<08:35,  1.42s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  15% 3/20 [10:12:14<42:24:09, 8979.37s/it]
Training...:  86% 2247/2609 [2:39:05<08:35,  1.42s/it][A
Training...:  86% 2248/2609 [2:39:05<08:22,  1.39s/it][A
Training...:  86% 2249/2609 [2:39:06<07:18,  1.22s/it][A
Training...:  86% 2250/2609 [2:39:06<06:06,  1.02s/it][A
Training...:  86% 2251/2609 [2:39:14<17:02,  2.86s/it][A
Training...:  86% 2252/2609 [2:39:21<24:31,  4.12s/it][A
Training...:  86% 2253/2609 [2:39:27<28:44,  4.85s/it][A
Training...:  86% 2254/2609 [2:39:34<31:15,  5.28s/it][A
Training...:  86% 2255/2609 [2:39:39<32:18,  5.48s/it][A
Training...:  86% 2256/2609 [2:39:45<32:38,  5.55s/it][A
Training...:  87% 2257/2609 [2:39:51<32:22,  5.52s/it][A
Training...:  87% 2258/2609 [2:39:56<31:45,  5.43s/it][A
Training...:  87% 2259/2609 [2:40:01<31:04,  5.33s/it][A
Training...:  87% 2260/2609 [2:40:06<30:07,  5.18s/it][A
Training...:  87% 2261/2609 [2:40:10<29:13,  5.04s/it][A
Training...:  87% 2262/2609 [2:40:15<28:13,  4.88s/it][A
Training...:  87% 2263/2609 [2:40:19<27:20,  4.74s/it][A
Training...:  87% 2264/2609 [2:40:24<26:26,  4.60s/it][A
Training...:  87% 2265/2609 [2:40:28<25:40,  4.48s/it][A
Training...:  87% 2266/2609 [2:40:32<24:52,  4.35s/it][A
Training...:  87% 2267/2609 [2:40:36<24:12,  4.25s/it][A
Training...:  87% 2268/2609 [2:40:40<23:29,  4.13s/it][A
Training...:  87% 2269/2609 [2:40:43<22:38,  4.00s/it][A
Training...:  87% 2270/2609 [2:40:47<22:02,  3.90s/it][A
Training...:  87% 2271/2609 [2:40:51<21:22,  3.79s/it][A
Training...:  87% 2272/2609 [2:40:54<20:40,  3.68s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  15% 3/20 [10:14:07<42:24:09, 8979.37s/it]
Training...:  87% 2272/2609 [2:40:58<20:40,  3.68s/it][A
Training...:  87% 2273/2609 [2:40:58<21:11,  3.78s/it][A
Training...:  87% 2274/2609 [2:41:01<20:10,  3.61s/it][A
Training...:  87% 2275/2609 [2:41:05<19:25,  3.49s/it][A
Training...:  87% 2276/2609 [2:41:08<18:48,  3.39s/it][A
Training...:  87% 2277/2609 [2:41:11<18:18,  3.31s/it][A
Training...:  87% 2278/2609 [2:41:14<17:40,  3.20s/it][A
Training...:  87% 2279/2609 [2:41:17<17:04,  3.11s/it][A
Training...:  87% 2280/2609 [2:41:19<16:29,  3.01s/it][A
Training...:  87% 2281/2609 [2:41:22<15:57,  2.92s/it][A
Training...:  87% 2282/2609 [2:41:25<15:30,  2.84s/it][A
Training...:  88% 2283/2609 [2:41:27<15:00,  2.76s/it][A
Training...:  88% 2284/2609 [2:41:30<14:30,  2.68s/it][A
Training...:  88% 2285/2609 [2:41:32<14:01,  2.60s/it][A
Training...:  88% 2286/2609 [2:41:35<13:33,  2.52s/it][A
Training...:  88% 2287/2609 [2:41:37<13:05,  2.44s/it][A
Training...:  88% 2288/2609 [2:41:39<12:33,  2.35s/it][A
Training...:  88% 2289/2609 [2:41:41<12:03,  2.26s/it][A
Training...:  88% 2290/2609 [2:41:43<11:28,  2.16s/it][A
Training...:  88% 2291/2609 [2:41:45<10:53,  2.06s/it][A
Training...:  88% 2292/2609 [2:41:47<10:22,  1.96s/it][A
Training...:  88% 2293/2609 [2:41:48<09:48,  1.86s/it][A
Training...:  88% 2294/2609 [2:41:50<09:09,  1.75s/it][A
Training...:  88% 2295/2609 [2:41:51<08:29,  1.62s/it][A
Training...:  88% 2296/2609 [2:41:52<07:51,  1.51s/it][A
Training...:  88% 2297/2609 [2:41:53<07:14,  1.39s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  15% 3/20 [10:15:03<42:24:09, 8979.37s/it]
Training...:  88% 2297/2609 [2:41:55<07:14,  1.39s/it][A
Training...:  88% 2298/2609 [2:41:55<07:03,  1.36s/it][A
Training...:  88% 2299/2609 [2:41:55<06:08,  1.19s/it][A
Training...:  88% 2300/2609 [2:41:56<05:08,  1.00it/s][A
Training...:  88% 2301/2609 [2:42:03<14:23,  2.80s/it][A
Training...:  88% 2302/2609 [2:42:10<20:52,  4.08s/it][A
Training...:  88% 2303/2609 [2:42:17<24:35,  4.82s/it][A
Training...:  88% 2304/2609 [2:42:23<26:43,  5.26s/it][A
Training...:  88% 2305/2609 [2:42:29<27:39,  5.46s/it][A
Training...:  88% 2306/2609 [2:42:35<27:59,  5.54s/it][A
Training...:  88% 2307/2609 [2:42:40<27:42,  5.51s/it][A
Training...:  88% 2308/2609 [2:42:45<27:08,  5.41s/it][A
Training...:  89% 2309/2609 [2:42:50<26:36,  5.32s/it][A
Training...:  89% 2310/2609 [2:42:55<25:48,  5.18s/it][A
Training...:  89% 2311/2609 [2:43:00<25:04,  5.05s/it][A
Training...:  89% 2312/2609 [2:43:04<24:13,  4.89s/it][A
Training...:  89% 2313/2609 [2:43:09<23:33,  4.78s/it][A
Training...:  89% 2314/2609 [2:43:13<22:44,  4.62s/it][A
Training...:  89% 2315/2609 [2:43:17<22:02,  4.50s/it][A
Training...:  89% 2316/2609 [2:43:21<21:21,  4.37s/it][A
Training...:  89% 2317/2609 [2:43:25<20:41,  4.25s/it][A
Training...:  89% 2318/2609 [2:43:29<20:00,  4.13s/it][A
Training...:  89% 2319/2609 [2:43:33<19:24,  4.01s/it][A
Training...:  89% 2320/2609 [2:43:37<18:44,  3.89s/it][A
Training...:  89% 2321/2609 [2:43:40<18:15,  3.80s/it][A
Training...:  89% 2322/2609 [2:43:44<17:44,  3.71s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  15% 3/20 [10:16:56<42:24:09, 8979.37s/it]
Training...:  89% 2322/2609 [2:43:48<17:44,  3.71s/it][A
Training...:  89% 2323/2609 [2:43:48<18:07,  3.80s/it][A
Training...:  89% 2324/2609 [2:43:51<17:18,  3.64s/it][A
Training...:  89% 2325/2609 [2:43:54<16:43,  3.53s/it][A
Training...:  89% 2326/2609 [2:43:57<16:05,  3.41s/it][A
Training...:  89% 2327/2609 [2:44:00<15:34,  3.32s/it][A
Training...:  89% 2328/2609 [2:44:03<15:05,  3.22s/it][A
Training...:  89% 2329/2609 [2:44:06<14:37,  3.14s/it][A
Training...:  89% 2330/2609 [2:44:09<14:11,  3.05s/it][A
Training...:  89% 2331/2609 [2:44:12<13:46,  2.97s/it][A
Training...:  89% 2332/2609 [2:44:15<13:15,  2.87s/it][A
Training...:  89% 2333/2609 [2:44:17<12:47,  2.78s/it][A
Training...:  89% 2334/2609 [2:44:20<12:21,  2.70s/it][A
Training...:  89% 2335/2609 [2:44:22<11:59,  2.63s/it][A
Training...:  90% 2336/2609 [2:44:25<11:33,  2.54s/it][A
Training...:  90% 2337/2609 [2:44:27<11:06,  2.45s/it][A
Training...:  90% 2338/2609 [2:44:29<10:36,  2.35s/it][A
Training...:  90% 2339/2609 [2:44:31<10:09,  2.26s/it][A
Training...:  90% 2340/2609 [2:44:33<09:41,  2.16s/it][A
Training...:  90% 2341/2609 [2:44:35<09:14,  2.07s/it][A
Training...:  90% 2342/2609 [2:44:37<08:48,  1.98s/it][A
Training...:  90% 2343/2609 [2:44:38<08:22,  1.89s/it][A
Training...:  90% 2344/2609 [2:44:40<07:52,  1.78s/it][A
Training...:  90% 2345/2609 [2:44:41<07:18,  1.66s/it][A
Training...:  90% 2346/2609 [2:44:42<06:47,  1.55s/it][A
Training...:  90% 2347/2609 [2:44:44<06:13,  1.42s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  15% 3/20 [10:17:54<42:24:09, 8979.37s/it]
Training...:  90% 2347/2609 [2:44:45<06:13,  1.42s/it][A
Training...:  90% 2348/2609 [2:44:45<06:01,  1.39s/it][A
Training...:  90% 2349/2609 [2:44:46<05:15,  1.21s/it][A
Training...:  90% 2350/2609 [2:44:46<04:24,  1.02s/it][A
Training...:  90% 2351/2609 [2:44:53<12:09,  2.83s/it][A
Training...:  90% 2352/2609 [2:45:00<17:26,  4.07s/it][A
Training...:  90% 2353/2609 [2:45:07<20:33,  4.82s/it][A
Training...:  90% 2354/2609 [2:45:13<22:30,  5.30s/it][A
Training...:  90% 2355/2609 [2:45:19<23:16,  5.50s/it][A
Training...:  90% 2356/2609 [2:45:25<23:25,  5.55s/it][A
Training...:  90% 2357/2609 [2:45:30<23:12,  5.53s/it][A
Training...:  90% 2358/2609 [2:45:35<22:42,  5.43s/it][A
Training...:  90% 2359/2609 [2:45:41<22:09,  5.32s/it][A
Training...:  90% 2360/2609 [2:45:45<21:30,  5.18s/it][A
Training...:  90% 2361/2609 [2:45:50<20:56,  5.07s/it][A
Training...:  91% 2362/2609 [2:45:55<20:20,  4.94s/it][A
Training...:  91% 2363/2609 [2:45:59<19:45,  4.82s/it][A
Training...:  91% 2364/2609 [2:46:04<19:06,  4.68s/it][A
Training...:  91% 2365/2609 [2:46:08<18:31,  4.56s/it][A
Training...:  91% 2366/2609 [2:46:12<17:58,  4.44s/it][A
Training...:  91% 2367/2609 [2:46:16<17:30,  4.34s/it][A
Training...:  91% 2368/2609 [2:46:20<16:55,  4.22s/it][A
Training...:  91% 2369/2609 [2:46:24<16:28,  4.12s/it][A
Training...:  91% 2370/2609 [2:46:28<15:57,  4.00s/it][A
Training...:  91% 2371/2609 [2:46:32<15:29,  3.91s/it][A
Training...:  91% 2372/2609 [2:46:35<14:58,  3.79s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  15% 3/20 [10:19:48<42:24:09, 8979.37s/it]
Training...:  91% 2372/2609 [2:46:39<14:58,  3.79s/it][A
Training...:  91% 2373/2609 [2:46:39<15:10,  3.86s/it][A
Training...:  91% 2374/2609 [2:46:42<14:29,  3.70s/it][A
Training...:  91% 2375/2609 [2:46:46<13:54,  3.57s/it][A
Training...:  91% 2376/2609 [2:46:49<13:24,  3.45s/it][A
Training...:  91% 2377/2609 [2:46:52<12:56,  3.35s/it][A
Training...:  91% 2378/2609 [2:46:55<12:26,  3.23s/it][A
Training...:  91% 2379/2609 [2:46:58<12:02,  3.14s/it][A
Training...:  91% 2380/2609 [2:47:01<11:36,  3.04s/it][A
Training...:  91% 2381/2609 [2:47:03<11:12,  2.95s/it][A
Training...:  91% 2382/2609 [2:47:06<10:48,  2.86s/it][A
Training...:  91% 2383/2609 [2:47:09<10:25,  2.77s/it][A
Training...:  91% 2384/2609 [2:47:11<10:04,  2.69s/it][A
Training...:  91% 2385/2609 [2:47:13<09:40,  2.59s/it][A
Training...:  91% 2386/2609 [2:47:16<09:18,  2.50s/it][A
Training...:  91% 2387/2609 [2:47:18<08:56,  2.41s/it][A
Training...:  92% 2388/2609 [2:47:20<08:33,  2.32s/it][A
Training...:  92% 2389/2609 [2:47:22<08:09,  2.22s/it][A
Training...:  92% 2390/2609 [2:47:24<07:46,  2.13s/it][A
Training...:  92% 2391/2609 [2:47:26<07:24,  2.04s/it][A
Training...:  92% 2392/2609 [2:47:28<07:03,  1.95s/it][A
Training...:  92% 2393/2609 [2:47:29<06:41,  1.86s/it][A
Training...:  92% 2394/2609 [2:47:31<06:18,  1.76s/it][A
Training...:  92% 2395/2609 [2:47:32<05:54,  1.66s/it][A
Training...:  92% 2396/2609 [2:47:33<05:30,  1.55s/it][A
Training...:  92% 2397/2609 [2:47:35<05:04,  1.44s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  15% 3/20 [10:20:45<42:24:09, 8979.37s/it]
Training...:  92% 2397/2609 [2:47:36<05:04,  1.44s/it][A
Training...:  92% 2398/2609 [2:47:36<04:56,  1.41s/it][A
Training...:  92% 2399/2609 [2:47:37<04:17,  1.23s/it][A
Training...:  92% 2400/2609 [2:47:37<03:32,  1.02s/it][A
Training...:  92% 2401/2609 [2:47:44<09:41,  2.79s/it][A
Training...:  92% 2402/2609 [2:47:51<14:06,  4.09s/it][A
Training...:  92% 2403/2609 [2:47:58<16:35,  4.83s/it][A
Training...:  92% 2404/2609 [2:48:04<18:00,  5.27s/it][A
Training...:  92% 2405/2609 [2:48:10<18:37,  5.48s/it][A
Training...:  92% 2406/2609 [2:48:16<18:45,  5.54s/it][A
Training...:  92% 2407/2609 [2:48:21<18:41,  5.55s/it][A
Training...:  92% 2408/2609 [2:48:27<18:21,  5.48s/it][A
Training...:  92% 2409/2609 [2:48:32<17:57,  5.39s/it][A
Training...:  92% 2410/2609 [2:48:37<17:26,  5.26s/it][A
Training...:  92% 2411/2609 [2:48:42<16:57,  5.14s/it][A
Training...:  92% 2412/2609 [2:48:47<16:30,  5.03s/it][A
Training...:  92% 2413/2609 [2:48:51<16:02,  4.91s/it][A
Training...:  93% 2414/2609 [2:48:56<15:32,  4.78s/it][A
Training...:  93% 2415/2609 [2:49:00<15:03,  4.66s/it][A
Training...:  93% 2416/2609 [2:49:04<14:33,  4.53s/it][A
Training...:  93% 2417/2609 [2:49:08<14:09,  4.42s/it][A
Training...:  93% 2418/2609 [2:49:12<13:42,  4.31s/it][A
Training...:  93% 2419/2609 [2:49:16<13:16,  4.19s/it][A
Training...:  93% 2420/2609 [2:49:20<12:50,  4.08s/it][A
Training...:  93% 2421/2609 [2:49:24<12:24,  3.96s/it][A
Training...:  93% 2422/2609 [2:49:27<12:00,  3.85s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  15% 3/20 [10:22:40<42:24:09, 8979.37s/it]
Training...:  93% 2422/2609 [2:49:32<12:00,  3.85s/it][A
Training...:  93% 2423/2609 [2:49:32<12:11,  3.93s/it][A
Training...:  93% 2424/2609 [2:49:35<11:34,  3.75s/it][A
Training...:  93% 2425/2609 [2:49:38<11:06,  3.62s/it][A
Training...:  93% 2426/2609 [2:49:41<10:39,  3.49s/it][A
Training...:  93% 2427/2609 [2:49:45<10:13,  3.37s/it][A
Training...:  93% 2428/2609 [2:49:48<09:50,  3.26s/it][A
Training...:  93% 2429/2609 [2:49:51<09:33,  3.19s/it][A
Training...:  93% 2430/2609 [2:49:53<09:10,  3.08s/it][A
Training...:  93% 2431/2609 [2:49:56<08:50,  2.98s/it][A
Training...:  93% 2432/2609 [2:49:59<08:30,  2.88s/it][A
Training...:  93% 2433/2609 [2:50:01<08:10,  2.79s/it][A
Training...:  93% 2434/2609 [2:50:04<07:51,  2.69s/it][A
Training...:  93% 2435/2609 [2:50:06<07:33,  2.61s/it][A
Training...:  93% 2436/2609 [2:50:08<07:14,  2.51s/it][A
Training...:  93% 2437/2609 [2:50:11<06:57,  2.43s/it][A
Training...:  93% 2438/2609 [2:50:13<06:38,  2.33s/it][A
Training...:  93% 2439/2609 [2:50:15<06:19,  2.23s/it][A
Training...:  94% 2440/2609 [2:50:17<06:02,  2.15s/it][A
Training...:  94% 2441/2609 [2:50:19<05:44,  2.05s/it][A
Training...:  94% 2442/2609 [2:50:20<05:27,  1.96s/it][A
Training...:  94% 2443/2609 [2:50:22<05:09,  1.86s/it][A
Training...:  94% 2444/2609 [2:50:23<04:50,  1.76s/it][A
Training...:  94% 2445/2609 [2:50:25<04:32,  1.66s/it][A
Training...:  94% 2446/2609 [2:50:26<04:14,  1.56s/it][A
Training...:  94% 2447/2609 [2:50:27<03:54,  1.45s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  15% 3/20 [10:23:37<42:24:09, 8979.37s/it]
Training...:  94% 2447/2609 [2:50:29<03:54,  1.45s/it][A
Training...:  94% 2448/2609 [2:50:29<03:47,  1.41s/it][A
Training...:  94% 2449/2609 [2:50:30<03:16,  1.23s/it][A
Training...:  94% 2450/2609 [2:50:30<02:44,  1.04s/it][A
Training...:  94% 2451/2609 [2:50:38<07:47,  2.96s/it][A
Training...:  94% 2452/2609 [2:50:45<11:03,  4.23s/it][A
Training...:  94% 2453/2609 [2:50:51<12:50,  4.94s/it][A
Training...:  94% 2454/2609 [2:50:58<13:47,  5.34s/it][A
Training...:  94% 2455/2609 [2:51:04<14:09,  5.52s/it][A
Training...:  94% 2456/2609 [2:51:09<14:10,  5.56s/it][A
Training...:  94% 2457/2609 [2:51:15<14:00,  5.53s/it][A
Training...:  94% 2458/2609 [2:51:20<13:38,  5.42s/it][A
Training...:  94% 2459/2609 [2:51:25<13:20,  5.34s/it][A
Training...:  94% 2460/2609 [2:51:30<12:57,  5.22s/it][A
Training...:  94% 2461/2609 [2:51:35<12:35,  5.11s/it][A
Training...:  94% 2462/2609 [2:51:39<12:09,  4.96s/it][A
Training...:  94% 2463/2609 [2:51:44<11:43,  4.82s/it][A
Training...:  94% 2464/2609 [2:51:48<11:17,  4.67s/it][A
Training...:  94% 2465/2609 [2:51:52<10:53,  4.54s/it][A
Training...:  95% 2466/2609 [2:51:57<10:31,  4.42s/it][A
Training...:  95% 2467/2609 [2:52:01<10:11,  4.30s/it][A
Training...:  95% 2468/2609 [2:52:05<09:52,  4.20s/it][A
Training...:  95% 2469/2609 [2:52:08<09:33,  4.09s/it][A
Training...:  95% 2470/2609 [2:52:12<09:13,  3.98s/it][A
Training...:  95% 2471/2609 [2:52:16<08:54,  3.88s/it][A
Training...:  95% 2472/2609 [2:52:19<08:36,  3.77s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  15% 3/20 [10:25:32<42:24:09, 8979.37s/it]
Training...:  95% 2472/2609 [2:52:23<08:36,  3.77s/it][A
Training...:  95% 2473/2609 [2:52:23<08:45,  3.87s/it][A
Training...:  95% 2474/2609 [2:52:27<08:20,  3.71s/it][A
Training...:  95% 2475/2609 [2:52:30<07:59,  3.58s/it][A
Training...:  95% 2476/2609 [2:52:33<07:38,  3.45s/it][A
Training...:  95% 2477/2609 [2:52:36<07:20,  3.34s/it][A
Training...:  95% 2478/2609 [2:52:39<07:06,  3.25s/it][A
Training...:  95% 2479/2609 [2:52:42<06:47,  3.14s/it][A
Training...:  95% 2480/2609 [2:52:45<06:31,  3.03s/it][A
Training...:  95% 2481/2609 [2:52:48<06:15,  2.93s/it][A
Training...:  95% 2482/2609 [2:52:50<06:00,  2.84s/it][A
Training...:  95% 2483/2609 [2:52:53<05:45,  2.74s/it][A
Training...:  95% 2484/2609 [2:52:55<05:30,  2.64s/it][A
Training...:  95% 2485/2609 [2:52:58<05:16,  2.55s/it][A
Training...:  95% 2486/2609 [2:53:00<05:03,  2.47s/it][A
Training...:  95% 2487/2609 [2:53:02<04:50,  2.38s/it][A
Training...:  95% 2488/2609 [2:53:04<04:37,  2.29s/it][A
Training...:  95% 2489/2609 [2:53:06<04:24,  2.21s/it][A
Training...:  95% 2490/2609 [2:53:08<04:10,  2.10s/it][A
Training...:  95% 2491/2609 [2:53:10<03:57,  2.01s/it][A
Training...:  96% 2492/2609 [2:53:11<03:45,  1.93s/it][A
Training...:  96% 2493/2609 [2:53:13<03:31,  1.82s/it][A
Training...:  96% 2494/2609 [2:53:15<03:17,  1.72s/it][A
Training...:  96% 2495/2609 [2:53:16<03:02,  1.60s/it][A
Training...:  96% 2496/2609 [2:53:17<02:48,  1.49s/it][A
Training...:  96% 2497/2609 [2:53:18<02:34,  1.38s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  15% 3/20 [10:26:28<42:24:09, 8979.37s/it]
Training...:  96% 2497/2609 [2:53:20<02:34,  1.38s/it][A
Training...:  96% 2498/2609 [2:53:20<02:30,  1.35s/it][A
Training...:  96% 2499/2609 [2:53:20<02:09,  1.18s/it][A
Training...:  96% 2500/2609 [2:53:21<01:47,  1.01it/s][A
Training...:  96% 2501/2609 [2:53:28<05:02,  2.80s/it][A
Training...:  96% 2502/2609 [2:53:35<07:14,  4.06s/it][A
Training...:  96% 2503/2609 [2:53:42<08:34,  4.85s/it][A
Training...:  96% 2504/2609 [2:53:48<09:20,  5.34s/it][A
Training...:  96% 2505/2609 [2:53:54<09:41,  5.59s/it][A
Training...:  96% 2506/2609 [2:54:00<09:45,  5.68s/it][A
Training...:  96% 2507/2609 [2:54:06<09:37,  5.66s/it][A
Training...:  96% 2508/2609 [2:54:11<09:14,  5.49s/it][A
Training...:  96% 2509/2609 [2:54:16<08:56,  5.36s/it][A
Training...:  96% 2510/2609 [2:54:21<08:34,  5.20s/it][A
Training...:  96% 2511/2609 [2:54:25<08:17,  5.08s/it][A
Training...:  96% 2512/2609 [2:54:30<07:59,  4.95s/it][A
Training...:  96% 2513/2609 [2:54:35<07:42,  4.82s/it][A
Training...:  96% 2514/2609 [2:54:39<07:23,  4.66s/it][A
Training...:  96% 2515/2609 [2:54:43<07:06,  4.53s/it][A
Training...:  96% 2516/2609 [2:54:47<06:49,  4.40s/it][A
Training...:  96% 2517/2609 [2:54:51<06:32,  4.27s/it][A
Training...:  97% 2518/2609 [2:54:55<06:17,  4.15s/it][A
Training...:  97% 2519/2609 [2:54:59<06:02,  4.03s/it][A
Training...:  97% 2520/2609 [2:55:03<05:50,  3.94s/it][A
Training...:  97% 2521/2609 [2:55:06<05:36,  3.82s/it][A
Training...:  97% 2522/2609 [2:55:10<05:22,  3.71s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  15% 3/20 [10:28:22<42:24:09, 8979.37s/it]
Training...:  97% 2522/2609 [2:55:14<05:22,  3.71s/it][A
Training...:  97% 2523/2609 [2:55:14<05:26,  3.80s/it][A
Training...:  97% 2524/2609 [2:55:17<05:09,  3.64s/it][A
Training...:  97% 2525/2609 [2:55:20<04:54,  3.51s/it][A
Training...:  97% 2526/2609 [2:55:23<04:40,  3.38s/it][A
Training...:  97% 2527/2609 [2:55:26<04:28,  3.28s/it][A
Training...:  97% 2528/2609 [2:55:29<04:16,  3.16s/it][A
Training...:  97% 2529/2609 [2:55:32<04:05,  3.07s/it][A
Training...:  97% 2530/2609 [2:55:35<03:55,  2.98s/it][A
Training...:  97% 2531/2609 [2:55:37<03:44,  2.88s/it][A
Training...:  97% 2532/2609 [2:55:40<03:34,  2.79s/it][A
Training...:  97% 2533/2609 [2:55:42<03:25,  2.71s/it][A
Training...:  97% 2534/2609 [2:55:45<03:16,  2.62s/it][A
Training...:  97% 2535/2609 [2:55:47<03:07,  2.54s/it][A
Training...:  97% 2536/2609 [2:55:49<02:59,  2.46s/it][A
Training...:  97% 2537/2609 [2:55:52<02:50,  2.37s/it][A
Training...:  97% 2538/2609 [2:55:54<02:42,  2.29s/it][A
Training...:  97% 2539/2609 [2:55:56<02:34,  2.21s/it][A
Training...:  97% 2540/2609 [2:55:58<02:25,  2.11s/it][A
Training...:  97% 2541/2609 [2:55:59<02:16,  2.01s/it][A
Training...:  97% 2542/2609 [2:56:01<02:08,  1.92s/it][A
Training...:  97% 2543/2609 [2:56:03<01:59,  1.82s/it][A
Training...:  98% 2544/2609 [2:56:04<01:51,  1.72s/it][A
Training...:  98% 2545/2609 [2:56:06<01:43,  1.61s/it][A
Training...:  98% 2546/2609 [2:56:07<01:34,  1.49s/it][A
Training...:  98% 2547/2609 [2:56:08<01:24,  1.37s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  15% 3/20 [10:29:18<42:24:09, 8979.37s/it]
Training...:  98% 2547/2609 [2:56:09<01:24,  1.37s/it][A
Training...:  98% 2548/2609 [2:56:09<01:21,  1.34s/it][A
Training...:  98% 2549/2609 [2:56:10<01:09,  1.15s/it][A
Training...:  98% 2550/2609 [2:56:10<00:56,  1.04it/s][A
Training...:  98% 2551/2609 [2:56:17<02:41,  2.79s/it][A
Training...:  98% 2552/2609 [2:56:24<03:50,  4.04s/it][A
Training...:  98% 2553/2609 [2:56:31<04:27,  4.78s/it][A
Training...:  98% 2554/2609 [2:56:37<04:44,  5.17s/it][A
Training...:  98% 2555/2609 [2:56:43<04:50,  5.39s/it][A
Training...:  98% 2556/2609 [2:56:48<04:49,  5.46s/it][A
Training...:  98% 2557/2609 [2:56:54<04:47,  5.52s/it][A
Training...:  98% 2558/2609 [2:57:00<04:40,  5.50s/it][A
Training...:  98% 2559/2609 [2:57:05<04:31,  5.42s/it][A
Training...:  98% 2560/2609 [2:57:10<04:19,  5.30s/it][A
Training...:  98% 2561/2609 [2:57:15<04:06,  5.13s/it][A
Training...:  98% 2562/2609 [2:57:19<03:53,  4.97s/it][A
Training...:  98% 2563/2609 [2:57:24<03:42,  4.84s/it][A
Training...:  98% 2564/2609 [2:57:28<03:31,  4.70s/it][A
Training...:  98% 2565/2609 [2:57:32<03:20,  4.56s/it][A
Training...:  98% 2566/2609 [2:57:36<03:09,  4.42s/it][A
Training...:  98% 2567/2609 [2:57:40<03:00,  4.29s/it][A
Training...:  98% 2568/2609 [2:57:44<02:50,  4.16s/it][A
Training...:  98% 2569/2609 [2:57:48<02:41,  4.04s/it][A
Training...:  99% 2570/2609 [2:57:52<02:33,  3.93s/it][A
Training...:  99% 2571/2609 [2:57:55<02:25,  3.82s/it][A
Training...:  99% 2572/2609 [2:57:59<02:17,  3.71s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  15% 3/20 [10:31:11<42:24:09, 8979.37s/it]
Training...:  99% 2572/2609 [2:58:03<02:17,  3.71s/it][A
Training...:  99% 2573/2609 [2:58:03<02:16,  3.79s/it][A
Training...:  99% 2574/2609 [2:58:06<02:07,  3.64s/it][A
Training...:  99% 2575/2609 [2:58:09<01:58,  3.49s/it][A
Training...:  99% 2576/2609 [2:58:12<01:51,  3.37s/it][A
Training...:  99% 2577/2609 [2:58:15<01:44,  3.27s/it][A
Training...:  99% 2578/2609 [2:58:18<01:38,  3.17s/it][A
Training...:  99% 2579/2609 [2:58:21<01:32,  3.07s/it][A
Training...:  99% 2580/2609 [2:58:24<01:26,  2.98s/it][A
Training...:  99% 2581/2609 [2:58:26<01:20,  2.89s/it][A
Training...:  99% 2582/2609 [2:58:29<01:15,  2.81s/it][A
Training...:  99% 2583/2609 [2:58:32<01:10,  2.73s/it][A
Training...:  99% 2584/2609 [2:58:34<01:06,  2.65s/it][A
Training...:  99% 2585/2609 [2:58:36<01:01,  2.55s/it][A
Training...:  99% 2586/2609 [2:58:39<00:56,  2.47s/it][A
Training...:  99% 2587/2609 [2:58:41<00:52,  2.36s/it][A
Training...:  99% 2588/2609 [2:58:43<00:47,  2.27s/it][A
Training...:  99% 2589/2609 [2:58:45<00:43,  2.18s/it][A
Training...:  99% 2590/2609 [2:58:47<00:40,  2.11s/it][A
Training...:  99% 2591/2609 [2:58:49<00:36,  2.02s/it][A
Training...:  99% 2592/2609 [2:58:50<00:32,  1.92s/it][A
Training...:  99% 2593/2609 [2:58:52<00:29,  1.82s/it][A
Training...:  99% 2594/2609 [2:58:53<00:25,  1.71s/it][A
Training...:  99% 2595/2609 [2:58:55<00:22,  1.61s/it][A
Training...: 100% 2596/2609 [2:58:56<00:19,  1.49s/it][A
Training...: 100% 2597/2609 [2:58:57<00:16,  1.38s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  15% 3/20 [10:32:07<42:24:09, 8979.37s/it]
Training...: 100% 2597/2609 [2:58:58<00:16,  1.38s/it][A
Training...: 100% 2598/2609 [2:58:58<00:14,  1.34s/it][A
Training...: 100% 2599/2609 [2:58:59<00:11,  1.17s/it][A
Training...: 100% 2600/2609 [2:59:00<00:08,  1.03it/s][A
Training...: 100% 2601/2609 [2:59:06<00:20,  2.56s/it][A
Training...: 100% 2602/2609 [2:59:11<00:23,  3.35s/it][A
Training...: 100% 2603/2609 [2:59:16<00:22,  3.72s/it][A
Training...: 100% 2604/2609 [2:59:19<00:18,  3.74s/it][A
Training...: 100% 2605/2609 [2:59:23<00:14,  3.60s/it][A
Training...: 100% 2606/2609 [2:59:25<00:10,  3.37s/it][A
Training...: 100% 2607/2609 [2:59:28<00:06,  3.12s/it][A
Training...: 100% 2608/2609 [2:59:30<00:02,  2.78s/it][A
Training...: 100% 2609/2609 [2:59:31<00:00,  2.40s/it][ATraining...: 100% 2609/2609 [2:59:31<00:00,  4.13s/it]
Step... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [10:32:40<43:03:20, 9687.55s/it]
Step... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |)
Step... (10025 | Loss: 0.244512677192688, Learning Rate: 8.075959340203553e-05, Gradient Norm: 1.4535675048828125)
Step... (10050 | Loss: 0.16614387929439545, Learning Rate: 8.070908370427787e-05, Gradient Norm: 0.6861735582351685)
Step... (10075 | Loss: 0.19112174212932587, Learning Rate: 8.065858128247783e-05, Gradient Norm: 1.3274331092834473)
Step... (10100 | Loss: 0.15002399682998657, Learning Rate: 8.060807886067778e-05, Gradient Norm: 0.6250086426734924)
Step... (10125 | Loss: 0.15577580034732819, Learning Rate: 8.055756916292012e-05, Gradient Norm: 1.049707055091858)
Step... (10150 | Loss: 0.1495572328567505, Learning Rate: 8.050706674112007e-05, Gradient Norm: 0.570287823677063)
Step... (10175 | Loss: 0.22877371311187744, Learning Rate: 8.045656431932002e-05, Gradient Norm: 1.4886970520019531)
Step... (10200 | Loss: 0.1641770899295807, Learning Rate: 8.040605462156236e-05, Gradient Norm: 0.6638146638870239)
Step... (10225 | Loss: 0.20509402453899384, Learning Rate: 8.035555219976231e-05, Gradient Norm: 1.1318659782409668)
Step... (10250 | Loss: 0.18294987082481384, Learning Rate: 8.030504977796227e-05, Gradient Norm: 0.7466519474983215)
Step... (10275 | Loss: 0.19637040793895721, Learning Rate: 8.02545400802046e-05, Gradient Norm: 1.370927333831787)
Step... (10300 | Loss: 0.20990736782550812, Learning Rate: 8.020403765840456e-05, Gradient Norm: 0.8586792349815369)
Step... (10325 | Loss: 0.22900649905204773, Learning Rate: 8.015353523660451e-05, Gradient Norm: 1.2739564180374146)
Step... (10350 | Loss: 0.12705522775650024, Learning Rate: 8.010302553884685e-05, Gradient Norm: 0.8262041211128235)
Step... (10375 | Loss: 0.1790764182806015, Learning Rate: 8.00525231170468e-05, Gradient Norm: 1.094491720199585)
Step... (10400 | Loss: 0.18708261847496033, Learning Rate: 8.000202069524676e-05, Gradient Norm: 0.9648866653442383)
Step... (10425 | Loss: 0.17918764054775238, Learning Rate: 7.99515109974891e-05, Gradient Norm: 1.0367658138275146)
Training...:   0% 0/2609 [00:00<?, ?it/s][A
Training...:   0% 1/2609 [00:07<5:25:13,  7.48s/it][A
Training...:   0% 2/2609 [00:14<5:18:23,  7.33s/it][A
Training...:   0% 3/2609 [00:21<5:03:44,  6.99s/it][A
Training...:   0% 4/2609 [00:27<4:52:50,  6.74s/it][A
Training...:   0% 5/2609 [00:33<4:42:13,  6.50s/it][A
Training...:   0% 6/2609 [00:39<4:31:06,  6.25s/it][A
Training...:   0% 7/2609 [00:45<4:21:31,  6.03s/it][A
Training...:   0% 8/2609 [00:50<4:11:30,  5.80s/it][A
Training...:   0% 9/2609 [00:55<4:03:49,  5.63s/it][A
Training...:   0% 10/2609 [01:00<3:54:46,  5.42s/it][A
Training...:   0% 11/2609 [01:05<3:46:39,  5.23s/it][A
Training...:   0% 12/2609 [01:09<3:38:04,  5.04s/it][A
Training...:   0% 13/2609 [01:14<3:31:52,  4.90s/it][A                                                                                                                                                                   
                                                    [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [10:34:01<43:03:20, 9687.55s/it]
Training...:   0% 13/2609 [01:19<3:31:52,  4.90s/it][A
Training...:   1% 14/2609 [01:19<3:35:24,  4.98s/it][A
Training...:   1% 15/2609 [01:24<3:27:19,  4.80s/it][A
Training...:   1% 16/2609 [01:28<3:18:59,  4.60s/it][A
Training...:   1% 17/2609 [01:32<3:11:50,  4.44s/it][A
Training...:   1% 18/2609 [01:36<3:04:44,  4.28s/it][A
Training...:   1% 19/2609 [01:40<2:58:38,  4.14s/it][A
Training...:   1% 20/2609 [01:43<2:53:06,  4.01s/it][A
Training...:   1% 21/2609 [01:47<2:47:53,  3.89s/it][A
Training...:   1% 22/2609 [01:50<2:43:02,  3.78s/it][A
Training...:   1% 23/2609 [01:54<2:38:23,  3.67s/it][A
Training...:   1% 24/2609 [01:57<2:33:35,  3.56s/it][A
Training...:   1% 25/2609 [02:00<2:28:51,  3.46s/it][A
Training...:   1% 26/2609 [02:03<2:24:02,  3.35s/it][A
Training...:   1% 27/2609 [02:06<2:19:26,  3.24s/it][A
Training...:   1% 28/2609 [02:09<2:15:39,  3.15s/it][A
Training...:   1% 29/2609 [02:12<2:11:33,  3.06s/it][A
Training...:   1% 30/2609 [02:15<2:08:10,  2.98s/it][A
Training...:   1% 31/2609 [02:18<2:04:15,  2.89s/it][A
Training...:   1% 32/2609 [02:20<2:00:59,  2.82s/it][A
Training...:   1% 33/2609 [02:23<1:57:11,  2.73s/it][A
Training...:   1% 34/2609 [02:25<1:53:35,  2.65s/it][A
Training...:   1% 35/2609 [02:28<1:50:22,  2.57s/it][A
Training...:   1% 36/2609 [02:30<1:46:15,  2.48s/it][A
Training...:   1% 37/2609 [02:32<1:42:49,  2.40s/it][A
Training...:   1% 38/2609 [02:34<1:39:16,  2.32s/it][A                                                                                                                                                                   
                                                    [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [10:35:19<43:03:20, 9687.55s/it]
Training...:   1% 38/2609 [02:37<1:39:16,  2.32s/it][A
Training...:   1% 39/2609 [02:37<1:40:30,  2.35s/it][A
Training...:   2% 40/2609 [02:39<1:34:48,  2.21s/it][A
Training...:   2% 41/2609 [02:40<1:29:20,  2.09s/it][A
Training...:   2% 42/2609 [02:42<1:24:36,  1.98s/it][A
Training...:   2% 43/2609 [02:44<1:19:19,  1.85s/it][A
Training...:   2% 44/2609 [02:45<1:14:36,  1.75s/it][A
Training...:   2% 45/2609 [02:47<1:09:42,  1.63s/it][A
Training...:   2% 46/2609 [02:48<1:04:50,  1.52s/it][A
Training...:   2% 47/2609 [02:49<1:00:11,  1.41s/it][A
Training...:   2% 48/2609 [02:50<54:47,  1.28s/it]  [A
Training...:   2% 49/2609 [02:51<48:04,  1.13s/it][A
Training...:   2% 50/2609 [02:51<40:26,  1.05it/s][A
Training...:   2% 51/2609 [02:58<1:58:40,  2.78s/it][A
Training...:   2% 52/2609 [03:05<2:53:09,  4.06s/it][A
Training...:   2% 53/2609 [03:12<3:26:57,  4.86s/it][A
Training...:   2% 54/2609 [03:19<3:47:48,  5.35s/it][A
Training...:   2% 55/2609 [03:25<3:55:46,  5.54s/it][A
Training...:   2% 56/2609 [03:30<3:57:39,  5.59s/it][A
Training...:   2% 57/2609 [03:36<3:57:46,  5.59s/it][A
Training...:   2% 58/2609 [03:41<3:53:29,  5.49s/it][A
Training...:   2% 59/2609 [03:46<3:48:28,  5.38s/it][A
Training...:   2% 60/2609 [03:51<3:42:03,  5.23s/it][A
Training...:   2% 61/2609 [03:56<3:36:10,  5.09s/it][A
Training...:   2% 62/2609 [04:01<3:30:23,  4.96s/it][A
Training...:   2% 63/2609 [04:05<3:24:35,  4.82s/it][A                                                                                                                                                                   
                                                    [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [10:36:52<43:03:20, 9687.55s/it]
Training...:   2% 63/2609 [04:10<3:24:35,  4.82s/it][A
Training...:   2% 64/2609 [04:10<3:27:04,  4.88s/it][A
Training...:   2% 65/2609 [04:14<3:19:17,  4.70s/it][A
Training...:   3% 66/2609 [04:18<3:11:16,  4.51s/it][A
Training...:   3% 67/2609 [04:22<3:05:18,  4.37s/it][A
Training...:   3% 68/2609 [04:26<2:59:07,  4.23s/it][A
Training...:   3% 69/2609 [04:30<2:54:01,  4.11s/it][A
Training...:   3% 70/2609 [04:34<2:49:35,  4.01s/it][A
Training...:   3% 71/2609 [04:38<2:44:36,  3.89s/it][A
Training...:   3% 72/2609 [04:41<2:39:25,  3.77s/it][A
Training...:   3% 73/2609 [04:44<2:35:15,  3.67s/it][A
Training...:   3% 74/2609 [04:48<2:30:42,  3.57s/it][A
Training...:   3% 75/2609 [04:51<2:26:46,  3.48s/it][A
Training...:   3% 76/2609 [04:54<2:22:47,  3.38s/it][A
Training...:   3% 77/2609 [04:57<2:19:07,  3.30s/it][A
Training...:   3% 78/2609 [05:00<2:14:56,  3.20s/it][A
Training...:   3% 79/2609 [05:03<2:11:06,  3.11s/it][A
Training...:   3% 80/2609 [05:06<2:07:30,  3.03s/it][A
Training...:   3% 81/2609 [05:09<2:03:55,  2.94s/it][A
Training...:   3% 82/2609 [05:11<1:59:37,  2.84s/it][A
Training...:   3% 83/2609 [05:14<1:55:33,  2.74s/it][A
Training...:   3% 84/2609 [05:16<1:51:45,  2.66s/it][A
Training...:   3% 85/2609 [05:19<1:48:01,  2.57s/it][A
Training...:   3% 86/2609 [05:21<1:44:18,  2.48s/it][A
Training...:   3% 87/2609 [05:23<1:40:54,  2.40s/it][A
Training...:   3% 88/2609 [05:25<1:37:17,  2.32s/it][A                                                                                                                                                                   
                                                    [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [10:38:10<43:03:20, 9687.55s/it]
Training...:   3% 88/2609 [05:28<1:37:17,  2.32s/it][A
Training...:   3% 89/2609 [05:28<1:38:40,  2.35s/it][A
Training...:   3% 90/2609 [05:30<1:32:56,  2.21s/it][A
Training...:   3% 91/2609 [05:31<1:28:03,  2.10s/it][A
Training...:   4% 92/2609 [05:33<1:23:24,  1.99s/it][A
Training...:   4% 93/2609 [05:35<1:19:09,  1.89s/it][A
Training...:   4% 94/2609 [05:36<1:14:27,  1.78s/it][A
Training...:   4% 95/2609 [05:38<1:09:24,  1.66s/it][A
Training...:   4% 96/2609 [05:39<1:04:18,  1.54s/it][A
Training...:   4% 97/2609 [05:40<59:08,  1.41s/it]  [A
Training...:   4% 98/2609 [05:41<53:43,  1.28s/it][A
Training...:   4% 99/2609 [05:42<47:49,  1.14s/it][A
Training...:   4% 100/2609 [05:43<40:35,  1.03it/s][A
Training...:   4% 101/2609 [05:50<1:57:17,  2.81s/it][A
Training...:   4% 102/2609 [05:57<2:51:28,  4.10s/it][A
Training...:   4% 103/2609 [06:03<3:22:18,  4.84s/it][A
Training...:   4% 104/2609 [06:10<3:39:59,  5.27s/it][A
Training...:   4% 105/2609 [06:16<3:51:06,  5.54s/it][A
Training...:   4% 106/2609 [06:22<3:55:14,  5.64s/it][A
Training...:   4% 107/2609 [06:27<3:53:00,  5.59s/it][A
Training...:   4% 108/2609 [06:32<3:47:46,  5.46s/it][A
Training...:   4% 109/2609 [06:37<3:44:12,  5.38s/it][A
Training...:   4% 110/2609 [06:42<3:37:36,  5.22s/it][A
Training...:   4% 111/2609 [06:47<3:31:54,  5.09s/it][A
Training...:   4% 112/2609 [06:52<3:24:44,  4.92s/it][A
Training...:   4% 113/2609 [06:56<3:18:49,  4.78s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [10:39:43<43:03:20, 9687.55s/it]
Training...:   4% 113/2609 [07:01<3:18:49,  4.78s/it][A
Training...:   4% 114/2609 [07:01<3:21:12,  4.84s/it][A
Training...:   4% 115/2609 [07:05<3:12:48,  4.64s/it][A
Training...:   4% 116/2609 [07:09<3:06:06,  4.48s/it][A
Training...:   4% 117/2609 [07:13<3:00:29,  4.35s/it][A
Training...:   5% 118/2609 [07:17<2:54:55,  4.21s/it][A
Training...:   5% 119/2609 [07:21<2:49:14,  4.08s/it][A
Training...:   5% 120/2609 [07:25<2:43:42,  3.95s/it][A
Training...:   5% 121/2609 [07:28<2:39:22,  3.84s/it][A
Training...:   5% 122/2609 [07:32<2:34:07,  3.72s/it][A
Training...:   5% 123/2609 [07:35<2:29:31,  3.61s/it][A
Training...:   5% 124/2609 [07:38<2:25:20,  3.51s/it][A
Training...:   5% 125/2609 [07:41<2:21:06,  3.41s/it][A
Training...:   5% 126/2609 [07:45<2:16:48,  3.31s/it][A
Training...:   5% 127/2609 [07:48<2:13:15,  3.22s/it][A
Training...:   5% 128/2609 [07:51<2:09:58,  3.14s/it][A
Training...:   5% 129/2609 [07:53<2:06:14,  3.05s/it][A
Training...:   5% 130/2609 [07:56<2:02:19,  2.96s/it][A
Training...:   5% 131/2609 [07:59<1:58:35,  2.87s/it][A
Training...:   5% 132/2609 [08:01<1:55:08,  2.79s/it][A
Training...:   5% 133/2609 [08:04<1:51:30,  2.70s/it][A
Training...:   5% 134/2609 [08:06<1:48:03,  2.62s/it][A
Training...:   5% 135/2609 [08:09<1:44:24,  2.53s/it][A
Training...:   5% 136/2609 [08:11<1:40:41,  2.44s/it][A
Training...:   5% 137/2609 [08:13<1:36:46,  2.35s/it][A
Training...:   5% 138/2609 [08:15<1:32:58,  2.26s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [10:41:00<43:03:20, 9687.55s/it]
Training...:   5% 138/2609 [08:17<1:32:58,  2.26s/it][A
Training...:   5% 139/2609 [08:17<1:34:37,  2.30s/it][A
Training...:   5% 140/2609 [08:19<1:29:26,  2.17s/it][A
Training...:   5% 141/2609 [08:21<1:24:25,  2.05s/it][A
Training...:   5% 142/2609 [08:23<1:20:01,  1.95s/it][A
Training...:   5% 143/2609 [08:24<1:15:24,  1.83s/it][A
Training...:   6% 144/2609 [08:26<1:10:55,  1.73s/it][A
Training...:   6% 145/2609 [08:27<1:06:37,  1.62s/it][A
Training...:   6% 146/2609 [08:28<1:02:28,  1.52s/it][A
Training...:   6% 147/2609 [08:30<58:18,  1.42s/it]  [A
Training...:   6% 148/2609 [08:31<53:28,  1.30s/it][A
Training...:   6% 149/2609 [08:32<47:53,  1.17s/it][A
Training...:   6% 150/2609 [08:32<40:43,  1.01it/s][A
Training...:   6% 151/2609 [08:39<1:57:19,  2.86s/it][A
Training...:   6% 152/2609 [08:46<2:46:57,  4.08s/it][A
Training...:   6% 153/2609 [08:53<3:15:53,  4.79s/it][A
Training...:   6% 154/2609 [08:59<3:32:47,  5.20s/it][A
Training...:   6% 155/2609 [09:05<3:41:20,  5.41s/it][A
Training...:   6% 156/2609 [09:11<3:45:22,  5.51s/it][A
Training...:   6% 157/2609 [09:16<3:45:33,  5.52s/it][A
Training...:   6% 158/2609 [09:21<3:42:41,  5.45s/it][A
Training...:   6% 159/2609 [09:26<3:37:35,  5.33s/it][A
Training...:   6% 160/2609 [09:31<3:31:32,  5.18s/it][A
Training...:   6% 161/2609 [09:36<3:25:55,  5.05s/it][A
Training...:   6% 162/2609 [09:41<3:19:28,  4.89s/it][A
Training...:   6% 163/2609 [09:45<3:13:47,  4.75s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [10:42:32<43:03:20, 9687.55s/it]
Training...:   6% 163/2609 [09:50<3:13:47,  4.75s/it][A
Training...:   6% 164/2609 [09:50<3:15:35,  4.80s/it][A
Training...:   6% 165/2609 [09:54<3:08:16,  4.62s/it][A
Training...:   6% 166/2609 [09:58<3:01:40,  4.46s/it][A
Training...:   6% 167/2609 [10:02<2:56:19,  4.33s/it][A
Training...:   6% 168/2609 [10:06<2:51:16,  4.21s/it][A
Training...:   6% 169/2609 [10:10<2:46:42,  4.10s/it][A
Training...:   7% 170/2609 [10:14<2:41:45,  3.98s/it][A
Training...:   7% 171/2609 [10:17<2:36:51,  3.86s/it][A
Training...:   7% 172/2609 [10:21<2:32:25,  3.75s/it][A
Training...:   7% 173/2609 [10:24<2:28:17,  3.65s/it][A
Training...:   7% 174/2609 [10:27<2:24:03,  3.55s/it][A
Training...:   7% 175/2609 [10:31<2:19:24,  3.44s/it][A
Training...:   7% 176/2609 [10:34<2:15:47,  3.35s/it][A
Training...:   7% 177/2609 [10:37<2:11:58,  3.26s/it][A
Training...:   7% 178/2609 [10:40<2:08:29,  3.17s/it][A
Training...:   7% 179/2609 [10:43<2:05:00,  3.09s/it][A
Training...:   7% 180/2609 [10:45<2:01:46,  3.01s/it][A
Training...:   7% 181/2609 [10:48<1:58:13,  2.92s/it][A
Training...:   7% 182/2609 [10:51<1:54:46,  2.84s/it][A
Training...:   7% 183/2609 [10:53<1:51:14,  2.75s/it][A
Training...:   7% 184/2609 [10:56<1:48:09,  2.68s/it][A
Training...:   7% 185/2609 [10:58<1:44:44,  2.59s/it][A
Training...:   7% 186/2609 [11:01<1:41:27,  2.51s/it][A
Training...:   7% 187/2609 [11:03<1:38:35,  2.44s/it][A
Training...:   7% 188/2609 [11:05<1:35:14,  2.36s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [10:43:50<43:03:20, 9687.55s/it]
Training...:   7% 188/2609 [11:08<1:35:14,  2.36s/it][A
Training...:   7% 189/2609 [11:08<1:36:16,  2.39s/it][A
Training...:   7% 190/2609 [11:09<1:31:04,  2.26s/it][A
Training...:   7% 191/2609 [11:11<1:26:46,  2.15s/it][A
Training...:   7% 192/2609 [11:13<1:22:54,  2.06s/it][A
Training...:   7% 193/2609 [11:15<1:17:58,  1.94s/it][A
Training...:   7% 194/2609 [11:16<1:13:07,  1.82s/it][A
Training...:   7% 195/2609 [11:18<1:08:25,  1.70s/it][A
Training...:   8% 196/2609 [11:19<1:03:20,  1.58s/it][A
Training...:   8% 197/2609 [11:20<58:26,  1.45s/it]  [A
Training...:   8% 198/2609 [11:21<53:03,  1.32s/it][A
Training...:   8% 199/2609 [11:22<46:43,  1.16s/it][A
Training...:   8% 200/2609 [11:23<39:16,  1.02it/s][A
Training...:   8% 201/2609 [11:30<1:52:26,  2.80s/it][A
Training...:   8% 202/2609 [11:37<2:43:00,  4.06s/it][A
Training...:   8% 203/2609 [11:43<3:11:36,  4.78s/it][A
Training...:   8% 204/2609 [11:49<3:28:41,  5.21s/it][A
Training...:   8% 205/2609 [11:55<3:37:56,  5.44s/it][A
Training...:   8% 206/2609 [12:01<3:40:12,  5.50s/it][A
Training...:   8% 207/2609 [12:06<3:37:54,  5.44s/it][A
Training...:   8% 208/2609 [12:11<3:34:16,  5.35s/it][A
Training...:   8% 209/2609 [12:16<3:30:16,  5.26s/it][A
Training...:   8% 210/2609 [12:21<3:24:50,  5.12s/it][A
Training...:   8% 211/2609 [12:26<3:18:36,  4.97s/it][A
Training...:   8% 212/2609 [12:30<3:12:47,  4.83s/it][A
Training...:   8% 213/2609 [12:35<3:08:26,  4.72s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [10:45:22<43:03:20, 9687.55s/it]
Training...:   8% 213/2609 [12:40<3:08:26,  4.72s/it][A
Training...:   8% 214/2609 [12:40<3:12:00,  4.81s/it][A
Training...:   8% 215/2609 [12:44<3:05:20,  4.65s/it][A
Training...:   8% 216/2609 [12:48<2:58:58,  4.49s/it][A
Training...:   8% 217/2609 [12:52<2:53:10,  4.34s/it][A
Training...:   8% 218/2609 [12:56<2:47:02,  4.19s/it][A
Training...:   8% 219/2609 [13:00<2:41:37,  4.06s/it][A
Training...:   8% 220/2609 [13:04<2:36:38,  3.93s/it][A
Training...:   8% 221/2609 [13:07<2:32:50,  3.84s/it][A
Training...:   9% 222/2609 [13:11<2:28:24,  3.73s/it][A
Training...:   9% 223/2609 [13:14<2:24:08,  3.62s/it][A
Training...:   9% 224/2609 [13:17<2:20:13,  3.53s/it][A
Training...:   9% 225/2609 [13:20<2:16:16,  3.43s/it][A
Training...:   9% 226/2609 [13:24<2:12:22,  3.33s/it][A
Training...:   9% 227/2609 [13:27<2:09:15,  3.26s/it][A
Training...:   9% 228/2609 [13:30<2:05:53,  3.17s/it][A
Training...:   9% 229/2609 [13:33<2:02:37,  3.09s/it][A
Training...:   9% 230/2609 [13:35<1:59:25,  3.01s/it][A
Training...:   9% 231/2609 [13:38<1:55:44,  2.92s/it][A
Training...:   9% 232/2609 [13:41<1:51:34,  2.82s/it][A
Training...:   9% 233/2609 [13:43<1:48:07,  2.73s/it][A
Training...:   9% 234/2609 [13:46<1:44:46,  2.65s/it][A
Training...:   9% 235/2609 [13:48<1:41:27,  2.56s/it][A
Training...:   9% 236/2609 [13:50<1:38:00,  2.48s/it][A
Training...:   9% 237/2609 [13:52<1:34:20,  2.39s/it][A
Training...:   9% 238/2609 [13:55<1:30:45,  2.30s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [10:46:39<43:03:20, 9687.55s/it]
Training...:   9% 238/2609 [13:57<1:30:45,  2.30s/it][A
Training...:   9% 239/2609 [13:57<1:32:19,  2.34s/it][A
Training...:   9% 240/2609 [13:59<1:27:01,  2.20s/it][A
Training...:   9% 241/2609 [14:01<1:22:18,  2.09s/it][A
Training...:   9% 242/2609 [14:02<1:17:47,  1.97s/it][A
Training...:   9% 243/2609 [14:04<1:13:18,  1.86s/it][A
Training...:   9% 244/2609 [14:05<1:08:51,  1.75s/it][A
Training...:   9% 245/2609 [14:07<1:05:02,  1.65s/it][A
Training...:   9% 246/2609 [14:08<1:00:44,  1.54s/it][A
Training...:   9% 247/2609 [14:09<56:10,  1.43s/it]  [A
Training...:  10% 248/2609 [14:10<51:26,  1.31s/it][A
Training...:  10% 249/2609 [14:11<45:29,  1.16s/it][A
Training...:  10% 250/2609 [14:12<38:24,  1.02it/s][A
Training...:  10% 251/2609 [14:19<1:53:16,  2.88s/it][A
Training...:  10% 252/2609 [14:26<2:42:51,  4.15s/it][A
Training...:  10% 253/2609 [14:33<3:11:55,  4.89s/it][A
Training...:  10% 254/2609 [14:39<3:29:35,  5.34s/it][A
Training...:  10% 255/2609 [14:45<3:37:08,  5.53s/it][A
Training...:  10% 256/2609 [14:51<3:39:26,  5.60s/it][A
Training...:  10% 257/2609 [14:56<3:38:05,  5.56s/it][A
Training...:  10% 258/2609 [15:02<3:34:40,  5.48s/it][A
Training...:  10% 259/2609 [15:07<3:30:43,  5.38s/it][A
Training...:  10% 260/2609 [15:12<3:25:16,  5.24s/it][A
Training...:  10% 261/2609 [15:17<3:20:31,  5.12s/it][A
Training...:  10% 262/2609 [15:21<3:15:19,  4.99s/it][A
Training...:  10% 263/2609 [15:26<3:10:47,  4.88s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [10:48:13<43:03:20, 9687.55s/it]
Training...:  10% 263/2609 [15:31<3:10:47,  4.88s/it][A
Training...:  10% 264/2609 [15:31<3:13:57,  4.96s/it][A
Training...:  10% 265/2609 [15:35<3:06:28,  4.77s/it][A
Training...:  10% 266/2609 [15:40<2:59:38,  4.60s/it][A
Training...:  10% 267/2609 [15:44<2:53:13,  4.44s/it][A
Training...:  10% 268/2609 [15:48<2:48:17,  4.31s/it][A
Training...:  10% 269/2609 [15:51<2:42:30,  4.17s/it][A
Training...:  10% 270/2609 [15:55<2:37:43,  4.05s/it][A
Training...:  10% 271/2609 [15:59<2:33:11,  3.93s/it][A
Training...:  10% 272/2609 [16:02<2:28:32,  3.81s/it][A
Training...:  10% 273/2609 [16:06<2:24:57,  3.72s/it][A
Training...:  11% 274/2609 [16:09<2:21:15,  3.63s/it][A
Training...:  11% 275/2609 [16:13<2:18:29,  3.56s/it][A
Training...:  11% 276/2609 [16:16<2:14:29,  3.46s/it][A
Training...:  11% 277/2609 [16:19<2:10:30,  3.36s/it][A
Training...:  11% 278/2609 [16:22<2:06:21,  3.25s/it][A
Training...:  11% 279/2609 [16:25<2:02:45,  3.16s/it][A
Training...:  11% 280/2609 [16:28<1:59:05,  3.07s/it][A
Training...:  11% 281/2609 [16:31<1:55:35,  2.98s/it][A
Training...:  11% 282/2609 [16:33<1:51:28,  2.87s/it][A
Training...:  11% 283/2609 [16:36<1:48:19,  2.79s/it][A
Training...:  11% 284/2609 [16:38<1:44:50,  2.71s/it][A
Training...:  11% 285/2609 [16:41<1:41:27,  2.62s/it][A
Training...:  11% 286/2609 [16:43<1:38:08,  2.53s/it][A
Training...:  11% 287/2609 [16:45<1:34:43,  2.45s/it][A
Training...:  11% 288/2609 [16:48<1:31:13,  2.36s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [10:49:32<43:03:20, 9687.55s/it]
Training...:  11% 288/2609 [16:50<1:31:13,  2.36s/it][A
Training...:  11% 289/2609 [16:50<1:32:15,  2.39s/it][A
Training...:  11% 290/2609 [16:52<1:26:45,  2.24s/it][A
Training...:  11% 291/2609 [16:54<1:22:19,  2.13s/it][A
Training...:  11% 292/2609 [16:56<1:17:29,  2.01s/it][A
Training...:  11% 293/2609 [16:57<1:13:23,  1.90s/it][A
Training...:  11% 294/2609 [16:59<1:08:42,  1.78s/it][A
Training...:  11% 295/2609 [17:00<1:04:22,  1.67s/it][A
Training...:  11% 296/2609 [17:01<1:00:11,  1.56s/it][A
Training...:  11% 297/2609 [17:03<55:07,  1.43s/it]  [A
Training...:  11% 298/2609 [17:03<49:43,  1.29s/it][A
Training...:  11% 299/2609 [17:04<44:02,  1.14s/it][A
Training...:  11% 300/2609 [17:05<37:33,  1.02it/s][A
Training...:  12% 301/2609 [17:12<1:47:29,  2.79s/it][A
Training...:  12% 302/2609 [17:19<2:36:57,  4.08s/it][A
Training...:  12% 303/2609 [17:26<3:05:45,  4.83s/it][A
Training...:  12% 304/2609 [17:32<3:22:39,  5.28s/it][A
Training...:  12% 305/2609 [17:38<3:30:03,  5.47s/it][A
Training...:  12% 306/2609 [17:44<3:32:50,  5.54s/it][A
Training...:  12% 307/2609 [17:49<3:32:56,  5.55s/it][A
Training...:  12% 308/2609 [17:54<3:29:40,  5.47s/it][A
Training...:  12% 309/2609 [18:00<3:26:38,  5.39s/it][A
Training...:  12% 310/2609 [18:05<3:21:44,  5.27s/it][A
Training...:  12% 311/2609 [18:09<3:17:23,  5.15s/it][A
Training...:  12% 312/2609 [18:14<3:11:30,  5.00s/it][A
Training...:  12% 313/2609 [18:19<3:05:35,  4.85s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [10:51:06<43:03:20, 9687.55s/it]
Training...:  12% 313/2609 [18:24<3:05:35,  4.85s/it][A
Training...:  12% 314/2609 [18:24<3:09:37,  4.96s/it][A
Training...:  12% 315/2609 [18:28<3:03:15,  4.79s/it][A
Training...:  12% 316/2609 [18:32<2:55:39,  4.60s/it][A
Training...:  12% 317/2609 [18:36<2:48:57,  4.42s/it][A
Training...:  12% 318/2609 [18:40<2:43:04,  4.27s/it][A
Training...:  12% 319/2609 [18:44<2:38:00,  4.14s/it][A
Training...:  12% 320/2609 [18:48<2:32:40,  4.00s/it][A
Training...:  12% 321/2609 [18:51<2:27:31,  3.87s/it][A
Training...:  12% 322/2609 [18:55<2:23:12,  3.76s/it][A
Training...:  12% 323/2609 [18:58<2:19:13,  3.65s/it][A
Training...:  12% 324/2609 [19:02<2:15:04,  3.55s/it][A
Training...:  12% 325/2609 [19:05<2:10:51,  3.44s/it][A
Training...:  12% 326/2609 [19:08<2:06:39,  3.33s/it][A
Training...:  13% 327/2609 [19:11<2:03:21,  3.24s/it][A
Training...:  13% 328/2609 [19:14<2:00:00,  3.16s/it][A
Training...:  13% 329/2609 [19:17<1:56:26,  3.06s/it][A
Training...:  13% 330/2609 [19:19<1:53:39,  2.99s/it][A
Training...:  13% 331/2609 [19:22<1:50:48,  2.92s/it][A
Training...:  13% 332/2609 [19:25<1:47:18,  2.83s/it][A
Training...:  13% 333/2609 [19:27<1:44:00,  2.74s/it][A
Training...:  13% 334/2609 [19:30<1:40:29,  2.65s/it][A
Training...:  13% 335/2609 [19:32<1:37:02,  2.56s/it][A
Training...:  13% 336/2609 [19:34<1:33:48,  2.48s/it][A
Training...:  13% 337/2609 [19:37<1:30:42,  2.40s/it][A
Training...:  13% 338/2609 [19:39<1:27:18,  2.31s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [10:52:23<43:03:20, 9687.55s/it]
Training...:  13% 338/2609 [19:41<1:27:18,  2.31s/it][A
Training...:  13% 339/2609 [19:41<1:28:33,  2.34s/it][A
Training...:  13% 340/2609 [19:43<1:24:06,  2.22s/it][A
Training...:  13% 341/2609 [19:45<1:20:29,  2.13s/it][A
Training...:  13% 342/2609 [19:47<1:16:26,  2.02s/it][A
Training...:  13% 343/2609 [19:48<1:12:33,  1.92s/it][A
Training...:  13% 344/2609 [19:50<1:08:21,  1.81s/it][A
Training...:  13% 345/2609 [19:51<1:04:06,  1.70s/it][A
Training...:  13% 346/2609 [19:53<59:39,  1.58s/it]  [A
Training...:  13% 347/2609 [19:54<55:02,  1.46s/it][A
Training...:  13% 348/2609 [19:55<50:10,  1.33s/it][A
Training...:  13% 349/2609 [19:56<44:33,  1.18s/it][A
Training...:  13% 350/2609 [19:56<37:41,  1.00s/it][A
Training...:  13% 351/2609 [20:03<1:45:50,  2.81s/it][A
Training...:  13% 352/2609 [20:11<2:34:47,  4.12s/it][A
Training...:  14% 353/2609 [20:17<3:03:19,  4.88s/it][A
Training...:  14% 354/2609 [20:24<3:19:36,  5.31s/it][A
Training...:  14% 355/2609 [20:30<3:27:04,  5.51s/it][A
Training...:  14% 356/2609 [20:35<3:28:20,  5.55s/it][A
Training...:  14% 357/2609 [20:41<3:28:59,  5.57s/it][A
Training...:  14% 358/2609 [20:46<3:28:53,  5.57s/it][A
Training...:  14% 359/2609 [20:52<3:24:19,  5.45s/it][A
Training...:  14% 360/2609 [20:57<3:18:39,  5.30s/it][A
Training...:  14% 361/2609 [21:01<3:12:39,  5.14s/it][A
Training...:  14% 362/2609 [21:06<3:06:38,  4.98s/it][A
Training...:  14% 363/2609 [21:10<3:01:05,  4.84s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [10:53:58<43:03:20, 9687.55s/it]
Training...:  14% 363/2609 [21:15<3:01:05,  4.84s/it][A
Training...:  14% 364/2609 [21:15<3:03:11,  4.90s/it][A
Training...:  14% 365/2609 [21:20<2:55:54,  4.70s/it][A
Training...:  14% 366/2609 [21:24<2:48:41,  4.51s/it][A
Training...:  14% 367/2609 [21:28<2:42:56,  4.36s/it][A
Training...:  14% 368/2609 [21:32<2:36:42,  4.20s/it][A
Training...:  14% 369/2609 [21:35<2:31:16,  4.05s/it][A
Training...:  14% 370/2609 [21:39<2:26:14,  3.92s/it][A
Training...:  14% 371/2609 [21:42<2:21:54,  3.80s/it][A
Training...:  14% 372/2609 [21:46<2:17:26,  3.69s/it][A
Training...:  14% 373/2609 [21:49<2:13:49,  3.59s/it][A
Training...:  14% 374/2609 [21:53<2:10:28,  3.50s/it][A
Training...:  14% 375/2609 [21:56<2:06:46,  3.41s/it][A
Training...:  14% 376/2609 [21:59<2:03:30,  3.32s/it][A
Training...:  14% 377/2609 [22:02<2:00:07,  3.23s/it][A
Training...:  14% 378/2609 [22:05<1:56:57,  3.15s/it][A
Training...:  15% 379/2609 [22:08<1:53:47,  3.06s/it][A
Training...:  15% 380/2609 [22:10<1:50:30,  2.97s/it][A
Training...:  15% 381/2609 [22:13<1:46:47,  2.88s/it][A
Training...:  15% 382/2609 [22:16<1:43:20,  2.78s/it][A
Training...:  15% 383/2609 [22:18<1:40:12,  2.70s/it][A
Training...:  15% 384/2609 [22:21<1:36:52,  2.61s/it][A
Training...:  15% 385/2609 [22:23<1:34:01,  2.54s/it][A
Training...:  15% 386/2609 [22:25<1:30:44,  2.45s/it][A
Training...:  15% 387/2609 [22:27<1:27:44,  2.37s/it][A
Training...:  15% 388/2609 [22:29<1:24:29,  2.28s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [10:55:14<43:03:20, 9687.55s/it]
Training...:  15% 388/2609 [22:32<1:24:29,  2.28s/it][A
Training...:  15% 389/2609 [22:32<1:26:00,  2.32s/it][A
Training...:  15% 390/2609 [22:34<1:21:24,  2.20s/it][A
Training...:  15% 391/2609 [22:36<1:17:02,  2.08s/it][A
Training...:  15% 392/2609 [22:37<1:12:49,  1.97s/it][A
Training...:  15% 393/2609 [22:39<1:08:55,  1.87s/it][A
Training...:  15% 394/2609 [22:40<1:04:52,  1.76s/it][A
Training...:  15% 395/2609 [22:42<1:00:52,  1.65s/it][A
Training...:  15% 396/2609 [22:43<56:33,  1.53s/it]  [A
Training...:  15% 397/2609 [22:44<52:25,  1.42s/it][A
Training...:  15% 398/2609 [22:45<47:47,  1.30s/it][A
Training...:  15% 399/2609 [22:46<42:42,  1.16s/it][A
Training...:  15% 400/2609 [22:47<36:25,  1.01it/s][A
Training...:  15% 401/2609 [22:54<1:43:44,  2.82s/it][A
Training...:  15% 402/2609 [23:01<2:30:45,  4.10s/it][A
Training...:  15% 403/2609 [23:08<3:00:36,  4.91s/it][A
Training...:  15% 404/2609 [23:14<3:17:44,  5.38s/it][A
Training...:  16% 405/2609 [23:20<3:23:12,  5.53s/it][A
Training...:  16% 406/2609 [23:26<3:25:14,  5.59s/it][A
Training...:  16% 407/2609 [23:31<3:24:47,  5.58s/it][A
Training...:  16% 408/2609 [23:36<3:20:37,  5.47s/it][A
Training...:  16% 409/2609 [23:42<3:16:59,  5.37s/it][A
Training...:  16% 410/2609 [23:46<3:11:22,  5.22s/it][A
Training...:  16% 411/2609 [23:51<3:05:49,  5.07s/it][A
Training...:  16% 412/2609 [23:56<2:59:51,  4.91s/it][A
Training...:  16% 413/2609 [24:00<2:54:49,  4.78s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [10:56:47<43:03:20, 9687.55s/it]
Training...:  16% 413/2609 [24:05<2:54:49,  4.78s/it][A
Training...:  16% 414/2609 [24:05<2:56:27,  4.82s/it][A
Training...:  16% 415/2609 [24:09<2:49:20,  4.63s/it][A
Training...:  16% 416/2609 [24:13<2:42:58,  4.46s/it][A
Training...:  16% 417/2609 [24:17<2:37:12,  4.30s/it][A
Training...:  16% 418/2609 [24:21<2:32:43,  4.18s/it][A
Training...:  16% 419/2609 [24:25<2:28:19,  4.06s/it][A
Training...:  16% 420/2609 [24:29<2:24:33,  3.96s/it][A
Training...:  16% 421/2609 [24:32<2:20:28,  3.85s/it][A
Training...:  16% 422/2609 [24:36<2:16:24,  3.74s/it][A
Training...:  16% 423/2609 [24:39<2:12:22,  3.63s/it][A
Training...:  16% 424/2609 [24:43<2:09:09,  3.55s/it][A
Training...:  16% 425/2609 [24:46<2:05:30,  3.45s/it][A
Training...:  16% 426/2609 [24:49<2:03:00,  3.38s/it][A
Training...:  16% 427/2609 [24:52<2:00:28,  3.31s/it][A
Training...:  16% 428/2609 [24:55<1:57:07,  3.22s/it][A
Training...:  16% 429/2609 [24:58<1:53:57,  3.14s/it][A
Training...:  16% 430/2609 [25:01<1:50:10,  3.03s/it][A
Training...:  17% 431/2609 [25:04<1:46:40,  2.94s/it][A
Training...:  17% 432/2609 [25:06<1:43:13,  2.85s/it][A
Training...:  17% 433/2609 [25:09<1:39:54,  2.75s/it][A
Training...:  17% 434/2609 [25:11<1:36:39,  2.67s/it][A
Training...:  17% 435/2609 [25:14<1:33:11,  2.57s/it][A
Training...:  17% 436/2609 [25:16<1:30:02,  2.49s/it][A
Training...:  17% 437/2609 [25:18<1:26:56,  2.40s/it][A
Training...:  17% 438/2609 [25:20<1:23:40,  2.31s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [10:58:05<43:03:20, 9687.55s/it]
Training...:  17% 438/2609 [25:23<1:23:40,  2.31s/it][A
Training...:  17% 439/2609 [25:23<1:25:00,  2.35s/it][A
Training...:  17% 440/2609 [25:25<1:20:21,  2.22s/it][A
Training...:  17% 441/2609 [25:26<1:16:31,  2.12s/it][A
Training...:  17% 442/2609 [25:28<1:12:06,  2.00s/it][A
Training...:  17% 443/2609 [25:30<1:08:11,  1.89s/it][A
Training...:  17% 444/2609 [25:31<1:04:00,  1.77s/it][A
Training...:  17% 445/2609 [25:33<59:54,  1.66s/it]  [A
Training...:  17% 446/2609 [25:34<55:21,  1.54s/it][A
Training...:  17% 447/2609 [25:35<51:00,  1.42s/it][A
Training...:  17% 448/2609 [25:36<46:11,  1.28s/it][A
Training...:  17% 449/2609 [25:37<41:08,  1.14s/it][A
Training...:  17% 450/2609 [25:37<35:16,  1.02it/s][A
Training...:  17% 451/2609 [25:45<1:41:25,  2.82s/it][A
Training...:  17% 452/2609 [25:52<2:28:39,  4.14s/it][A
Training...:  17% 453/2609 [25:58<2:55:28,  4.88s/it][A
Training...:  17% 454/2609 [26:05<3:12:17,  5.35s/it][A
Training...:  17% 455/2609 [26:11<3:19:57,  5.57s/it][A
Training...:  17% 456/2609 [26:17<3:22:32,  5.64s/it][A
Training...:  18% 457/2609 [26:22<3:21:29,  5.62s/it][A
Training...:  18% 458/2609 [26:28<3:18:19,  5.53s/it][A
Training...:  18% 459/2609 [26:33<3:14:21,  5.42s/it][A
Training...:  18% 460/2609 [26:38<3:08:50,  5.27s/it][A
Training...:  18% 461/2609 [26:42<3:03:32,  5.13s/it][A
Training...:  18% 462/2609 [26:47<2:57:58,  4.97s/it][A
Training...:  18% 463/2609 [26:52<2:53:00,  4.84s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [10:59:39<43:03:20, 9687.55s/it]
Training...:  18% 463/2609 [26:57<2:53:00,  4.84s/it][A
Training...:  18% 464/2609 [26:57<2:56:01,  4.92s/it][A
Training...:  18% 465/2609 [27:01<2:49:30,  4.74s/it][A
Training...:  18% 466/2609 [27:05<2:42:48,  4.56s/it][A
Training...:  18% 467/2609 [27:09<2:37:04,  4.40s/it][A
Training...:  18% 468/2609 [27:13<2:31:51,  4.26s/it][A
Training...:  18% 469/2609 [27:17<2:27:03,  4.12s/it][A
Training...:  18% 470/2609 [27:21<2:22:34,  4.00s/it][A
Training...:  18% 471/2609 [27:24<2:17:56,  3.87s/it][A
Training...:  18% 472/2609 [27:28<2:14:32,  3.78s/it][A
Training...:  18% 473/2609 [27:31<2:10:46,  3.67s/it][A
Training...:  18% 474/2609 [27:35<2:06:54,  3.57s/it][A
Training...:  18% 475/2609 [27:38<2:03:31,  3.47s/it][A
Training...:  18% 476/2609 [27:41<1:59:44,  3.37s/it][A
Training...:  18% 477/2609 [27:44<1:56:22,  3.28s/it][A
Training...:  18% 478/2609 [27:47<1:53:28,  3.19s/it][A
Training...:  18% 479/2609 [27:50<1:50:08,  3.10s/it][A
Training...:  18% 480/2609 [27:53<1:47:07,  3.02s/it][A
Training...:  18% 481/2609 [27:55<1:43:52,  2.93s/it][A
Training...:  18% 482/2609 [27:58<1:40:36,  2.84s/it][A
Training...:  19% 483/2609 [28:01<1:37:15,  2.74s/it][A
Training...:  19% 484/2609 [28:03<1:34:13,  2.66s/it][A
Training...:  19% 485/2609 [28:05<1:30:56,  2.57s/it][A
Training...:  19% 486/2609 [28:08<1:27:33,  2.47s/it][A
Training...:  19% 487/2609 [28:10<1:24:07,  2.38s/it][A
Training...:  19% 488/2609 [28:12<1:20:46,  2.28s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:00:56<43:03:20, 9687.55s/it]
Training...:  19% 488/2609 [28:14<1:20:46,  2.28s/it][A
Training...:  19% 489/2609 [28:14<1:21:59,  2.32s/it][A
Training...:  19% 490/2609 [28:16<1:17:19,  2.19s/it][A
Training...:  19% 491/2609 [28:18<1:12:54,  2.07s/it][A
Training...:  19% 492/2609 [28:20<1:08:44,  1.95s/it][A
Training...:  19% 493/2609 [28:21<1:04:36,  1.83s/it][A
Training...:  19% 494/2609 [28:23<1:00:45,  1.72s/it][A
Training...:  19% 495/2609 [28:24<56:41,  1.61s/it]  [A
Training...:  19% 496/2609 [28:25<52:38,  1.49s/it][A
Training...:  19% 497/2609 [28:26<48:46,  1.39s/it][A
Training...:  19% 498/2609 [28:27<44:00,  1.25s/it][A
Training...:  19% 499/2609 [28:28<38:45,  1.10s/it][A
Training...:  19% 500/2609 [28:29<32:40,  1.08it/s][A
Training...:  19% 501/2609 [28:36<1:38:06,  2.79s/it][A
Training...:  19% 502/2609 [28:43<2:21:39,  4.03s/it][A
Training...:  19% 503/2609 [28:49<2:47:20,  4.77s/it][A
Training...:  19% 504/2609 [28:55<3:01:48,  5.18s/it][A
Training...:  19% 505/2609 [29:01<3:09:14,  5.40s/it][A
Training...:  19% 506/2609 [29:07<3:11:02,  5.45s/it][A
Training...:  19% 507/2609 [29:12<3:10:06,  5.43s/it][A
Training...:  19% 508/2609 [29:17<3:07:47,  5.36s/it][A
Training...:  20% 509/2609 [29:22<3:04:24,  5.27s/it][A
Training...:  20% 510/2609 [29:27<2:59:46,  5.14s/it][A
Training...:  20% 511/2609 [29:32<2:55:17,  5.01s/it][A
Training...:  20% 512/2609 [29:37<2:50:39,  4.88s/it][A
Training...:  20% 513/2609 [29:41<2:46:17,  4.76s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:02:28<43:03:20, 9687.55s/it]
Training...:  20% 513/2609 [29:46<2:46:17,  4.76s/it][A
Training...:  20% 514/2609 [29:46<2:48:28,  4.83s/it][A
Training...:  20% 515/2609 [29:50<2:42:25,  4.65s/it][A
Training...:  20% 516/2609 [29:54<2:35:37,  4.46s/it][A
Training...:  20% 517/2609 [29:58<2:29:59,  4.30s/it][A
Training...:  20% 518/2609 [30:02<2:24:52,  4.16s/it][A
Training...:  20% 519/2609 [30:06<2:20:11,  4.02s/it][A
Training...:  20% 520/2609 [30:09<2:16:11,  3.91s/it][A
Training...:  20% 521/2609 [30:13<2:12:39,  3.81s/it][A
Training...:  20% 522/2609 [30:16<2:08:21,  3.69s/it][A
Training...:  20% 523/2609 [30:20<2:05:14,  3.60s/it][A
Training...:  20% 524/2609 [30:23<2:02:11,  3.52s/it][A
Training...:  20% 525/2609 [30:26<1:59:12,  3.43s/it][A
Training...:  20% 526/2609 [30:29<1:55:02,  3.31s/it][A
Training...:  20% 527/2609 [30:32<1:51:41,  3.22s/it][A
Training...:  20% 528/2609 [30:35<1:48:33,  3.13s/it][A
Training...:  20% 529/2609 [30:38<1:45:38,  3.05s/it][A
Training...:  20% 530/2609 [30:41<1:42:57,  2.97s/it][A
Training...:  20% 531/2609 [30:44<1:39:46,  2.88s/it][A
Training...:  20% 532/2609 [30:46<1:37:20,  2.81s/it][A
Training...:  20% 533/2609 [30:49<1:33:49,  2.71s/it][A
Training...:  20% 534/2609 [30:51<1:30:35,  2.62s/it][A
Training...:  21% 535/2609 [30:53<1:27:23,  2.53s/it][A
Training...:  21% 536/2609 [30:56<1:24:18,  2.44s/it][A
Training...:  21% 537/2609 [30:58<1:21:09,  2.35s/it][A
Training...:  21% 538/2609 [31:00<1:17:59,  2.26s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:03:44<43:03:20, 9687.55s/it]
Training...:  21% 538/2609 [31:02<1:17:59,  2.26s/it][A
Training...:  21% 539/2609 [31:02<1:18:57,  2.29s/it][A
Training...:  21% 540/2609 [31:04<1:14:37,  2.16s/it][A
Training...:  21% 541/2609 [31:06<1:10:45,  2.05s/it][A
Training...:  21% 542/2609 [31:08<1:07:01,  1.95s/it][A
Training...:  21% 543/2609 [31:09<1:02:50,  1.82s/it][A
Training...:  21% 544/2609 [31:11<59:05,  1.72s/it]  [A
Training...:  21% 545/2609 [31:12<55:32,  1.61s/it][A
Training...:  21% 546/2609 [31:13<51:48,  1.51s/it][A
Training...:  21% 547/2609 [31:14<48:04,  1.40s/it][A
Training...:  21% 548/2609 [31:15<43:44,  1.27s/it][A
Training...:  21% 549/2609 [31:16<38:43,  1.13s/it][A
Training...:  21% 550/2609 [31:17<32:40,  1.05it/s][A
Training...:  21% 551/2609 [31:24<1:35:22,  2.78s/it][A
Training...:  21% 552/2609 [31:31<2:19:09,  4.06s/it][A
Training...:  21% 553/2609 [31:37<2:44:39,  4.81s/it][A
Training...:  21% 554/2609 [31:44<3:00:23,  5.27s/it][A
Training...:  21% 555/2609 [31:50<3:07:29,  5.48s/it][A
Training...:  21% 556/2609 [31:55<3:10:06,  5.56s/it][A
Training...:  21% 557/2609 [32:01<3:09:56,  5.55s/it][A
Training...:  21% 558/2609 [32:06<3:07:02,  5.47s/it][A
Training...:  21% 559/2609 [32:11<3:03:52,  5.38s/it][A
Training...:  21% 560/2609 [32:16<2:59:14,  5.25s/it][A
Training...:  22% 561/2609 [32:21<2:54:41,  5.12s/it][A
Training...:  22% 562/2609 [32:26<2:49:26,  4.97s/it][A
Training...:  22% 563/2609 [32:30<2:46:35,  4.89s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:05:18<43:03:20, 9687.55s/it]
Training...:  22% 563/2609 [32:35<2:46:35,  4.89s/it][A
Training...:  22% 564/2609 [32:35<2:48:19,  4.94s/it][A
Training...:  22% 565/2609 [32:40<2:41:45,  4.75s/it][A
Training...:  22% 566/2609 [32:44<2:35:59,  4.58s/it][A
Training...:  22% 567/2609 [32:48<2:31:32,  4.45s/it][A
Training...:  22% 568/2609 [32:52<2:26:37,  4.31s/it][A
Training...:  22% 569/2609 [32:56<2:22:18,  4.19s/it][A
Training...:  22% 570/2609 [33:00<2:17:19,  4.04s/it][A
Training...:  22% 571/2609 [33:03<2:12:42,  3.91s/it][A
Training...:  22% 572/2609 [33:07<2:09:08,  3.80s/it][A
Training...:  22% 573/2609 [33:10<2:05:45,  3.71s/it][A
Training...:  22% 574/2609 [33:14<2:02:38,  3.62s/it][A
Training...:  22% 575/2609 [33:17<1:59:12,  3.52s/it][A
Training...:  22% 576/2609 [33:20<1:55:30,  3.41s/it][A
Training...:  22% 577/2609 [33:23<1:51:45,  3.30s/it][A
Training...:  22% 578/2609 [33:26<1:48:26,  3.20s/it][A
Training...:  22% 579/2609 [33:29<1:45:11,  3.11s/it][A
Training...:  22% 580/2609 [33:32<1:42:14,  3.02s/it][A
Training...:  22% 581/2609 [33:35<1:38:47,  2.92s/it][A
Training...:  22% 582/2609 [33:37<1:35:10,  2.82s/it][A
Training...:  22% 583/2609 [33:40<1:31:57,  2.72s/it][A
Training...:  22% 584/2609 [33:42<1:28:48,  2.63s/it][A
Training...:  22% 585/2609 [33:44<1:25:40,  2.54s/it][A
Training...:  22% 586/2609 [33:47<1:22:27,  2.45s/it][A
Training...:  22% 587/2609 [33:49<1:18:51,  2.34s/it][A
Training...:  23% 588/2609 [33:51<1:15:50,  2.25s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:06:35<43:03:20, 9687.55s/it]
Training...:  23% 588/2609 [33:53<1:15:50,  2.25s/it][A
Training...:  23% 589/2609 [33:53<1:17:24,  2.30s/it][A
Training...:  23% 590/2609 [33:55<1:13:00,  2.17s/it][A
Training...:  23% 591/2609 [33:57<1:09:31,  2.07s/it][A
Training...:  23% 592/2609 [33:59<1:05:44,  1.96s/it][A
Training...:  23% 593/2609 [34:00<1:02:01,  1.85s/it][A
Training...:  23% 594/2609 [34:02<58:43,  1.75s/it]  [A
Training...:  23% 595/2609 [34:03<55:21,  1.65s/it][A
Training...:  23% 596/2609 [34:04<51:29,  1.53s/it][A
Training...:  23% 597/2609 [34:06<47:31,  1.42s/it][A
Training...:  23% 598/2609 [34:06<43:14,  1.29s/it][A
Training...:  23% 599/2609 [34:07<38:32,  1.15s/it][A
Training...:  23% 600/2609 [34:08<32:41,  1.02it/s][A
Training...:  23% 601/2609 [34:15<1:34:42,  2.83s/it][A
Training...:  23% 602/2609 [34:22<2:17:27,  4.11s/it][A
Training...:  23% 603/2609 [34:29<2:40:31,  4.80s/it][A
Training...:  23% 604/2609 [34:35<2:54:54,  5.23s/it][A
Training...:  23% 605/2609 [34:41<3:01:48,  5.44s/it][A
Training...:  23% 606/2609 [34:46<3:04:26,  5.52s/it][A
Training...:  23% 607/2609 [34:52<3:04:13,  5.52s/it][A
Training...:  23% 608/2609 [34:57<3:02:41,  5.48s/it][A
Training...:  23% 609/2609 [35:02<2:59:09,  5.37s/it][A
Training...:  23% 610/2609 [35:07<2:53:09,  5.20s/it][A
Training...:  23% 611/2609 [35:12<2:48:29,  5.06s/it][A
Training...:  23% 612/2609 [35:16<2:42:51,  4.89s/it][A
Training...:  23% 613/2609 [35:21<2:38:07,  4.75s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:08:08<43:03:20, 9687.55s/it]
Training...:  23% 613/2609 [35:26<2:38:07,  4.75s/it][A
Training...:  24% 614/2609 [35:26<2:40:07,  4.82s/it][A
Training...:  24% 615/2609 [35:30<2:34:32,  4.65s/it][A
Training...:  24% 616/2609 [35:34<2:29:08,  4.49s/it][A
Training...:  24% 617/2609 [35:38<2:24:04,  4.34s/it][A
Training...:  24% 618/2609 [35:42<2:19:33,  4.21s/it][A
Training...:  24% 619/2609 [35:46<2:15:09,  4.08s/it][A
Training...:  24% 620/2609 [35:50<2:11:07,  3.96s/it][A
Training...:  24% 621/2609 [35:53<2:06:55,  3.83s/it][A
Training...:  24% 622/2609 [35:57<2:03:29,  3.73s/it][A
Training...:  24% 623/2609 [36:00<1:59:50,  3.62s/it][A
Training...:  24% 624/2609 [36:03<1:56:07,  3.51s/it][A
Training...:  24% 625/2609 [36:06<1:52:49,  3.41s/it][A
Training...:  24% 626/2609 [36:09<1:49:17,  3.31s/it][A
Training...:  24% 627/2609 [36:12<1:46:12,  3.22s/it][A
Training...:  24% 628/2609 [36:15<1:42:39,  3.11s/it][A
Training...:  24% 629/2609 [36:18<1:39:44,  3.02s/it][A
Training...:  24% 630/2609 [36:21<1:36:51,  2.94s/it][A
Training...:  24% 631/2609 [36:24<1:34:05,  2.85s/it][A
Training...:  24% 632/2609 [36:26<1:31:30,  2.78s/it][A
Training...:  24% 633/2609 [36:29<1:28:55,  2.70s/it][A
Training...:  24% 634/2609 [36:31<1:25:53,  2.61s/it][A
Training...:  24% 635/2609 [36:33<1:23:18,  2.53s/it][A
Training...:  24% 636/2609 [36:36<1:20:32,  2.45s/it][A
Training...:  24% 637/2609 [36:38<1:17:37,  2.36s/it][A
Training...:  24% 638/2609 [36:40<1:14:52,  2.28s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:09:24<43:03:20, 9687.55s/it]
Training...:  24% 638/2609 [36:42<1:14:52,  2.28s/it][A
Training...:  24% 639/2609 [36:42<1:16:17,  2.32s/it][A
Training...:  25% 640/2609 [36:44<1:12:42,  2.22s/it][A
Training...:  25% 641/2609 [36:46<1:09:26,  2.12s/it][A
Training...:  25% 642/2609 [36:48<1:05:57,  2.01s/it][A
Training...:  25% 643/2609 [36:50<1:02:41,  1.91s/it][A
Training...:  25% 644/2609 [36:51<59:03,  1.80s/it]  [A
Training...:  25% 645/2609 [36:53<55:20,  1.69s/it][A
Training...:  25% 646/2609 [36:54<51:14,  1.57s/it][A
Training...:  25% 647/2609 [36:55<46:53,  1.43s/it][A
Training...:  25% 648/2609 [36:56<42:10,  1.29s/it][A
Training...:  25% 649/2609 [36:57<37:20,  1.14s/it][A
Training...:  25% 650/2609 [36:57<31:50,  1.03it/s][A
Training...:  25% 651/2609 [37:05<1:33:09,  2.85s/it][A
Training...:  25% 652/2609 [37:12<2:15:05,  4.14s/it][A
Training...:  25% 653/2609 [37:18<2:38:24,  4.86s/it][A
Training...:  25% 654/2609 [37:25<2:52:00,  5.28s/it][A
Training...:  25% 655/2609 [37:31<2:58:59,  5.50s/it][A
Training...:  25% 656/2609 [37:36<3:01:13,  5.57s/it][A
Training...:  25% 657/2609 [37:42<3:00:07,  5.54s/it][A
Training...:  25% 658/2609 [37:47<2:57:19,  5.45s/it][A
Training...:  25% 659/2609 [37:52<2:54:19,  5.36s/it][A
Training...:  25% 660/2609 [37:57<2:50:12,  5.24s/it][A
Training...:  25% 661/2609 [38:02<2:46:17,  5.12s/it][A
Training...:  25% 662/2609 [38:07<2:40:37,  4.95s/it][A
Training...:  25% 663/2609 [38:11<2:36:54,  4.84s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:10:58<43:03:20, 9687.55s/it]
Training...:  25% 663/2609 [38:16<2:36:54,  4.84s/it][A
Training...:  25% 664/2609 [38:16<2:39:05,  4.91s/it][A
Training...:  25% 665/2609 [38:20<2:32:46,  4.72s/it][A
Training...:  26% 666/2609 [38:25<2:26:50,  4.53s/it][A
Training...:  26% 667/2609 [38:29<2:21:42,  4.38s/it][A
Training...:  26% 668/2609 [38:32<2:17:05,  4.24s/it][A
Training...:  26% 669/2609 [38:36<2:13:11,  4.12s/it][A
Training...:  26% 670/2609 [38:40<2:08:53,  3.99s/it][A
Training...:  26% 671/2609 [38:44<2:04:59,  3.87s/it][A
Training...:  26% 672/2609 [38:47<2:01:39,  3.77s/it][A
Training...:  26% 673/2609 [38:51<1:58:30,  3.67s/it][A
Training...:  26% 674/2609 [38:54<1:55:27,  3.58s/it][A
Training...:  26% 675/2609 [38:57<1:52:34,  3.49s/it][A
Training...:  26% 676/2609 [39:00<1:49:37,  3.40s/it][A
Training...:  26% 677/2609 [39:04<1:47:34,  3.34s/it][A
Training...:  26% 678/2609 [39:07<1:45:33,  3.28s/it][A
Training...:  26% 679/2609 [39:10<1:42:55,  3.20s/it][A
Training...:  26% 680/2609 [39:13<1:39:22,  3.09s/it][A
Training...:  26% 681/2609 [39:15<1:36:24,  3.00s/it][A
Training...:  26% 682/2609 [39:18<1:33:14,  2.90s/it][A
Training...:  26% 683/2609 [39:21<1:30:10,  2.81s/it][A
Training...:  26% 684/2609 [39:23<1:26:38,  2.70s/it][A
Training...:  26% 685/2609 [39:26<1:23:45,  2.61s/it][A
Training...:  26% 686/2609 [39:28<1:20:56,  2.53s/it][A
Training...:  26% 687/2609 [39:30<1:18:08,  2.44s/it][A
Training...:  26% 688/2609 [39:32<1:14:45,  2.34s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:12:17<43:03:20, 9687.55s/it]
Training...:  26% 688/2609 [39:35<1:14:45,  2.34s/it][A
Training...:  26% 689/2609 [39:35<1:15:33,  2.36s/it][A
Training...:  26% 690/2609 [39:37<1:11:22,  2.23s/it][A
Training...:  26% 691/2609 [39:38<1:07:46,  2.12s/it][A
Training...:  27% 692/2609 [39:40<1:03:45,  2.00s/it][A
Training...:  27% 693/2609 [39:42<59:57,  1.88s/it]  [A
Training...:  27% 694/2609 [39:43<56:22,  1.77s/it][A
Training...:  27% 695/2609 [39:45<52:55,  1.66s/it][A
Training...:  27% 696/2609 [39:46<49:15,  1.55s/it][A
Training...:  27% 697/2609 [39:47<45:33,  1.43s/it][A
Training...:  27% 698/2609 [39:48<41:37,  1.31s/it][A
Training...:  27% 699/2609 [39:49<37:00,  1.16s/it][A
Training...:  27% 700/2609 [39:49<31:19,  1.02it/s][A
Training...:  27% 701/2609 [39:57<1:29:41,  2.82s/it][A
Training...:  27% 702/2609 [40:04<2:11:07,  4.13s/it][A
Training...:  27% 703/2609 [40:10<2:34:15,  4.86s/it][A
Training...:  27% 704/2609 [40:17<2:48:12,  5.30s/it][A
Training...:  27% 705/2609 [40:23<2:55:02,  5.52s/it][A
Training...:  27% 706/2609 [40:28<2:57:19,  5.59s/it][A
Training...:  27% 707/2609 [40:34<2:57:24,  5.60s/it][A
Training...:  27% 708/2609 [40:39<2:55:01,  5.52s/it][A
Training...:  27% 709/2609 [40:45<2:51:49,  5.43s/it][A
Training...:  27% 710/2609 [40:50<2:48:00,  5.31s/it][A
Training...:  27% 711/2609 [40:54<2:43:36,  5.17s/it][A
Training...:  27% 712/2609 [40:59<2:39:22,  5.04s/it][A
Training...:  27% 713/2609 [41:04<2:35:23,  4.92s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:13:51<43:03:20, 9687.55s/it]
Training...:  27% 713/2609 [41:09<2:35:23,  4.92s/it][A
Training...:  27% 714/2609 [41:09<2:37:50,  5.00s/it][A
Training...:  27% 715/2609 [41:13<2:31:50,  4.81s/it][A
Training...:  27% 716/2609 [41:18<2:26:39,  4.65s/it][A
Training...:  27% 717/2609 [41:22<2:22:15,  4.51s/it][A
Training...:  28% 718/2609 [41:26<2:17:20,  4.36s/it][A
Training...:  28% 719/2609 [41:30<2:13:02,  4.22s/it][A
Training...:  28% 720/2609 [41:34<2:08:48,  4.09s/it][A
Training...:  28% 721/2609 [41:37<2:05:18,  3.98s/it][A
Training...:  28% 722/2609 [41:41<2:01:17,  3.86s/it][A
Training...:  28% 723/2609 [41:44<1:57:08,  3.73s/it][A
Training...:  28% 724/2609 [41:48<1:53:34,  3.61s/it][A
Training...:  28% 725/2609 [41:51<1:50:33,  3.52s/it][A
Training...:  28% 726/2609 [41:54<1:47:02,  3.41s/it][A
Training...:  28% 727/2609 [41:57<1:43:48,  3.31s/it][A
Training...:  28% 728/2609 [42:00<1:40:35,  3.21s/it][A
Training...:  28% 729/2609 [42:03<1:38:01,  3.13s/it][A
Training...:  28% 730/2609 [42:06<1:35:09,  3.04s/it][A
Training...:  28% 731/2609 [42:09<1:32:33,  2.96s/it][A
Training...:  28% 732/2609 [42:11<1:30:20,  2.89s/it][A
Training...:  28% 733/2609 [42:14<1:27:13,  2.79s/it][A
Training...:  28% 734/2609 [42:16<1:24:32,  2.71s/it][A
Training...:  28% 735/2609 [42:19<1:21:46,  2.62s/it][A
Training...:  28% 736/2609 [42:21<1:18:58,  2.53s/it][A
Training...:  28% 737/2609 [42:23<1:15:51,  2.43s/it][A
Training...:  28% 738/2609 [42:25<1:12:51,  2.34s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:15:10<43:03:20, 9687.55s/it]
Training...:  28% 738/2609 [42:28<1:12:51,  2.34s/it][A
Training...:  28% 739/2609 [42:28<1:13:48,  2.37s/it][A
Training...:  28% 740/2609 [42:30<1:09:07,  2.22s/it][A
Training...:  28% 741/2609 [42:32<1:05:26,  2.10s/it][A
Training...:  28% 742/2609 [42:33<1:01:52,  1.99s/it][A
Training...:  28% 743/2609 [42:35<58:14,  1.87s/it]  [A
Training...:  29% 744/2609 [42:36<54:58,  1.77s/it][A
Training...:  29% 745/2609 [42:38<51:11,  1.65s/it][A
Training...:  29% 746/2609 [42:39<47:43,  1.54s/it][A
Training...:  29% 747/2609 [42:40<44:16,  1.43s/it][A
Training...:  29% 748/2609 [42:41<40:22,  1.30s/it][A
Training...:  29% 749/2609 [42:42<35:50,  1.16s/it][A
Training...:  29% 750/2609 [42:43<30:28,  1.02it/s][A
Training...:  29% 751/2609 [42:50<1:28:27,  2.86s/it][A
Training...:  29% 752/2609 [42:57<2:08:34,  4.15s/it][A
Training...:  29% 753/2609 [43:04<2:30:54,  4.88s/it][A
Training...:  29% 754/2609 [43:10<2:44:01,  5.31s/it][A
Training...:  29% 755/2609 [43:16<2:49:59,  5.50s/it][A
Training...:  29% 756/2609 [43:22<2:52:50,  5.60s/it][A
Training...:  29% 757/2609 [43:27<2:52:33,  5.59s/it][A
Training...:  29% 758/2609 [43:33<2:49:39,  5.50s/it][A
Training...:  29% 759/2609 [43:38<2:46:45,  5.41s/it][A
Training...:  29% 760/2609 [43:43<2:42:57,  5.29s/it][A
Training...:  29% 761/2609 [43:48<2:38:54,  5.16s/it][A
Training...:  29% 762/2609 [43:52<2:34:17,  5.01s/it][A
Training...:  29% 763/2609 [43:57<2:29:39,  4.86s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:16:44<43:03:20, 9687.55s/it]
Training...:  29% 763/2609 [44:02<2:29:39,  4.86s/it][A
Training...:  29% 764/2609 [44:02<2:32:11,  4.95s/it][A
Training...:  29% 765/2609 [44:06<2:26:03,  4.75s/it][A
Training...:  29% 766/2609 [44:10<2:20:15,  4.57s/it][A
Training...:  29% 767/2609 [44:15<2:15:34,  4.42s/it][A
Training...:  29% 768/2609 [44:18<2:10:47,  4.26s/it][A
Training...:  29% 769/2609 [44:22<2:07:08,  4.15s/it][A
Training...:  30% 770/2609 [44:26<2:02:50,  4.01s/it][A
Training...:  30% 771/2609 [44:30<1:58:49,  3.88s/it][A
Training...:  30% 772/2609 [44:33<1:55:12,  3.76s/it][A
Training...:  30% 773/2609 [44:36<1:51:36,  3.65s/it][A
Training...:  30% 774/2609 [44:40<1:48:38,  3.55s/it][A
Training...:  30% 775/2609 [44:43<1:45:36,  3.46s/it][A
Training...:  30% 776/2609 [44:46<1:42:12,  3.35s/it][A
Training...:  30% 777/2609 [44:49<1:38:59,  3.24s/it][A
Training...:  30% 778/2609 [44:52<1:35:59,  3.15s/it][A
Training...:  30% 779/2609 [44:55<1:33:25,  3.06s/it][A
Training...:  30% 780/2609 [44:58<1:30:50,  2.98s/it][A
Training...:  30% 781/2609 [45:00<1:28:32,  2.91s/it][A
Training...:  30% 782/2609 [45:03<1:25:47,  2.82s/it][A
Training...:  30% 783/2609 [45:06<1:23:17,  2.74s/it][A
Training...:  30% 784/2609 [45:08<1:20:24,  2.64s/it][A
Training...:  30% 785/2609 [45:10<1:17:40,  2.56s/it][A
Training...:  30% 786/2609 [45:13<1:14:57,  2.47s/it][A
Training...:  30% 787/2609 [45:15<1:12:08,  2.38s/it][A
Training...:  30% 788/2609 [45:17<1:09:21,  2.29s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:18:01<43:03:20, 9687.55s/it]
Training...:  30% 788/2609 [45:19<1:09:21,  2.29s/it][A
Training...:  30% 789/2609 [45:19<1:10:39,  2.33s/it][A
Training...:  30% 790/2609 [45:21<1:07:12,  2.22s/it][A
Training...:  30% 791/2609 [45:23<1:03:25,  2.09s/it][A
Training...:  30% 792/2609 [45:25<1:00:08,  1.99s/it][A
Training...:  30% 793/2609 [45:26<56:51,  1.88s/it]  [A
Training...:  30% 794/2609 [45:28<53:17,  1.76s/it][A
Training...:  30% 795/2609 [45:29<49:55,  1.65s/it][A
Training...:  31% 796/2609 [45:31<46:15,  1.53s/it][A
Training...:  31% 797/2609 [45:32<42:10,  1.40s/it][A
Training...:  31% 798/2609 [45:33<37:52,  1.26s/it][A
Training...:  31% 799/2609 [45:33<33:18,  1.10s/it][A
Training...:  31% 800/2609 [45:34<28:03,  1.07it/s][A
Training...:  31% 801/2609 [45:41<1:26:03,  2.86s/it][A
Training...:  31% 802/2609 [45:48<2:04:58,  4.15s/it][A
Training...:  31% 803/2609 [45:55<2:26:46,  4.88s/it][A
Training...:  31% 804/2609 [46:01<2:38:58,  5.28s/it][A
Training...:  31% 805/2609 [46:07<2:44:20,  5.47s/it][A
Training...:  31% 806/2609 [46:13<2:46:20,  5.54s/it][A
Training...:  31% 807/2609 [46:18<2:46:04,  5.53s/it][A
Training...:  31% 808/2609 [46:24<2:43:51,  5.46s/it][A
Training...:  31% 809/2609 [46:29<2:40:24,  5.35s/it][A
Training...:  31% 810/2609 [46:34<2:37:04,  5.24s/it][A
Training...:  31% 811/2609 [46:38<2:33:20,  5.12s/it][A
Training...:  31% 812/2609 [46:43<2:29:10,  4.98s/it][A
Training...:  31% 813/2609 [46:48<2:25:38,  4.87s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:19:35<43:03:20, 9687.55s/it]
Training...:  31% 813/2609 [46:53<2:25:38,  4.87s/it][A
Training...:  31% 814/2609 [46:53<2:28:33,  4.97s/it][A
Training...:  31% 815/2609 [46:57<2:22:51,  4.78s/it][A
Training...:  31% 816/2609 [47:01<2:17:00,  4.58s/it][A
Training...:  31% 817/2609 [47:05<2:11:58,  4.42s/it][A
Training...:  31% 818/2609 [47:09<2:07:07,  4.26s/it][A
Training...:  31% 819/2609 [47:13<2:03:07,  4.13s/it][A
Training...:  31% 820/2609 [47:17<1:59:18,  4.00s/it][A
Training...:  31% 821/2609 [47:20<1:55:44,  3.88s/it][A
Training...:  32% 822/2609 [47:24<1:52:45,  3.79s/it][A
Training...:  32% 823/2609 [47:28<1:50:54,  3.73s/it][A
Training...:  32% 824/2609 [47:31<1:47:48,  3.62s/it][A
Training...:  32% 825/2609 [47:34<1:44:32,  3.52s/it][A
Training...:  32% 826/2609 [47:37<1:41:22,  3.41s/it][A
Training...:  32% 827/2609 [47:40<1:38:05,  3.30s/it][A
Training...:  32% 828/2609 [47:43<1:35:13,  3.21s/it][A
Training...:  32% 829/2609 [47:46<1:32:12,  3.11s/it][A
Training...:  32% 830/2609 [47:49<1:29:08,  3.01s/it][A
Training...:  32% 831/2609 [47:52<1:26:27,  2.92s/it][A
Training...:  32% 832/2609 [47:54<1:23:41,  2.83s/it][A
Training...:  32% 833/2609 [47:57<1:21:14,  2.74s/it][A
Training...:  32% 834/2609 [47:59<1:18:48,  2.66s/it][A
Training...:  32% 835/2609 [48:02<1:16:02,  2.57s/it][A
Training...:  32% 836/2609 [48:04<1:13:12,  2.48s/it][A
Training...:  32% 837/2609 [48:06<1:10:30,  2.39s/it][A
Training...:  32% 838/2609 [48:08<1:07:27,  2.29s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:20:53<43:03:20, 9687.55s/it]
Training...:  32% 838/2609 [48:11<1:07:27,  2.29s/it][A
Training...:  32% 839/2609 [48:11<1:08:24,  2.32s/it][A
Training...:  32% 840/2609 [48:13<1:04:31,  2.19s/it][A
Training...:  32% 841/2609 [48:14<1:00:54,  2.07s/it][A
Training...:  32% 842/2609 [48:16<57:42,  1.96s/it]  [A
Training...:  32% 843/2609 [48:18<54:38,  1.86s/it][A
Training...:  32% 844/2609 [48:19<51:28,  1.75s/it][A
Training...:  32% 845/2609 [48:21<48:09,  1.64s/it][A
Training...:  32% 846/2609 [48:22<44:44,  1.52s/it][A
Training...:  32% 847/2609 [48:23<41:04,  1.40s/it][A
Training...:  33% 848/2609 [48:24<37:12,  1.27s/it][A
Training...:  33% 849/2609 [48:25<33:12,  1.13s/it][A
Training...:  33% 850/2609 [48:25<28:15,  1.04it/s][A
Training...:  33% 851/2609 [48:32<1:22:36,  2.82s/it][A
Training...:  33% 852/2609 [48:39<2:00:21,  4.11s/it][A
Training...:  33% 853/2609 [48:46<2:22:22,  4.86s/it][A
Training...:  33% 854/2609 [48:52<2:35:07,  5.30s/it][A
Training...:  33% 855/2609 [48:58<2:41:02,  5.51s/it][A
Training...:  33% 856/2609 [49:04<2:42:49,  5.57s/it][A
Training...:  33% 857/2609 [49:10<2:42:38,  5.57s/it][A
Training...:  33% 858/2609 [49:15<2:40:57,  5.52s/it][A
Training...:  33% 859/2609 [49:20<2:39:02,  5.45s/it][A
Training...:  33% 860/2609 [49:26<2:36:53,  5.38s/it][A
Training...:  33% 861/2609 [49:30<2:32:21,  5.23s/it][A
Training...:  33% 862/2609 [49:35<2:26:55,  5.05s/it][A
Training...:  33% 863/2609 [49:40<2:22:10,  4.89s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:22:27<43:03:20, 9687.55s/it]
Training...:  33% 863/2609 [49:45<2:22:10,  4.89s/it][A
Training...:  33% 864/2609 [49:45<2:23:14,  4.93s/it][A
Training...:  33% 865/2609 [49:49<2:17:43,  4.74s/it][A
Training...:  33% 866/2609 [49:53<2:12:26,  4.56s/it][A
Training...:  33% 867/2609 [49:57<2:08:08,  4.41s/it][A
Training...:  33% 868/2609 [50:01<2:03:52,  4.27s/it][A
Training...:  33% 869/2609 [50:05<2:00:06,  4.14s/it][A
Training...:  33% 870/2609 [50:09<1:56:25,  4.02s/it][A
Training...:  33% 871/2609 [50:12<1:52:59,  3.90s/it][A
Training...:  33% 872/2609 [50:16<1:50:14,  3.81s/it][A
Training...:  33% 873/2609 [50:19<1:47:48,  3.73s/it][A
Training...:  33% 874/2609 [50:23<1:44:56,  3.63s/it][A
Training...:  34% 875/2609 [50:26<1:42:06,  3.53s/it][A
Training...:  34% 876/2609 [50:29<1:38:53,  3.42s/it][A
Training...:  34% 877/2609 [50:32<1:36:15,  3.33s/it][A
Training...:  34% 878/2609 [50:35<1:33:29,  3.24s/it][A
Training...:  34% 879/2609 [50:38<1:30:40,  3.14s/it][A
Training...:  34% 880/2609 [50:41<1:27:37,  3.04s/it][A
Training...:  34% 881/2609 [50:44<1:24:42,  2.94s/it][A
Training...:  34% 882/2609 [50:46<1:21:54,  2.85s/it][A
Training...:  34% 883/2609 [50:49<1:19:04,  2.75s/it][A
Training...:  34% 884/2609 [50:51<1:16:23,  2.66s/it][A
Training...:  34% 885/2609 [50:54<1:14:00,  2.58s/it][A
Training...:  34% 886/2609 [50:56<1:11:33,  2.49s/it][A
Training...:  34% 887/2609 [50:58<1:09:06,  2.41s/it][A
Training...:  34% 888/2609 [51:01<1:06:48,  2.33s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:23:45<43:03:20, 9687.55s/it]
Training...:  34% 888/2609 [51:03<1:06:48,  2.33s/it][A
Training...:  34% 889/2609 [51:03<1:08:10,  2.38s/it][A
Training...:  34% 890/2609 [51:05<1:04:26,  2.25s/it][A
Training...:  34% 891/2609 [51:07<1:00:53,  2.13s/it][A
Training...:  34% 892/2609 [51:09<57:54,  2.02s/it]  [A
Training...:  34% 893/2609 [51:10<54:48,  1.92s/it][A
Training...:  34% 894/2609 [51:12<51:26,  1.80s/it][A
Training...:  34% 895/2609 [51:13<48:15,  1.69s/it][A
Training...:  34% 896/2609 [51:14<44:53,  1.57s/it][A
Training...:  34% 897/2609 [51:16<41:06,  1.44s/it][A
Training...:  34% 898/2609 [51:17<37:11,  1.30s/it][A
Training...:  34% 899/2609 [51:17<32:47,  1.15s/it][A
Training...:  34% 900/2609 [51:18<27:39,  1.03it/s][A
Training...:  35% 901/2609 [51:25<1:20:05,  2.81s/it][A
Training...:  35% 902/2609 [51:32<1:56:24,  4.09s/it][A
Training...:  35% 903/2609 [51:39<2:18:22,  4.87s/it][A
Training...:  35% 904/2609 [51:45<2:31:27,  5.33s/it][A
Training...:  35% 905/2609 [51:51<2:37:33,  5.55s/it][A
Training...:  35% 906/2609 [51:57<2:39:29,  5.62s/it][A
Training...:  35% 907/2609 [52:03<2:39:25,  5.62s/it][A
Training...:  35% 908/2609 [52:08<2:36:37,  5.52s/it][A
Training...:  35% 909/2609 [52:13<2:34:12,  5.44s/it][A
Training...:  35% 910/2609 [52:18<2:31:48,  5.36s/it][A
Training...:  35% 911/2609 [52:23<2:27:52,  5.23s/it][A
Training...:  35% 912/2609 [52:28<2:23:02,  5.06s/it][A
Training...:  35% 913/2609 [52:33<2:18:32,  4.90s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:25:20<43:03:20, 9687.55s/it]
Training...:  35% 913/2609 [52:38<2:18:32,  4.90s/it][A
Training...:  35% 914/2609 [52:38<2:19:36,  4.94s/it][A
Training...:  35% 915/2609 [52:42<2:13:45,  4.74s/it][A
Training...:  35% 916/2609 [52:46<2:08:12,  4.54s/it][A
Training...:  35% 917/2609 [52:50<2:03:27,  4.38s/it][A
Training...:  35% 918/2609 [52:54<1:59:11,  4.23s/it][A
Training...:  35% 919/2609 [52:58<1:55:25,  4.10s/it][A
Training...:  35% 920/2609 [53:01<1:52:28,  4.00s/it][A
Training...:  35% 921/2609 [53:05<1:49:24,  3.89s/it][A
Training...:  35% 922/2609 [53:09<1:46:19,  3.78s/it][A
Training...:  35% 923/2609 [53:12<1:43:20,  3.68s/it][A
Training...:  35% 924/2609 [53:15<1:40:26,  3.58s/it][A
Training...:  35% 925/2609 [53:19<1:38:02,  3.49s/it][A
Training...:  35% 926/2609 [53:22<1:35:17,  3.40s/it][A
Training...:  36% 927/2609 [53:25<1:32:41,  3.31s/it][A
Training...:  36% 928/2609 [53:28<1:30:14,  3.22s/it][A
Training...:  36% 929/2609 [53:31<1:27:55,  3.14s/it][A
Training...:  36% 930/2609 [53:34<1:25:33,  3.06s/it][A
Training...:  36% 931/2609 [53:36<1:22:58,  2.97s/it][A
Training...:  36% 932/2609 [53:39<1:20:24,  2.88s/it][A
Training...:  36% 933/2609 [53:42<1:17:41,  2.78s/it][A
Training...:  36% 934/2609 [53:44<1:15:12,  2.69s/it][A
Training...:  36% 935/2609 [53:47<1:12:16,  2.59s/it][A
Training...:  36% 936/2609 [53:49<1:09:35,  2.50s/it][A
Training...:  36% 937/2609 [53:51<1:07:01,  2.40s/it][A
Training...:  36% 938/2609 [53:53<1:04:34,  2.32s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:26:38<43:03:20, 9687.55s/it]
Training...:  36% 938/2609 [53:56<1:04:34,  2.32s/it][A
Training...:  36% 939/2609 [53:56<1:05:42,  2.36s/it][A
Training...:  36% 940/2609 [53:57<1:02:01,  2.23s/it][A
Training...:  36% 941/2609 [53:59<58:32,  2.11s/it]  [A
Training...:  36% 942/2609 [54:01<55:27,  2.00s/it][A
Training...:  36% 943/2609 [54:03<52:27,  1.89s/it][A
Training...:  36% 944/2609 [54:04<49:13,  1.77s/it][A
Training...:  36% 945/2609 [54:06<46:18,  1.67s/it][A
Training...:  36% 946/2609 [54:07<43:00,  1.55s/it][A
Training...:  36% 947/2609 [54:08<39:30,  1.43s/it][A
Training...:  36% 948/2609 [54:09<35:36,  1.29s/it][A
Training...:  36% 949/2609 [54:10<31:21,  1.13s/it][A
Training...:  36% 950/2609 [54:10<26:18,  1.05it/s][A
Training...:  36% 951/2609 [54:17<1:16:39,  2.77s/it][A
Training...:  36% 952/2609 [54:25<1:53:17,  4.10s/it][A
Training...:  37% 953/2609 [54:31<2:14:16,  4.87s/it][A
Training...:  37% 954/2609 [54:37<2:24:56,  5.25s/it][A
Training...:  37% 955/2609 [54:43<2:29:27,  5.42s/it][A
Training...:  37% 956/2609 [54:49<2:29:58,  5.44s/it][A
Training...:  37% 957/2609 [54:54<2:28:47,  5.40s/it][A
Training...:  37% 958/2609 [54:59<2:26:02,  5.31s/it][A
Training...:  37% 959/2609 [55:04<2:22:56,  5.20s/it][A
Training...:  37% 960/2609 [55:09<2:19:28,  5.07s/it][A
Training...:  37% 961/2609 [55:13<2:15:50,  4.95s/it][A
Training...:  37% 962/2609 [55:18<2:12:31,  4.83s/it][A
Training...:  37% 963/2609 [55:22<2:08:53,  4.70s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:28:09<43:03:20, 9687.55s/it]
Training...:  37% 963/2609 [55:27<2:08:53,  4.70s/it][A
Training...:  37% 964/2609 [55:27<2:10:10,  4.75s/it][A
Training...:  37% 965/2609 [55:31<2:05:11,  4.57s/it][A
Training...:  37% 966/2609 [55:35<2:00:37,  4.41s/it][A
Training...:  37% 967/2609 [55:39<1:57:02,  4.28s/it][A
Training...:  37% 968/2609 [55:43<1:53:29,  4.15s/it][A
Training...:  37% 969/2609 [55:47<1:50:07,  4.03s/it][A
Training...:  37% 970/2609 [55:51<1:46:39,  3.90s/it][A
Training...:  37% 971/2609 [55:54<1:43:52,  3.80s/it][A
Training...:  37% 972/2609 [55:58<1:41:01,  3.70s/it][A
Training...:  37% 973/2609 [56:01<1:38:20,  3.61s/it][A
Training...:  37% 974/2609 [56:04<1:35:36,  3.51s/it][A
Training...:  37% 975/2609 [56:08<1:33:34,  3.44s/it][A
Training...:  37% 976/2609 [56:11<1:30:47,  3.34s/it][A
Training...:  37% 977/2609 [56:14<1:28:30,  3.25s/it][A
Training...:  37% 978/2609 [56:17<1:25:56,  3.16s/it][A
Training...:  38% 979/2609 [56:20<1:23:37,  3.08s/it][A
Training...:  38% 980/2609 [56:22<1:21:13,  2.99s/it][A
Training...:  38% 981/2609 [56:25<1:19:01,  2.91s/it][A
Training...:  38% 982/2609 [56:28<1:16:38,  2.83s/it][A
Training...:  38% 983/2609 [56:30<1:14:13,  2.74s/it][A
Training...:  38% 984/2609 [56:33<1:11:39,  2.65s/it][A
Training...:  38% 985/2609 [56:35<1:09:18,  2.56s/it][A
Training...:  38% 986/2609 [56:37<1:07:14,  2.49s/it][A
Training...:  38% 987/2609 [56:40<1:05:06,  2.41s/it][A
Training...:  38% 988/2609 [56:42<1:02:36,  2.32s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:29:26<43:03:20, 9687.55s/it]
Training...:  38% 988/2609 [56:44<1:02:36,  2.32s/it][A
Training...:  38% 989/2609 [56:44<1:03:26,  2.35s/it][A
Training...:  38% 990/2609 [56:46<59:53,  2.22s/it]  [A
Training...:  38% 991/2609 [56:48<56:19,  2.09s/it][A
Training...:  38% 992/2609 [56:49<53:13,  1.97s/it][A
Training...:  38% 993/2609 [56:51<50:16,  1.87s/it][A
Training...:  38% 994/2609 [56:53<47:28,  1.76s/it][A
Training...:  38% 995/2609 [56:54<44:31,  1.66s/it][A
Training...:  38% 996/2609 [56:55<41:22,  1.54s/it][A
Training...:  38% 997/2609 [56:56<38:12,  1.42s/it][A
Training...:  38% 998/2609 [56:57<34:34,  1.29s/it][A
Training...:  38% 999/2609 [56:58<30:41,  1.14s/it][A
Training...:  38% 1000/2609 [56:59<29:01,  1.08s/it][A
Training...:  38% 1001/2609 [57:06<1:18:34,  2.93s/it][A
Training...:  38% 1002/2609 [57:13<1:51:35,  4.17s/it][A
Training...:  38% 1003/2609 [57:20<2:09:48,  4.85s/it][A
Training...:  38% 1004/2609 [57:26<2:19:43,  5.22s/it][A
Training...:  39% 1005/2609 [57:32<2:25:03,  5.43s/it][A
Training...:  39% 1006/2609 [57:38<2:27:50,  5.53s/it][A
Training...:  39% 1007/2609 [57:43<2:27:37,  5.53s/it][A
Training...:  39% 1008/2609 [57:48<2:25:25,  5.45s/it][A
Training...:  39% 1009/2609 [57:54<2:22:19,  5.34s/it][A
Training...:  39% 1010/2609 [57:58<2:18:09,  5.18s/it][A
Training...:  39% 1011/2609 [58:03<2:14:31,  5.05s/it][A
Training...:  39% 1012/2609 [58:08<2:10:38,  4.91s/it][A
Training...:  39% 1013/2609 [58:12<2:06:51,  4.77s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:30:59<43:03:20, 9687.55s/it]
Training...:  39% 1013/2609 [58:17<2:06:51,  4.77s/it][A
Training...:  39% 1014/2609 [58:17<2:08:30,  4.83s/it][A
Training...:  39% 1015/2609 [58:21<2:03:32,  4.65s/it][A
Training...:  39% 1016/2609 [58:25<1:59:12,  4.49s/it][A
Training...:  39% 1017/2609 [58:29<1:55:25,  4.35s/it][A
Training...:  39% 1018/2609 [58:33<1:51:14,  4.20s/it][A
Training...:  39% 1019/2609 [58:37<1:47:55,  4.07s/it][A
Training...:  39% 1020/2609 [58:41<1:44:50,  3.96s/it][A
Training...:  39% 1021/2609 [58:44<1:42:06,  3.86s/it][A
Training...:  39% 1022/2609 [58:48<1:39:11,  3.75s/it][A
Training...:  39% 1023/2609 [58:51<1:36:13,  3.64s/it][A
Training...:  39% 1024/2609 [58:55<1:33:23,  3.54s/it][A
Training...:  39% 1025/2609 [58:58<1:30:28,  3.43s/it][A
Training...:  39% 1026/2609 [59:01<1:27:19,  3.31s/it][A
Training...:  39% 1027/2609 [59:04<1:24:36,  3.21s/it][A
Training...:  39% 1028/2609 [59:07<1:22:11,  3.12s/it][A
Training...:  39% 1029/2609 [59:09<1:19:41,  3.03s/it][A
Training...:  39% 1030/2609 [59:12<1:17:33,  2.95s/it][A
Training...:  40% 1031/2609 [59:15<1:15:05,  2.86s/it][A
Training...:  40% 1032/2609 [59:17<1:12:55,  2.77s/it][A
Training...:  40% 1033/2609 [59:20<1:10:42,  2.69s/it][A
Training...:  40% 1034/2609 [59:22<1:08:29,  2.61s/it][A
Training...:  40% 1035/2609 [59:25<1:05:57,  2.51s/it][A
Training...:  40% 1036/2609 [59:27<1:04:00,  2.44s/it][A
Training...:  40% 1037/2609 [59:29<1:01:57,  2.37s/it][A
Training...:  40% 1038/2609 [59:31<59:59,  2.29s/it]  [A                                                                                                                                                                   
                                                    [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:32:16<43:03:20, 9687.55s/it]
Training...:  40% 1038/2609 [59:34<59:59,  2.29s/it][A
Training...:  40% 1039/2609 [59:34<1:00:58,  2.33s/it][A
Training...:  40% 1040/2609 [59:36<57:39,  2.21s/it]  [A
Training...:  40% 1041/2609 [59:37<54:14,  2.08s/it][A
Training...:  40% 1042/2609 [59:39<51:13,  1.96s/it][A
Training...:  40% 1043/2609 [59:41<48:15,  1.85s/it][A
Training...:  40% 1044/2609 [59:42<45:22,  1.74s/it][A
Training...:  40% 1045/2609 [59:44<42:47,  1.64s/it][A
Training...:  40% 1046/2609 [59:45<39:42,  1.52s/it][A
Training...:  40% 1047/2609 [59:46<36:33,  1.40s/it][A
Training...:  40% 1048/2609 [59:47<33:01,  1.27s/it][A
Training...:  40% 1049/2609 [59:48<29:13,  1.12s/it][A
Training...:  40% 1050/2609 [59:48<24:37,  1.06it/s][A
Training...:  40% 1051/2609 [59:55<1:13:16,  2.82s/it][A
Training...:  40% 1052/2609 [1:00:03<1:47:21,  4.14s/it][A
Training...:  40% 1053/2609 [1:00:09<2:06:17,  4.87s/it][A
Training...:  40% 1054/2609 [1:00:16<2:18:54,  5.36s/it][A
Training...:  40% 1055/2609 [1:00:22<2:24:15,  5.57s/it][A
Training...:  40% 1056/2609 [1:00:28<2:26:16,  5.65s/it][A
Training...:  41% 1057/2609 [1:00:33<2:26:01,  5.65s/it][A
Training...:  41% 1058/2609 [1:00:39<2:23:32,  5.55s/it][A
Training...:  41% 1059/2609 [1:00:44<2:20:34,  5.44s/it][A
Training...:  41% 1060/2609 [1:00:49<2:16:13,  5.28s/it][A
Training...:  41% 1061/2609 [1:00:53<2:12:40,  5.14s/it][A
Training...:  41% 1062/2609 [1:00:58<2:08:26,  4.98s/it][A
Training...:  41% 1063/2609 [1:01:03<2:05:21,  4.87s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:33:50<43:03:20, 9687.55s/it]
Training...:  41% 1063/2609 [1:01:08<2:05:21,  4.87s/it][A
Training...:  41% 1064/2609 [1:01:08<2:06:45,  4.92s/it][A
Training...:  41% 1065/2609 [1:01:12<2:01:56,  4.74s/it][A
Training...:  41% 1066/2609 [1:01:16<1:57:20,  4.56s/it][A
Training...:  41% 1067/2609 [1:01:20<1:53:12,  4.40s/it][A
Training...:  41% 1068/2609 [1:01:24<1:49:15,  4.25s/it][A
Training...:  41% 1069/2609 [1:01:28<1:45:59,  4.13s/it][A
Training...:  41% 1070/2609 [1:01:32<1:42:36,  4.00s/it][A
Training...:  41% 1071/2609 [1:01:35<1:39:40,  3.89s/it][A
Training...:  41% 1072/2609 [1:01:39<1:37:14,  3.80s/it][A
Training...:  41% 1073/2609 [1:01:42<1:34:08,  3.68s/it][A
Training...:  41% 1074/2609 [1:01:46<1:31:43,  3.59s/it][A
Training...:  41% 1075/2609 [1:01:49<1:29:12,  3.49s/it][A
Training...:  41% 1076/2609 [1:01:52<1:26:24,  3.38s/it][A
Training...:  41% 1077/2609 [1:01:55<1:24:30,  3.31s/it][A
Training...:  41% 1078/2609 [1:01:58<1:22:35,  3.24s/it][A
Training...:  41% 1079/2609 [1:02:01<1:20:07,  3.14s/it][A
Training...:  41% 1080/2609 [1:02:04<1:17:26,  3.04s/it][A
Training...:  41% 1081/2609 [1:02:07<1:14:56,  2.94s/it][A
Training...:  41% 1082/2609 [1:02:09<1:12:22,  2.84s/it][A
Training...:  42% 1083/2609 [1:02:12<1:09:56,  2.75s/it][A
Training...:  42% 1084/2609 [1:02:14<1:07:26,  2.65s/it][A
Training...:  42% 1085/2609 [1:02:17<1:05:19,  2.57s/it][A
Training...:  42% 1086/2609 [1:02:19<1:02:42,  2.47s/it][A
Training...:  42% 1087/2609 [1:02:21<1:00:12,  2.37s/it][A
Training...:  42% 1088/2609 [1:02:23<57:44,  2.28s/it]  [A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:35:08<43:03:20, 9687.55s/it]
Training...:  42% 1088/2609 [1:02:25<57:44,  2.28s/it][A
Training...:  42% 1089/2609 [1:02:25<58:32,  2.31s/it][A
Training...:  42% 1090/2609 [1:02:27<55:22,  2.19s/it][A
Training...:  42% 1091/2609 [1:02:29<52:18,  2.07s/it][A
Training...:  42% 1092/2609 [1:02:31<49:29,  1.96s/it][A
Training...:  42% 1093/2609 [1:02:32<46:52,  1.86s/it][A
Training...:  42% 1094/2609 [1:02:34<44:01,  1.74s/it][A
Training...:  42% 1095/2609 [1:02:35<41:10,  1.63s/it][A
Training...:  42% 1096/2609 [1:02:37<38:09,  1.51s/it][A
Training...:  42% 1097/2609 [1:02:38<35:15,  1.40s/it][A
Training...:  42% 1098/2609 [1:02:39<31:51,  1.26s/it][A
Training...:  42% 1099/2609 [1:02:39<28:02,  1.11s/it][A
Training...:  42% 1100/2609 [1:02:40<23:38,  1.06it/s][A
Training...:  42% 1101/2609 [1:02:47<1:11:21,  2.84s/it][A
Training...:  42% 1102/2609 [1:02:54<1:43:43,  4.13s/it][A
Training...:  42% 1103/2609 [1:03:01<2:03:08,  4.91s/it][A
Training...:  42% 1104/2609 [1:03:07<2:14:05,  5.35s/it][A
Training...:  42% 1105/2609 [1:03:13<2:19:13,  5.55s/it][A
Training...:  42% 1106/2609 [1:03:19<2:21:17,  5.64s/it][A
Training...:  42% 1107/2609 [1:03:25<2:20:33,  5.61s/it][A
Training...:  42% 1108/2609 [1:03:30<2:17:52,  5.51s/it][A
Training...:  43% 1109/2609 [1:03:35<2:14:47,  5.39s/it][A
Training...:  43% 1110/2609 [1:03:40<2:11:17,  5.26s/it][A
Training...:  43% 1111/2609 [1:03:45<2:09:01,  5.17s/it][A
Training...:  43% 1112/2609 [1:03:50<2:05:29,  5.03s/it][A
Training...:  43% 1113/2609 [1:03:54<2:02:14,  4.90s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:36:42<43:03:20, 9687.55s/it]
Training...:  43% 1113/2609 [1:04:00<2:02:14,  4.90s/it][A
Training...:  43% 1114/2609 [1:04:00<2:04:02,  4.98s/it][A
Training...:  43% 1115/2609 [1:04:04<1:58:58,  4.78s/it][A
Training...:  43% 1116/2609 [1:04:08<1:54:21,  4.60s/it][A
Training...:  43% 1117/2609 [1:04:12<1:50:25,  4.44s/it][A
Training...:  43% 1118/2609 [1:04:16<1:47:43,  4.33s/it][A
Training...:  43% 1119/2609 [1:04:20<1:44:51,  4.22s/it][A
Training...:  43% 1120/2609 [1:04:24<1:41:13,  4.08s/it][A
Training...:  43% 1121/2609 [1:04:28<1:37:45,  3.94s/it][A
Training...:  43% 1122/2609 [1:04:31<1:34:46,  3.82s/it][A
Training...:  43% 1123/2609 [1:04:35<1:32:18,  3.73s/it][A
Training...:  43% 1124/2609 [1:04:38<1:29:31,  3.62s/it][A
Training...:  43% 1125/2609 [1:04:41<1:26:53,  3.51s/it][A
Training...:  43% 1126/2609 [1:04:45<1:24:54,  3.44s/it][A
Training...:  43% 1127/2609 [1:04:48<1:22:43,  3.35s/it][A
Training...:  43% 1128/2609 [1:04:51<1:20:24,  3.26s/it][A
Training...:  43% 1129/2609 [1:04:54<1:18:27,  3.18s/it][A
Training...:  43% 1130/2609 [1:04:57<1:15:58,  3.08s/it][A
Training...:  43% 1131/2609 [1:04:59<1:13:50,  3.00s/it][A
Training...:  43% 1132/2609 [1:05:02<1:11:32,  2.91s/it][A
Training...:  43% 1133/2609 [1:05:05<1:09:18,  2.82s/it][A
Training...:  43% 1134/2609 [1:05:07<1:07:14,  2.74s/it][A
Training...:  44% 1135/2609 [1:05:10<1:04:58,  2.64s/it][A
Training...:  44% 1136/2609 [1:05:12<1:02:52,  2.56s/it][A
Training...:  44% 1137/2609 [1:05:14<1:00:45,  2.48s/it][A
Training...:  44% 1138/2609 [1:05:16<58:16,  2.38s/it]  [A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:38:01<43:03:20, 9687.55s/it]
Training...:  44% 1138/2609 [1:05:19<58:16,  2.38s/it][A
Training...:  44% 1139/2609 [1:05:19<58:52,  2.40s/it][A
Training...:  44% 1140/2609 [1:05:21<55:33,  2.27s/it][A
Training...:  44% 1141/2609 [1:05:23<52:23,  2.14s/it][A
Training...:  44% 1142/2609 [1:05:24<49:33,  2.03s/it][A
Training...:  44% 1143/2609 [1:05:26<46:44,  1.91s/it][A
Training...:  44% 1144/2609 [1:05:28<44:03,  1.80s/it][A
Training...:  44% 1145/2609 [1:05:29<41:15,  1.69s/it][A
Training...:  44% 1146/2609 [1:05:30<38:11,  1.57s/it][A
Training...:  44% 1147/2609 [1:05:32<35:19,  1.45s/it][A
Training...:  44% 1148/2609 [1:05:33<31:58,  1.31s/it][A
Training...:  44% 1149/2609 [1:05:33<28:19,  1.16s/it][A
Training...:  44% 1150/2609 [1:05:34<24:02,  1.01it/s][A
Training...:  44% 1151/2609 [1:05:41<1:08:44,  2.83s/it][A
Training...:  44% 1152/2609 [1:05:48<1:40:29,  4.14s/it][A
Training...:  44% 1153/2609 [1:05:55<1:59:13,  4.91s/it][A
Training...:  44% 1154/2609 [1:06:01<2:10:16,  5.37s/it][A
Training...:  44% 1155/2609 [1:06:07<2:14:23,  5.55s/it][A
Training...:  44% 1156/2609 [1:06:13<2:15:42,  5.60s/it][A
Training...:  44% 1157/2609 [1:06:19<2:14:30,  5.56s/it][A
Training...:  44% 1158/2609 [1:06:24<2:12:11,  5.47s/it][A
Training...:  44% 1159/2609 [1:06:29<2:09:03,  5.34s/it][A
Training...:  44% 1160/2609 [1:06:34<2:06:11,  5.23s/it][A
Training...:  44% 1161/2609 [1:06:39<2:03:41,  5.13s/it][A
Training...:  45% 1162/2609 [1:06:43<1:59:51,  4.97s/it][A
Training...:  45% 1163/2609 [1:06:48<1:56:11,  4.82s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:39:35<43:03:20, 9687.55s/it]
Training...:  45% 1163/2609 [1:06:53<1:56:11,  4.82s/it][A
Training...:  45% 1164/2609 [1:06:53<1:57:25,  4.88s/it][A
Training...:  45% 1165/2609 [1:06:57<1:52:51,  4.69s/it][A
Training...:  45% 1166/2609 [1:07:01<1:48:08,  4.50s/it][A
Training...:  45% 1167/2609 [1:07:05<1:44:26,  4.35s/it][A
Training...:  45% 1168/2609 [1:07:09<1:40:52,  4.20s/it][A
Training...:  45% 1169/2609 [1:07:13<1:37:40,  4.07s/it][A
Training...:  45% 1170/2609 [1:07:16<1:34:22,  3.94s/it][A
Training...:  45% 1171/2609 [1:07:20<1:31:55,  3.84s/it][A
Training...:  45% 1172/2609 [1:07:23<1:29:06,  3.72s/it][A
Training...:  45% 1173/2609 [1:07:27<1:26:36,  3.62s/it][A
Training...:  45% 1174/2609 [1:07:30<1:24:15,  3.52s/it][A
Training...:  45% 1175/2609 [1:07:33<1:21:50,  3.42s/it][A
Training...:  45% 1176/2609 [1:07:36<1:19:39,  3.34s/it][A
Training...:  45% 1177/2609 [1:07:39<1:17:35,  3.25s/it][A
Training...:  45% 1178/2609 [1:07:42<1:15:35,  3.17s/it][A
Training...:  45% 1179/2609 [1:07:45<1:13:47,  3.10s/it][A
Training...:  45% 1180/2609 [1:07:48<1:11:38,  3.01s/it][A
Training...:  45% 1181/2609 [1:07:51<1:09:56,  2.94s/it][A
Training...:  45% 1182/2609 [1:07:54<1:07:55,  2.86s/it][A
Training...:  45% 1183/2609 [1:07:56<1:06:11,  2.79s/it][A
Training...:  45% 1184/2609 [1:07:59<1:04:08,  2.70s/it][A
Training...:  45% 1185/2609 [1:08:01<1:02:06,  2.62s/it][A
Training...:  45% 1186/2609 [1:08:03<59:52,  2.52s/it]  [A
Training...:  45% 1187/2609 [1:08:06<57:53,  2.44s/it][A
Training...:  46% 1188/2609 [1:08:08<55:25,  2.34s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:40:52<43:03:20, 9687.55s/it]
Training...:  46% 1188/2609 [1:08:10<55:25,  2.34s/it][A
Training...:  46% 1189/2609 [1:08:10<56:17,  2.38s/it][A
Training...:  46% 1190/2609 [1:08:12<53:05,  2.24s/it][A
Training...:  46% 1191/2609 [1:08:14<50:14,  2.13s/it][A
Training...:  46% 1192/2609 [1:08:16<47:33,  2.01s/it][A
Training...:  46% 1193/2609 [1:08:17<45:22,  1.92s/it][A
Training...:  46% 1194/2609 [1:08:19<42:45,  1.81s/it][A
Training...:  46% 1195/2609 [1:08:21<40:09,  1.70s/it][A
Training...:  46% 1196/2609 [1:08:22<37:39,  1.60s/it][A
Training...:  46% 1197/2609 [1:08:23<34:54,  1.48s/it][A
Training...:  46% 1198/2609 [1:08:24<31:52,  1.36s/it][A
Training...:  46% 1199/2609 [1:08:25<28:16,  1.20s/it][A
Training...:  46% 1200/2609 [1:08:26<23:40,  1.01s/it][A
Training...:  46% 1201/2609 [1:08:33<1:08:21,  2.91s/it][A
Training...:  46% 1202/2609 [1:08:40<1:38:50,  4.21s/it][A
Training...:  46% 1203/2609 [1:08:47<1:55:19,  4.92s/it][A
Training...:  46% 1204/2609 [1:08:53<2:05:25,  5.36s/it][A
Training...:  46% 1205/2609 [1:08:59<2:10:27,  5.58s/it][A
Training...:  46% 1206/2609 [1:09:05<2:10:57,  5.60s/it][A
Training...:  46% 1207/2609 [1:09:10<2:10:43,  5.59s/it][A
Training...:  46% 1208/2609 [1:09:16<2:08:26,  5.50s/it][A
Training...:  46% 1209/2609 [1:09:21<2:05:35,  5.38s/it][A
Training...:  46% 1210/2609 [1:09:26<2:02:06,  5.24s/it][A
Training...:  46% 1211/2609 [1:09:31<1:59:05,  5.11s/it][A
Training...:  46% 1212/2609 [1:09:35<1:55:48,  4.97s/it][A
Training...:  46% 1213/2609 [1:09:40<1:52:36,  4.84s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:42:27<43:03:20, 9687.55s/it]
Training...:  46% 1213/2609 [1:09:45<1:52:36,  4.84s/it][A
Training...:  47% 1214/2609 [1:09:45<1:53:52,  4.90s/it][A
Training...:  47% 1215/2609 [1:09:49<1:49:06,  4.70s/it][A
Training...:  47% 1216/2609 [1:09:53<1:44:42,  4.51s/it][A
Training...:  47% 1217/2609 [1:09:57<1:41:41,  4.38s/it][A
Training...:  47% 1218/2609 [1:10:01<1:37:55,  4.22s/it][A
Training...:  47% 1219/2609 [1:10:05<1:35:15,  4.11s/it][A
Training...:  47% 1220/2609 [1:10:08<1:32:11,  3.98s/it][A
Training...:  47% 1221/2609 [1:10:12<1:30:02,  3.89s/it][A
Training...:  47% 1222/2609 [1:10:16<1:27:20,  3.78s/it][A
Training...:  47% 1223/2609 [1:10:19<1:24:58,  3.68s/it][A
Training...:  47% 1224/2609 [1:10:23<1:22:47,  3.59s/it][A
Training...:  47% 1225/2609 [1:10:26<1:20:44,  3.50s/it][A
Training...:  47% 1226/2609 [1:10:29<1:18:21,  3.40s/it][A
Training...:  47% 1227/2609 [1:10:32<1:15:57,  3.30s/it][A
Training...:  47% 1228/2609 [1:10:35<1:13:59,  3.21s/it][A
Training...:  47% 1229/2609 [1:10:38<1:11:54,  3.13s/it][A
Training...:  47% 1230/2609 [1:10:41<1:09:59,  3.05s/it][A
Training...:  47% 1231/2609 [1:10:44<1:08:10,  2.97s/it][A
Training...:  47% 1232/2609 [1:10:46<1:06:12,  2.88s/it][A
Training...:  47% 1233/2609 [1:10:49<1:04:12,  2.80s/it][A
Training...:  47% 1234/2609 [1:10:51<1:01:59,  2.70s/it][A
Training...:  47% 1235/2609 [1:10:54<59:44,  2.61s/it]  [A
Training...:  47% 1236/2609 [1:10:56<57:21,  2.51s/it][A
Training...:  47% 1237/2609 [1:10:58<55:27,  2.43s/it][A
Training...:  47% 1238/2609 [1:11:00<53:05,  2.32s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:43:45<43:03:20, 9687.55s/it]
Training...:  47% 1238/2609 [1:11:03<53:05,  2.32s/it][A
Training...:  47% 1239/2609 [1:11:03<53:42,  2.35s/it][A
Training...:  48% 1240/2609 [1:11:05<50:45,  2.22s/it][A
Training...:  48% 1241/2609 [1:11:07<48:07,  2.11s/it][A
Training...:  48% 1242/2609 [1:11:08<45:32,  2.00s/it][A
Training...:  48% 1243/2609 [1:11:10<43:23,  1.91s/it][A
Training...:  48% 1244/2609 [1:11:12<41:05,  1.81s/it][A
Training...:  48% 1245/2609 [1:11:13<38:39,  1.70s/it][A
Training...:  48% 1246/2609 [1:11:14<36:05,  1.59s/it][A
Training...:  48% 1247/2609 [1:11:16<33:17,  1.47s/it][A
Training...:  48% 1248/2609 [1:11:17<30:14,  1.33s/it][A
Training...:  48% 1249/2609 [1:11:17<26:43,  1.18s/it][A
Training...:  48% 1250/2609 [1:11:18<22:40,  1.00s/it][A
Training...:  48% 1251/2609 [1:11:25<1:04:36,  2.85s/it][A
Training...:  48% 1252/2609 [1:11:32<1:32:40,  4.10s/it][A
Training...:  48% 1253/2609 [1:11:39<1:49:56,  4.86s/it][A
Training...:  48% 1254/2609 [1:11:45<1:59:29,  5.29s/it][A
Training...:  48% 1255/2609 [1:11:51<2:04:54,  5.54s/it][A
Training...:  48% 1256/2609 [1:11:57<2:06:30,  5.61s/it][A
Training...:  48% 1257/2609 [1:12:03<2:06:21,  5.61s/it][A
Training...:  48% 1258/2609 [1:12:08<2:04:05,  5.51s/it][A
Training...:  48% 1259/2609 [1:12:13<2:02:03,  5.42s/it][A
Training...:  48% 1260/2609 [1:12:18<1:58:30,  5.27s/it][A
Training...:  48% 1261/2609 [1:12:23<1:55:58,  5.16s/it][A
Training...:  48% 1262/2609 [1:12:28<1:52:24,  5.01s/it][A
Training...:  48% 1263/2609 [1:12:32<1:49:18,  4.87s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:45:19<43:03:20, 9687.55s/it]
Training...:  48% 1263/2609 [1:12:37<1:49:18,  4.87s/it][A
Training...:  48% 1264/2609 [1:12:37<1:50:25,  4.93s/it][A
Training...:  48% 1265/2609 [1:12:41<1:46:10,  4.74s/it][A
Training...:  49% 1266/2609 [1:12:46<1:41:59,  4.56s/it][A
Training...:  49% 1267/2609 [1:12:50<1:38:13,  4.39s/it][A
Training...:  49% 1268/2609 [1:12:53<1:34:45,  4.24s/it][A
Training...:  49% 1269/2609 [1:12:57<1:31:51,  4.11s/it][A
Training...:  49% 1270/2609 [1:13:01<1:29:41,  4.02s/it][A
Training...:  49% 1271/2609 [1:13:05<1:27:02,  3.90s/it][A
Training...:  49% 1272/2609 [1:13:08<1:24:15,  3.78s/it][A
Training...:  49% 1273/2609 [1:13:12<1:21:45,  3.67s/it][A
Training...:  49% 1274/2609 [1:13:15<1:19:32,  3.58s/it][A
Training...:  49% 1275/2609 [1:13:18<1:17:25,  3.48s/it][A
Training...:  49% 1276/2609 [1:13:21<1:14:43,  3.36s/it][A
Training...:  49% 1277/2609 [1:13:24<1:12:39,  3.27s/it][A
Training...:  49% 1278/2609 [1:13:27<1:10:27,  3.18s/it][A
Training...:  49% 1279/2609 [1:13:30<1:08:38,  3.10s/it][A
Training...:  49% 1280/2609 [1:13:33<1:06:47,  3.02s/it][A
Training...:  49% 1281/2609 [1:13:36<1:04:44,  2.93s/it][A
Training...:  49% 1282/2609 [1:13:38<1:02:57,  2.85s/it][A
Training...:  49% 1283/2609 [1:13:41<1:01:00,  2.76s/it][A
Training...:  49% 1284/2609 [1:13:43<58:57,  2.67s/it]  [A
Training...:  49% 1285/2609 [1:13:46<56:45,  2.57s/it][A
Training...:  49% 1286/2609 [1:13:48<54:49,  2.49s/it][A
Training...:  49% 1287/2609 [1:13:50<53:07,  2.41s/it][A
Training...:  49% 1288/2609 [1:13:52<51:12,  2.33s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:46:37<43:03:20, 9687.55s/it]
Training...:  49% 1288/2609 [1:13:55<51:12,  2.33s/it][A
Training...:  49% 1289/2609 [1:13:55<52:05,  2.37s/it][A
Training...:  49% 1290/2609 [1:13:57<49:18,  2.24s/it][A
Training...:  49% 1291/2609 [1:13:59<46:37,  2.12s/it][A
Training...:  50% 1292/2609 [1:14:00<44:09,  2.01s/it][A
Training...:  50% 1293/2609 [1:14:02<41:47,  1.91s/it][A
Training...:  50% 1294/2609 [1:14:04<39:01,  1.78s/it][A
Training...:  50% 1295/2609 [1:14:05<36:21,  1.66s/it][A
Training...:  50% 1296/2609 [1:14:06<33:40,  1.54s/it][A
Training...:  50% 1297/2609 [1:14:07<30:49,  1.41s/it][A
Training...:  50% 1298/2609 [1:14:08<27:52,  1.28s/it][A
Training...:  50% 1299/2609 [1:14:09<24:33,  1.12s/it][A
Training...:  50% 1300/2609 [1:14:10<20:51,  1.05it/s][A
Training...:  50% 1301/2609 [1:14:17<1:01:21,  2.81s/it][A
Training...:  50% 1302/2609 [1:14:24<1:29:36,  4.11s/it][A
Training...:  50% 1303/2609 [1:14:31<1:46:10,  4.88s/it][A
Training...:  50% 1304/2609 [1:14:37<1:56:18,  5.35s/it][A
Training...:  50% 1305/2609 [1:14:43<2:00:41,  5.55s/it][A
Training...:  50% 1306/2609 [1:14:49<2:01:57,  5.62s/it][A
Training...:  50% 1307/2609 [1:14:54<2:01:46,  5.61s/it][A
Training...:  50% 1308/2609 [1:15:00<2:00:21,  5.55s/it][A
Training...:  50% 1309/2609 [1:15:05<1:58:54,  5.49s/it][A
Training...:  50% 1310/2609 [1:15:10<1:55:52,  5.35s/it][A
Training...:  50% 1311/2609 [1:15:15<1:53:23,  5.24s/it][A
Training...:  50% 1312/2609 [1:15:20<1:49:28,  5.06s/it][A
Training...:  50% 1313/2609 [1:15:24<1:46:11,  4.92s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:48:12<43:03:20, 9687.55s/it]
Training...:  50% 1313/2609 [1:15:30<1:46:11,  4.92s/it][A
Training...:  50% 1314/2609 [1:15:30<1:47:11,  4.97s/it][A
Training...:  50% 1315/2609 [1:15:34<1:42:53,  4.77s/it][A
Training...:  50% 1316/2609 [1:15:38<1:38:45,  4.58s/it][A
Training...:  50% 1317/2609 [1:15:42<1:35:15,  4.42s/it][A
Training...:  51% 1318/2609 [1:15:46<1:31:55,  4.27s/it][A
Training...:  51% 1319/2609 [1:15:50<1:28:50,  4.13s/it][A
Training...:  51% 1320/2609 [1:15:54<1:26:22,  4.02s/it][A
Training...:  51% 1321/2609 [1:15:57<1:24:24,  3.93s/it][A
Training...:  51% 1322/2609 [1:16:01<1:22:35,  3.85s/it][A
Training...:  51% 1323/2609 [1:16:04<1:19:55,  3.73s/it][A
Training...:  51% 1324/2609 [1:16:08<1:17:08,  3.60s/it][A
Training...:  51% 1325/2609 [1:16:11<1:14:25,  3.48s/it][A
Training...:  51% 1326/2609 [1:16:14<1:12:07,  3.37s/it][A
Training...:  51% 1327/2609 [1:16:17<1:09:58,  3.28s/it][A
Training...:  51% 1328/2609 [1:16:20<1:07:51,  3.18s/it][A
Training...:  51% 1329/2609 [1:16:23<1:05:51,  3.09s/it][A
Training...:  51% 1330/2609 [1:16:26<1:03:54,  3.00s/it][A
Training...:  51% 1331/2609 [1:16:28<1:02:02,  2.91s/it][A
Training...:  51% 1332/2609 [1:16:31<59:53,  2.81s/it]  [A
Training...:  51% 1333/2609 [1:16:33<57:58,  2.73s/it][A
Training...:  51% 1334/2609 [1:16:36<55:58,  2.63s/it][A
Training...:  51% 1335/2609 [1:16:38<54:13,  2.55s/it][A
Training...:  51% 1336/2609 [1:16:41<52:16,  2.46s/it][A
Training...:  51% 1337/2609 [1:16:43<50:34,  2.39s/it][A
Training...:  51% 1338/2609 [1:16:45<48:57,  2.31s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:49:29<43:03:20, 9687.55s/it]
Training...:  51% 1338/2609 [1:16:47<48:57,  2.31s/it][A
Training...:  51% 1339/2609 [1:16:47<49:29,  2.34s/it][A
Training...:  51% 1340/2609 [1:16:49<46:50,  2.21s/it][A
Training...:  51% 1341/2609 [1:16:51<44:14,  2.09s/it][A
Training...:  51% 1342/2609 [1:16:53<41:54,  1.98s/it][A
Training...:  51% 1343/2609 [1:16:54<39:41,  1.88s/it][A
Training...:  52% 1344/2609 [1:16:56<37:19,  1.77s/it][A
Training...:  52% 1345/2609 [1:16:57<35:00,  1.66s/it][A
Training...:  52% 1346/2609 [1:16:59<32:37,  1.55s/it][A
Training...:  52% 1347/2609 [1:17:00<30:07,  1.43s/it][A
Training...:  52% 1348/2609 [1:17:01<27:36,  1.31s/it][A
Training...:  52% 1349/2609 [1:17:02<24:24,  1.16s/it][A
Training...:  52% 1350/2609 [1:17:02<20:34,  1.02it/s][A
Training...:  52% 1351/2609 [1:17:09<1:00:01,  2.86s/it][A
Training...:  52% 1352/2609 [1:17:17<1:28:27,  4.22s/it][A
Training...:  52% 1353/2609 [1:17:24<1:44:09,  4.98s/it][A
Training...:  52% 1354/2609 [1:17:30<1:53:43,  5.44s/it][A
Training...:  52% 1355/2609 [1:17:36<1:58:05,  5.65s/it][A
Training...:  52% 1356/2609 [1:17:42<1:59:33,  5.72s/it][A
Training...:  52% 1357/2609 [1:17:48<1:59:27,  5.72s/it][A
Training...:  52% 1358/2609 [1:17:53<1:57:43,  5.65s/it][A
Training...:  52% 1359/2609 [1:17:59<1:55:12,  5.53s/it][A
Training...:  52% 1360/2609 [1:18:04<1:52:29,  5.40s/it][A
Training...:  52% 1361/2609 [1:18:09<1:49:54,  5.28s/it][A
Training...:  52% 1362/2609 [1:18:13<1:47:06,  5.15s/it][A
Training...:  52% 1363/2609 [1:18:18<1:45:04,  5.06s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:51:06<43:03:20, 9687.55s/it]
Training...:  52% 1363/2609 [1:18:24<1:45:04,  5.06s/it][A
Training...:  52% 1364/2609 [1:18:24<1:46:22,  5.13s/it][A
Training...:  52% 1365/2609 [1:18:28<1:40:43,  4.86s/it][A
Training...:  52% 1366/2609 [1:18:32<1:36:10,  4.64s/it][A
Training...:  52% 1367/2609 [1:18:36<1:32:28,  4.47s/it][A
Training...:  52% 1368/2609 [1:18:40<1:29:27,  4.33s/it][A
Training...:  52% 1369/2609 [1:18:44<1:26:23,  4.18s/it][A
Training...:  53% 1370/2609 [1:18:48<1:23:26,  4.04s/it][A
Training...:  53% 1371/2609 [1:18:51<1:21:05,  3.93s/it][A
Training...:  53% 1372/2609 [1:18:55<1:18:28,  3.81s/it][A
Training...:  53% 1373/2609 [1:18:58<1:16:08,  3.70s/it][A
Training...:  53% 1374/2609 [1:19:02<1:13:58,  3.59s/it][A
Training...:  53% 1375/2609 [1:19:05<1:12:08,  3.51s/it][A
Training...:  53% 1376/2609 [1:19:08<1:10:08,  3.41s/it][A
Training...:  53% 1377/2609 [1:19:11<1:08:11,  3.32s/it][A
Training...:  53% 1378/2609 [1:19:14<1:06:25,  3.24s/it][A
Training...:  53% 1379/2609 [1:19:17<1:04:24,  3.14s/it][A
Training...:  53% 1380/2609 [1:19:20<1:02:33,  3.05s/it][A
Training...:  53% 1381/2609 [1:19:23<1:00:50,  2.97s/it][A
Training...:  53% 1382/2609 [1:19:25<59:00,  2.89s/it]  [A
Training...:  53% 1383/2609 [1:19:28<57:00,  2.79s/it][A
Training...:  53% 1384/2609 [1:19:31<55:03,  2.70s/it][A
Training...:  53% 1385/2609 [1:19:33<53:17,  2.61s/it][A
Training...:  53% 1386/2609 [1:19:35<51:30,  2.53s/it][A
Training...:  53% 1387/2609 [1:19:37<49:42,  2.44s/it][A
Training...:  53% 1388/2609 [1:19:40<47:43,  2.35s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:52:24<43:03:20, 9687.55s/it]
Training...:  53% 1388/2609 [1:19:42<47:43,  2.35s/it][A
Training...:  53% 1389/2609 [1:19:42<48:30,  2.39s/it][A
Training...:  53% 1390/2609 [1:19:44<45:42,  2.25s/it][A
Training...:  53% 1391/2609 [1:19:46<43:15,  2.13s/it][A
Training...:  53% 1392/2609 [1:19:48<40:42,  2.01s/it][A
Training...:  53% 1393/2609 [1:19:49<38:28,  1.90s/it][A
Training...:  53% 1394/2609 [1:19:51<36:07,  1.78s/it][A
Training...:  53% 1395/2609 [1:19:52<33:45,  1.67s/it][A
Training...:  54% 1396/2609 [1:19:53<31:22,  1.55s/it][A
Training...:  54% 1397/2609 [1:19:55<28:57,  1.43s/it][A
Training...:  54% 1398/2609 [1:19:56<26:21,  1.31s/it][A
Training...:  54% 1399/2609 [1:19:56<23:25,  1.16s/it][A
Training...:  54% 1400/2609 [1:19:57<19:42,  1.02it/s][A
Training...:  54% 1401/2609 [1:20:04<58:49,  2.92s/it][A
Training...:  54% 1402/2609 [1:20:12<1:25:07,  4.23s/it][A
Training...:  54% 1403/2609 [1:20:19<1:40:54,  5.02s/it][A
Training...:  54% 1404/2609 [1:20:25<1:50:23,  5.50s/it][A
Training...:  54% 1405/2609 [1:20:31<1:54:33,  5.71s/it][A
Training...:  54% 1406/2609 [1:20:37<1:55:34,  5.76s/it][A
Training...:  54% 1407/2609 [1:20:43<1:54:48,  5.73s/it][A
Training...:  54% 1408/2609 [1:20:49<1:54:19,  5.71s/it][A
Training...:  54% 1409/2609 [1:20:54<1:52:44,  5.64s/it][A
Training...:  54% 1410/2609 [1:20:59<1:49:37,  5.49s/it][A
Training...:  54% 1411/2609 [1:21:04<1:46:53,  5.35s/it][A
Training...:  54% 1412/2609 [1:21:09<1:43:43,  5.20s/it][A
Training...:  54% 1413/2609 [1:21:14<1:40:54,  5.06s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:54:01<43:03:20, 9687.55s/it]
Training...:  54% 1413/2609 [1:21:19<1:40:54,  5.06s/it][A
Training...:  54% 1414/2609 [1:21:19<1:41:46,  5.11s/it][A
Training...:  54% 1415/2609 [1:21:23<1:36:49,  4.87s/it][A
Training...:  54% 1416/2609 [1:21:28<1:32:34,  4.66s/it][A
Training...:  54% 1417/2609 [1:21:32<1:28:46,  4.47s/it][A
Training...:  54% 1418/2609 [1:21:35<1:25:25,  4.30s/it][A
Training...:  54% 1419/2609 [1:21:39<1:22:46,  4.17s/it][A
Training...:  54% 1420/2609 [1:21:43<1:19:55,  4.03s/it][A
Training...:  54% 1421/2609 [1:21:47<1:17:34,  3.92s/it][A
Training...:  55% 1422/2609 [1:21:50<1:15:16,  3.80s/it][A
Training...:  55% 1423/2609 [1:21:54<1:12:46,  3.68s/it][A
Training...:  55% 1424/2609 [1:21:57<1:10:31,  3.57s/it][A
Training...:  55% 1425/2609 [1:22:00<1:08:31,  3.47s/it][A
Training...:  55% 1426/2609 [1:22:03<1:06:24,  3.37s/it][A
Training...:  55% 1427/2609 [1:22:06<1:04:21,  3.27s/it][A
Training...:  55% 1428/2609 [1:22:09<1:02:30,  3.18s/it][A
Training...:  55% 1429/2609 [1:22:12<1:00:47,  3.09s/it][A
Training...:  55% 1430/2609 [1:22:15<58:53,  3.00s/it]  [A
Training...:  55% 1431/2609 [1:22:18<56:56,  2.90s/it][A
Training...:  55% 1432/2609 [1:22:20<55:12,  2.81s/it][A
Training...:  55% 1433/2609 [1:22:23<53:21,  2.72s/it][A
Training...:  55% 1434/2609 [1:22:25<51:29,  2.63s/it][A
Training...:  55% 1435/2609 [1:22:28<49:52,  2.55s/it][A
Training...:  55% 1436/2609 [1:22:30<48:02,  2.46s/it][A
Training...:  55% 1437/2609 [1:22:32<46:19,  2.37s/it][A
Training...:  55% 1438/2609 [1:22:34<44:38,  2.29s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:55:19<43:03:20, 9687.55s/it]
Training...:  55% 1438/2609 [1:22:36<44:38,  2.29s/it][A
Training...:  55% 1439/2609 [1:22:36<45:32,  2.34s/it][A
Training...:  55% 1440/2609 [1:22:38<43:30,  2.23s/it][A
Training...:  55% 1441/2609 [1:22:40<41:20,  2.12s/it][A
Training...:  55% 1442/2609 [1:22:42<39:04,  2.01s/it][A
Training...:  55% 1443/2609 [1:22:44<37:03,  1.91s/it][A
Training...:  55% 1444/2609 [1:22:45<34:55,  1.80s/it][A
Training...:  55% 1445/2609 [1:22:47<33:02,  1.70s/it][A
Training...:  55% 1446/2609 [1:22:48<30:36,  1.58s/it][A
Training...:  55% 1447/2609 [1:22:49<28:07,  1.45s/it][A
Training...:  56% 1448/2609 [1:22:50<25:24,  1.31s/it][A
Training...:  56% 1449/2609 [1:22:51<22:25,  1.16s/it][A
Training...:  56% 1450/2609 [1:22:52<18:56,  1.02it/s][A
Training...:  56% 1451/2609 [1:22:59<54:30,  2.82s/it][A
Training...:  56% 1452/2609 [1:23:06<1:19:10,  4.11s/it][A
Training...:  56% 1453/2609 [1:23:12<1:33:41,  4.86s/it][A
Training...:  56% 1454/2609 [1:23:19<1:42:21,  5.32s/it][A
Training...:  56% 1455/2609 [1:23:25<1:45:50,  5.50s/it][A
Training...:  56% 1456/2609 [1:23:31<1:48:08,  5.63s/it][A
Training...:  56% 1457/2609 [1:23:36<1:47:57,  5.62s/it][A
Training...:  56% 1458/2609 [1:23:42<1:45:36,  5.50s/it][A
Training...:  56% 1459/2609 [1:23:47<1:43:28,  5.40s/it][A
Training...:  56% 1460/2609 [1:23:52<1:40:45,  5.26s/it][A
Training...:  56% 1461/2609 [1:23:56<1:38:12,  5.13s/it][A
Training...:  56% 1462/2609 [1:24:01<1:35:22,  4.99s/it][A
Training...:  56% 1463/2609 [1:24:06<1:32:38,  4.85s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:56:53<43:03:20, 9687.55s/it]
Training...:  56% 1463/2609 [1:24:11<1:32:38,  4.85s/it][A
Training...:  56% 1464/2609 [1:24:11<1:34:20,  4.94s/it][A
Training...:  56% 1465/2609 [1:24:15<1:30:26,  4.74s/it][A
Training...:  56% 1466/2609 [1:24:19<1:26:46,  4.55s/it][A
Training...:  56% 1467/2609 [1:24:23<1:23:50,  4.40s/it][A
Training...:  56% 1468/2609 [1:24:27<1:21:14,  4.27s/it][A
Training...:  56% 1469/2609 [1:24:31<1:18:58,  4.16s/it][A
Training...:  56% 1470/2609 [1:24:35<1:16:29,  4.03s/it][A
Training...:  56% 1471/2609 [1:24:38<1:14:18,  3.92s/it][A
Training...:  56% 1472/2609 [1:24:42<1:11:51,  3.79s/it][A
Training...:  56% 1473/2609 [1:24:45<1:09:53,  3.69s/it][A
Training...:  56% 1474/2609 [1:24:49<1:07:47,  3.58s/it][A
Training...:  57% 1475/2609 [1:24:52<1:05:56,  3.49s/it][A
Training...:  57% 1476/2609 [1:24:55<1:04:53,  3.44s/it][A
Training...:  57% 1477/2609 [1:24:58<1:03:07,  3.35s/it][A
Training...:  57% 1478/2609 [1:25:02<1:01:22,  3.26s/it][A
Training...:  57% 1479/2609 [1:25:04<59:31,  3.16s/it]  [A
Training...:  57% 1480/2609 [1:25:07<57:58,  3.08s/it][A
Training...:  57% 1481/2609 [1:25:10<56:19,  3.00s/it][A
Training...:  57% 1482/2609 [1:25:13<54:24,  2.90s/it][A
Training...:  57% 1483/2609 [1:25:15<52:33,  2.80s/it][A
Training...:  57% 1484/2609 [1:25:18<51:02,  2.72s/it][A
Training...:  57% 1485/2609 [1:25:20<49:38,  2.65s/it][A
Training...:  57% 1486/2609 [1:25:23<48:01,  2.57s/it][A
Training...:  57% 1487/2609 [1:25:25<46:20,  2.48s/it][A
Training...:  57% 1488/2609 [1:25:27<45:05,  2.41s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:58:12<43:03:20, 9687.55s/it]
Training...:  57% 1488/2609 [1:25:30<45:05,  2.41s/it][A
Training...:  57% 1489/2609 [1:25:30<45:24,  2.43s/it][A
Training...:  57% 1490/2609 [1:25:32<42:49,  2.30s/it][A
Training...:  57% 1491/2609 [1:25:34<40:26,  2.17s/it][A
Training...:  57% 1492/2609 [1:25:35<38:15,  2.06s/it][A
Training...:  57% 1493/2609 [1:25:37<36:13,  1.95s/it][A
Training...:  57% 1494/2609 [1:25:39<34:04,  1.83s/it][A
Training...:  57% 1495/2609 [1:25:40<32:07,  1.73s/it][A
Training...:  57% 1496/2609 [1:25:42<29:53,  1.61s/it][A
Training...:  57% 1497/2609 [1:25:43<27:47,  1.50s/it][A
Training...:  57% 1498/2609 [1:25:44<25:25,  1.37s/it][A
Training...:  57% 1499/2609 [1:25:45<22:32,  1.22s/it][A
Training...:  57% 1500/2609 [1:25:45<19:05,  1.03s/it][A
Training...:  58% 1501/2609 [1:25:52<53:08,  2.88s/it][A
Training...:  58% 1502/2609 [1:26:00<1:16:18,  4.14s/it][A
Training...:  58% 1503/2609 [1:26:06<1:29:16,  4.84s/it][A
Training...:  58% 1504/2609 [1:26:12<1:37:31,  5.30s/it][A
Training...:  58% 1505/2609 [1:26:18<1:41:17,  5.50s/it][A
Training...:  58% 1506/2609 [1:26:24<1:42:35,  5.58s/it][A
Training...:  58% 1507/2609 [1:26:30<1:42:21,  5.57s/it][A
Training...:  58% 1508/2609 [1:26:35<1:40:19,  5.47s/it][A
Training...:  58% 1509/2609 [1:26:40<1:38:38,  5.38s/it][A
Training...:  58% 1510/2609 [1:26:45<1:36:57,  5.29s/it][A
Training...:  58% 1511/2609 [1:26:50<1:35:04,  5.20s/it][A
Training...:  58% 1512/2609 [1:26:55<1:31:41,  5.01s/it][A
Training...:  58% 1513/2609 [1:26:59<1:28:33,  4.85s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [11:59:46<43:03:20, 9687.55s/it]
Training...:  58% 1513/2609 [1:27:04<1:28:33,  4.85s/it][A
Training...:  58% 1514/2609 [1:27:04<1:29:08,  4.88s/it][A
Training...:  58% 1515/2609 [1:27:08<1:25:35,  4.69s/it][A
Training...:  58% 1516/2609 [1:27:12<1:21:55,  4.50s/it][A
Training...:  58% 1517/2609 [1:27:16<1:18:43,  4.33s/it][A
Training...:  58% 1518/2609 [1:27:20<1:15:58,  4.18s/it][A
Training...:  58% 1519/2609 [1:27:24<1:13:35,  4.05s/it][A
Training...:  58% 1520/2609 [1:27:28<1:11:12,  3.92s/it][A
Training...:  58% 1521/2609 [1:27:31<1:08:54,  3.80s/it][A
Training...:  58% 1522/2609 [1:27:35<1:06:56,  3.70s/it][A
Training...:  58% 1523/2609 [1:27:38<1:05:19,  3.61s/it][A
Training...:  58% 1524/2609 [1:27:41<1:03:28,  3.51s/it][A
Training...:  58% 1525/2609 [1:27:44<1:01:41,  3.41s/it][A
Training...:  58% 1526/2609 [1:27:47<59:37,  3.30s/it]  [A
Training...:  59% 1527/2609 [1:27:50<57:47,  3.20s/it][A
Training...:  59% 1528/2609 [1:27:53<56:07,  3.12s/it][A
Training...:  59% 1529/2609 [1:27:56<54:31,  3.03s/it][A
Training...:  59% 1530/2609 [1:27:59<53:03,  2.95s/it][A
Training...:  59% 1531/2609 [1:28:02<51:28,  2.87s/it][A
Training...:  59% 1532/2609 [1:28:04<49:56,  2.78s/it][A
Training...:  59% 1533/2609 [1:28:07<48:26,  2.70s/it][A
Training...:  59% 1534/2609 [1:28:09<46:55,  2.62s/it][A
Training...:  59% 1535/2609 [1:28:12<45:31,  2.54s/it][A
Training...:  59% 1536/2609 [1:28:14<44:10,  2.47s/it][A
Training...:  59% 1537/2609 [1:28:16<42:29,  2.38s/it][A
Training...:  59% 1538/2609 [1:28:18<40:51,  2.29s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:01:03<43:03:20, 9687.55s/it]
Training...:  59% 1538/2609 [1:28:20<40:51,  2.29s/it][A
Training...:  59% 1539/2609 [1:28:20<41:16,  2.31s/it][A
Training...:  59% 1540/2609 [1:28:22<38:54,  2.18s/it][A
Training...:  59% 1541/2609 [1:28:24<36:45,  2.07s/it][A
Training...:  59% 1542/2609 [1:28:26<34:42,  1.95s/it][A
Training...:  59% 1543/2609 [1:28:27<32:45,  1.84s/it][A
Training...:  59% 1544/2609 [1:28:29<30:53,  1.74s/it][A
Training...:  59% 1545/2609 [1:28:30<28:58,  1.63s/it][A
Training...:  59% 1546/2609 [1:28:32<26:55,  1.52s/it][A
Training...:  59% 1547/2609 [1:28:33<24:33,  1.39s/it][A
Training...:  59% 1548/2609 [1:28:34<22:04,  1.25s/it][A
Training...:  59% 1549/2609 [1:28:34<19:31,  1.11s/it][A
Training...:  59% 1550/2609 [1:28:35<16:28,  1.07it/s][A
Training...:  59% 1551/2609 [1:28:42<49:04,  2.78s/it][A
Training...:  59% 1552/2609 [1:28:49<1:11:52,  4.08s/it][A
Training...:  60% 1553/2609 [1:28:56<1:25:04,  4.83s/it][A
Training...:  60% 1554/2609 [1:29:02<1:33:46,  5.33s/it][A
Training...:  60% 1555/2609 [1:29:08<1:37:33,  5.55s/it][A
Training...:  60% 1556/2609 [1:29:14<1:38:24,  5.61s/it][A
Training...:  60% 1557/2609 [1:29:20<1:38:11,  5.60s/it][A
Training...:  60% 1558/2609 [1:29:25<1:36:45,  5.52s/it][A
Training...:  60% 1559/2609 [1:29:30<1:34:28,  5.40s/it][A
Training...:  60% 1560/2609 [1:29:35<1:31:39,  5.24s/it][A
Training...:  60% 1561/2609 [1:29:40<1:29:18,  5.11s/it][A
Training...:  60% 1562/2609 [1:29:44<1:26:34,  4.96s/it][A
Training...:  60% 1563/2609 [1:29:49<1:24:38,  4.86s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:02:36<43:03:20, 9687.55s/it]
Training...:  60% 1563/2609 [1:29:54<1:24:38,  4.86s/it][A
Training...:  60% 1564/2609 [1:29:54<1:26:07,  4.95s/it][A
Training...:  60% 1565/2609 [1:29:58<1:22:47,  4.76s/it][A
Training...:  60% 1566/2609 [1:30:03<1:19:37,  4.58s/it][A
Training...:  60% 1567/2609 [1:30:07<1:16:54,  4.43s/it][A
Training...:  60% 1568/2609 [1:30:11<1:14:21,  4.29s/it][A
Training...:  60% 1569/2609 [1:30:14<1:12:01,  4.15s/it][A
Training...:  60% 1570/2609 [1:30:18<1:10:08,  4.05s/it][A
Training...:  60% 1571/2609 [1:30:22<1:08:07,  3.94s/it][A
Training...:  60% 1572/2609 [1:30:25<1:06:08,  3.83s/it][A
Training...:  60% 1573/2609 [1:30:29<1:04:07,  3.71s/it][A
Training...:  60% 1574/2609 [1:30:32<1:02:02,  3.60s/it][A
Training...:  60% 1575/2609 [1:30:35<1:00:19,  3.50s/it][A
Training...:  60% 1576/2609 [1:30:39<58:24,  3.39s/it]  [A
Training...:  60% 1577/2609 [1:30:42<56:43,  3.30s/it][A
Training...:  60% 1578/2609 [1:30:45<55:18,  3.22s/it][A
Training...:  61% 1579/2609 [1:30:48<54:15,  3.16s/it][A
Training...:  61% 1580/2609 [1:30:51<52:56,  3.09s/it][A
Training...:  61% 1581/2609 [1:30:53<51:02,  2.98s/it][A
Training...:  61% 1582/2609 [1:30:56<49:11,  2.87s/it][A
Training...:  61% 1583/2609 [1:30:59<47:23,  2.77s/it][A
Training...:  61% 1584/2609 [1:31:01<45:41,  2.67s/it][A
Training...:  61% 1585/2609 [1:31:03<43:59,  2.58s/it][A
Training...:  61% 1586/2609 [1:31:06<42:12,  2.48s/it][A
Training...:  61% 1587/2609 [1:31:08<40:32,  2.38s/it][A
Training...:  61% 1588/2609 [1:31:10<38:49,  2.28s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:03:54<43:03:20, 9687.55s/it]
Training...:  61% 1588/2609 [1:31:12<38:49,  2.28s/it][A
Training...:  61% 1589/2609 [1:31:12<39:24,  2.32s/it][A
Training...:  61% 1590/2609 [1:31:14<37:12,  2.19s/it][A
Training...:  61% 1591/2609 [1:31:16<35:07,  2.07s/it][A
Training...:  61% 1592/2609 [1:31:18<33:25,  1.97s/it][A
Training...:  61% 1593/2609 [1:31:19<31:40,  1.87s/it][A
Training...:  61% 1594/2609 [1:31:21<29:43,  1.76s/it][A
Training...:  61% 1595/2609 [1:31:22<27:58,  1.65s/it][A
Training...:  61% 1596/2609 [1:31:23<25:57,  1.54s/it][A
Training...:  61% 1597/2609 [1:31:25<23:58,  1.42s/it][A
Training...:  61% 1598/2609 [1:31:26<21:40,  1.29s/it][A
Training...:  61% 1599/2609 [1:31:26<19:03,  1.13s/it][A
Training...:  61% 1600/2609 [1:31:27<15:50,  1.06it/s][A
Training...:  61% 1601/2609 [1:31:34<47:12,  2.81s/it][A
Training...:  61% 1602/2609 [1:31:41<1:09:26,  4.14s/it][A
Training...:  61% 1603/2609 [1:31:48<1:21:47,  4.88s/it][A
Training...:  61% 1604/2609 [1:31:54<1:28:58,  5.31s/it][A
Training...:  62% 1605/2609 [1:32:00<1:32:01,  5.50s/it][A
Training...:  62% 1606/2609 [1:32:06<1:32:34,  5.54s/it][A
Training...:  62% 1607/2609 [1:32:11<1:32:14,  5.52s/it][A
Training...:  62% 1608/2609 [1:32:16<1:30:50,  5.44s/it][A
Training...:  62% 1609/2609 [1:32:22<1:29:27,  5.37s/it][A
Training...:  62% 1610/2609 [1:32:27<1:27:06,  5.23s/it][A
Training...:  62% 1611/2609 [1:32:32<1:25:24,  5.13s/it][A
Training...:  62% 1612/2609 [1:32:36<1:22:51,  4.99s/it][A
Training...:  62% 1613/2609 [1:32:41<1:20:34,  4.85s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:05:28<43:03:20, 9687.55s/it]
Training...:  62% 1613/2609 [1:32:46<1:20:34,  4.85s/it][A
Training...:  62% 1614/2609 [1:32:46<1:21:50,  4.93s/it][A
Training...:  62% 1615/2609 [1:32:50<1:18:56,  4.77s/it][A
Training...:  62% 1616/2609 [1:32:54<1:15:46,  4.58s/it][A
Training...:  62% 1617/2609 [1:32:58<1:13:24,  4.44s/it][A
Training...:  62% 1618/2609 [1:33:03<1:11:39,  4.34s/it][A
Training...:  62% 1619/2609 [1:33:06<1:09:19,  4.20s/it][A
Training...:  62% 1620/2609 [1:33:10<1:06:45,  4.05s/it][A
Training...:  62% 1621/2609 [1:33:14<1:04:21,  3.91s/it][A
Training...:  62% 1622/2609 [1:33:17<1:02:22,  3.79s/it][A
Training...:  62% 1623/2609 [1:33:21<1:00:43,  3.70s/it][A
Training...:  62% 1624/2609 [1:33:24<59:02,  3.60s/it]  [A
Training...:  62% 1625/2609 [1:33:27<57:12,  3.49s/it][A
Training...:  62% 1626/2609 [1:33:30<55:20,  3.38s/it][A
Training...:  62% 1627/2609 [1:33:33<53:31,  3.27s/it][A
Training...:  62% 1628/2609 [1:33:36<52:01,  3.18s/it][A
Training...:  62% 1629/2609 [1:33:39<50:18,  3.08s/it][A
Training...:  62% 1630/2609 [1:33:42<48:51,  2.99s/it][A
Training...:  63% 1631/2609 [1:33:45<47:17,  2.90s/it][A
Training...:  63% 1632/2609 [1:33:47<45:46,  2.81s/it][A
Training...:  63% 1633/2609 [1:33:50<44:09,  2.71s/it][A
Training...:  63% 1634/2609 [1:33:52<42:43,  2.63s/it][A
Training...:  63% 1635/2609 [1:33:55<41:22,  2.55s/it][A
Training...:  63% 1636/2609 [1:33:57<39:52,  2.46s/it][A
Training...:  63% 1637/2609 [1:33:59<38:24,  2.37s/it][A
Training...:  63% 1638/2609 [1:34:01<36:48,  2.27s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:06:46<43:03:20, 9687.55s/it]
Training...:  63% 1638/2609 [1:34:03<36:48,  2.27s/it][A
Training...:  63% 1639/2609 [1:34:03<37:18,  2.31s/it][A
Training...:  63% 1640/2609 [1:34:05<35:22,  2.19s/it][A
Training...:  63% 1641/2609 [1:34:07<33:17,  2.06s/it][A
Training...:  63% 1642/2609 [1:34:09<31:31,  1.96s/it][A
Training...:  63% 1643/2609 [1:34:10<29:36,  1.84s/it][A
Training...:  63% 1644/2609 [1:34:12<27:52,  1.73s/it][A
Training...:  63% 1645/2609 [1:34:13<26:02,  1.62s/it][A
Training...:  63% 1646/2609 [1:34:15<24:30,  1.53s/it][A
Training...:  63% 1647/2609 [1:34:16<22:31,  1.40s/it][A
Training...:  63% 1648/2609 [1:34:17<20:24,  1.27s/it][A
Training...:  63% 1649/2609 [1:34:17<18:02,  1.13s/it][A
Training...:  63% 1650/2609 [1:34:18<15:03,  1.06it/s][A
Training...:  63% 1651/2609 [1:34:25<44:30,  2.79s/it][A
Training...:  63% 1652/2609 [1:34:32<1:05:19,  4.10s/it][A
Training...:  63% 1653/2609 [1:34:39<1:16:30,  4.80s/it][A
Training...:  63% 1654/2609 [1:34:45<1:23:43,  5.26s/it][A
Training...:  63% 1655/2609 [1:34:51<1:27:12,  5.48s/it][A
Training...:  63% 1656/2609 [1:34:57<1:28:18,  5.56s/it][A
Training...:  64% 1657/2609 [1:35:02<1:27:58,  5.54s/it][A
Training...:  64% 1658/2609 [1:35:08<1:26:58,  5.49s/it][A
Training...:  64% 1659/2609 [1:35:13<1:26:04,  5.44s/it][A
Training...:  64% 1660/2609 [1:35:18<1:23:49,  5.30s/it][A
Training...:  64% 1661/2609 [1:35:23<1:21:29,  5.16s/it][A
Training...:  64% 1662/2609 [1:35:27<1:19:03,  5.01s/it][A
Training...:  64% 1663/2609 [1:35:32<1:16:42,  4.87s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:08:19<43:03:20, 9687.55s/it]
Training...:  64% 1663/2609 [1:35:37<1:16:42,  4.87s/it][A
Training...:  64% 1664/2609 [1:35:37<1:17:47,  4.94s/it][A
Training...:  64% 1665/2609 [1:35:41<1:14:49,  4.76s/it][A
Training...:  64% 1666/2609 [1:35:46<1:12:19,  4.60s/it][A
Training...:  64% 1667/2609 [1:35:50<1:09:43,  4.44s/it][A
Training...:  64% 1668/2609 [1:35:54<1:07:40,  4.31s/it][A
Training...:  64% 1669/2609 [1:35:58<1:05:31,  4.18s/it][A
Training...:  64% 1670/2609 [1:36:01<1:03:06,  4.03s/it][A
Training...:  64% 1671/2609 [1:36:05<1:00:58,  3.90s/it][A
Training...:  64% 1672/2609 [1:36:08<59:03,  3.78s/it]  [A
Training...:  64% 1673/2609 [1:36:12<57:19,  3.67s/it][A
Training...:  64% 1674/2609 [1:36:15<55:24,  3.56s/it][A
Training...:  64% 1675/2609 [1:36:18<53:49,  3.46s/it][A
Training...:  64% 1676/2609 [1:36:21<52:10,  3.36s/it][A
Training...:  64% 1677/2609 [1:36:24<50:43,  3.27s/it][A
Training...:  64% 1678/2609 [1:36:27<49:03,  3.16s/it][A
Training...:  64% 1679/2609 [1:36:30<47:39,  3.07s/it][A
Training...:  64% 1680/2609 [1:36:33<46:19,  2.99s/it][A
Training...:  64% 1681/2609 [1:36:36<44:50,  2.90s/it][A
Training...:  64% 1682/2609 [1:36:38<43:19,  2.80s/it][A
Training...:  65% 1683/2609 [1:36:41<41:56,  2.72s/it][A
Training...:  65% 1684/2609 [1:36:43<40:49,  2.65s/it][A
Training...:  65% 1685/2609 [1:36:46<39:22,  2.56s/it][A
Training...:  65% 1686/2609 [1:36:48<38:07,  2.48s/it][A
Training...:  65% 1687/2609 [1:36:50<36:48,  2.40s/it][A
Training...:  65% 1688/2609 [1:36:52<35:28,  2.31s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:09:37<43:03:20, 9687.55s/it]
Training...:  65% 1688/2609 [1:36:55<35:28,  2.31s/it][A
Training...:  65% 1689/2609 [1:36:55<36:11,  2.36s/it][A
Training...:  65% 1690/2609 [1:36:57<34:05,  2.23s/it][A
Training...:  65% 1691/2609 [1:36:58<32:13,  2.11s/it][A
Training...:  65% 1692/2609 [1:37:00<30:34,  2.00s/it][A
Training...:  65% 1693/2609 [1:37:02<29:06,  1.91s/it][A
Training...:  65% 1694/2609 [1:37:03<27:23,  1.80s/it][A
Training...:  65% 1695/2609 [1:37:05<25:38,  1.68s/it][A
Training...:  65% 1696/2609 [1:37:06<23:54,  1.57s/it][A
Training...:  65% 1697/2609 [1:37:07<22:05,  1.45s/it][A
Training...:  65% 1698/2609 [1:37:08<20:07,  1.33s/it][A
Training...:  65% 1699/2609 [1:37:09<17:53,  1.18s/it][A
Training...:  65% 1700/2609 [1:37:10<15:06,  1.00it/s][A
Training...:  65% 1701/2609 [1:37:17<43:07,  2.85s/it][A
Training...:  65% 1702/2609 [1:37:24<1:02:27,  4.13s/it][A
Training...:  65% 1703/2609 [1:37:31<1:14:11,  4.91s/it][A
Training...:  65% 1704/2609 [1:37:37<1:21:07,  5.38s/it][A
Training...:  65% 1705/2609 [1:37:43<1:23:48,  5.56s/it][A
Training...:  65% 1706/2609 [1:37:49<1:24:55,  5.64s/it][A
Training...:  65% 1707/2609 [1:37:55<1:25:19,  5.68s/it][A
Training...:  65% 1708/2609 [1:38:00<1:23:43,  5.58s/it][A
Training...:  66% 1709/2609 [1:38:05<1:21:52,  5.46s/it][A
Training...:  66% 1710/2609 [1:38:10<1:19:32,  5.31s/it][A
Training...:  66% 1711/2609 [1:38:15<1:17:16,  5.16s/it][A
Training...:  66% 1712/2609 [1:38:20<1:14:46,  5.00s/it][A
Training...:  66% 1713/2609 [1:38:24<1:12:24,  4.85s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:11:11<43:03:20, 9687.55s/it]
Training...:  66% 1713/2609 [1:38:29<1:12:24,  4.85s/it][A
Training...:  66% 1714/2609 [1:38:29<1:13:11,  4.91s/it][A
Training...:  66% 1715/2609 [1:38:34<1:10:05,  4.70s/it][A
Training...:  66% 1716/2609 [1:38:38<1:07:21,  4.53s/it][A
Training...:  66% 1717/2609 [1:38:42<1:04:51,  4.36s/it][A
Training...:  66% 1718/2609 [1:38:46<1:02:54,  4.24s/it][A
Training...:  66% 1719/2609 [1:38:49<1:00:52,  4.10s/it][A
Training...:  66% 1720/2609 [1:38:53<59:23,  4.01s/it]  [A
Training...:  66% 1721/2609 [1:38:57<57:33,  3.89s/it][A
Training...:  66% 1722/2609 [1:39:00<55:51,  3.78s/it][A
Training...:  66% 1723/2609 [1:39:04<54:15,  3.67s/it][A
Training...:  66% 1724/2609 [1:39:07<52:45,  3.58s/it][A
Training...:  66% 1725/2609 [1:39:10<51:12,  3.48s/it][A
Training...:  66% 1726/2609 [1:39:13<49:34,  3.37s/it][A
Training...:  66% 1727/2609 [1:39:16<48:05,  3.27s/it][A
Training...:  66% 1728/2609 [1:39:19<46:45,  3.18s/it][A
Training...:  66% 1729/2609 [1:39:22<45:29,  3.10s/it][A
Training...:  66% 1730/2609 [1:39:25<44:14,  3.02s/it][A
Training...:  66% 1731/2609 [1:39:28<42:53,  2.93s/it][A
Training...:  66% 1732/2609 [1:39:31<41:34,  2.84s/it][A
Training...:  66% 1733/2609 [1:39:33<40:16,  2.76s/it][A
Training...:  66% 1734/2609 [1:39:36<39:03,  2.68s/it][A
Training...:  67% 1735/2609 [1:39:38<37:44,  2.59s/it][A
Training...:  67% 1736/2609 [1:39:40<36:35,  2.51s/it][A
Training...:  67% 1737/2609 [1:39:43<35:19,  2.43s/it][A
Training...:  67% 1738/2609 [1:39:45<33:50,  2.33s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:12:29<43:03:20, 9687.55s/it]
Training...:  67% 1738/2609 [1:39:47<33:50,  2.33s/it][A
Training...:  67% 1739/2609 [1:39:47<34:24,  2.37s/it][A
Training...:  67% 1740/2609 [1:39:49<32:34,  2.25s/it][A
Training...:  67% 1741/2609 [1:39:51<30:53,  2.13s/it][A
Training...:  67% 1742/2609 [1:39:53<29:22,  2.03s/it][A
Training...:  67% 1743/2609 [1:39:55<28:10,  1.95s/it][A
Training...:  67% 1744/2609 [1:39:56<26:23,  1.83s/it][A
Training...:  67% 1745/2609 [1:39:58<24:45,  1.72s/it][A
Training...:  67% 1746/2609 [1:39:59<23:01,  1.60s/it][A
Training...:  67% 1747/2609 [1:40:00<21:13,  1.48s/it][A
Training...:  67% 1748/2609 [1:40:01<19:23,  1.35s/it][A
Training...:  67% 1749/2609 [1:40:02<17:17,  1.21s/it][A
Training...:  67% 1750/2609 [1:40:03<14:43,  1.03s/it][A
Training...:  67% 1751/2609 [1:40:10<41:23,  2.89s/it][A
Training...:  67% 1752/2609 [1:40:17<59:03,  4.13s/it][A
Training...:  67% 1753/2609 [1:40:23<1:08:42,  4.82s/it][A
Training...:  67% 1754/2609 [1:40:29<1:14:16,  5.21s/it][A
Training...:  67% 1755/2609 [1:40:35<1:17:08,  5.42s/it][A
Training...:  67% 1756/2609 [1:40:41<1:18:05,  5.49s/it][A
Training...:  67% 1757/2609 [1:40:46<1:17:53,  5.49s/it][A
Training...:  67% 1758/2609 [1:40:52<1:16:22,  5.38s/it][A
Training...:  67% 1759/2609 [1:40:57<1:14:51,  5.28s/it][A
Training...:  67% 1760/2609 [1:41:01<1:12:56,  5.15s/it][A
Training...:  67% 1761/2609 [1:41:06<1:11:09,  5.04s/it][A
Training...:  68% 1762/2609 [1:41:11<1:08:48,  4.87s/it][A
Training...:  68% 1763/2609 [1:41:15<1:06:49,  4.74s/it][A                                                                                                                                                                   
                                                        [AStep... (10450 | Loss: 0.184775248169899, Learning Rate: 7.990100857568905e-05, Gradient Norm: 0.6209321022033691)
Step... (10475 | Loss: 0.1052107885479927, Learning Rate: 7.9850506153889e-05, Gradient Norm: 0.8142349720001221)
Step... (10500 | Loss: 0.14046403765678406, Learning Rate: 7.979999645613134e-05, Gradient Norm: 0.5886645317077637)
Step... (10525 | Loss: 0.10771510004997253, Learning Rate: 7.974949403433129e-05, Gradient Norm: 0.7462916374206543)
Step... (10550 | Loss: 0.18735292553901672, Learning Rate: 7.969899161253124e-05, Gradient Norm: 0.9314836263656616)
Step... (10575 | Loss: 0.1448349952697754, Learning Rate: 7.964848191477358e-05, Gradient Norm: 0.8455541133880615)
Step... (10600 | Loss: 0.14172853529453278, Learning Rate: 7.959797949297354e-05, Gradient Norm: 0.6627745032310486)
Step... (10625 | Loss: 0.12319289147853851, Learning Rate: 7.954747707117349e-05, Gradient Norm: 0.8502964973449707)
Step... (10650 | Loss: 0.13402816653251648, Learning Rate: 7.949696737341583e-05, Gradient Norm: 0.5997524261474609)
Step... (10675 | Loss: 0.13344037532806396, Learning Rate: 7.944646495161578e-05, Gradient Norm: 0.9050065279006958)
Step... (10700 | Loss: 0.1773119866847992, Learning Rate: 7.939596252981573e-05, Gradient Norm: 0.6386862397193909)
Step... (10725 | Loss: 0.09462669491767883, Learning Rate: 7.934545283205807e-05, Gradient Norm: 0.644374668598175)
Step... (10750 | Loss: 0.25000396370887756, Learning Rate: 7.929495041025802e-05, Gradient Norm: 0.8772856593132019)
Step... (10775 | Loss: 0.14863638579845428, Learning Rate: 7.924444798845798e-05, Gradient Norm: 0.7324391007423401)
Step... (10800 | Loss: 0.17303922772407532, Learning Rate: 7.919393829070032e-05, Gradient Norm: 0.7679867148399353)
Step... (10825 | Loss: 0.08590640127658844, Learning Rate: 7.914343586890027e-05, Gradient Norm: 0.602196216583252)
Step... (10850 | Loss: 0.124912329018116, Learning Rate: 7.909292617114261e-05, Gradient Norm: 0.5834926962852478)
Step... (10875 | Loss: 0.1530228555202484, Learning Rate: 7.904242374934256e-05, Gradient Norm: 0.837700366973877)
Step... (10900 | Loss: 0.17533446848392487, Learning Rate: 7.899192132754251e-05, Gradient Norm: 0.8293496966362)
Step... (10925 | Loss: 0.10463300347328186, Learning Rate: 7.894141162978485e-05, Gradient Norm: 0.6960604786872864)
Step... (10950 | Loss: 0.13530103862285614, Learning Rate: 7.88909092079848e-05, Gradient Norm: 0.6724702715873718)
Step... (10975 | Loss: 0.10862353444099426, Learning Rate: 7.884039951022714e-05, Gradient Norm: 0.7610535621643066)
Step... (11000 | Loss: 0.14200520515441895, Learning Rate: 7.87898970884271e-05, Gradient Norm: 1.0159318447113037)
Step... (11025 | Loss: 0.1424296796321869, Learning Rate: 7.873938739066944e-05, Gradient Norm: 1.020115852355957)
Step... (11050 | Loss: 0.15496490895748138, Learning Rate: 7.868888496886939e-05, Gradient Norm: 1.1504721641540527)
Step... (11075 | Loss: 0.08658981323242188, Learning Rate: 7.863838254706934e-05, Gradient Norm: 0.581942081451416)
Step... (11100 | Loss: 0.16989842057228088, Learning Rate: 7.858787284931168e-05, Gradient Norm: 0.68023681640625)
Step... (11125 | Loss: 0.0789206251502037, Learning Rate: 7.853737042751163e-05, Gradient Norm: 0.7258108854293823)
Step... (11150 | Loss: 0.15827351808547974, Learning Rate: 7.848686800571159e-05, Gradient Norm: 0.7465986013412476)
Step... (11175 | Loss: 0.17797642946243286, Learning Rate: 7.843635830795392e-05, Gradient Norm: 1.0908530950546265)
Step... (11200 | Loss: 0.17673537135124207, Learning Rate: 7.838585588615388e-05, Gradient Norm: 0.7473283410072327)
Step... (11225 | Loss: 0.12891210615634918, Learning Rate: 7.833535346435383e-05, Gradient Norm: 0.8477315306663513)
Step... (11250 | Loss: 0.14809909462928772, Learning Rate: 7.828484376659617e-05, Gradient Norm: 0.6444727182388306)
Step... (11275 | Loss: 0.2793828845024109, Learning Rate: 7.823434134479612e-05, Gradient Norm: 1.386997938156128)
Step... (11300 | Loss: 0.2002105712890625, Learning Rate: 7.818383892299607e-05, Gradient Norm: 0.6859962344169617)
Step... (11325 | Loss: 0.13442493975162506, Learning Rate: 7.813332922523841e-05, Gradient Norm: 0.8179916143417358)
Step... (11350 | Loss: 0.1495414674282074, Learning Rate: 7.808282680343837e-05, Gradient Norm: 0.7270542979240417)
Step... (11375 | Loss: 0.10069704055786133, Learning Rate: 7.803232438163832e-05, Gradient Norm: 0.9224275946617126)
Step... (11400 | Loss: 0.1945098489522934, Learning Rate: 7.798181468388066e-05, Gradient Norm: 0.75312739610672)
Step... (11425 | Loss: 0.12438297271728516, Learning Rate: 7.793131226208061e-05, Gradient Norm: 0.8174921870231628)
Step... (11450 | Loss: 0.15038268268108368, Learning Rate: 7.788080984028056e-05, Gradient Norm: 0.6674033403396606)
Step... (11475 | Loss: 0.159590944647789, Learning Rate: 7.78303001425229e-05, Gradient Norm: 0.8109286427497864)
Step... (11500 | Loss: 0.11509554088115692, Learning Rate: 7.777979772072285e-05, Gradient Norm: 0.6461017727851868)
Step... (11525 | Loss: 0.1994614601135254, Learning Rate: 7.772929529892281e-05, Gradient Norm: 0.9707358479499817)
Step... (11550 | Loss: 0.18836013972759247, Learning Rate: 7.767878560116515e-05, Gradient Norm: 0.7750908732414246)
Step... (11575 | Loss: 0.16225558519363403, Learning Rate: 7.76282831793651e-05, Gradient Norm: 0.9332801699638367)
Step... (11600 | Loss: 0.13029560446739197, Learning Rate: 7.757777348160744e-05, Gradient Norm: 0.653990626335144)
Step... (11625 | Loss: 0.09930325299501419, Learning Rate: 7.752727105980739e-05, Gradient Norm: 0.6095470786094666)
Step... (11650 | Loss: 0.17426933348178864, Learning Rate: 7.747676863800734e-05, Gradient Norm: 0.6996921300888062)
Step... (11675 | Loss: 0.12799690663814545, Learning Rate: 7.742625894024968e-05, Gradient Norm: 0.610975444316864)
Step... (11700 | Loss: 0.1847417950630188, Learning Rate: 7.737575651844963e-05, Gradient Norm: 0.7904805541038513)
Step... (11725 | Loss: 0.11216399818658829, Learning Rate: 7.732525409664959e-05, Gradient Norm: 0.8467608094215393)
Step... (11750 | Loss: 0.130339577794075, Learning Rate: 7.727474439889193e-05, Gradient Norm: 0.6921821236610413)
Step... (11775 | Loss: 0.09380628913640976, Learning Rate: 7.722424197709188e-05, Gradient Norm: 0.7889794707298279)
Step... (11800 | Loss: 0.15327107906341553, Learning Rate: 7.717373955529183e-05, Gradient Norm: 0.5862054824829102)
Step... (11825 | Loss: 0.07624141126871109, Learning Rate: 7.712322985753417e-05, Gradient Norm: 1.1642073392868042)
Step... (11850 | Loss: 0.19177335500717163, Learning Rate: 7.707272743573412e-05, Gradient Norm: 0.7959522604942322)
Step... (11875 | Loss: 0.12761662900447845, Learning Rate: 7.702221773797646e-05, Gradient Norm: 0.8463259935379028)
Step... (11900 | Loss: 0.16324035823345184, Learning Rate: 7.697171531617641e-05, Gradient Norm: 0.6965799927711487)
Step... (11925 | Loss: 0.16622523963451385, Learning Rate: 7.692121289437637e-05, Gradient Norm: 0.9861384034156799)
Step... (11950 | Loss: 0.27945995330810547, Learning Rate: 7.68707031966187e-05, Gradient Norm: 0.8939062356948853)
Step... (11975 | Loss: 0.10936100035905838, Learning Rate: 7.682020077481866e-05, Gradient Norm: 0.922699511051178)
Step... (12000 | Loss: 0.13811935484409332, Learning Rate: 7.676969835301861e-05, Gradient Norm: 0.7148475050926208)
Step... (12025 | Loss: 0.11665772646665573, Learning Rate: 7.671918865526095e-05, Gradient Norm: 0.7509533762931824)
Step... (12050 | Loss: 0.12496814876794815, Learning Rate: 7.66686862334609e-05, Gradient Norm: 0.5925115942955017)
Step... (12075 | Loss: 0.16487297415733337, Learning Rate: 7.661818381166086e-05, Gradient Norm: 0.964840292930603)
Step... (12100 | Loss: 0.21096248924732208, Learning Rate: 7.65676741139032e-05, Gradient Norm: 0.8893082737922668)
Step... (12125 | Loss: 0.12903212010860443, Learning Rate: 7.651717169210315e-05, Gradient Norm: 0.7535228133201599)
Step... (12150 | Loss: 0.11946386843919754, Learning Rate: 7.64666692703031e-05, Gradient Norm: 0.5825784802436829)
Step... (12175 | Loss: 0.15413329005241394, Learning Rate: 7.641615957254544e-05, Gradient Norm:Step... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:14:02<43:03:20, 9687.55s/it]
Training...:  68% 1763/2609 [1:41:20<1:06:49,  4.74s/it][A
Training...:  68% 1764/2609 [1:41:20<1:07:21,  4.78s/it][A 0.8239027857780457)

Training...:  68% 1765/2609 [1:41:24<1:05:35,  4.66s/it][A
Training...:  68% 1766/2609 [1:41:29<1:03:08,  4.49s/it][A
Training...:  68% 1767/2609 [1:41:32<1:00:50,  4.34s/it][A
Training...:  68% 1768/2609 [1:41:36<58:37,  4.18s/it]  [A
Training...:  68% 1769/2609 [1:41:40<56:40,  4.05s/it][A
Training...:  68% 1770/2609 [1:41:44<54:43,  3.91s/it][A
Training...:  68% 1771/2609 [1:41:47<53:04,  3.80s/it][A
Training...:  68% 1772/2609 [1:41:51<51:39,  3.70s/it][A
Training...:  68% 1773/2609 [1:41:54<50:17,  3.61s/it][A
Training...:  68% 1774/2609 [1:41:57<49:03,  3.52s/it][A
Training...:  68% 1775/2609 [1:42:01<47:34,  3.42s/it][A
Training...:  68% 1776/2609 [1:42:04<46:20,  3.34s/it][A
Training...:  68% 1777/2609 [1:42:07<45:04,  3.25s/it][A
Training...:  68% 1778/2609 [1:42:10<44:06,  3.18s/it][A
Training...:  68% 1779/2609 [1:42:13<42:59,  3.11s/it][A
Training...:  68% 1780/2609 [1:42:16<41:49,  3.03s/it][A
Training...:  68% 1781/2609 [1:42:18<40:19,  2.92s/it][A
Training...:  68% 1782/2609 [1:42:21<38:55,  2.82s/it][A
Training...:  68% 1783/2609 [1:42:23<37:29,  2.72s/it][A
Training...:  68% 1784/2609 [1:42:26<36:15,  2.64s/it][A
Training...:  68% 1785/2609 [1:42:28<35:00,  2.55s/it][A
Training...:  68% 1786/2609 [1:42:30<33:52,  2.47s/it][A
Training...:  68% 1787/2609 [1:42:33<32:39,  2.38s/it][A
Training...:  69% 1788/2609 [1:42:35<31:24,  2.30s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:15:19<43:03:20, 9687.55s/it]
Training...:  69% 1788/2609 [1:42:37<31:24,  2.30s/it][A
Training...:  69% 1789/2609 [1:42:37<31:52,  2.33s/it][A
Training...:  69% 1790/2609 [1:42:39<30:14,  2.22s/it][A
Training...:  69% 1791/2609 [1:42:41<28:37,  2.10s/it][A
Training...:  69% 1792/2609 [1:42:43<27:08,  1.99s/it][A
Training...:  69% 1793/2609 [1:42:44<26:02,  1.91s/it][A
Training...:  69% 1794/2609 [1:42:46<24:27,  1.80s/it][A
Training...:  69% 1795/2609 [1:42:47<22:53,  1.69s/it][A
Training...:  69% 1796/2609 [1:42:49<21:17,  1.57s/it][A
Training...:  69% 1797/2609 [1:42:50<19:37,  1.45s/it][A
Training...:  69% 1798/2609 [1:42:51<17:45,  1.31s/it][A
Training...:  69% 1799/2609 [1:42:52<15:47,  1.17s/it][A
Training...:  69% 1800/2609 [1:42:52<13:22,  1.01it/s][A
Training...:  69% 1801/2609 [1:42:59<37:59,  2.82s/it][A
Training...:  69% 1802/2609 [1:43:06<55:19,  4.11s/it][A
Training...:  69% 1803/2609 [1:43:13<1:05:17,  4.86s/it][A
Training...:  69% 1804/2609 [1:43:19<1:10:58,  5.29s/it][A
Training...:  69% 1805/2609 [1:43:25<1:13:16,  5.47s/it][A
Training...:  69% 1806/2609 [1:43:31<1:13:49,  5.52s/it][A
Training...:  69% 1807/2609 [1:43:36<1:13:21,  5.49s/it][A
Training...:  69% 1808/2609 [1:43:41<1:12:07,  5.40s/it][A
Training...:  69% 1809/2609 [1:43:46<1:10:37,  5.30s/it][A
Training...:  69% 1810/2609 [1:43:51<1:08:43,  5.16s/it][A
Training...:  69% 1811/2609 [1:43:56<1:06:51,  5.03s/it][A
Training...:  69% 1812/2609 [1:44:01<1:04:53,  4.88s/it][A
Training...:  69% 1813/2609 [1:44:05<1:03:30,  4.79s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:16:52<43:03:20, 9687.55s/it]
Training...:  69% 1813/2609 [1:44:10<1:03:30,  4.79s/it][A
Training...:  70% 1814/2609 [1:44:10<1:04:23,  4.86s/it][A
Training...:  70% 1815/2609 [1:44:15<1:02:25,  4.72s/it][A
Training...:  70% 1816/2609 [1:44:19<59:53,  4.53s/it]  [A
Training...:  70% 1817/2609 [1:44:23<57:46,  4.38s/it][A
Training...:  70% 1818/2609 [1:44:27<55:45,  4.23s/it][A
Training...:  70% 1819/2609 [1:44:30<53:59,  4.10s/it][A
Training...:  70% 1820/2609 [1:44:34<52:26,  3.99s/it][A
Training...:  70% 1821/2609 [1:44:38<50:48,  3.87s/it][A
Training...:  70% 1822/2609 [1:44:41<49:14,  3.75s/it][A
Training...:  70% 1823/2609 [1:44:45<47:47,  3.65s/it][A
Training...:  70% 1824/2609 [1:44:48<46:20,  3.54s/it][A
Training...:  70% 1825/2609 [1:44:51<44:57,  3.44s/it][A
Training...:  70% 1826/2609 [1:44:54<43:44,  3.35s/it][A
Training...:  70% 1827/2609 [1:44:57<42:25,  3.26s/it][A
Training...:  70% 1828/2609 [1:45:00<41:20,  3.18s/it][A
Training...:  70% 1829/2609 [1:45:03<40:11,  3.09s/it][A
Training...:  70% 1830/2609 [1:45:06<39:03,  3.01s/it][A
Training...:  70% 1831/2609 [1:45:09<37:52,  2.92s/it][A
Training...:  70% 1832/2609 [1:45:11<36:48,  2.84s/it][A
Training...:  70% 1833/2609 [1:45:14<35:36,  2.75s/it][A
Training...:  70% 1834/2609 [1:45:16<34:30,  2.67s/it][A
Training...:  70% 1835/2609 [1:45:19<33:26,  2.59s/it][A
Training...:  70% 1836/2609 [1:45:21<32:19,  2.51s/it][A
Training...:  70% 1837/2609 [1:45:23<31:12,  2.43s/it][A
Training...:  70% 1838/2609 [1:45:25<29:50,  2.32s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:18:10<43:03:20, 9687.55s/it]
Training...:  70% 1838/2609 [1:45:28<29:50,  2.32s/it][A
Training...:  70% 1839/2609 [1:45:28<30:10,  2.35s/it][A
Training...:  71% 1840/2609 [1:45:30<28:20,  2.21s/it][A
Training...:  71% 1841/2609 [1:45:31<26:47,  2.09s/it][A
Training...:  71% 1842/2609 [1:45:33<25:16,  1.98s/it][A
Training...:  71% 1843/2609 [1:45:35<23:57,  1.88s/it][A
Training...:  71% 1844/2609 [1:45:36<22:24,  1.76s/it][A
Training...:  71% 1845/2609 [1:45:38<20:57,  1.65s/it][A
Training...:  71% 1846/2609 [1:45:39<19:19,  1.52s/it][A
Training...:  71% 1847/2609 [1:45:40<17:42,  1.39s/it][A
Training...:  71% 1848/2609 [1:45:41<15:58,  1.26s/it][A
Training...:  71% 1849/2609 [1:45:42<14:10,  1.12s/it][A
Training...:  71% 1850/2609 [1:45:42<11:59,  1.05it/s][A
Training...:  71% 1851/2609 [1:45:50<35:55,  2.84s/it][A
Training...:  71% 1852/2609 [1:45:57<52:10,  4.14s/it][A
Training...:  71% 1853/2609 [1:46:03<1:00:54,  4.83s/it][A
Training...:  71% 1854/2609 [1:46:09<1:06:03,  5.25s/it][A
Training...:  71% 1855/2609 [1:46:15<1:08:12,  5.43s/it][A
Training...:  71% 1856/2609 [1:46:21<1:08:52,  5.49s/it][A
Training...:  71% 1857/2609 [1:46:26<1:08:28,  5.46s/it][A
Training...:  71% 1858/2609 [1:46:31<1:07:21,  5.38s/it][A
Training...:  71% 1859/2609 [1:46:37<1:06:04,  5.29s/it][A
Training...:  71% 1860/2609 [1:46:41<1:04:05,  5.13s/it][A
Training...:  71% 1861/2609 [1:46:46<1:02:08,  4.98s/it][A
Training...:  71% 1862/2609 [1:46:51<1:00:39,  4.87s/it][A
Training...:  71% 1863/2609 [1:46:55<59:16,  4.77s/it]  [A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:19:42<43:03:20, 9687.55s/it]
Training...:  71% 1863/2609 [1:47:00<59:16,  4.77s/it][A
Training...:  71% 1864/2609 [1:47:00<59:52,  4.82s/it][A
Training...:  71% 1865/2609 [1:47:04<57:35,  4.64s/it][A
Training...:  72% 1866/2609 [1:47:08<55:21,  4.47s/it][A
Training...:  72% 1867/2609 [1:47:12<53:44,  4.35s/it][A
Training...:  72% 1868/2609 [1:47:16<51:48,  4.19s/it][A
Training...:  72% 1869/2609 [1:47:20<50:16,  4.08s/it][A
Training...:  72% 1870/2609 [1:47:24<48:41,  3.95s/it][A
Training...:  72% 1871/2609 [1:47:27<47:13,  3.84s/it][A
Training...:  72% 1872/2609 [1:47:31<45:38,  3.72s/it][A
Training...:  72% 1873/2609 [1:47:34<44:13,  3.61s/it][A
Training...:  72% 1874/2609 [1:47:37<42:49,  3.50s/it][A
Training...:  72% 1875/2609 [1:47:40<41:42,  3.41s/it][A
Training...:  72% 1876/2609 [1:47:44<40:33,  3.32s/it][A
Training...:  72% 1877/2609 [1:47:47<39:24,  3.23s/it][A
Training...:  72% 1878/2609 [1:47:50<38:12,  3.14s/it][A
Training...:  72% 1879/2609 [1:47:52<37:16,  3.06s/it][A
Training...:  72% 1880/2609 [1:47:55<36:31,  3.01s/it][A
Training...:  72% 1881/2609 [1:47:58<35:39,  2.94s/it][A
Training...:  72% 1882/2609 [1:48:01<34:27,  2.84s/it][A
Training...:  72% 1883/2609 [1:48:03<33:13,  2.75s/it][A
Training...:  72% 1884/2609 [1:48:06<32:02,  2.65s/it][A
Training...:  72% 1885/2609 [1:48:08<30:51,  2.56s/it][A
Training...:  72% 1886/2609 [1:48:10<29:49,  2.48s/it][A
Training...:  72% 1887/2609 [1:48:12<28:45,  2.39s/it][A
Training...:  72% 1888/2609 [1:48:15<27:36,  2.30s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:20:59<43:03:20, 9687.55s/it]
Training...:  72% 1888/2609 [1:48:17<27:36,  2.30s/it][A
Training...:  72% 1889/2609 [1:48:17<28:02,  2.34s/it][A
Training...:  72% 1890/2609 [1:48:19<26:31,  2.21s/it][A
Training...:  72% 1891/2609 [1:48:21<24:57,  2.09s/it][A
Training...:  73% 1892/2609 [1:48:22<23:38,  1.98s/it][A
Training...:  73% 1893/2609 [1:48:24<22:27,  1.88s/it][A
Training...:  73% 1894/2609 [1:48:26<21:12,  1.78s/it][A
Training...:  73% 1895/2609 [1:48:27<19:56,  1.68s/it][A
Training...:  73% 1896/2609 [1:48:28<18:23,  1.55s/it][A
Training...:  73% 1897/2609 [1:48:29<16:48,  1.42s/it][A
Training...:  73% 1898/2609 [1:48:30<15:07,  1.28s/it][A
Training...:  73% 1899/2609 [1:48:31<13:18,  1.12s/it][A
Training...:  73% 1900/2609 [1:48:32<11:09,  1.06it/s][A
Training...:  73% 1901/2609 [1:48:39<33:00,  2.80s/it][A
Training...:  73% 1902/2609 [1:48:46<48:11,  4.09s/it][A
Training...:  73% 1903/2609 [1:48:52<56:51,  4.83s/it][A
Training...:  73% 1904/2609 [1:48:59<1:01:41,  5.25s/it][A
Training...:  73% 1905/2609 [1:49:05<1:03:44,  5.43s/it][A
Training...:  73% 1906/2609 [1:49:10<1:04:37,  5.52s/it][A
Training...:  73% 1907/2609 [1:49:16<1:04:32,  5.52s/it][A
Training...:  73% 1908/2609 [1:49:21<1:03:39,  5.45s/it][A
Training...:  73% 1909/2609 [1:49:26<1:02:31,  5.36s/it][A
Training...:  73% 1910/2609 [1:49:31<1:00:56,  5.23s/it][A
Training...:  73% 1911/2609 [1:49:36<59:11,  5.09s/it]  [A
Training...:  73% 1912/2609 [1:49:40<57:17,  4.93s/it][A
Training...:  73% 1913/2609 [1:49:45<55:33,  4.79s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:22:32<43:03:20, 9687.55s/it]
Training...:  73% 1913/2609 [1:49:50<55:33,  4.79s/it][A
Training...:  73% 1914/2609 [1:49:50<56:18,  4.86s/it][A
Training...:  73% 1915/2609 [1:49:54<54:32,  4.71s/it][A
Training...:  73% 1916/2609 [1:49:58<52:15,  4.52s/it][A
Training...:  73% 1917/2609 [1:50:02<50:23,  4.37s/it][A
Training...:  74% 1918/2609 [1:50:06<48:38,  4.22s/it][A
Training...:  74% 1919/2609 [1:50:10<47:02,  4.09s/it][A
Training...:  74% 1920/2609 [1:50:14<45:37,  3.97s/it][A
Training...:  74% 1921/2609 [1:50:17<44:21,  3.87s/it][A
Training...:  74% 1922/2609 [1:50:21<42:50,  3.74s/it][A
Training...:  74% 1923/2609 [1:50:24<41:42,  3.65s/it][A
Training...:  74% 1924/2609 [1:50:28<40:29,  3.55s/it][A
Training...:  74% 1925/2609 [1:50:31<39:18,  3.45s/it][A
Training...:  74% 1926/2609 [1:50:34<38:07,  3.35s/it][A
Training...:  74% 1927/2609 [1:50:37<37:04,  3.26s/it][A
Training...:  74% 1928/2609 [1:50:40<35:58,  3.17s/it][A
Training...:  74% 1929/2609 [1:50:43<34:53,  3.08s/it][A
Training...:  74% 1930/2609 [1:50:46<34:10,  3.02s/it][A
Training...:  74% 1931/2609 [1:50:48<32:58,  2.92s/it][A
Training...:  74% 1932/2609 [1:50:51<31:59,  2.84s/it][A
Training...:  74% 1933/2609 [1:50:54<31:07,  2.76s/it][A
Training...:  74% 1934/2609 [1:50:56<30:06,  2.68s/it][A
Training...:  74% 1935/2609 [1:50:58<29:08,  2.59s/it][A
Training...:  74% 1936/2609 [1:51:01<28:04,  2.50s/it][A
Training...:  74% 1937/2609 [1:51:03<27:06,  2.42s/it][A
Training...:  74% 1938/2609 [1:51:05<26:02,  2.33s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:23:50<43:03:20, 9687.55s/it]
Training...:  74% 1938/2609 [1:51:08<26:02,  2.33s/it][A
Training...:  74% 1939/2609 [1:51:08<26:21,  2.36s/it][A
Training...:  74% 1940/2609 [1:51:09<24:50,  2.23s/it][A
Training...:  74% 1941/2609 [1:51:11<23:29,  2.11s/it][A
Training...:  74% 1942/2609 [1:51:13<22:15,  2.00s/it][A
Training...:  74% 1943/2609 [1:51:15<21:02,  1.90s/it][A
Training...:  75% 1944/2609 [1:51:16<19:56,  1.80s/it][A
Training...:  75% 1945/2609 [1:51:18<18:42,  1.69s/it][A
Training...:  75% 1946/2609 [1:51:19<17:12,  1.56s/it][A
Training...:  75% 1947/2609 [1:51:20<15:46,  1.43s/it][A
Training...:  75% 1948/2609 [1:51:21<14:05,  1.28s/it][A
Training...:  75% 1949/2609 [1:51:22<12:20,  1.12s/it][A
Training...:  75% 1950/2609 [1:51:22<10:17,  1.07it/s][A
Training...:  75% 1951/2609 [1:51:29<30:40,  2.80s/it][A
Training...:  75% 1952/2609 [1:51:37<44:50,  4.10s/it][A
Training...:  75% 1953/2609 [1:51:43<53:11,  4.87s/it][A
Training...:  75% 1954/2609 [1:51:50<58:12,  5.33s/it][A
Training...:  75% 1955/2609 [1:51:56<1:00:54,  5.59s/it][A
Training...:  75% 1956/2609 [1:52:02<1:01:25,  5.64s/it][A
Training...:  75% 1957/2609 [1:52:07<1:01:20,  5.64s/it][A
Training...:  75% 1958/2609 [1:52:13<1:00:20,  5.56s/it][A
Training...:  75% 1959/2609 [1:52:18<59:05,  5.45s/it]  [A
Training...:  75% 1960/2609 [1:52:23<57:30,  5.32s/it][A
Training...:  75% 1961/2609 [1:52:28<55:59,  5.19s/it][A
Training...:  75% 1962/2609 [1:52:32<54:16,  5.03s/it][A
Training...:  75% 1963/2609 [1:52:37<52:50,  4.91s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:25:24<43:03:20, 9687.55s/it]
Training...:  75% 1963/2609 [1:52:42<52:50,  4.91s/it][A
Training...:  75% 1964/2609 [1:52:42<54:00,  5.02s/it][A
Training...:  75% 1965/2609 [1:52:47<52:29,  4.89s/it][A
Training...:  75% 1966/2609 [1:52:51<50:08,  4.68s/it][A
Training...:  75% 1967/2609 [1:52:55<48:24,  4.52s/it][A
Training...:  75% 1968/2609 [1:52:59<46:25,  4.35s/it][A
Training...:  75% 1969/2609 [1:53:03<44:55,  4.21s/it][A
Training...:  76% 1970/2609 [1:53:07<43:33,  4.09s/it][A
Training...:  76% 1971/2609 [1:53:10<42:07,  3.96s/it][A
Training...:  76% 1972/2609 [1:53:14<40:38,  3.83s/it][A
Training...:  76% 1973/2609 [1:53:17<39:31,  3.73s/it][A
Training...:  76% 1974/2609 [1:53:21<38:10,  3.61s/it][A
Training...:  76% 1975/2609 [1:53:24<37:05,  3.51s/it][A
Training...:  76% 1976/2609 [1:53:27<35:53,  3.40s/it][A
Training...:  76% 1977/2609 [1:53:30<34:48,  3.31s/it][A
Training...:  76% 1978/2609 [1:53:33<33:43,  3.21s/it][A
Training...:  76% 1979/2609 [1:53:36<32:46,  3.12s/it][A
Training...:  76% 1980/2609 [1:53:39<31:49,  3.04s/it][A
Training...:  76% 1981/2609 [1:53:42<30:56,  2.96s/it][A
Training...:  76% 1982/2609 [1:53:44<29:56,  2.87s/it][A
Training...:  76% 1983/2609 [1:53:47<29:08,  2.79s/it][A
Training...:  76% 1984/2609 [1:53:50<28:14,  2.71s/it][A
Training...:  76% 1985/2609 [1:53:52<27:19,  2.63s/it][A
Training...:  76% 1986/2609 [1:53:54<26:21,  2.54s/it][A
Training...:  76% 1987/2609 [1:53:57<25:26,  2.45s/it][A
Training...:  76% 1988/2609 [1:53:59<24:29,  2.37s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:26:43<43:03:20, 9687.55s/it]
Training...:  76% 1988/2609 [1:54:01<24:29,  2.37s/it][A
Training...:  76% 1989/2609 [1:54:01<24:53,  2.41s/it][A
Training...:  76% 1990/2609 [1:54:03<23:35,  2.29s/it][A
Training...:  76% 1991/2609 [1:54:05<22:22,  2.17s/it][A
Training...:  76% 1992/2609 [1:54:07<21:08,  2.06s/it][A
Training...:  76% 1993/2609 [1:54:09<19:57,  1.94s/it][A
Training...:  76% 1994/2609 [1:54:10<18:47,  1.83s/it][A
Training...:  76% 1995/2609 [1:54:12<17:41,  1.73s/it][A
Training...:  77% 1996/2609 [1:54:13<16:28,  1.61s/it][A
Training...:  77% 1997/2609 [1:54:14<15:12,  1.49s/it][A
Training...:  77% 1998/2609 [1:54:15<13:50,  1.36s/it][A
Training...:  77% 1999/2609 [1:54:16<12:11,  1.20s/it][A
Training...:  77% 2000/2609 [1:54:17<10:12,  1.01s/it][A
Training...:  77% 2001/2609 [1:54:24<28:31,  2.81s/it][A
Training...:  77% 2002/2609 [1:54:31<41:29,  4.10s/it][A
Training...:  77% 2003/2609 [1:54:37<48:50,  4.84s/it][A
Training...:  77% 2004/2609 [1:54:44<52:50,  5.24s/it][A
Training...:  77% 2005/2609 [1:54:49<54:45,  5.44s/it][A
Training...:  77% 2006/2609 [1:54:55<55:15,  5.50s/it][A
Training...:  77% 2007/2609 [1:55:01<55:30,  5.53s/it][A
Training...:  77% 2008/2609 [1:55:06<54:57,  5.49s/it][A
Training...:  77% 2009/2609 [1:55:11<53:44,  5.37s/it][A
Training...:  77% 2010/2609 [1:55:16<52:03,  5.21s/it][A
Training...:  77% 2011/2609 [1:55:21<50:33,  5.07s/it][A
Training...:  77% 2012/2609 [1:55:25<48:50,  4.91s/it][A
Training...:  77% 2013/2609 [1:55:30<47:30,  4.78s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:28:17<43:03:20, 9687.55s/it]
Training...:  77% 2013/2609 [1:55:35<47:30,  4.78s/it][A
Training...:  77% 2014/2609 [1:55:35<47:52,  4.83s/it][A
Training...:  77% 2015/2609 [1:55:39<46:17,  4.68s/it][A
Training...:  77% 2016/2609 [1:55:43<44:35,  4.51s/it][A
Training...:  77% 2017/2609 [1:55:47<43:09,  4.37s/it][A
Training...:  77% 2018/2609 [1:55:51<41:45,  4.24s/it][A
Training...:  77% 2019/2609 [1:55:55<40:14,  4.09s/it][A
Training...:  77% 2020/2609 [1:55:59<39:01,  3.97s/it][A
Training...:  77% 2021/2609 [1:56:02<37:51,  3.86s/it][A
Training...:  78% 2022/2609 [1:56:06<36:54,  3.77s/it][A
Training...:  78% 2023/2609 [1:56:09<35:52,  3.67s/it][A
Training...:  78% 2024/2609 [1:56:13<34:53,  3.58s/it][A
Training...:  78% 2025/2609 [1:56:16<33:52,  3.48s/it][A
Training...:  78% 2026/2609 [1:56:19<32:53,  3.38s/it][A
Training...:  78% 2027/2609 [1:56:22<32:04,  3.31s/it][A
Training...:  78% 2028/2609 [1:56:25<31:07,  3.21s/it][A
Training...:  78% 2029/2609 [1:56:28<30:18,  3.14s/it][A
Training...:  78% 2030/2609 [1:56:31<29:22,  3.04s/it][A
Training...:  78% 2031/2609 [1:56:34<28:26,  2.95s/it][A
Training...:  78% 2032/2609 [1:56:36<27:32,  2.86s/it][A
Training...:  78% 2033/2609 [1:56:39<26:43,  2.78s/it][A
Training...:  78% 2034/2609 [1:56:41<25:48,  2.69s/it][A
Training...:  78% 2035/2609 [1:56:44<24:53,  2.60s/it][A
Training...:  78% 2036/2609 [1:56:46<23:58,  2.51s/it][A
Training...:  78% 2037/2609 [1:56:48<23:05,  2.42s/it][A
Training...:  78% 2038/2609 [1:56:50<22:08,  2.33s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:29:35<43:03:20, 9687.55s/it]
Training...:  78% 2038/2609 [1:56:53<22:08,  2.33s/it][A
Training...:  78% 2039/2609 [1:56:53<22:23,  2.36s/it][A
Training...:  78% 2040/2609 [1:56:55<21:07,  2.23s/it][A
Training...:  78% 2041/2609 [1:56:57<19:56,  2.11s/it][A
Training...:  78% 2042/2609 [1:56:58<18:46,  1.99s/it][A
Training...:  78% 2043/2609 [1:57:00<17:46,  1.88s/it][A
Training...:  78% 2044/2609 [1:57:01<16:43,  1.78s/it][A
Training...:  78% 2045/2609 [1:57:03<15:37,  1.66s/it][A
Training...:  78% 2046/2609 [1:57:04<14:28,  1.54s/it][A
Training...:  78% 2047/2609 [1:57:05<13:15,  1.42s/it][A
Training...:  78% 2048/2609 [1:57:06<11:56,  1.28s/it][A
Training...:  79% 2049/2609 [1:57:07<10:34,  1.13s/it][A
Training...:  79% 2050/2609 [1:57:08<08:55,  1.04it/s][A
Training...:  79% 2051/2609 [1:57:15<26:20,  2.83s/it][A
Training...:  79% 2052/2609 [1:57:22<38:21,  4.13s/it][A
Training...:  79% 2053/2609 [1:57:28<45:01,  4.86s/it][A
Training...:  79% 2054/2609 [1:57:35<48:32,  5.25s/it][A
Training...:  79% 2055/2609 [1:57:40<50:10,  5.43s/it][A
Training...:  79% 2056/2609 [1:57:46<50:50,  5.52s/it][A
Training...:  79% 2057/2609 [1:57:52<50:39,  5.51s/it][A
Training...:  79% 2058/2609 [1:57:57<49:49,  5.43s/it][A
Training...:  79% 2059/2609 [1:58:02<48:57,  5.34s/it][A
Training...:  79% 2060/2609 [1:58:07<47:40,  5.21s/it][A
Training...:  79% 2061/2609 [1:58:12<46:24,  5.08s/it][A
Training...:  79% 2062/2609 [1:58:16<44:59,  4.94s/it][A
Training...:  79% 2063/2609 [1:58:21<43:54,  4.83s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:31:08<43:03:20, 9687.55s/it]
Training...:  79% 2063/2609 [1:58:26<43:54,  4.83s/it][A
Training...:  79% 2064/2609 [1:58:26<44:18,  4.88s/it][A
Training...:  79% 2065/2609 [1:58:30<42:41,  4.71s/it][A
Training...:  79% 2066/2609 [1:58:34<41:06,  4.54s/it][A
Training...:  79% 2067/2609 [1:58:38<39:51,  4.41s/it][A
Training...:  79% 2068/2609 [1:58:42<38:39,  4.29s/it][A
Training...:  79% 2069/2609 [1:58:46<37:28,  4.16s/it][A
Training...:  79% 2070/2609 [1:58:50<36:16,  4.04s/it][A
Training...:  79% 2071/2609 [1:58:54<35:09,  3.92s/it][A
Training...:  79% 2072/2609 [1:58:57<34:07,  3.81s/it][A
Training...:  79% 2073/2609 [1:59:01<33:06,  3.71s/it][A
Training...:  79% 2074/2609 [1:59:04<32:07,  3.60s/it][A
Training...:  80% 2075/2609 [1:59:07<31:06,  3.49s/it][A
Training...:  80% 2076/2609 [1:59:11<30:13,  3.40s/it][A
Training...:  80% 2077/2609 [1:59:14<29:29,  3.33s/it][A
Training...:  80% 2078/2609 [1:59:17<28:42,  3.24s/it][A
Training...:  80% 2079/2609 [1:59:20<27:45,  3.14s/it][A
Training...:  80% 2080/2609 [1:59:22<26:44,  3.03s/it][A
Training...:  80% 2081/2609 [1:59:25<25:53,  2.94s/it][A
Training...:  80% 2082/2609 [1:59:28<25:02,  2.85s/it][A
Training...:  80% 2083/2609 [1:59:30<24:06,  2.75s/it][A
Training...:  80% 2084/2609 [1:59:33<23:13,  2.65s/it][A
Training...:  80% 2085/2609 [1:59:35<22:26,  2.57s/it][A
Training...:  80% 2086/2609 [1:59:37<21:35,  2.48s/it][A
Training...:  80% 2087/2609 [1:59:40<20:52,  2.40s/it][A
Training...:  80% 2088/2609 [1:59:42<20:00,  2.30s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:32:26<43:03:20, 9687.55s/it]
Training...:  80% 2088/2609 [1:59:44<20:00,  2.30s/it][A
Training...:  80% 2089/2609 [1:59:44<20:20,  2.35s/it][A
Training...:  80% 2090/2609 [1:59:46<19:09,  2.22s/it][A
Training...:  80% 2091/2609 [1:59:48<18:03,  2.09s/it][A
Training...:  80% 2092/2609 [1:59:50<17:02,  1.98s/it][A
Training...:  80% 2093/2609 [1:59:51<16:10,  1.88s/it][A
Training...:  80% 2094/2609 [1:59:53<15:08,  1.76s/it][A
Training...:  80% 2095/2609 [1:59:54<14:08,  1.65s/it][A
Training...:  80% 2096/2609 [1:59:55<13:04,  1.53s/it][A
Training...:  80% 2097/2609 [1:59:56<11:59,  1.41s/it][A
Training...:  80% 2098/2609 [1:59:57<10:47,  1.27s/it][A
Training...:  80% 2099/2609 [1:59:58<09:30,  1.12s/it][A
Training...:  80% 2100/2609 [1:59:59<08:03,  1.05it/s][A
Training...:  81% 2101/2609 [2:00:06<23:38,  2.79s/it][A
Training...:  81% 2102/2609 [2:00:13<34:30,  4.08s/it][A
Training...:  81% 2103/2609 [2:00:20<40:46,  4.83s/it][A
Training...:  81% 2104/2609 [2:00:26<44:43,  5.31s/it][A
Training...:  81% 2105/2609 [2:00:32<46:34,  5.55s/it][A
Training...:  81% 2106/2609 [2:00:38<46:54,  5.60s/it][A
Training...:  81% 2107/2609 [2:00:43<46:29,  5.56s/it][A
Training...:  81% 2108/2609 [2:00:48<45:42,  5.47s/it][A
Training...:  81% 2109/2609 [2:00:54<44:50,  5.38s/it][A
Training...:  81% 2110/2609 [2:00:59<43:43,  5.26s/it][A
Training...:  81% 2111/2609 [2:01:03<42:37,  5.14s/it][A
Training...:  81% 2112/2609 [2:01:08<41:10,  4.97s/it][A
Training...:  81% 2113/2609 [2:01:13<39:55,  4.83s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:34:00<43:03:20, 9687.55s/it]
Training...:  81% 2113/2609 [2:01:18<39:55,  4.83s/it][A
Training...:  81% 2114/2609 [2:01:18<40:15,  4.88s/it][A
Training...:  81% 2115/2609 [2:01:22<38:48,  4.71s/it][A
Training...:  81% 2116/2609 [2:01:26<37:37,  4.58s/it][A
Training...:  81% 2117/2609 [2:01:30<36:24,  4.44s/it][A
Training...:  81% 2118/2609 [2:01:34<35:08,  4.29s/it][A
Training...:  81% 2119/2609 [2:01:38<34:06,  4.18s/it][A
Training...:  81% 2120/2609 [2:01:42<32:57,  4.04s/it][A
Training...:  81% 2121/2609 [2:01:46<32:00,  3.94s/it][A
Training...:  81% 2122/2609 [2:01:49<30:58,  3.82s/it][A
Training...:  81% 2123/2609 [2:01:53<30:04,  3.71s/it][A
Training...:  81% 2124/2609 [2:01:56<29:11,  3.61s/it][A
Training...:  81% 2125/2609 [2:01:59<28:26,  3.53s/it][A
Training...:  81% 2126/2609 [2:02:02<27:31,  3.42s/it][A
Training...:  82% 2127/2609 [2:02:06<26:39,  3.32s/it][A
Training...:  82% 2128/2609 [2:02:08<25:46,  3.21s/it][A
Training...:  82% 2129/2609 [2:02:11<25:07,  3.14s/it][A
Training...:  82% 2130/2609 [2:02:14<24:24,  3.06s/it][A
Training...:  82% 2131/2609 [2:02:17<23:41,  2.97s/it][A
Training...:  82% 2132/2609 [2:02:20<22:52,  2.88s/it][A
Training...:  82% 2133/2609 [2:02:22<22:09,  2.79s/it][A
Training...:  82% 2134/2609 [2:02:25<21:19,  2.69s/it][A
Training...:  82% 2135/2609 [2:02:27<20:40,  2.62s/it][A
Training...:  82% 2136/2609 [2:02:30<19:55,  2.53s/it][A
Training...:  82% 2137/2609 [2:02:32<19:18,  2.45s/it][A
Training...:  82% 2138/2609 [2:02:34<18:32,  2.36s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:35:19<43:03:20, 9687.55s/it]
Training...:  82% 2138/2609 [2:02:36<18:32,  2.36s/it][A
Training...:  82% 2139/2609 [2:02:36<18:48,  2.40s/it][A
Training...:  82% 2140/2609 [2:02:38<17:43,  2.27s/it][A
Training...:  82% 2141/2609 [2:02:40<16:46,  2.15s/it][A
Training...:  82% 2142/2609 [2:02:42<15:53,  2.04s/it][A
Training...:  82% 2143/2609 [2:02:44<15:08,  1.95s/it][A
Training...:  82% 2144/2609 [2:02:45<14:15,  1.84s/it][A
Training...:  82% 2145/2609 [2:02:47<13:21,  1.73s/it][A
Training...:  82% 2146/2609 [2:02:48<12:23,  1.61s/it][A
Training...:  82% 2147/2609 [2:02:49<11:25,  1.48s/it][A
Training...:  82% 2148/2609 [2:02:50<10:16,  1.34s/it][A
Training...:  82% 2149/2609 [2:02:51<09:03,  1.18s/it][A
Training...:  82% 2150/2609 [2:02:52<07:39,  1.00s/it][A
Training...:  82% 2151/2609 [2:02:59<21:28,  2.81s/it][A
Training...:  82% 2152/2609 [2:03:06<31:04,  4.08s/it][A
Training...:  83% 2153/2609 [2:03:12<36:18,  4.78s/it][A
Training...:  83% 2154/2609 [2:03:18<39:17,  5.18s/it][A
Training...:  83% 2155/2609 [2:03:24<40:41,  5.38s/it][A
Training...:  83% 2156/2609 [2:03:30<41:11,  5.46s/it][A
Training...:  83% 2157/2609 [2:03:35<41:08,  5.46s/it][A
Training...:  83% 2158/2609 [2:03:40<40:20,  5.37s/it][A
Training...:  83% 2159/2609 [2:03:46<39:33,  5.27s/it][A
Training...:  83% 2160/2609 [2:03:50<38:27,  5.14s/it][A
Training...:  83% 2161/2609 [2:03:55<37:41,  5.05s/it][A
Training...:  83% 2162/2609 [2:04:00<37:04,  4.98s/it][A
Training...:  83% 2163/2609 [2:04:05<36:03,  4.85s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:36:52<43:03:20, 9687.55s/it]
Training...:  83% 2163/2609 [2:04:10<36:03,  4.85s/it][A
Training...:  83% 2164/2609 [2:04:10<36:15,  4.89s/it][A
Training...:  83% 2165/2609 [2:04:14<34:49,  4.71s/it][A
Training...:  83% 2166/2609 [2:04:18<33:22,  4.52s/it][A
Training...:  83% 2167/2609 [2:04:22<32:19,  4.39s/it][A
Training...:  83% 2168/2609 [2:04:26<31:15,  4.25s/it][A
Training...:  83% 2169/2609 [2:04:30<30:16,  4.13s/it][A
Training...:  83% 2170/2609 [2:04:33<29:18,  4.01s/it][A
Training...:  83% 2171/2609 [2:04:37<28:21,  3.88s/it][A
Training...:  83% 2172/2609 [2:04:41<27:25,  3.77s/it][A
Training...:  83% 2173/2609 [2:04:44<26:35,  3.66s/it][A
Training...:  83% 2174/2609 [2:04:47<25:47,  3.56s/it][A
Training...:  83% 2175/2609 [2:04:51<25:00,  3.46s/it][A
Training...:  83% 2176/2609 [2:04:54<24:15,  3.36s/it][A
Training...:  83% 2177/2609 [2:04:57<23:34,  3.27s/it][A
Training...:  83% 2178/2609 [2:05:00<22:48,  3.18s/it][A
Training...:  84% 2179/2609 [2:05:03<22:07,  3.09s/it][A
Training...:  84% 2180/2609 [2:05:05<21:30,  3.01s/it][A
Training...:  84% 2181/2609 [2:05:08<20:44,  2.91s/it][A
Training...:  84% 2182/2609 [2:05:11<20:00,  2.81s/it][A
Training...:  84% 2183/2609 [2:05:13<19:19,  2.72s/it][A
Training...:  84% 2184/2609 [2:05:16<18:38,  2.63s/it][A
Training...:  84% 2185/2609 [2:05:18<17:56,  2.54s/it][A
Training...:  84% 2186/2609 [2:05:20<17:19,  2.46s/it][A
Training...:  84% 2187/2609 [2:05:22<16:44,  2.38s/it][A
Training...:  84% 2188/2609 [2:05:24<16:06,  2.30s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:38:09<43:03:20, 9687.55s/it]
Training...:  84% 2188/2609 [2:05:27<16:06,  2.30s/it][A
Training...:  84% 2189/2609 [2:05:27<16:23,  2.34s/it][A
Training...:  84% 2190/2609 [2:05:29<15:27,  2.21s/it][A
Training...:  84% 2191/2609 [2:05:31<14:37,  2.10s/it][A
Training...:  84% 2192/2609 [2:05:32<13:46,  1.98s/it][A
Training...:  84% 2193/2609 [2:05:34<12:59,  1.87s/it][A
Training...:  84% 2194/2609 [2:05:36<12:16,  1.77s/it][A
Training...:  84% 2195/2609 [2:05:37<11:35,  1.68s/it][A
Training...:  84% 2196/2609 [2:05:38<10:43,  1.56s/it][A
Training...:  84% 2197/2609 [2:05:39<09:54,  1.44s/it][A
Training...:  84% 2198/2609 [2:05:40<08:57,  1.31s/it][A
Training...:  84% 2199/2609 [2:05:41<07:49,  1.15s/it][A
Training...:  84% 2200/2609 [2:05:42<06:30,  1.05it/s][A
Training...:  84% 2201/2609 [2:05:49<19:10,  2.82s/it][A
Training...:  84% 2202/2609 [2:05:56<27:37,  4.07s/it][A
Training...:  84% 2203/2609 [2:06:02<32:37,  4.82s/it][A
Training...:  84% 2204/2609 [2:06:09<35:25,  5.25s/it][A
Training...:  85% 2205/2609 [2:06:15<36:37,  5.44s/it][A
Training...:  85% 2206/2609 [2:06:20<36:58,  5.50s/it][A
Training...:  85% 2207/2609 [2:06:26<36:48,  5.49s/it][A
Training...:  85% 2208/2609 [2:06:31<36:09,  5.41s/it][A
Training...:  85% 2209/2609 [2:06:36<35:31,  5.33s/it][A
Training...:  85% 2210/2609 [2:06:41<34:30,  5.19s/it][A
Training...:  85% 2211/2609 [2:06:46<33:35,  5.06s/it][A
Training...:  85% 2212/2609 [2:06:51<33:03,  5.00s/it][A
Training...:  85% 2213/2609 [2:06:55<32:19,  4.90s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:39:42<43:03:20, 9687.55s/it]
Training...:  85% 2213/2609 [2:07:00<32:19,  4.90s/it][A
Training...:  85% 2214/2609 [2:07:00<32:29,  4.94s/it][A
Training...:  85% 2215/2609 [2:07:05<31:13,  4.75s/it][A
Training...:  85% 2216/2609 [2:07:09<29:48,  4.55s/it][A
Training...:  85% 2217/2609 [2:07:13<28:41,  4.39s/it][A
Training...:  85% 2218/2609 [2:07:17<27:39,  4.25s/it][A
Training...:  85% 2219/2609 [2:07:20<26:43,  4.11s/it][A
Training...:  85% 2220/2609 [2:07:24<25:44,  3.97s/it][A
Training...:  85% 2221/2609 [2:07:28<24:55,  3.85s/it][A
Training...:  85% 2222/2609 [2:07:31<24:02,  3.73s/it][A
Training...:  85% 2223/2609 [2:07:34<23:21,  3.63s/it][A
Training...:  85% 2224/2609 [2:07:38<22:35,  3.52s/it][A
Training...:  85% 2225/2609 [2:07:41<21:53,  3.42s/it][A
Training...:  85% 2226/2609 [2:07:44<21:16,  3.33s/it][A
Training...:  85% 2227/2609 [2:07:47<20:42,  3.25s/it][A
Training...:  85% 2228/2609 [2:07:50<20:03,  3.16s/it][A
Training...:  85% 2229/2609 [2:07:53<19:30,  3.08s/it][A
Training...:  85% 2230/2609 [2:07:56<18:53,  2.99s/it][A
Training...:  86% 2231/2609 [2:07:58<18:22,  2.92s/it][A
Training...:  86% 2232/2609 [2:08:01<17:50,  2.84s/it][A
Training...:  86% 2233/2609 [2:08:04<17:18,  2.76s/it][A
Training...:  86% 2234/2609 [2:08:06<16:44,  2.68s/it][A
Training...:  86% 2235/2609 [2:08:09<16:07,  2.59s/it][A
Training...:  86% 2236/2609 [2:08:11<15:32,  2.50s/it][A
Training...:  86% 2237/2609 [2:08:13<14:59,  2.42s/it][A
Training...:  86% 2238/2609 [2:08:15<14:23,  2.33s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:41:00<43:03:20, 9687.55s/it]
Training...:  86% 2238/2609 [2:08:18<14:23,  2.33s/it][A
Training...:  86% 2239/2609 [2:08:18<14:33,  2.36s/it][A
Training...:  86% 2240/2609 [2:08:20<13:48,  2.24s/it][A
Training...:  86% 2241/2609 [2:08:21<13:06,  2.14s/it][A
Training...:  86% 2242/2609 [2:08:24<13:06,  2.14s/it][A
Training...:  86% 2243/2609 [2:08:25<12:13,  2.00s/it][A
Training...:  86% 2244/2609 [2:08:27<11:21,  1.87s/it][A
Training...:  86% 2245/2609 [2:08:28<10:33,  1.74s/it][A
Training...:  86% 2246/2609 [2:08:30<09:44,  1.61s/it][A
Training...:  86% 2247/2609 [2:08:31<08:52,  1.47s/it][A
Training...:  86% 2248/2609 [2:08:32<08:02,  1.34s/it][A
Training...:  86% 2249/2609 [2:08:33<07:01,  1.17s/it][A
Training...:  86% 2250/2609 [2:08:33<05:55,  1.01it/s][A
Training...:  86% 2251/2609 [2:08:40<16:45,  2.81s/it][A
Training...:  86% 2252/2609 [2:08:47<24:13,  4.07s/it][A
Training...:  86% 2253/2609 [2:08:54<28:35,  4.82s/it][A
Training...:  86% 2254/2609 [2:09:00<31:16,  5.28s/it][A
Training...:  86% 2255/2609 [2:09:06<32:41,  5.54s/it][A
Training...:  86% 2256/2609 [2:09:12<33:22,  5.67s/it][A
Training...:  87% 2257/2609 [2:09:18<32:58,  5.62s/it][A
Training...:  87% 2258/2609 [2:09:23<32:19,  5.52s/it][A
Training...:  87% 2259/2609 [2:09:28<31:35,  5.41s/it][A
Training...:  87% 2260/2609 [2:09:33<30:36,  5.26s/it][A
Training...:  87% 2261/2609 [2:09:38<29:49,  5.14s/it][A
Training...:  87% 2262/2609 [2:09:43<28:46,  4.97s/it][A
Training...:  87% 2263/2609 [2:09:47<27:56,  4.85s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:42:34<43:03:20, 9687.55s/it]
Training...:  87% 2263/2609 [2:09:52<27:56,  4.85s/it][A
Training...:  87% 2264/2609 [2:09:52<28:12,  4.91s/it][A
Training...:  87% 2265/2609 [2:09:56<26:58,  4.70s/it][A
Training...:  87% 2266/2609 [2:10:01<26:03,  4.56s/it][A
Training...:  87% 2267/2609 [2:10:05<25:08,  4.41s/it][A
Training...:  87% 2268/2609 [2:10:09<24:19,  4.28s/it][A
Training...:  87% 2269/2609 [2:10:12<23:26,  4.14s/it][A
Training...:  87% 2270/2609 [2:10:16<22:41,  4.01s/it][A
Training...:  87% 2271/2609 [2:10:20<21:58,  3.90s/it][A
Training...:  87% 2272/2609 [2:10:23<21:20,  3.80s/it][A
Training...:  87% 2273/2609 [2:10:27<20:44,  3.70s/it][A
Training...:  87% 2274/2609 [2:10:30<20:11,  3.62s/it][A
Training...:  87% 2275/2609 [2:10:34<19:40,  3.53s/it][A
Training...:  87% 2276/2609 [2:10:37<19:02,  3.43s/it][A
Training...:  87% 2277/2609 [2:10:40<18:29,  3.34s/it][A
Training...:  87% 2278/2609 [2:10:43<17:55,  3.25s/it][A
Training...:  87% 2279/2609 [2:10:46<17:23,  3.16s/it][A
Training...:  87% 2280/2609 [2:10:49<16:51,  3.07s/it][A
Training...:  87% 2281/2609 [2:10:52<16:33,  3.03s/it][A
Training...:  87% 2282/2609 [2:10:54<16:05,  2.95s/it][A
Training...:  88% 2283/2609 [2:10:57<15:30,  2.85s/it][A
Training...:  88% 2284/2609 [2:11:00<14:57,  2.76s/it][A
Training...:  88% 2285/2609 [2:11:02<14:21,  2.66s/it][A
Training...:  88% 2286/2609 [2:11:04<13:48,  2.56s/it][A
Training...:  88% 2287/2609 [2:11:07<13:16,  2.47s/it][A
Training...:  88% 2288/2609 [2:11:09<12:41,  2.37s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:43:53<43:03:20, 9687.55s/it]
Training...:  88% 2288/2609 [2:11:11<12:41,  2.37s/it][A
Training...:  88% 2289/2609 [2:11:11<12:46,  2.39s/it][A
Training...:  88% 2290/2609 [2:11:13<12:00,  2.26s/it][A
Training...:  88% 2291/2609 [2:11:15<11:19,  2.14s/it][A
Training...:  88% 2292/2609 [2:11:17<10:37,  2.01s/it][A
Training...:  88% 2293/2609 [2:11:18<10:00,  1.90s/it][A
Training...:  88% 2294/2609 [2:11:20<09:24,  1.79s/it][A
Training...:  88% 2295/2609 [2:11:21<08:48,  1.68s/it][A
Training...:  88% 2296/2609 [2:11:23<08:09,  1.56s/it][A
Training...:  88% 2297/2609 [2:11:24<07:28,  1.44s/it][A
Training...:  88% 2298/2609 [2:11:25<06:45,  1.30s/it][A
Training...:  88% 2299/2609 [2:11:26<05:57,  1.15s/it][A
Training...:  88% 2300/2609 [2:11:26<05:00,  1.03it/s][A
Training...:  88% 2301/2609 [2:11:33<14:30,  2.83s/it][A
Training...:  88% 2302/2609 [2:11:40<21:04,  4.12s/it][A
Training...:  88% 2303/2609 [2:11:47<24:42,  4.85s/it][A
Training...:  88% 2304/2609 [2:11:53<26:42,  5.26s/it][A
Training...:  88% 2305/2609 [2:11:59<27:43,  5.47s/it][A
Training...:  88% 2306/2609 [2:12:05<27:57,  5.54s/it][A
Training...:  88% 2307/2609 [2:12:10<27:55,  5.55s/it][A
Training...:  88% 2308/2609 [2:12:16<27:20,  5.45s/it][A
Training...:  89% 2309/2609 [2:12:21<26:47,  5.36s/it][A
Training...:  89% 2310/2609 [2:12:26<26:04,  5.23s/it][A
Training...:  89% 2311/2609 [2:12:31<25:25,  5.12s/it][A
Training...:  89% 2312/2609 [2:12:35<24:36,  4.97s/it][A
Training...:  89% 2313/2609 [2:12:40<23:52,  4.84s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:45:27<43:03:20, 9687.55s/it]
Training...:  89% 2313/2609 [2:12:45<23:52,  4.84s/it][A
Training...:  89% 2314/2609 [2:12:45<24:15,  4.93s/it][A
Training...:  89% 2315/2609 [2:12:49<23:12,  4.74s/it][A
Training...:  89% 2316/2609 [2:12:53<22:14,  4.55s/it][A
Training...:  89% 2317/2609 [2:12:57<21:26,  4.41s/it][A
Training...:  89% 2318/2609 [2:13:01<20:38,  4.26s/it][A
Training...:  89% 2319/2609 [2:13:05<19:55,  4.12s/it][A
Training...:  89% 2320/2609 [2:13:09<19:12,  3.99s/it][A
Training...:  89% 2321/2609 [2:13:12<18:46,  3.91s/it][A
Training...:  89% 2322/2609 [2:13:16<18:12,  3.81s/it][A
Training...:  89% 2323/2609 [2:13:20<17:39,  3.70s/it][A
Training...:  89% 2324/2609 [2:13:23<17:03,  3.59s/it][A
Training...:  89% 2325/2609 [2:13:26<16:33,  3.50s/it][A
Training...:  89% 2326/2609 [2:13:29<15:59,  3.39s/it][A
Training...:  89% 2327/2609 [2:13:32<15:30,  3.30s/it][A
Training...:  89% 2328/2609 [2:13:35<14:58,  3.20s/it][A
Training...:  89% 2329/2609 [2:13:38<14:31,  3.11s/it][A
Training...:  89% 2330/2609 [2:13:41<14:01,  3.02s/it][A
Training...:  89% 2331/2609 [2:13:44<13:37,  2.94s/it][A
Training...:  89% 2332/2609 [2:13:46<13:09,  2.85s/it][A
Training...:  89% 2333/2609 [2:13:49<12:42,  2.76s/it][A
Training...:  89% 2334/2609 [2:13:51<12:14,  2.67s/it][A
Training...:  89% 2335/2609 [2:13:54<11:47,  2.58s/it][A
Training...:  90% 2336/2609 [2:13:56<11:19,  2.49s/it][A
Training...:  90% 2337/2609 [2:13:58<10:55,  2.41s/it][A
Training...:  90% 2338/2609 [2:14:00<10:27,  2.32s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:46:45<43:03:20, 9687.55s/it]
Training...:  90% 2338/2609 [2:14:03<10:27,  2.32s/it][A
Training...:  90% 2339/2609 [2:14:03<10:32,  2.34s/it][A
Training...:  90% 2340/2609 [2:14:05<09:54,  2.21s/it][A
Training...:  90% 2341/2609 [2:14:06<09:18,  2.08s/it][A
Training...:  90% 2342/2609 [2:14:08<08:43,  1.96s/it][A
Training...:  90% 2343/2609 [2:14:10<08:09,  1.84s/it][A
Training...:  90% 2344/2609 [2:14:11<07:37,  1.73s/it][A
Training...:  90% 2345/2609 [2:14:13<07:08,  1.62s/it][A
Training...:  90% 2346/2609 [2:14:14<06:36,  1.51s/it][A
Training...:  90% 2347/2609 [2:14:15<06:03,  1.39s/it][A
Training...:  90% 2348/2609 [2:14:16<05:28,  1.26s/it][A
Training...:  90% 2349/2609 [2:14:17<04:50,  1.12s/it][A
Training...:  90% 2350/2609 [2:14:17<04:03,  1.06it/s][A
Training...:  90% 2351/2609 [2:14:24<11:56,  2.78s/it][A
Training...:  90% 2352/2609 [2:14:31<17:19,  4.05s/it][A
Training...:  90% 2353/2609 [2:14:38<20:24,  4.78s/it][A
Training...:  90% 2354/2609 [2:14:44<22:06,  5.20s/it][A
Training...:  90% 2355/2609 [2:14:50<22:54,  5.41s/it][A
Training...:  90% 2356/2609 [2:14:55<23:02,  5.47s/it][A
Training...:  90% 2357/2609 [2:15:01<22:55,  5.46s/it][A
Training...:  90% 2358/2609 [2:15:06<22:31,  5.39s/it][A
Training...:  90% 2359/2609 [2:15:11<22:08,  5.32s/it][A
Training...:  90% 2360/2609 [2:15:16<21:29,  5.18s/it][A
Training...:  90% 2361/2609 [2:15:21<20:51,  5.05s/it][A
Training...:  91% 2362/2609 [2:15:25<20:06,  4.89s/it][A
Training...:  91% 2363/2609 [2:15:30<19:36,  4.78s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:48:17<43:03:20, 9687.55s/it]
Training...:  91% 2363/2609 [2:15:35<19:36,  4.78s/it][A
Training...:  91% 2364/2609 [2:15:35<19:49,  4.86s/it][A
Training...:  91% 2365/2609 [2:15:39<19:02,  4.68s/it][A
Training...:  91% 2366/2609 [2:15:43<18:15,  4.51s/it][A
Training...:  91% 2367/2609 [2:15:47<17:32,  4.35s/it][A
Training...:  91% 2368/2609 [2:15:51<16:53,  4.21s/it][A
Training...:  91% 2369/2609 [2:15:55<16:18,  4.08s/it][A
Training...:  91% 2370/2609 [2:15:59<15:42,  3.95s/it][A
Training...:  91% 2371/2609 [2:16:02<15:10,  3.83s/it][A
Training...:  91% 2372/2609 [2:16:06<14:38,  3.71s/it][A
Training...:  91% 2373/2609 [2:16:09<14:13,  3.62s/it][A
Training...:  91% 2374/2609 [2:16:12<13:44,  3.51s/it][A
Training...:  91% 2375/2609 [2:16:15<13:19,  3.42s/it][A
Training...:  91% 2376/2609 [2:16:18<12:50,  3.31s/it][A
Training...:  91% 2377/2609 [2:16:21<12:24,  3.21s/it][A
Training...:  91% 2378/2609 [2:16:24<12:01,  3.12s/it][A
Training...:  91% 2379/2609 [2:16:27<11:39,  3.04s/it][A
Training...:  91% 2380/2609 [2:16:30<11:18,  2.96s/it][A
Training...:  91% 2381/2609 [2:16:33<10:56,  2.88s/it][A
Training...:  91% 2382/2609 [2:16:35<10:32,  2.79s/it][A
Training...:  91% 2383/2609 [2:16:38<10:08,  2.69s/it][A
Training...:  91% 2384/2609 [2:16:40<09:44,  2.60s/it][A
Training...:  91% 2385/2609 [2:16:42<09:24,  2.52s/it][A
Training...:  91% 2386/2609 [2:16:45<09:05,  2.45s/it][A
Training...:  91% 2387/2609 [2:16:47<08:45,  2.37s/it][A
Training...:  92% 2388/2609 [2:16:49<08:22,  2.27s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:49:33<43:03:20, 9687.55s/it]
Training...:  92% 2388/2609 [2:16:51<08:22,  2.27s/it][A
Training...:  92% 2389/2609 [2:16:51<08:28,  2.31s/it][A
Training...:  92% 2390/2609 [2:16:53<07:59,  2.19s/it][A
Training...:  92% 2391/2609 [2:16:55<07:32,  2.08s/it][A
Training...:  92% 2392/2609 [2:16:57<07:07,  1.97s/it][A
Training...:  92% 2393/2609 [2:16:58<06:42,  1.86s/it][A
Training...:  92% 2394/2609 [2:17:00<06:15,  1.75s/it][A
Training...:  92% 2395/2609 [2:17:01<05:50,  1.64s/it][A
Training...:  92% 2396/2609 [2:17:03<05:24,  1.52s/it][A
Training...:  92% 2397/2609 [2:17:04<04:57,  1.40s/it][A
Training...:  92% 2398/2609 [2:17:05<04:29,  1.28s/it][A
Training...:  92% 2399/2609 [2:17:05<03:57,  1.13s/it][A
Training...:  92% 2400/2609 [2:17:06<03:18,  1.05it/s][A
Training...:  92% 2401/2609 [2:17:13<09:37,  2.78s/it][A
Training...:  92% 2402/2609 [2:17:20<13:58,  4.05s/it][A
Training...:  92% 2403/2609 [2:17:27<16:29,  4.80s/it][A
Training...:  92% 2404/2609 [2:17:33<17:55,  5.24s/it][A
Training...:  92% 2405/2609 [2:17:39<18:35,  5.47s/it][A
Training...:  92% 2406/2609 [2:17:44<18:41,  5.52s/it][A
Training...:  92% 2407/2609 [2:17:50<18:34,  5.52s/it][A
Training...:  92% 2408/2609 [2:17:55<18:06,  5.40s/it][A
Training...:  92% 2409/2609 [2:18:00<17:33,  5.27s/it][A
Training...:  92% 2410/2609 [2:18:05<17:02,  5.14s/it][A
Training...:  92% 2411/2609 [2:18:10<16:32,  5.01s/it][A
Training...:  92% 2412/2609 [2:18:14<16:09,  4.92s/it][A
Training...:  92% 2413/2609 [2:18:19<15:45,  4.83s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:51:06<43:03:20, 9687.55s/it]
Training...:  92% 2413/2609 [2:18:24<15:45,  4.83s/it][A
Training...:  93% 2414/2609 [2:18:24<15:49,  4.87s/it][A
Training...:  93% 2415/2609 [2:18:28<15:07,  4.68s/it][A
Training...:  93% 2416/2609 [2:18:32<14:31,  4.51s/it][A
Training...:  93% 2417/2609 [2:18:36<13:58,  4.37s/it][A
Training...:  93% 2418/2609 [2:18:40<13:26,  4.22s/it][A
Training...:  93% 2419/2609 [2:18:44<12:57,  4.09s/it][A
Training...:  93% 2420/2609 [2:18:48<12:31,  3.97s/it][A
Training...:  93% 2421/2609 [2:18:51<12:11,  3.89s/it][A
Training...:  93% 2422/2609 [2:18:55<11:47,  3.79s/it][A
Training...:  93% 2423/2609 [2:18:58<11:28,  3.70s/it][A
Training...:  93% 2424/2609 [2:19:02<11:07,  3.61s/it][A
Training...:  93% 2425/2609 [2:19:05<10:45,  3.51s/it][A
Training...:  93% 2426/2609 [2:19:08<10:25,  3.42s/it][A
Training...:  93% 2427/2609 [2:19:11<10:04,  3.32s/it][A
Training...:  93% 2428/2609 [2:19:14<09:46,  3.24s/it][A
Training...:  93% 2429/2609 [2:19:17<09:29,  3.16s/it][A
Training...:  93% 2430/2609 [2:19:20<09:09,  3.07s/it][A
Training...:  93% 2431/2609 [2:19:23<08:50,  2.98s/it][A
Training...:  93% 2432/2609 [2:19:26<08:31,  2.89s/it][A
Training...:  93% 2433/2609 [2:19:28<08:14,  2.81s/it][A
Training...:  93% 2434/2609 [2:19:31<07:56,  2.72s/it][A
Training...:  93% 2435/2609 [2:19:33<07:38,  2.63s/it][A
Training...:  93% 2436/2609 [2:19:36<07:19,  2.54s/it][A
Training...:  93% 2437/2609 [2:19:38<07:02,  2.46s/it][A
Training...:  93% 2438/2609 [2:19:40<06:42,  2.35s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:52:24<43:03:20, 9687.55s/it]
Training...:  93% 2438/2609 [2:19:42<06:42,  2.35s/it][A
Training...:  93% 2439/2609 [2:19:42<06:44,  2.38s/it][A
Training...:  94% 2440/2609 [2:19:44<06:19,  2.25s/it][A
Training...:  94% 2441/2609 [2:19:46<05:55,  2.12s/it][A
Training...:  94% 2442/2609 [2:19:48<05:33,  2.00s/it][A
Training...:  94% 2443/2609 [2:19:50<05:15,  1.90s/it][A
Training...:  94% 2444/2609 [2:19:51<04:55,  1.79s/it][A
Training...:  94% 2445/2609 [2:19:53<04:36,  1.69s/it][A
Training...:  94% 2446/2609 [2:19:54<04:17,  1.58s/it][A
Training...:  94% 2447/2609 [2:19:55<03:58,  1.47s/it][A
Training...:  94% 2448/2609 [2:19:56<03:36,  1.35s/it][A
Training...:  94% 2449/2609 [2:19:57<03:12,  1.20s/it][A
Training...:  94% 2450/2609 [2:19:58<02:41,  1.02s/it][A
Training...:  94% 2451/2609 [2:20:05<07:24,  2.81s/it][A
Training...:  94% 2452/2609 [2:20:12<10:40,  4.08s/it][A
Training...:  94% 2453/2609 [2:20:18<12:33,  4.83s/it][A
Training...:  94% 2454/2609 [2:20:24<13:35,  5.26s/it][A
Training...:  94% 2455/2609 [2:20:31<14:07,  5.50s/it][A
Training...:  94% 2456/2609 [2:20:36<14:13,  5.58s/it][A
Training...:  94% 2457/2609 [2:20:42<14:04,  5.55s/it][A
Training...:  94% 2458/2609 [2:20:47<13:47,  5.48s/it][A
Training...:  94% 2459/2609 [2:20:52<13:25,  5.37s/it][A
Training...:  94% 2460/2609 [2:20:57<12:59,  5.23s/it][A
Training...:  94% 2461/2609 [2:21:02<12:33,  5.09s/it][A
Training...:  94% 2462/2609 [2:21:06<12:05,  4.93s/it][A
Training...:  94% 2463/2609 [2:21:11<11:41,  4.81s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:53:58<43:03:20, 9687.55s/it]
Training...:  94% 2463/2609 [2:21:16<11:41,  4.81s/it][A
Training...:  94% 2464/2609 [2:21:16<11:47,  4.88s/it][A
Training...:  94% 2465/2609 [2:21:20<11:21,  4.73s/it][A
Training...:  95% 2466/2609 [2:21:25<10:50,  4.55s/it][A
Training...:  95% 2467/2609 [2:21:29<10:23,  4.39s/it][A
Training...:  95% 2468/2609 [2:21:32<09:58,  4.25s/it][A
Training...:  95% 2469/2609 [2:21:36<09:36,  4.12s/it][A
Training...:  95% 2470/2609 [2:21:40<09:13,  3.98s/it][A
Training...:  95% 2471/2609 [2:21:44<08:54,  3.87s/it][A
Training...:  95% 2472/2609 [2:21:47<08:37,  3.77s/it][A
Training...:  95% 2473/2609 [2:21:51<08:20,  3.68s/it][A
Training...:  95% 2474/2609 [2:21:54<08:03,  3.58s/it][A
Training...:  95% 2475/2609 [2:21:57<07:46,  3.48s/it][A
Training...:  95% 2476/2609 [2:22:00<07:30,  3.38s/it][A
Training...:  95% 2477/2609 [2:22:03<07:13,  3.28s/it][A
Training...:  95% 2478/2609 [2:22:06<06:58,  3.20s/it][A
Training...:  95% 2479/2609 [2:22:09<06:43,  3.10s/it][A
Training...:  95% 2480/2609 [2:22:12<06:29,  3.02s/it][A
Training...:  95% 2481/2609 [2:22:15<06:12,  2.91s/it][A
Training...:  95% 2482/2609 [2:22:17<05:58,  2.82s/it][A
Training...:  95% 2483/2609 [2:22:20<05:45,  2.74s/it][A
Training...:  95% 2484/2609 [2:22:22<05:33,  2.67s/it][A
Training...:  95% 2485/2609 [2:22:25<05:18,  2.57s/it][A
Training...:  95% 2486/2609 [2:22:27<05:04,  2.48s/it][A
Training...:  95% 2487/2609 [2:22:29<04:53,  2.40s/it][A
Training...:  95% 2488/2609 [2:22:31<04:38,  2.30s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:55:16<43:03:20, 9687.55s/it]
Training...:  95% 2488/2609 [2:22:34<04:38,  2.30s/it][A
Training...:  95% 2489/2609 [2:22:34<04:39,  2.33s/it][A
Training...:  95% 2490/2609 [2:22:36<04:21,  2.20s/it][A
Training...:  95% 2491/2609 [2:22:37<04:05,  2.08s/it][A
Training...:  96% 2492/2609 [2:22:39<03:51,  1.98s/it][A
Training...:  96% 2493/2609 [2:22:41<03:38,  1.88s/it][A
Training...:  96% 2494/2609 [2:22:42<03:24,  1.78s/it][A
Training...:  96% 2495/2609 [2:22:44<03:09,  1.67s/it][A
Training...:  96% 2496/2609 [2:22:45<02:54,  1.55s/it][A
Training...:  96% 2497/2609 [2:22:46<02:38,  1.42s/it][A
Training...:  96% 2498/2609 [2:22:47<02:22,  1.28s/it][A
Training...:  96% 2499/2609 [2:22:48<02:04,  1.13s/it][A
Training...:  96% 2500/2609 [2:22:48<01:44,  1.04it/s][A
Training...:  96% 2501/2609 [2:22:56<05:03,  2.81s/it][A
Training...:  96% 2502/2609 [2:23:03<07:17,  4.09s/it][A
Training...:  96% 2503/2609 [2:23:09<08:36,  4.87s/it][A
Training...:  96% 2504/2609 [2:23:16<09:19,  5.32s/it][A
Training...:  96% 2505/2609 [2:23:22<09:37,  5.55s/it][A
Training...:  96% 2506/2609 [2:23:27<09:36,  5.60s/it][A
Training...:  96% 2507/2609 [2:23:33<09:35,  5.64s/it][A
Training...:  96% 2508/2609 [2:23:38<09:17,  5.52s/it][A
Training...:  96% 2509/2609 [2:23:44<08:59,  5.39s/it][A
Training...:  96% 2510/2609 [2:23:48<08:37,  5.22s/it][A
Training...:  96% 2511/2609 [2:23:53<08:17,  5.08s/it][A
Training...:  96% 2512/2609 [2:23:58<07:56,  4.91s/it][A
Training...:  96% 2513/2609 [2:24:02<07:38,  4.77s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:56:49<43:03:20, 9687.55s/it]
Training...:  96% 2513/2609 [2:24:07<07:38,  4.77s/it][A
Training...:  96% 2514/2609 [2:24:07<07:38,  4.82s/it][A
Training...:  96% 2515/2609 [2:24:11<07:16,  4.65s/it][A
Training...:  96% 2516/2609 [2:24:15<06:56,  4.48s/it][A
Training...:  96% 2517/2609 [2:24:19<06:40,  4.35s/it][A
Training...:  97% 2518/2609 [2:24:23<06:22,  4.21s/it][A
Training...:  97% 2519/2609 [2:24:27<06:08,  4.09s/it][A
Training...:  97% 2520/2609 [2:24:31<05:53,  3.97s/it][A
Training...:  97% 2521/2609 [2:24:34<05:39,  3.86s/it][A
Training...:  97% 2522/2609 [2:24:38<05:26,  3.76s/it][A
Training...:  97% 2523/2609 [2:24:41<05:14,  3.66s/it][A
Training...:  97% 2524/2609 [2:24:45<05:01,  3.55s/it][A
Training...:  97% 2525/2609 [2:24:48<04:48,  3.44s/it][A
Training...:  97% 2526/2609 [2:24:51<04:36,  3.33s/it][A
Training...:  97% 2527/2609 [2:24:54<04:26,  3.25s/it][A
Training...:  97% 2528/2609 [2:24:57<04:15,  3.16s/it][A
Training...:  97% 2529/2609 [2:25:00<04:04,  3.06s/it][A
Training...:  97% 2530/2609 [2:25:02<03:55,  2.98s/it][A
Training...:  97% 2531/2609 [2:25:05<03:45,  2.89s/it][A
Training...:  97% 2532/2609 [2:25:08<03:35,  2.80s/it][A
Training...:  97% 2533/2609 [2:25:10<03:26,  2.72s/it][A
Training...:  97% 2534/2609 [2:25:13<03:17,  2.63s/it][A
Training...:  97% 2535/2609 [2:25:15<03:08,  2.55s/it][A
Training...:  97% 2536/2609 [2:25:17<03:00,  2.47s/it][A
Training...:  97% 2537/2609 [2:25:19<02:50,  2.37s/it][A
Training...:  97% 2538/2609 [2:25:22<02:41,  2.28s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:58:06<43:03:20, 9687.55s/it]
Training...:  97% 2538/2609 [2:25:24<02:41,  2.28s/it][A
Training...:  97% 2539/2609 [2:25:24<02:42,  2.32s/it][A
Training...:  97% 2540/2609 [2:25:26<02:31,  2.19s/it][A
Training...:  97% 2541/2609 [2:25:28<02:20,  2.06s/it][A
Training...:  97% 2542/2609 [2:25:29<02:10,  1.94s/it][A
Training...:  97% 2543/2609 [2:25:31<02:00,  1.83s/it][A
Training...:  98% 2544/2609 [2:25:32<01:51,  1.72s/it][A
Training...:  98% 2545/2609 [2:25:34<01:42,  1.61s/it][A
Training...:  98% 2546/2609 [2:25:35<01:34,  1.50s/it][A
Training...:  98% 2547/2609 [2:25:36<01:26,  1.39s/it][A
Training...:  98% 2548/2609 [2:25:37<01:17,  1.26s/it][A
Training...:  98% 2549/2609 [2:25:38<01:07,  1.13s/it][A
Training...:  98% 2550/2609 [2:25:38<00:56,  1.04it/s][A
Training...:  98% 2551/2609 [2:25:46<02:46,  2.87s/it][A
Training...:  98% 2552/2609 [2:25:53<03:55,  4.14s/it][A
Training...:  98% 2553/2609 [2:26:00<04:35,  4.92s/it][A
Training...:  98% 2554/2609 [2:26:06<04:53,  5.34s/it][A
Training...:  98% 2555/2609 [2:26:12<04:58,  5.54s/it][A
Training...:  98% 2556/2609 [2:26:18<04:56,  5.59s/it][A
Training...:  98% 2557/2609 [2:26:23<04:51,  5.61s/it][A
Training...:  98% 2558/2609 [2:26:29<04:41,  5.52s/it][A
Training...:  98% 2559/2609 [2:26:34<04:30,  5.40s/it][A
Training...:  98% 2560/2609 [2:26:39<04:19,  5.30s/it][A
Training...:  98% 2561/2609 [2:26:44<04:06,  5.14s/it][A
Training...:  98% 2562/2609 [2:26:48<03:54,  4.99s/it][A
Training...:  98% 2563/2609 [2:26:53<03:43,  4.86s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [12:59:40<43:03:20, 9687.55s/it]
Training...:  98% 2563/2609 [2:26:58<03:43,  4.86s/it][A
Training...:  98% 2564/2609 [2:26:58<03:44,  4.99s/it][A
Training...:  98% 2565/2609 [2:27:02<03:32,  4.83s/it][A
Training...:  98% 2566/2609 [2:27:07<03:18,  4.61s/it][A
Training...:  98% 2567/2609 [2:27:11<03:06,  4.45s/it][A
Training...:  98% 2568/2609 [2:27:15<02:56,  4.29s/it][A
Training...:  98% 2569/2609 [2:27:18<02:46,  4.16s/it][A
Training...:  99% 2570/2609 [2:27:22<02:36,  4.02s/it][A
Training...:  99% 2571/2609 [2:27:26<02:28,  3.90s/it][A
Training...:  99% 2572/2609 [2:27:29<02:20,  3.80s/it][A
Training...:  99% 2573/2609 [2:27:33<02:12,  3.68s/it][A
Training...:  99% 2574/2609 [2:27:36<02:05,  3.57s/it][A
Training...:  99% 2575/2609 [2:27:39<01:58,  3.48s/it][A
Training...:  99% 2576/2609 [2:27:42<01:51,  3.37s/it][A
Training...:  99% 2577/2609 [2:27:45<01:44,  3.28s/it][A
Training...:  99% 2578/2609 [2:27:48<01:38,  3.19s/it][A
Training...:  99% 2579/2609 [2:27:51<01:33,  3.11s/it][A
Training...:  99% 2580/2609 [2:27:54<01:27,  3.02s/it][A
Training...:  99% 2581/2609 [2:27:57<01:22,  2.93s/it][A
Training...:  99% 2582/2609 [2:28:00<01:16,  2.85s/it][A
Training...:  99% 2583/2609 [2:28:02<01:11,  2.76s/it][A
Training...:  99% 2584/2609 [2:28:05<01:06,  2.67s/it][A
Training...:  99% 2585/2609 [2:28:07<01:01,  2.58s/it][A
Training...:  99% 2586/2609 [2:28:09<00:57,  2.50s/it][A
Training...:  99% 2587/2609 [2:28:11<00:53,  2.42s/it][A
Training...:  99% 2588/2609 [2:28:14<00:48,  2.32s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  20% 4/20 [13:00:58<43:03:20, 9687.55s/it]
Training...:  99% 2588/2609 [2:28:16<00:48,  2.32s/it][A
Training...:  99% 2589/2609 [2:28:16<00:47,  2.36s/it][A
Training...:  99% 2590/2609 [2:28:18<00:42,  2.23s/it][A
Training...:  99% 2591/2609 [2:28:20<00:37,  2.10s/it][A
Training...:  99% 2592/2609 [2:28:21<00:33,  1.99s/it][A
Training...:  99% 2593/2609 [2:28:23<00:30,  1.89s/it][A
Training...:  99% 2594/2609 [2:28:25<00:26,  1.78s/it][A
Training...:  99% 2595/2609 [2:28:26<00:23,  1.69s/it][A
Training...: 100% 2596/2609 [2:28:27<00:20,  1.58s/it][A
Training...: 100% 2597/2609 [2:28:29<00:17,  1.46s/it][A
Training...: 100% 2598/2609 [2:28:30<00:14,  1.33s/it][A
Training...: 100% 2599/2609 [2:28:30<00:11,  1.19s/it][A
Training...: 100% 2600/2609 [2:28:31<00:09,  1.00s/it][A
Training...: 100% 2601/2609 [2:28:38<00:21,  2.64s/it][A
Training...: 100% 2602/2609 [2:28:43<00:24,  3.49s/it][A
Training...: 100% 2603/2609 [2:28:48<00:22,  3.82s/it][A
Training...: 100% 2604/2609 [2:28:52<00:19,  3.90s/it][A
Training...: 100% 2605/2609 [2:28:55<00:15,  3.80s/it][A
Training...: 100% 2606/2609 [2:28:58<00:10,  3.58s/it][A
Training...: 100% 2607/2609 [2:29:01<00:06,  3.27s/it][A
Training...: 100% 2608/2609 [2:29:03<00:02,  2.90s/it][A
Training...: 100% 2609/2609 [2:29:04<00:00,  2.48s/it][ATraining...: 100% 2609/2609 [2:29:04<00:00,  3.43s/it]
Step... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:01:46<39:15:03, 9420.24s/it]
Training...:   0% 0/2609 [00:00<?, ?it/s][AStep... (12200 | Loss: 0.13890023529529572, Learning Rate: 7.636565715074539e-05, Gradient Norm: 0.6219920516014099)
Step... (12225 | Loss: 0.0982196107506752, Learning Rate: 7.631514745298773e-05, Gradient Norm: 0.7649257183074951)
Step... (12250 | Loss: 0.18937784433364868, Learning Rate: 7.626464503118768e-05, Gradient Norm: 0.7921546101570129)
Step... (12275 | Loss: 0.10818564146757126, Learning Rate: 7.621413533343002e-05, Gradient Norm: 0.6883305907249451)
Step... (12300 | Loss: 0.16009993851184845, Learning Rate: 7.616363291162997e-05, Gradient Norm: 0.723789632320404)
Step... (12325 | Loss: 0.10151983052492142, Learning Rate: 7.611312321387231e-05, Gradient Norm: 0.7368847131729126)
Step... (12350 | Loss: 0.1438475400209427, Learning Rate: 7.606262079207227e-05, Gradient Norm: 0.5906527638435364)
Step... (12375 | Loss: 0.14323368668556213, Learning Rate: 7.601211837027222e-05, Gradient Norm: 0.723111629486084)
Step... (12400 | Loss: 0.14034484326839447, Learning Rate: 7.596160867251456e-05, Gradient Norm: 0.5942422151565552)
Step... (12425 | Loss: 0.10734390467405319, Learning Rate: 7.591110625071451e-05, Gradient Norm: 0.687454104423523)
Step... (12450 | Loss: 0.1928127110004425, Learning Rate: 7.586060382891446e-05, Gradient Norm: 0.8821277618408203)
Step... (12475 | Loss: 0.21107780933380127, Learning Rate: 7.58100941311568e-05, Gradient Norm: 1.1116070747375488)
Step... (12500 | Loss: 0.16582277417182922, Learning Rate: 7.575959170935676e-05, Gradient Norm: 0.611453652381897)
Step... (12525 | Loss: 0.1178215965628624, Learning Rate: 7.570908928755671e-05, Gradient Norm: 0.7021200656890869)
Step... (12550 | Loss: 0.10424245893955231, Learning Rate: 7.565857958979905e-05, Gradient Norm: 0.5590828657150269)
Step... (12575 | Loss: 0.11450063437223434, Learning Rate: 7.5608077167999e-05, Gradient Norm: 0.8922548294067383)
Step... (12600 | Loss: 0.17043401300907135, Learning Rate: 7.555757474619895e-05, Gradient Norm: 1.1038360595703125)
Step... (12625 | Loss: 0.11277716606855392, Learning Rate: 7.550706504844129e-05, Gradient Norm: 0.5878471732139587)
Step... (12650 | Loss: 0.13118508458137512, Learning Rate: 7.545656262664124e-05, Gradient Norm: 0.5747437477111816)
Step... (12675 | Loss: 0.10248389840126038, Learning Rate: 7.54060602048412e-05, Gradient Norm: 0.7764868140220642)
Step... (12700 | Loss: 0.17534556984901428, Learning Rate: 7.535555050708354e-05, Gradient Norm: 0.6570380330085754)
Step... (12725 | Loss: 0.12047740817070007, Learning Rate: 7.530504808528349e-05, Gradient Norm: 0.7584028840065002)
Step... (12750 | Loss: 0.1120925024151802, Learning Rate: 7.525454566348344e-05, Gradient Norm: 0.5584312677383423)
Step... (12775 | Loss: 0.08334393799304962, Learning Rate: 7.520403596572578e-05, Gradient Norm: 0.8210335969924927)
Step... (12800 | Loss: 0.14296524226665497, Learning Rate: 7.515353354392573e-05, Gradient Norm: 0.6339601874351501)
Step... (12825 | Loss: 0.09544360637664795, Learning Rate: 7.510303112212569e-05, Gradient Norm: 0.7027065753936768)
Step... (12850 | Loss: 0.17342466115951538, Learning Rate: 7.505252142436802e-05, Gradient Norm: 0.6693349480628967)
Step... (12875 | Loss: 0.07830116152763367, Learning Rate: 7.500201900256798e-05, Gradient Norm: 0.7341297268867493)
Step... (12900 | Loss: 0.22176489233970642, Learning Rate: 7.495151658076793e-05, Gradient Norm: 1.0984262228012085)
Step... (12925 | Loss: 0.14497332274913788, Learning Rate: 7.490100688301027e-05, Gradient Norm: 0.7970864176750183)
Step... (12950 | Loss: 0.23073354363441467, Learning Rate: 7.485050446121022e-05, Gradient Norm: 0.8107094764709473)
Step... (12975 | Loss: 0.11410414427518845, Learning Rate: 7.480000203941017e-05, Gradient Norm: 0.7868860960006714)
Step... (13000 | Loss: 0.1698252558708191, Learning Rate: 7.474949234165251e-05, Gradient Norm: 0.6397180557250977)
Step... (13025 | Loss: 0.12873107194900513, Learning Rate: 7.469898991985247e-05, Gradient Norm: 0.7954730987548828)

Training...:   0% 1/2609 [00:07<5:08:35,  7.10s/it][A
Training...:   0% 2/2609 [00:14<5:08:15,  7.09s/it][A
Training...:   0% 3/2609 [00:20<4:59:54,  6.91s/it][A
Training...:   0% 4/2609 [00:27<4:48:19,  6.64s/it][A                                                                                                                                                                   
                                                   [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:02:22<39:15:03, 9420.24s/it]
Training...:   0% 4/2609 [00:34<4:48:19,  6.64s/it][A
Training...:   0% 5/2609 [00:34<4:52:25,  6.74s/it][A
Training...:   0% 6/2609 [00:39<4:37:35,  6.40s/it][A
Training...:   0% 7/2609 [00:45<4:24:48,  6.11s/it][A
Training...:   0% 8/2609 [00:50<4:13:26,  5.85s/it][A
Training...:   0% 9/2609 [00:55<4:03:45,  5.63s/it][A
Training...:   0% 10/2609 [01:00<3:54:37,  5.42s/it][A
Training...:   0% 11/2609 [01:05<3:45:33,  5.21s/it][A
Training...:   0% 12/2609 [01:09<3:36:40,  5.01s/it][A
Training...:   0% 13/2609 [01:14<3:30:32,  4.87s/it][A
Training...:   1% 14/2609 [01:18<3:23:01,  4.69s/it][A
Training...:   1% 15/2609 [01:22<3:15:40,  4.53s/it][A
Training...:   1% 16/2609 [01:26<3:08:46,  4.37s/it][A
Training...:   1% 17/2609 [01:30<3:02:48,  4.23s/it][A
Training...:   1% 18/2609 [01:34<2:57:29,  4.11s/it][A
Training...:   1% 19/2609 [01:38<2:52:18,  3.99s/it][A
Training...:   1% 20/2609 [01:42<2:47:46,  3.89s/it][A
Training...:   1% 21/2609 [01:45<2:43:42,  3.80s/it][A
Training...:   1% 22/2609 [01:49<2:39:15,  3.69s/it][A
Training...:   1% 23/2609 [01:52<2:35:18,  3.60s/it][A
Training...:   1% 24/2609 [01:55<2:32:13,  3.53s/it][A
Training...:   1% 25/2609 [01:59<2:28:19,  3.44s/it][A
Training...:   1% 26/2609 [02:02<2:23:40,  3.34s/it][A
Training...:   1% 27/2609 [02:05<2:19:00,  3.23s/it][A
Training...:   1% 28/2609 [02:07<2:14:35,  3.13s/it][A
Training...:   1% 29/2609 [02:10<2:10:46,  3.04s/it][A                                                                                                                                                                   
                                                    [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:04:02<39:15:03, 9420.24s/it]
Training...:   1% 29/2609 [02:14<2:10:46,  3.04s/it][A
Training...:   1% 30/2609 [02:14<2:13:06,  3.10s/it][A
Training...:   1% 31/2609 [02:16<2:07:53,  2.98s/it][A
Training...:   1% 32/2609 [02:19<2:04:11,  2.89s/it][A
Training...:   1% 33/2609 [02:21<1:59:13,  2.78s/it][A
Training...:   1% 34/2609 [02:24<1:54:32,  2.67s/it][A
Training...:   1% 35/2609 [02:26<1:50:27,  2.57s/it][A
Training...:   1% 36/2609 [02:29<1:47:06,  2.50s/it][A
Training...:   1% 37/2609 [02:31<1:43:12,  2.41s/it][A
Training...:   1% 38/2609 [02:33<1:38:36,  2.30s/it][A
Training...:   1% 39/2609 [02:35<1:34:20,  2.20s/it][A
Training...:   2% 40/2609 [02:37<1:30:05,  2.10s/it][A
Training...:   2% 41/2609 [02:38<1:25:53,  2.01s/it][A
Training...:   2% 42/2609 [02:40<1:22:19,  1.92s/it][A
Training...:   2% 43/2609 [02:42<1:17:53,  1.82s/it][A
Training...:   2% 44/2609 [02:43<1:13:10,  1.71s/it][A
Training...:   2% 45/2609 [02:45<1:08:31,  1.60s/it][A
Training...:   2% 46/2609 [02:46<1:04:05,  1.50s/it][A
Training...:   2% 47/2609 [02:47<59:31,  1.39s/it]  [A
Training...:   2% 48/2609 [02:48<54:31,  1.28s/it][A
Training...:   2% 49/2609 [02:49<48:38,  1.14s/it][A
Training...:   2% 50/2609 [02:49<41:26,  1.03it/s][A
Training...:   2% 51/2609 [02:56<1:58:42,  2.78s/it][A
Training...:   2% 52/2609 [03:04<2:54:21,  4.09s/it][A
Training...:   2% 53/2609 [03:10<3:25:59,  4.84s/it][A
Training...:   2% 54/2609 [03:16<3:44:27,  5.27s/it][A                                                                                                                                                                   
                                                    [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:05:11<39:15:03, 9420.24s/it]
Training...:   2% 54/2609 [03:23<3:44:27,  5.27s/it][A
Training...:   2% 55/2609 [03:23<4:03:20,  5.72s/it][A
Training...:   2% 56/2609 [03:29<4:02:38,  5.70s/it][A
Training...:   2% 57/2609 [03:34<4:00:34,  5.66s/it][A
Training...:   2% 58/2609 [03:40<3:54:55,  5.53s/it][A
Training...:   2% 59/2609 [03:45<3:50:28,  5.42s/it][A
Training...:   2% 60/2609 [03:50<3:43:49,  5.27s/it][A
Training...:   2% 61/2609 [03:55<3:38:43,  5.15s/it][A
Training...:   2% 62/2609 [03:59<3:31:45,  4.99s/it][A
Training...:   2% 63/2609 [04:04<3:25:45,  4.85s/it][A
Training...:   2% 64/2609 [04:08<3:20:26,  4.73s/it][A
Training...:   2% 65/2609 [04:12<3:15:58,  4.62s/it][A
Training...:   3% 66/2609 [04:17<3:10:02,  4.48s/it][A
Training...:   3% 67/2609 [04:21<3:04:03,  4.34s/it][A
Training...:   3% 68/2609 [04:25<2:57:53,  4.20s/it][A
Training...:   3% 69/2609 [04:28<2:53:15,  4.09s/it][A
Training...:   3% 70/2609 [04:32<2:48:46,  3.99s/it][A
Training...:   3% 71/2609 [04:36<2:43:35,  3.87s/it][A
Training...:   3% 72/2609 [04:39<2:39:04,  3.76s/it][A
Training...:   3% 73/2609 [04:43<2:34:41,  3.66s/it][A
Training...:   3% 74/2609 [04:46<2:30:31,  3.56s/it][A
Training...:   3% 75/2609 [04:49<2:26:22,  3.47s/it][A
Training...:   3% 76/2609 [04:52<2:22:34,  3.38s/it][A
Training...:   3% 77/2609 [04:55<2:18:53,  3.29s/it][A
Training...:   3% 78/2609 [04:58<2:15:15,  3.21s/it][A
Training...:   3% 79/2609 [05:01<2:12:02,  3.13s/it][A                                                                                                                                                                   
                                                    [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:06:53<39:15:03, 9420.24s/it]
Training...:   3% 79/2609 [05:05<2:12:02,  3.13s/it][A
Training...:   3% 80/2609 [05:05<2:14:52,  3.20s/it][A
Training...:   3% 81/2609 [05:08<2:08:55,  3.06s/it][A
Training...:   3% 82/2609 [05:10<2:03:54,  2.94s/it][A
Training...:   3% 83/2609 [05:13<1:58:36,  2.82s/it][A
Training...:   3% 84/2609 [05:15<1:54:09,  2.71s/it][A
Training...:   3% 85/2609 [05:18<1:50:10,  2.62s/it][A
Training...:   3% 86/2609 [05:20<1:46:14,  2.53s/it][A
Training...:   3% 87/2609 [05:22<1:42:06,  2.43s/it][A
Training...:   3% 88/2609 [05:24<1:37:30,  2.32s/it][A
Training...:   3% 89/2609 [05:26<1:33:15,  2.22s/it][A
Training...:   3% 90/2609 [05:28<1:28:52,  2.12s/it][A
Training...:   3% 91/2609 [05:30<1:24:55,  2.02s/it][A
Training...:   4% 92/2609 [05:32<1:21:28,  1.94s/it][A
Training...:   4% 93/2609 [05:33<1:17:10,  1.84s/it][A
Training...:   4% 94/2609 [05:35<1:12:52,  1.74s/it][A
Training...:   4% 95/2609 [05:36<1:08:14,  1.63s/it][A
Training...:   4% 96/2609 [05:37<1:03:40,  1.52s/it][A
Training...:   4% 97/2609 [05:38<58:55,  1.41s/it]  [A
Training...:   4% 98/2609 [05:39<53:29,  1.28s/it][A
Training...:   4% 99/2609 [05:40<47:32,  1.14s/it][A
Training...:   4% 100/2609 [05:41<40:20,  1.04it/s][A
Training...:   4% 101/2609 [05:48<1:56:40,  2.79s/it][A
Training...:   4% 102/2609 [05:55<2:49:51,  4.07s/it][A
Training...:   4% 103/2609 [06:02<3:21:26,  4.82s/it][A
Training...:   4% 104/2609 [06:08<3:38:49,  5.24s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:08:03<39:15:03, 9420.24s/it]
Training...:   4% 104/2609 [06:15<3:38:49,  5.24s/it][A
Training...:   4% 105/2609 [06:15<3:59:26,  5.74s/it][A
Training...:   4% 106/2609 [06:20<3:59:04,  5.73s/it][A
Training...:   4% 107/2609 [06:26<3:55:30,  5.65s/it][A
Training...:   4% 108/2609 [06:31<3:51:58,  5.56s/it][A
Training...:   4% 109/2609 [06:37<3:49:42,  5.51s/it][A
Training...:   4% 110/2609 [06:41<3:42:06,  5.33s/it][A
Training...:   4% 111/2609 [06:46<3:35:31,  5.18s/it][A
Training...:   4% 112/2609 [06:51<3:28:46,  5.02s/it][A
Training...:   4% 113/2609 [06:55<3:22:50,  4.88s/it][A
Training...:   4% 114/2609 [07:00<3:16:16,  4.72s/it][A
Training...:   4% 115/2609 [07:04<3:10:51,  4.59s/it][A
Training...:   4% 116/2609 [07:08<3:04:49,  4.45s/it][A
Training...:   4% 117/2609 [07:12<2:59:14,  4.32s/it][A
Training...:   5% 118/2609 [07:16<2:54:15,  4.20s/it][A
Training...:   5% 119/2609 [07:20<2:49:38,  4.09s/it][A
Training...:   5% 120/2609 [07:24<2:44:12,  3.96s/it][A
Training...:   5% 121/2609 [07:27<2:39:41,  3.85s/it][A
Training...:   5% 122/2609 [07:31<2:34:53,  3.74s/it][A
Training...:   5% 123/2609 [07:34<2:30:50,  3.64s/it][A
Training...:   5% 124/2609 [07:37<2:26:29,  3.54s/it][A
Training...:   5% 125/2609 [07:41<2:22:29,  3.44s/it][A
Training...:   5% 126/2609 [07:44<2:18:21,  3.34s/it][A
Training...:   5% 127/2609 [07:47<2:15:27,  3.27s/it][A
Training...:   5% 128/2609 [07:50<2:10:55,  3.17s/it][A
Training...:   5% 129/2609 [07:53<2:07:28,  3.08s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:09:44<39:15:03, 9420.24s/it]
Training...:   5% 129/2609 [07:56<2:07:28,  3.08s/it][A
Training...:   5% 130/2609 [07:56<2:09:19,  3.13s/it][A
Training...:   5% 131/2609 [07:59<2:04:40,  3.02s/it][A
Training...:   5% 132/2609 [08:01<2:00:36,  2.92s/it][A
Training...:   5% 133/2609 [08:04<1:56:48,  2.83s/it][A
Training...:   5% 134/2609 [08:06<1:52:32,  2.73s/it][A
Training...:   5% 135/2609 [08:09<1:48:31,  2.63s/it][A
Training...:   5% 136/2609 [08:11<1:44:38,  2.54s/it][A
Training...:   5% 137/2609 [08:13<1:40:25,  2.44s/it][A
Training...:   5% 138/2609 [08:16<1:36:09,  2.33s/it][A
Training...:   5% 139/2609 [08:18<1:32:02,  2.24s/it][A
Training...:   5% 140/2609 [08:19<1:28:06,  2.14s/it][A
Training...:   5% 141/2609 [08:21<1:23:51,  2.04s/it][A
Training...:   5% 142/2609 [08:23<1:19:56,  1.94s/it][A
Training...:   5% 143/2609 [08:25<1:15:57,  1.85s/it][A
Training...:   6% 144/2609 [08:26<1:11:31,  1.74s/it][A
Training...:   6% 145/2609 [08:27<1:06:37,  1.62s/it][A
Training...:   6% 146/2609 [08:29<1:01:45,  1.50s/it][A
Training...:   6% 147/2609 [08:30<56:38,  1.38s/it]  [A
Training...:   6% 148/2609 [08:31<50:49,  1.24s/it][A
Training...:   6% 149/2609 [08:31<44:38,  1.09s/it][A
Training...:   6% 150/2609 [08:32<37:40,  1.09it/s][A
Training...:   6% 151/2609 [08:39<1:55:57,  2.83s/it][A
Training...:   6% 152/2609 [08:46<2:49:06,  4.13s/it][A
Training...:   6% 153/2609 [08:53<3:17:50,  4.83s/it][A
Training...:   6% 154/2609 [08:59<3:35:24,  5.26s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:10:54<39:15:03, 9420.24s/it]
Training...:   6% 154/2609 [09:06<3:35:24,  5.26s/it][A
Training...:   6% 155/2609 [09:06<3:53:09,  5.70s/it][A
Training...:   6% 156/2609 [09:11<3:52:02,  5.68s/it][A
Training...:   6% 157/2609 [09:17<3:48:34,  5.59s/it][A
Training...:   6% 158/2609 [09:22<3:43:04,  5.46s/it][A
Training...:   6% 159/2609 [09:27<3:37:43,  5.33s/it][A
Training...:   6% 160/2609 [09:32<3:30:46,  5.16s/it][A
Training...:   6% 161/2609 [09:37<3:25:53,  5.05s/it][A
Training...:   6% 162/2609 [09:41<3:20:21,  4.91s/it][A
Training...:   6% 163/2609 [09:46<3:15:11,  4.79s/it][A
Training...:   6% 164/2609 [09:50<3:09:40,  4.65s/it][A
Training...:   6% 165/2609 [09:54<3:04:25,  4.53s/it][A
Training...:   6% 166/2609 [09:58<2:58:37,  4.39s/it][A
Training...:   6% 167/2609 [10:02<2:54:27,  4.29s/it][A
Training...:   6% 168/2609 [10:06<2:49:00,  4.15s/it][A
Training...:   6% 169/2609 [10:10<2:44:16,  4.04s/it][A
Training...:   7% 170/2609 [10:14<2:39:11,  3.92s/it][A
Training...:   7% 171/2609 [10:17<2:35:06,  3.82s/it][A
Training...:   7% 172/2609 [10:21<2:30:39,  3.71s/it][A
Training...:   7% 173/2609 [10:24<2:26:04,  3.60s/it][A
Training...:   7% 174/2609 [10:27<2:21:07,  3.48s/it][A
Training...:   7% 175/2609 [10:30<2:16:46,  3.37s/it][A
Training...:   7% 176/2609 [10:33<2:13:04,  3.28s/it][A
Training...:   7% 177/2609 [10:36<2:10:20,  3.22s/it][A
Training...:   7% 178/2609 [10:39<2:07:13,  3.14s/it][A
Training...:   7% 179/2609 [10:42<2:04:10,  3.07s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:12:34<39:15:03, 9420.24s/it]
Training...:   7% 179/2609 [10:46<2:04:10,  3.07s/it][A
Training...:   7% 180/2609 [10:46<2:06:14,  3.12s/it][A
Training...:   7% 181/2609 [10:48<2:01:16,  3.00s/it][A
Training...:   7% 182/2609 [10:51<1:56:10,  2.87s/it][A
Training...:   7% 183/2609 [10:53<1:51:42,  2.76s/it][A
Training...:   7% 184/2609 [10:56<1:47:20,  2.66s/it][A
Training...:   7% 185/2609 [10:58<1:43:25,  2.56s/it][A
Training...:   7% 186/2609 [11:00<1:39:53,  2.47s/it][A
Training...:   7% 187/2609 [11:03<1:35:57,  2.38s/it][A
Training...:   7% 188/2609 [11:05<1:32:06,  2.28s/it][A
Training...:   7% 189/2609 [11:07<1:28:17,  2.19s/it][A
Training...:   7% 190/2609 [11:08<1:24:35,  2.10s/it][A
Training...:   7% 191/2609 [11:10<1:20:53,  2.01s/it][A
Training...:   7% 192/2609 [11:12<1:16:39,  1.90s/it][A
Training...:   7% 193/2609 [11:13<1:12:28,  1.80s/it][A
Training...:   7% 194/2609 [11:15<1:08:18,  1.70s/it][A
Training...:   7% 195/2609 [11:16<1:04:03,  1.59s/it][A
Training...:   8% 196/2609 [11:17<59:30,  1.48s/it]  [A
Training...:   8% 197/2609 [11:19<54:44,  1.36s/it][A
Training...:   8% 198/2609 [11:19<49:43,  1.24s/it][A
Training...:   8% 199/2609 [11:20<43:59,  1.10s/it][A
Training...:   8% 200/2609 [11:21<36:52,  1.09it/s][A
Training...:   8% 201/2609 [11:28<1:52:59,  2.82s/it][A
Training...:   8% 202/2609 [11:35<2:46:17,  4.15s/it][A
Training...:   8% 203/2609 [11:42<3:17:19,  4.92s/it][A
Training...:   8% 204/2609 [11:48<3:33:25,  5.32s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:13:43<39:15:03, 9420.24s/it]
Training...:   8% 204/2609 [11:55<3:33:25,  5.32s/it][A
Training...:   8% 205/2609 [11:55<3:50:27,  5.75s/it][A
Training...:   8% 206/2609 [12:01<3:50:33,  5.76s/it][A
Training...:   8% 207/2609 [12:06<3:47:22,  5.68s/it][A
Training...:   8% 208/2609 [12:12<3:42:18,  5.56s/it][A
Training...:   8% 209/2609 [12:17<3:36:26,  5.41s/it][A
Training...:   8% 210/2609 [12:21<3:29:27,  5.24s/it][A
Training...:   8% 211/2609 [12:26<3:23:19,  5.09s/it][A
Training...:   8% 212/2609 [12:31<3:16:20,  4.91s/it][A
Training...:   8% 213/2609 [12:35<3:11:04,  4.79s/it][A
Training...:   8% 214/2609 [12:39<3:04:32,  4.62s/it][A
Training...:   8% 215/2609 [12:44<3:00:04,  4.51s/it][A
Training...:   8% 216/2609 [12:48<2:54:42,  4.38s/it][A
Training...:   8% 217/2609 [12:52<2:50:40,  4.28s/it][A
Training...:   8% 218/2609 [12:56<2:46:20,  4.17s/it][A
Training...:   8% 219/2609 [13:00<2:42:34,  4.08s/it][A
Training...:   8% 220/2609 [13:03<2:37:18,  3.95s/it][A
Training...:   8% 221/2609 [13:07<2:33:09,  3.85s/it][A
Training...:   9% 222/2609 [13:10<2:29:40,  3.76s/it][A
Training...:   9% 223/2609 [13:14<2:27:06,  3.70s/it][A
Training...:   9% 224/2609 [13:17<2:23:00,  3.60s/it][A
Training...:   9% 225/2609 [13:21<2:18:30,  3.49s/it][A
Training...:   9% 226/2609 [13:24<2:14:07,  3.38s/it][A
Training...:   9% 227/2609 [13:27<2:10:03,  3.28s/it][A
Training...:   9% 228/2609 [13:30<2:06:07,  3.18s/it][A
Training...:   9% 229/2609 [13:33<2:02:20,  3.08s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:15:24<39:15:03, 9420.24s/it]
Training...:   9% 229/2609 [13:36<2:02:20,  3.08s/it][A
Training...:   9% 230/2609 [13:36<2:03:36,  3.12s/it][A
Training...:   9% 231/2609 [13:38<1:58:23,  2.99s/it][A
Training...:   9% 232/2609 [13:41<1:53:44,  2.87s/it][A
Training...:   9% 233/2609 [13:44<1:49:27,  2.76s/it][A
Training...:   9% 234/2609 [13:46<1:45:23,  2.66s/it][A
Training...:   9% 235/2609 [13:48<1:41:30,  2.57s/it][A
Training...:   9% 236/2609 [13:51<1:37:57,  2.48s/it][A
Training...:   9% 237/2609 [13:53<1:34:08,  2.38s/it][A
Training...:   9% 238/2609 [13:55<1:30:50,  2.30s/it][A
Training...:   9% 239/2609 [13:57<1:27:22,  2.21s/it][A
Training...:   9% 240/2609 [13:59<1:23:39,  2.12s/it][A
Training...:   9% 241/2609 [14:01<1:20:14,  2.03s/it][A
Training...:   9% 242/2609 [14:02<1:16:43,  1.94s/it][A
Training...:   9% 243/2609 [14:04<1:13:13,  1.86s/it][A
Training...:   9% 244/2609 [14:05<1:08:52,  1.75s/it][A
Training...:   9% 245/2609 [14:07<1:04:48,  1.64s/it][A
Training...:   9% 246/2609 [14:08<1:00:13,  1.53s/it][A
Training...:   9% 247/2609 [14:09<55:36,  1.41s/it]  [A
Training...:  10% 248/2609 [14:10<50:07,  1.27s/it][A
Training...:  10% 249/2609 [14:11<44:19,  1.13s/it][A
Training...:  10% 250/2609 [14:12<37:38,  1.04it/s][A
Training...:  10% 251/2609 [14:19<1:50:39,  2.82s/it][A
Training...:  10% 252/2609 [14:26<2:40:38,  4.09s/it][A
Training...:  10% 253/2609 [14:32<3:09:39,  4.83s/it][A
Training...:  10% 254/2609 [14:39<3:26:30,  5.26s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:16:34<39:15:03, 9420.24s/it]
Training...:  10% 254/2609 [14:45<3:26:30,  5.26s/it][A
Training...:  10% 255/2609 [14:45<3:43:31,  5.70s/it][A
Training...:  10% 256/2609 [14:51<3:42:54,  5.68s/it][A
Training...:  10% 257/2609 [14:56<3:41:10,  5.64s/it][A
Training...:  10% 258/2609 [15:02<3:38:25,  5.57s/it][A
Training...:  10% 259/2609 [15:07<3:33:50,  5.46s/it][A
Training...:  10% 260/2609 [15:12<3:26:50,  5.28s/it][A
Training...:  10% 261/2609 [15:17<3:19:59,  5.11s/it][A
Training...:  10% 262/2609 [15:21<3:13:18,  4.94s/it][A
Training...:  10% 263/2609 [15:26<3:07:59,  4.81s/it][A
Training...:  10% 264/2609 [15:30<3:01:54,  4.65s/it][A
Training...:  10% 265/2609 [15:34<2:56:34,  4.52s/it][A
Training...:  10% 266/2609 [15:38<2:51:07,  4.38s/it][A
Training...:  10% 267/2609 [15:42<2:47:09,  4.28s/it][A
Training...:  10% 268/2609 [15:46<2:42:42,  4.17s/it][A
Training...:  10% 269/2609 [15:50<2:37:58,  4.05s/it][A
Training...:  10% 270/2609 [15:54<2:32:56,  3.92s/it][A
Training...:  10% 271/2609 [15:57<2:29:52,  3.85s/it][A
Training...:  10% 272/2609 [16:01<2:25:28,  3.73s/it][A
Training...:  10% 273/2609 [16:04<2:21:58,  3.65s/it][A
Training...:  11% 274/2609 [16:07<2:17:32,  3.53s/it][A
Training...:  11% 275/2609 [16:11<2:13:58,  3.44s/it][A
Training...:  11% 276/2609 [16:14<2:09:39,  3.33s/it][A
Training...:  11% 277/2609 [16:17<2:05:38,  3.23s/it][A
Training...:  11% 278/2609 [16:20<2:01:40,  3.13s/it][A
Training...:  11% 279/2609 [16:23<1:58:05,  3.04s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:18:14<39:15:03, 9420.24s/it]
Training...:  11% 279/2609 [16:26<1:58:05,  3.04s/it][A
Training...:  11% 280/2609 [16:26<1:59:12,  3.07s/it][A
Training...:  11% 281/2609 [16:28<1:54:11,  2.94s/it][A
Training...:  11% 282/2609 [16:31<1:49:11,  2.82s/it][A
Training...:  11% 283/2609 [16:33<1:45:15,  2.72s/it][A
Training...:  11% 284/2609 [16:36<1:41:14,  2.61s/it][A
Training...:  11% 285/2609 [16:38<1:37:24,  2.51s/it][A
Training...:  11% 286/2609 [16:40<1:33:51,  2.42s/it][A
Training...:  11% 287/2609 [16:42<1:30:26,  2.34s/it][A
Training...:  11% 288/2609 [16:44<1:27:07,  2.25s/it][A
Training...:  11% 289/2609 [16:46<1:23:55,  2.17s/it][A
Training...:  11% 290/2609 [16:48<1:20:18,  2.08s/it][A
Training...:  11% 291/2609 [16:50<1:16:53,  1.99s/it][A
Training...:  11% 292/2609 [16:52<1:13:31,  1.90s/it][A
Training...:  11% 293/2609 [16:53<1:09:36,  1.80s/it][A
Training...:  11% 294/2609 [16:55<1:05:42,  1.70s/it][A
Training...:  11% 295/2609 [16:56<1:01:49,  1.60s/it][A
Training...:  11% 296/2609 [16:57<58:06,  1.51s/it]  [A
Training...:  11% 297/2609 [16:59<53:32,  1.39s/it][A
Training...:  11% 298/2609 [16:59<48:16,  1.25s/it][A
Training...:  11% 299/2609 [17:00<42:47,  1.11s/it][A
Training...:  11% 300/2609 [17:01<36:11,  1.06it/s][A
Training...:  12% 301/2609 [17:08<1:46:26,  2.77s/it][A
Training...:  12% 302/2609 [17:15<2:37:44,  4.10s/it][A
Training...:  12% 303/2609 [17:22<3:08:25,  4.90s/it][A
Training...:  12% 304/2609 [17:28<3:26:09,  5.37s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:19:24<39:15:03, 9420.24s/it]
Training...:  12% 304/2609 [17:35<3:26:09,  5.37s/it][A
Training...:  12% 305/2609 [17:35<3:44:47,  5.85s/it][A
Training...:  12% 306/2609 [17:41<3:43:27,  5.82s/it][A
Training...:  12% 307/2609 [17:46<3:39:56,  5.73s/it][A
Training...:  12% 308/2609 [17:52<3:34:53,  5.60s/it][A
Training...:  12% 309/2609 [17:57<3:29:56,  5.48s/it][A
Training...:  12% 310/2609 [18:02<3:23:54,  5.32s/it][A
Training...:  12% 311/2609 [18:07<3:18:49,  5.19s/it][A
Training...:  12% 312/2609 [18:11<3:12:16,  5.02s/it][A
Training...:  12% 313/2609 [18:16<3:06:43,  4.88s/it][A
Training...:  12% 314/2609 [18:20<3:01:03,  4.73s/it][A
Training...:  12% 315/2609 [18:25<2:57:01,  4.63s/it][A
Training...:  12% 316/2609 [18:29<2:51:30,  4.49s/it][A
Training...:  12% 317/2609 [18:33<2:46:32,  4.36s/it][A
Training...:  12% 318/2609 [18:37<2:41:16,  4.22s/it][A
Training...:  12% 319/2609 [18:41<2:37:33,  4.13s/it][A
Training...:  12% 320/2609 [18:45<2:33:21,  4.02s/it][A
Training...:  12% 321/2609 [18:48<2:29:13,  3.91s/it][A
Training...:  12% 322/2609 [18:52<2:25:48,  3.83s/it][A
Training...:  12% 323/2609 [18:55<2:21:23,  3.71s/it][A
Training...:  12% 324/2609 [18:59<2:17:18,  3.61s/it][A
Training...:  12% 325/2609 [19:02<2:13:33,  3.51s/it][A
Training...:  12% 326/2609 [19:05<2:09:44,  3.41s/it][A
Training...:  13% 327/2609 [19:08<2:05:45,  3.31s/it][A
Training...:  13% 328/2609 [19:11<2:01:55,  3.21s/it][A
Training...:  13% 329/2609 [19:14<1:59:04,  3.13s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:21:06<39:15:03, 9420.24s/it]
Training...:  13% 329/2609 [19:18<1:59:04,  3.13s/it][A
Training...:  13% 330/2609 [19:18<2:01:53,  3.21s/it][A
Training...:  13% 331/2609 [19:20<1:56:48,  3.08s/it][A
Training...:  13% 332/2609 [19:23<1:51:49,  2.95s/it][A
Training...:  13% 333/2609 [19:25<1:47:10,  2.83s/it][A
Training...:  13% 334/2609 [19:28<1:42:56,  2.71s/it][A
Training...:  13% 335/2609 [19:30<1:38:54,  2.61s/it][A
Training...:  13% 336/2609 [19:33<1:35:08,  2.51s/it][A
Training...:  13% 337/2609 [19:35<1:32:08,  2.43s/it][A
Training...:  13% 338/2609 [19:37<1:28:23,  2.34s/it][A
Training...:  13% 339/2609 [19:39<1:25:01,  2.25s/it][A
Training...:  13% 340/2609 [19:41<1:21:29,  2.15s/it][A
Training...:  13% 341/2609 [19:43<1:17:32,  2.05s/it][A
Training...:  13% 342/2609 [19:44<1:13:39,  1.95s/it][A
Training...:  13% 343/2609 [19:46<1:09:41,  1.85s/it][A
Training...:  13% 344/2609 [19:48<1:05:41,  1.74s/it][A
Training...:  13% 345/2609 [19:49<1:01:24,  1.63s/it][A
Training...:  13% 346/2609 [19:50<57:17,  1.52s/it]  [A
Training...:  13% 347/2609 [19:51<52:49,  1.40s/it][A
Training...:  13% 348/2609 [19:52<48:05,  1.28s/it][A
Training...:  13% 349/2609 [19:53<42:35,  1.13s/it][A
Training...:  13% 350/2609 [19:54<36:00,  1.05it/s][A
Training...:  13% 351/2609 [20:01<1:46:18,  2.82s/it][A
Training...:  13% 352/2609 [20:08<2:33:30,  4.08s/it][A
Training...:  14% 353/2609 [20:14<3:00:21,  4.80s/it][A
Training...:  14% 354/2609 [20:20<3:15:44,  5.21s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:22:15<39:15:03, 9420.24s/it]
Training...:  14% 354/2609 [20:27<3:15:44,  5.21s/it][A
Training...:  14% 355/2609 [20:27<3:32:21,  5.65s/it][A
Training...:  14% 356/2609 [20:33<3:32:21,  5.66s/it][A
Training...:  14% 357/2609 [20:38<3:29:43,  5.59s/it][A
Training...:  14% 358/2609 [20:43<3:25:23,  5.47s/it][A
Training...:  14% 359/2609 [20:48<3:20:33,  5.35s/it][A
Training...:  14% 360/2609 [20:53<3:14:41,  5.19s/it][A
Training...:  14% 361/2609 [20:58<3:09:58,  5.07s/it][A
Training...:  14% 362/2609 [21:03<3:04:01,  4.91s/it][A
Training...:  14% 363/2609 [21:07<2:59:08,  4.79s/it][A
Training...:  14% 364/2609 [21:11<2:53:45,  4.64s/it][A
Training...:  14% 365/2609 [21:16<2:49:08,  4.52s/it][A
Training...:  14% 366/2609 [21:20<2:44:42,  4.41s/it][A
Training...:  14% 367/2609 [21:24<2:41:34,  4.32s/it][A
Training...:  14% 368/2609 [21:28<2:36:33,  4.19s/it][A
Training...:  14% 369/2609 [21:32<2:32:58,  4.10s/it][A
Training...:  14% 370/2609 [21:35<2:28:16,  3.97s/it][A
Training...:  14% 371/2609 [21:39<2:24:27,  3.87s/it][A
Training...:  14% 372/2609 [21:43<2:20:36,  3.77s/it][A
Training...:  14% 373/2609 [21:46<2:16:41,  3.67s/it][A
Training...:  14% 374/2609 [21:49<2:12:47,  3.56s/it][A
Training...:  14% 375/2609 [21:53<2:09:03,  3.47s/it][A
Training...:  14% 376/2609 [21:56<2:05:17,  3.37s/it][A
Training...:  14% 377/2609 [21:59<2:02:00,  3.28s/it][A
Training...:  14% 378/2609 [22:02<1:59:27,  3.21s/it][A
Training...:  15% 379/2609 [22:05<1:56:40,  3.14s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:23:57<39:15:03, 9420.24s/it]
Training...:  15% 379/2609 [22:08<1:56:40,  3.14s/it][A
Training...:  15% 380/2609 [22:08<1:59:33,  3.22s/it][A
Training...:  15% 381/2609 [22:11<1:53:50,  3.07s/it][A
Training...:  15% 382/2609 [22:13<1:48:20,  2.92s/it][A
Training...:  15% 383/2609 [22:16<1:43:57,  2.80s/it][A
Training...:  15% 384/2609 [22:18<1:39:42,  2.69s/it][A
Training...:  15% 385/2609 [22:21<1:36:05,  2.59s/it][A
Training...:  15% 386/2609 [22:23<1:32:56,  2.51s/it][A
Training...:  15% 387/2609 [22:25<1:29:27,  2.42s/it][A
Training...:  15% 388/2609 [22:27<1:25:32,  2.31s/it][A
Training...:  15% 389/2609 [22:29<1:21:54,  2.21s/it][A
Training...:  15% 390/2609 [22:31<1:18:08,  2.11s/it][A
Training...:  15% 391/2609 [22:33<1:14:40,  2.02s/it][A
Training...:  15% 392/2609 [22:35<1:10:33,  1.91s/it][A
Training...:  15% 393/2609 [22:36<1:06:39,  1.80s/it][A
Training...:  15% 394/2609 [22:38<1:02:36,  1.70s/it][A
Training...:  15% 395/2609 [22:39<58:38,  1.59s/it]  [A
Training...:  15% 396/2609 [22:40<54:37,  1.48s/it][A
Training...:  15% 397/2609 [22:41<50:24,  1.37s/it][A
Training...:  15% 398/2609 [22:42<45:55,  1.25s/it][A
Training...:  15% 399/2609 [22:43<40:58,  1.11s/it][A
Training...:  15% 400/2609 [22:44<34:49,  1.06it/s][A
Training...:  15% 401/2609 [22:51<1:42:55,  2.80s/it][A
Training...:  15% 402/2609 [22:58<2:30:47,  4.10s/it][A
Training...:  15% 403/2609 [23:05<2:58:38,  4.86s/it][A
Training...:  15% 404/2609 [23:11<3:14:56,  5.30s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:25:06<39:15:03, 9420.24s/it]
Training...:  15% 404/2609 [23:18<3:14:56,  5.30s/it][A
Training...:  16% 405/2609 [23:18<3:33:03,  5.80s/it][A
Training...:  16% 406/2609 [23:24<3:32:44,  5.79s/it][A
Training...:  16% 407/2609 [23:29<3:30:26,  5.73s/it][A
Training...:  16% 408/2609 [23:35<3:25:40,  5.61s/it][A
Training...:  16% 409/2609 [23:40<3:20:55,  5.48s/it][A
Training...:  16% 410/2609 [23:45<3:15:06,  5.32s/it][A
Training...:  16% 411/2609 [23:50<3:10:10,  5.19s/it][A
Training...:  16% 412/2609 [23:54<3:04:37,  5.04s/it][A
Training...:  16% 413/2609 [23:59<2:59:01,  4.89s/it][A
Training...:  16% 414/2609 [24:03<2:53:32,  4.74s/it][A
Training...:  16% 415/2609 [24:08<2:48:34,  4.61s/it][A
Training...:  16% 416/2609 [24:12<2:43:42,  4.48s/it][A
Training...:  16% 417/2609 [24:16<2:39:54,  4.38s/it][A
Training...:  16% 418/2609 [24:20<2:34:55,  4.24s/it][A
Training...:  16% 419/2609 [24:24<2:30:12,  4.12s/it][A
Training...:  16% 420/2609 [24:27<2:26:17,  4.01s/it][A
Training...:  16% 421/2609 [24:31<2:22:25,  3.91s/it][A
Training...:  16% 422/2609 [24:35<2:18:40,  3.80s/it][A
Training...:  16% 423/2609 [24:38<2:14:51,  3.70s/it][A
Training...:  16% 424/2609 [24:41<2:10:58,  3.60s/it][A
Training...:  16% 425/2609 [24:45<2:07:20,  3.50s/it][A
Training...:  16% 426/2609 [24:48<2:03:00,  3.38s/it][A
Training...:  16% 427/2609 [24:51<1:59:32,  3.29s/it][A
Training...:  16% 428/2609 [24:54<1:55:37,  3.18s/it][A
Training...:  16% 429/2609 [24:57<1:52:27,  3.10s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:26:48<39:15:03, 9420.24s/it]
Training...:  16% 429/2609 [25:00<1:52:27,  3.10s/it][A
Training...:  16% 430/2609 [25:00<1:53:54,  3.14s/it][A
Training...:  17% 431/2609 [25:03<1:49:04,  3.00s/it][A
Training...:  17% 432/2609 [25:05<1:44:31,  2.88s/it][A
Training...:  17% 433/2609 [25:08<1:40:46,  2.78s/it][A
Training...:  17% 434/2609 [25:10<1:37:36,  2.69s/it][A
Training...:  17% 435/2609 [25:13<1:34:04,  2.60s/it][A
Training...:  17% 436/2609 [25:15<1:30:40,  2.50s/it][A
Training...:  17% 437/2609 [25:17<1:27:48,  2.43s/it][A
Training...:  17% 438/2609 [25:19<1:24:32,  2.34s/it][A
Training...:  17% 439/2609 [25:21<1:21:43,  2.26s/it][A
Training...:  17% 440/2609 [25:23<1:18:40,  2.18s/it][A
Training...:  17% 441/2609 [25:25<1:15:26,  2.09s/it][A
Training...:  17% 442/2609 [25:27<1:12:02,  1.99s/it][A
Training...:  17% 443/2609 [25:29<1:08:21,  1.89s/it][A
Training...:  17% 444/2609 [25:30<1:04:11,  1.78s/it][A
Training...:  17% 445/2609 [25:32<1:00:08,  1.67s/it][A
Training...:  17% 446/2609 [25:33<56:12,  1.56s/it]  [A
Training...:  17% 447/2609 [25:34<52:08,  1.45s/it][A
Training...:  17% 448/2609 [25:35<47:33,  1.32s/it][A
Training...:  17% 449/2609 [25:36<42:01,  1.17s/it][A
Training...:  17% 450/2609 [25:36<35:18,  1.02it/s][A
Training...:  17% 451/2609 [25:44<1:42:11,  2.84s/it][A
Training...:  17% 452/2609 [25:51<2:27:46,  4.11s/it][A
Training...:  17% 453/2609 [25:57<2:54:53,  4.87s/it][A
Training...:  17% 454/2609 [26:04<3:10:08,  5.29s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:27:59<39:15:03, 9420.24s/it]
Training...:  17% 454/2609 [26:10<3:10:08,  5.29s/it][A
Training...:  17% 455/2609 [26:10<3:26:43,  5.76s/it][A
Training...:  17% 456/2609 [26:16<3:26:22,  5.75s/it][A
Training...:  18% 457/2609 [26:22<3:23:32,  5.68s/it][A
Training...:  18% 458/2609 [26:27<3:19:54,  5.58s/it][A
Training...:  18% 459/2609 [26:32<3:16:58,  5.50s/it][A
Training...:  18% 460/2609 [26:37<3:12:02,  5.36s/it][A
Training...:  18% 461/2609 [26:42<3:07:41,  5.24s/it][A
Training...:  18% 462/2609 [26:47<3:01:18,  5.07s/it][A
Training...:  18% 463/2609 [26:52<2:55:55,  4.92s/it][A
Training...:  18% 464/2609 [26:56<2:50:13,  4.76s/it][A
Training...:  18% 465/2609 [27:00<2:45:31,  4.63s/it][A
Training...:  18% 466/2609 [27:04<2:40:02,  4.48s/it][A
Training...:  18% 467/2609 [27:09<2:36:00,  4.37s/it][A
Training...:  18% 468/2609 [27:12<2:31:14,  4.24s/it][A
Training...:  18% 469/2609 [27:16<2:26:47,  4.12s/it][A
Training...:  18% 470/2609 [27:20<2:21:57,  3.98s/it][A
Training...:  18% 471/2609 [27:24<2:17:42,  3.86s/it][A
Training...:  18% 472/2609 [27:27<2:13:36,  3.75s/it][A
Training...:  18% 473/2609 [27:30<2:10:14,  3.66s/it][A
Training...:  18% 474/2609 [27:34<2:06:23,  3.55s/it][A
Training...:  18% 475/2609 [27:37<2:02:50,  3.45s/it][A
Training...:  18% 476/2609 [27:40<1:59:25,  3.36s/it][A
Training...:  18% 477/2609 [27:43<1:56:50,  3.29s/it][A
Training...:  18% 478/2609 [27:46<1:54:06,  3.21s/it][A
Training...:  18% 479/2609 [27:49<1:51:48,  3.15s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:29:41<39:15:03, 9420.24s/it]
Training...:  18% 479/2609 [27:53<1:51:48,  3.15s/it][A
Training...:  18% 480/2609 [27:53<1:54:45,  3.23s/it][A
Training...:  18% 481/2609 [27:56<1:49:55,  3.10s/it][A
Training...:  18% 482/2609 [27:58<1:45:06,  2.96s/it][A
Training...:  19% 483/2609 [28:01<1:40:31,  2.84s/it][A
Training...:  19% 484/2609 [28:03<1:36:32,  2.73s/it][A
Training...:  19% 485/2609 [28:06<1:32:33,  2.61s/it][A
Training...:  19% 486/2609 [28:08<1:28:59,  2.52s/it][A
Training...:  19% 487/2609 [28:10<1:25:32,  2.42s/it][A
Training...:  19% 488/2609 [28:12<1:21:58,  2.32s/it][A
Training...:  19% 489/2609 [28:14<1:18:31,  2.22s/it][A
Training...:  19% 490/2609 [28:16<1:15:00,  2.12s/it][A
Training...:  19% 491/2609 [28:18<1:11:45,  2.03s/it][A
Training...:  19% 492/2609 [28:20<1:08:16,  1.94s/it][A
Training...:  19% 493/2609 [28:21<1:04:40,  1.83s/it][A
Training...:  19% 494/2609 [28:23<1:01:05,  1.73s/it][A
Training...:  19% 495/2609 [28:24<57:10,  1.62s/it]  [A
Training...:  19% 496/2609 [28:25<53:14,  1.51s/it][A
Training...:  19% 497/2609 [28:26<49:21,  1.40s/it][A
Training...:  19% 498/2609 [28:27<44:40,  1.27s/it][A
Training...:  19% 499/2609 [28:28<39:32,  1.12s/it][A
Training...:  19% 500/2609 [28:29<33:23,  1.05it/s][A
Training...:  19% 501/2609 [28:36<1:38:17,  2.80s/it][A
Training...:  19% 502/2609 [28:43<2:24:42,  4.12s/it][A
Training...:  19% 503/2609 [28:50<2:50:57,  4.87s/it][A
Training...:  19% 504/2609 [28:56<3:06:11,  5.31s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:30:51<39:15:03, 9420.24s/it]
Training...:  19% 504/2609 [29:03<3:06:11,  5.31s/it][A
Training...:  19% 505/2609 [29:03<3:23:56,  5.82s/it][A
Training...:  19% 506/2609 [29:09<3:24:10,  5.83s/it][A
Training...:  19% 507/2609 [29:14<3:21:29,  5.75s/it][A
Training...:  19% 508/2609 [29:20<3:16:03,  5.60s/it][A
Training...:  20% 509/2609 [29:25<3:10:47,  5.45s/it][A
Training...:  20% 510/2609 [29:30<3:05:09,  5.29s/it][A
Training...:  20% 511/2609 [29:34<2:59:58,  5.15s/it][A
Training...:  20% 512/2609 [29:39<2:55:31,  5.02s/it][A
Training...:  20% 513/2609 [29:44<2:49:38,  4.86s/it][A
Training...:  20% 514/2609 [29:48<2:43:51,  4.69s/it][A
Training...:  20% 515/2609 [29:52<2:39:24,  4.57s/it][A
Training...:  20% 516/2609 [29:56<2:34:35,  4.43s/it][A
Training...:  20% 517/2609 [30:00<2:30:48,  4.33s/it][A
Training...:  20% 518/2609 [30:04<2:25:21,  4.17s/it][A
Training...:  20% 519/2609 [30:08<2:21:12,  4.05s/it][A
Training...:  20% 520/2609 [30:12<2:16:24,  3.92s/it][A
Training...:  20% 521/2609 [30:15<2:13:50,  3.85s/it][A
Training...:  20% 522/2609 [30:19<2:09:28,  3.72s/it][A
Training...:  20% 523/2609 [30:22<2:05:42,  3.62s/it][A
Training...:  20% 524/2609 [30:25<2:02:02,  3.51s/it][A
Training...:  20% 525/2609 [30:29<1:58:56,  3.42s/it][A
Training...:  20% 526/2609 [30:32<1:55:29,  3.33s/it][A
Training...:  20% 527/2609 [30:35<1:52:07,  3.23s/it][A
Training...:  20% 528/2609 [30:38<1:48:34,  3.13s/it][A
Training...:  20% 529/2609 [30:40<1:45:40,  3.05s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:32:32<39:15:03, 9420.24s/it]
Training...:  20% 529/2609 [30:44<1:45:40,  3.05s/it][A
Training...:  20% 530/2609 [30:44<1:47:19,  3.10s/it][A
Training...:  20% 531/2609 [30:46<1:43:19,  2.98s/it][A
Training...:  20% 532/2609 [30:49<1:39:41,  2.88s/it][A
Training...:  20% 533/2609 [30:52<1:35:48,  2.77s/it][A
Training...:  20% 534/2609 [30:54<1:32:03,  2.66s/it][A
Training...:  21% 535/2609 [30:56<1:28:26,  2.56s/it][A
Training...:  21% 536/2609 [30:59<1:25:19,  2.47s/it][A
Training...:  21% 537/2609 [31:01<1:21:59,  2.37s/it][A
Training...:  21% 538/2609 [31:03<1:18:58,  2.29s/it][A
Training...:  21% 539/2609 [31:05<1:16:02,  2.20s/it][A
Training...:  21% 540/2609 [31:07<1:12:50,  2.11s/it][A
Training...:  21% 541/2609 [31:08<1:09:40,  2.02s/it][A
Training...:  21% 542/2609 [31:10<1:06:44,  1.94s/it][A
Training...:  21% 543/2609 [31:12<1:03:35,  1.85s/it][A
Training...:  21% 544/2609 [31:13<1:00:09,  1.75s/it][A
Training...:  21% 545/2609 [31:15<56:44,  1.65s/it]  [A
Training...:  21% 546/2609 [31:16<52:51,  1.54s/it][A
Training...:  21% 547/2609 [31:17<48:41,  1.42s/it][A
Training...:  21% 548/2609 [31:18<44:24,  1.29s/it][A
Training...:  21% 549/2609 [31:19<39:33,  1.15s/it][A
Training...:  21% 550/2609 [31:20<33:14,  1.03it/s][A
Training...:  21% 551/2609 [31:27<1:37:06,  2.83s/it][A
Training...:  21% 552/2609 [31:34<2:21:29,  4.13s/it][A
Training...:  21% 553/2609 [31:41<2:50:01,  4.96s/it][A
Training...:  21% 554/2609 [31:47<3:06:12,  5.44s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:33:43<39:15:03, 9420.24s/it]
Training...:  21% 554/2609 [31:54<3:06:12,  5.44s/it][A
Training...:  21% 555/2609 [31:54<3:22:53,  5.93s/it][A
Training...:  21% 556/2609 [32:00<3:22:13,  5.91s/it][A
Training...:  21% 557/2609 [32:06<3:19:03,  5.82s/it][A
Training...:  21% 558/2609 [32:11<3:13:28,  5.66s/it][A
Training...:  21% 559/2609 [32:16<3:08:12,  5.51s/it][A
Training...:  21% 560/2609 [32:21<3:02:08,  5.33s/it][A
Training...:  22% 561/2609 [32:26<2:57:09,  5.19s/it][A
Training...:  22% 562/2609 [32:31<2:52:18,  5.05s/it][A
Training...:  22% 563/2609 [32:35<2:47:54,  4.92s/it][A
Training...:  22% 564/2609 [32:40<2:42:14,  4.76s/it][A
Training...:  22% 565/2609 [32:44<2:37:45,  4.63s/it][A
Training...:  22% 566/2609 [32:48<2:32:17,  4.47s/it][A
Training...:  22% 567/2609 [32:52<2:28:15,  4.36s/it][A
Training...:  22% 568/2609 [32:56<2:23:54,  4.23s/it][A
Training...:  22% 569/2609 [33:00<2:20:14,  4.12s/it][A
Training...:  22% 570/2609 [33:04<2:15:32,  3.99s/it][A
Training...:  22% 571/2609 [33:08<2:12:34,  3.90s/it][A
Training...:  22% 572/2609 [33:11<2:08:44,  3.79s/it][A
Training...:  22% 573/2609 [33:15<2:05:08,  3.69s/it][A
Training...:  22% 574/2609 [33:18<2:01:27,  3.58s/it][A
Training...:  22% 575/2609 [33:21<1:59:50,  3.53s/it][A
Training...:  22% 576/2609 [33:24<1:56:17,  3.43s/it][A
Training...:  22% 577/2609 [33:28<1:53:05,  3.34s/it][A
Training...:  22% 578/2609 [33:31<1:49:47,  3.24s/it][A
Training...:  22% 579/2609 [33:34<1:47:10,  3.17s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:35:25<39:15:03, 9420.24s/it]
Training...:  22% 579/2609 [33:37<1:47:10,  3.17s/it][A
Training...:  22% 580/2609 [33:37<1:49:27,  3.24s/it][A
Training...:  22% 581/2609 [33:40<1:45:00,  3.11s/it][A
Training...:  22% 582/2609 [33:42<1:40:16,  2.97s/it][A
Training...:  22% 583/2609 [33:45<1:36:33,  2.86s/it][A
Training...:  22% 584/2609 [33:47<1:32:00,  2.73s/it][A
Training...:  22% 585/2609 [33:50<1:28:38,  2.63s/it][A
Training...:  22% 586/2609 [33:52<1:24:53,  2.52s/it][A
Training...:  22% 587/2609 [33:54<1:21:46,  2.43s/it][A
Training...:  23% 588/2609 [33:56<1:18:13,  2.32s/it][A
Training...:  23% 589/2609 [33:58<1:15:06,  2.23s/it][A
Training...:  23% 590/2609 [34:00<1:11:56,  2.14s/it][A
Training...:  23% 591/2609 [34:02<1:09:09,  2.06s/it][A
Training...:  23% 592/2609 [34:04<1:05:41,  1.95s/it][A
Training...:  23% 593/2609 [34:06<1:02:40,  1.87s/it][A
Training...:  23% 594/2609 [34:07<59:11,  1.76s/it]  [A
Training...:  23% 595/2609 [34:09<55:24,  1.65s/it][A
Training...:  23% 596/2609 [34:10<51:28,  1.53s/it][A
Training...:  23% 597/2609 [34:11<47:22,  1.41s/it][A
Training...:  23% 598/2609 [34:12<43:05,  1.29s/it][A
Training...:  23% 599/2609 [34:13<38:11,  1.14s/it][A
Training...:  23% 600/2609 [34:13<32:37,  1.03it/s][A
Training...:  23% 601/2609 [34:20<1:34:29,  2.82s/it][A
Training...:  23% 602/2609 [34:28<2:17:33,  4.11s/it][A
Training...:  23% 603/2609 [34:34<2:44:00,  4.91s/it][A
Training...:  23% 604/2609 [34:41<2:58:51,  5.35s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:36:36<39:15:03, 9420.24s/it]
Training...:  23% 604/2609 [34:48<2:58:51,  5.35s/it][A
Training...:  23% 605/2609 [34:48<3:13:45,  5.80s/it][A
Training...:  23% 606/2609 [34:53<3:13:33,  5.80s/it][A
Training...:  23% 607/2609 [34:59<3:12:07,  5.76s/it][A
Training...:  23% 608/2609 [35:04<3:07:19,  5.62s/it][A
Training...:  23% 609/2609 [35:09<3:02:51,  5.49s/it][A
Training...:  23% 610/2609 [35:14<2:58:04,  5.35s/it][A
Training...:  23% 611/2609 [35:19<2:54:24,  5.24s/it][A
Training...:  23% 612/2609 [35:24<2:50:20,  5.12s/it][A
Training...:  23% 613/2609 [35:29<2:44:50,  4.96s/it][A
Training...:  24% 614/2609 [35:33<2:39:34,  4.80s/it][A
Training...:  24% 615/2609 [35:38<2:34:31,  4.65s/it][A
Training...:  24% 616/2609 [35:42<2:29:38,  4.51s/it][A
Training...:  24% 617/2609 [35:46<2:25:02,  4.37s/it][A
Training...:  24% 618/2609 [35:50<2:20:42,  4.24s/it][A
Training...:  24% 619/2609 [35:54<2:17:14,  4.14s/it][A
Training...:  24% 620/2609 [35:57<2:13:57,  4.04s/it][A
Training...:  24% 621/2609 [36:01<2:09:52,  3.92s/it][A
Training...:  24% 622/2609 [36:05<2:06:05,  3.81s/it][A
Training...:  24% 623/2609 [36:08<2:02:34,  3.70s/it][A
Training...:  24% 624/2609 [36:11<1:58:46,  3.59s/it][A
Training...:  24% 625/2609 [36:15<1:55:22,  3.49s/it][A
Training...:  24% 626/2609 [36:18<1:52:06,  3.39s/it][A
Training...:  24% 627/2609 [36:21<1:49:15,  3.31s/it][A
Training...:  24% 628/2609 [36:24<1:45:58,  3.21s/it][A
Training...:  24% 629/2609 [36:27<1:42:58,  3.12s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:38:19<39:15:03, 9420.24s/it]
Training...:  24% 629/2609 [36:30<1:42:58,  3.12s/it][A
Training...:  24% 630/2609 [36:30<1:45:00,  3.18s/it][A
Training...:  24% 631/2609 [36:33<1:40:48,  3.06s/it][A
Training...:  24% 632/2609 [36:36<1:36:28,  2.93s/it][A
Training...:  24% 633/2609 [36:38<1:33:12,  2.83s/it][A
Training...:  24% 634/2609 [36:41<1:29:45,  2.73s/it][A
Training...:  24% 635/2609 [36:43<1:26:17,  2.62s/it][A
Training...:  24% 636/2609 [36:45<1:23:08,  2.53s/it][A
Training...:  24% 637/2609 [36:48<1:20:14,  2.44s/it][A
Training...:  24% 638/2609 [36:50<1:17:22,  2.36s/it][A
Training...:  24% 639/2609 [36:52<1:14:15,  2.26s/it][A
Training...:  25% 640/2609 [36:54<1:11:04,  2.17s/it][A
Training...:  25% 641/2609 [36:56<1:08:10,  2.08s/it][A
Training...:  25% 642/2609 [36:57<1:05:12,  1.99s/it][A
Training...:  25% 643/2609 [36:59<1:02:10,  1.90s/it][A
Training...:  25% 644/2609 [37:01<58:14,  1.78s/it]  [A
Training...:  25% 645/2609 [37:02<54:51,  1.68s/it][A
Training...:  25% 646/2609 [37:03<51:03,  1.56s/it][A
Training...:  25% 647/2609 [37:04<47:09,  1.44s/it][A
Training...:  25% 648/2609 [37:05<42:40,  1.31s/it][A
Training...:  25% 649/2609 [37:06<37:45,  1.16s/it][A
Training...:  25% 650/2609 [37:07<31:59,  1.02it/s][A
Training...:  25% 651/2609 [37:14<1:32:01,  2.82s/it][A
Training...:  25% 652/2609 [37:21<2:12:55,  4.08s/it][A
Training...:  25% 653/2609 [37:28<2:37:06,  4.82s/it][A
Training...:  25% 654/2609 [37:34<2:51:43,  5.27s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:39:29<39:15:03, 9420.24s/it]
Training...:  25% 654/2609 [37:41<2:51:43,  5.27s/it][A
Training...:  25% 655/2609 [37:41<3:06:29,  5.73s/it][A
Training...:  25% 656/2609 [37:47<3:07:39,  5.77s/it][A
Training...:  25% 657/2609 [37:52<3:07:40,  5.77s/it][A
Training...:  25% 658/2609 [37:57<3:01:50,  5.59s/it][A
Training...:  25% 659/2609 [38:02<2:56:15,  5.42s/it][A
Training...:  25% 660/2609 [38:07<2:50:37,  5.25s/it][A
Training...:  25% 661/2609 [38:12<2:46:28,  5.13s/it][A
Training...:  25% 662/2609 [38:17<2:41:38,  4.98s/it][A
Training...:  25% 663/2609 [38:21<2:37:18,  4.85s/it][A
Training...:  25% 664/2609 [38:26<2:32:18,  4.70s/it][A
Training...:  25% 665/2609 [38:30<2:27:54,  4.57s/it][A
Training...:  26% 666/2609 [38:34<2:23:10,  4.42s/it][A
Training...:  26% 667/2609 [38:38<2:19:48,  4.32s/it][A
Training...:  26% 668/2609 [38:42<2:15:34,  4.19s/it][A
Training...:  26% 669/2609 [38:46<2:11:16,  4.06s/it][A
Training...:  26% 670/2609 [38:49<2:07:41,  3.95s/it][A
Training...:  26% 671/2609 [38:53<2:04:29,  3.85s/it][A
Training...:  26% 672/2609 [38:57<2:01:10,  3.75s/it][A
Training...:  26% 673/2609 [39:00<1:58:45,  3.68s/it][A
Training...:  26% 674/2609 [39:04<1:55:45,  3.59s/it][A
Training...:  26% 675/2609 [39:07<1:53:05,  3.51s/it][A
Training...:  26% 676/2609 [39:10<1:49:55,  3.41s/it][A
Training...:  26% 677/2609 [39:13<1:46:51,  3.32s/it][A
Training...:  26% 678/2609 [39:16<1:43:48,  3.23s/it][A
Training...:  26% 679/2609 [39:19<1:40:35,  3.13s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:41:11<39:15:03, 9420.24s/it]
Training...:  26% 679/2609 [39:22<1:40:35,  3.13s/it][A
Training...:  26% 680/2609 [39:22<1:42:23,  3.18s/it][A
Training...:  26% 681/2609 [39:25<1:37:59,  3.05s/it][A
Training...:  26% 682/2609 [39:28<1:33:52,  2.92s/it][A
Training...:  26% 683/2609 [39:30<1:30:23,  2.82s/it][A
Training...:  26% 684/2609 [39:33<1:27:38,  2.73s/it][A
Training...:  26% 685/2609 [39:35<1:24:59,  2.65s/it][A
Training...:  26% 686/2609 [39:38<1:22:20,  2.57s/it][A
Training...:  26% 687/2609 [39:40<1:19:23,  2.48s/it][A
Training...:  26% 688/2609 [39:42<1:16:25,  2.39s/it][A
Training...:  26% 689/2609 [39:44<1:13:21,  2.29s/it][A
Training...:  26% 690/2609 [39:46<1:10:35,  2.21s/it][A
Training...:  26% 691/2609 [39:48<1:07:17,  2.10s/it][A
Training...:  27% 692/2609 [39:50<1:03:40,  1.99s/it][A
Training...:  27% 693/2609 [39:51<1:00:24,  1.89s/it][A
Training...:  27% 694/2609 [39:53<56:49,  1.78s/it]  [A
Training...:  27% 695/2609 [39:54<53:16,  1.67s/it][A
Training...:  27% 696/2609 [39:56<49:40,  1.56s/it][A
Training...:  27% 697/2609 [39:57<45:53,  1.44s/it][A
Training...:  27% 698/2609 [39:58<41:26,  1.30s/it][A
Training...:  27% 699/2609 [39:59<36:34,  1.15s/it][A
Training...:  27% 700/2609 [39:59<30:59,  1.03it/s][A
Training...:  27% 701/2609 [40:06<1:30:30,  2.85s/it][A
Training...:  27% 702/2609 [40:13<2:10:41,  4.11s/it][A
Training...:  27% 703/2609 [40:20<2:34:38,  4.87s/it][A
Training...:  27% 704/2609 [40:26<2:48:32,  5.31s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:42:22<39:15:03, 9420.24s/it]
Training...:  27% 704/2609 [40:33<2:48:32,  5.31s/it][A
Training...:  27% 705/2609 [40:33<3:02:58,  5.77s/it][A
Training...:  27% 706/2609 [40:39<3:03:51,  5.80s/it][A
Training...:  27% 707/2609 [40:45<3:01:33,  5.73s/it][A
Training...:  27% 708/2609 [40:50<2:57:26,  5.60s/it][A
Training...:  27% 709/2609 [40:55<2:52:52,  5.46s/it][A
Training...:  27% 710/2609 [41:00<2:47:09,  5.28s/it][A
Training...:  27% 711/2609 [41:05<2:42:45,  5.15s/it][A
Training...:  27% 712/2609 [41:09<2:37:10,  4.97s/it][A
Training...:  27% 713/2609 [41:14<2:33:05,  4.84s/it][A
Training...:  27% 714/2609 [41:18<2:28:55,  4.72s/it][A
Training...:  27% 715/2609 [41:23<2:26:41,  4.65s/it][A
Training...:  27% 716/2609 [41:27<2:21:52,  4.50s/it][A
Training...:  27% 717/2609 [41:31<2:17:29,  4.36s/it][A
Training...:  28% 718/2609 [41:35<2:12:40,  4.21s/it][A
Training...:  28% 719/2609 [41:39<2:08:33,  4.08s/it][A
Training...:  28% 720/2609 [41:42<2:04:15,  3.95s/it][A
Training...:  28% 721/2609 [41:46<2:01:06,  3.85s/it][A
Training...:  28% 722/2609 [41:49<1:57:52,  3.75s/it][A
Training...:  28% 723/2609 [41:53<1:54:39,  3.65s/it][A
Training...:  28% 724/2609 [41:56<1:51:28,  3.55s/it][A
Training...:  28% 725/2609 [41:59<1:48:19,  3.45s/it][A
Training...:  28% 726/2609 [42:02<1:45:04,  3.35s/it][A
Training...:  28% 727/2609 [42:06<1:42:13,  3.26s/it][A
Training...:  28% 728/2609 [42:08<1:39:21,  3.17s/it][A
Training...:  28% 729/2609 [42:11<1:36:50,  3.09s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:44:03<39:15:03, 9420.24s/it]
Training...:  28% 729/2609 [42:15<1:36:50,  3.09s/it][A
Training...:  28% 730/2609 [42:15<1:39:02,  3.16s/it][A
Training...:  28% 731/2609 [42:17<1:35:22,  3.05s/it][A
Training...:  28% 732/2609 [42:20<1:31:51,  2.94s/it][A
Training...:  28% 733/2609 [42:23<1:28:16,  2.82s/it][A
Training...:  28% 734/2609 [42:25<1:24:35,  2.71s/it][A
Training...:  28% 735/2609 [42:28<1:21:38,  2.61s/it][A
Training...:  28% 736/2609 [42:30<1:18:22,  2.51s/it][A
Training...:  28% 737/2609 [42:32<1:15:17,  2.41s/it][A
Training...:  28% 738/2609 [42:34<1:12:16,  2.32s/it][A
Training...:  28% 739/2609 [42:36<1:09:19,  2.22s/it][A
Training...:  28% 740/2609 [42:38<1:06:09,  2.12s/it][A
Training...:  28% 741/2609 [42:40<1:03:00,  2.02s/it][A
Training...:  28% 742/2609 [42:42<1:00:06,  1.93s/it][A
Training...:  28% 743/2609 [42:43<57:04,  1.84s/it]  [A
Training...:  29% 744/2609 [42:45<53:54,  1.73s/it][A
Training...:  29% 745/2609 [42:46<50:50,  1.64s/it][A
Training...:  29% 746/2609 [42:47<47:22,  1.53s/it][A
Training...:  29% 747/2609 [42:48<43:26,  1.40s/it][A
Training...:  29% 748/2609 [42:49<39:06,  1.26s/it][A
Training...:  29% 749/2609 [42:50<34:37,  1.12s/it][A
Training...:  29% 750/2609 [42:51<29:09,  1.06it/s][A
Training...:  29% 751/2609 [42:58<1:26:24,  2.79s/it][A
Training...:  29% 752/2609 [43:05<2:06:02,  4.07s/it][A
Training...:  29% 753/2609 [43:11<2:30:07,  4.85s/it][A
Training...:  29% 754/2609 [43:18<2:43:48,  5.30s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:45:13<39:15:03, 9420.24s/it]
Training...:  29% 754/2609 [43:25<2:43:48,  5.30s/it][A
Training...:  29% 755/2609 [43:25<2:58:17,  5.77s/it][A
Training...:  29% 756/2609 [43:31<2:58:49,  5.79s/it][A
Training...:  29% 757/2609 [43:36<2:57:10,  5.74s/it][A
Training...:  29% 758/2609 [43:41<2:52:26,  5.59s/it][A
Training...:  29% 759/2609 [43:47<2:49:11,  5.49s/it][A
Training...:  29% 760/2609 [43:52<2:45:14,  5.36s/it][A
Training...:  29% 761/2609 [43:57<2:41:20,  5.24s/it][A
Training...:  29% 762/2609 [44:01<2:36:06,  5.07s/it][A
Training...:  29% 763/2609 [44:06<2:31:28,  4.92s/it][A
Training...:  29% 764/2609 [44:10<2:27:05,  4.78s/it][A
Training...:  29% 765/2609 [44:15<2:22:49,  4.65s/it][A
Training...:  29% 766/2609 [44:19<2:18:08,  4.50s/it][A
Training...:  29% 767/2609 [44:23<2:14:11,  4.37s/it][A
Training...:  29% 768/2609 [44:27<2:10:28,  4.25s/it][A
Training...:  29% 769/2609 [44:31<2:07:06,  4.14s/it][A
Training...:  30% 770/2609 [44:35<2:03:02,  4.01s/it][A
Training...:  30% 771/2609 [44:38<1:59:53,  3.91s/it][A
Training...:  30% 772/2609 [44:42<1:56:20,  3.80s/it][A
Training...:  30% 773/2609 [44:45<1:53:05,  3.70s/it][A
Training...:  30% 774/2609 [44:49<1:50:21,  3.61s/it][A
Training...:  30% 775/2609 [44:52<1:47:36,  3.52s/it][A
Training...:  30% 776/2609 [44:55<1:44:35,  3.42s/it][A
Training...:  30% 777/2609 [44:58<1:42:01,  3.34s/it][A
Training...:  30% 778/2609 [45:01<1:39:13,  3.25s/it][A
Training...:  30% 779/2609 [45:04<1:37:09,  3.19s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:46:56<39:15:03, 9420.24s/it]
Training...:  30% 779/2609 [45:08<1:37:09,  3.19s/it][A
Training...:  30% 780/2609 [45:08<1:39:35,  3.27s/it][A
Training...:  30% 781/2609 [45:11<1:35:33,  3.14s/it][A
Training...:  30% 782/2609 [45:13<1:31:57,  3.02s/it][A
Training...:  30% 783/2609 [45:16<1:28:22,  2.90s/it][A
Training...:  30% 784/2609 [45:19<1:25:22,  2.81s/it][A
Training...:  30% 785/2609 [45:21<1:22:26,  2.71s/it][A
Training...:  30% 786/2609 [45:24<1:19:55,  2.63s/it][A
Training...:  30% 787/2609 [45:26<1:17:06,  2.54s/it][A
Training...:  30% 788/2609 [45:28<1:14:00,  2.44s/it][A
Training...:  30% 789/2609 [45:30<1:10:48,  2.33s/it][A
Training...:  30% 790/2609 [45:32<1:07:49,  2.24s/it][A
Training...:  30% 791/2609 [45:34<1:04:57,  2.14s/it][A
Training...:  30% 792/2609 [45:36<1:01:55,  2.04s/it][A
Training...:  30% 793/2609 [45:38<59:00,  1.95s/it]  [A
Training...:  30% 794/2609 [45:39<55:49,  1.85s/it][A
Training...:  30% 795/2609 [45:41<52:34,  1.74s/it][A
Training...:  31% 796/2609 [45:42<48:56,  1.62s/it][A
Training...:  31% 797/2609 [45:43<45:12,  1.50s/it][A
Training...:  31% 798/2609 [45:44<41:11,  1.36s/it][A
Training...:  31% 799/2609 [45:45<36:33,  1.21s/it][A
Training...:  31% 800/2609 [45:46<30:58,  1.03s/it][A
Training...:  31% 801/2609 [45:53<1:25:33,  2.84s/it][A
Training...:  31% 802/2609 [46:00<2:02:59,  4.08s/it][A
Training...:  31% 803/2609 [46:07<2:27:11,  4.89s/it][A
Training...:  31% 804/2609 [46:13<2:40:23,  5.33s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:48:08<39:15:03, 9420.24s/it]
Training...:  31% 804/2609 [46:20<2:40:23,  5.33s/it][A
Training...:  31% 805/2609 [46:20<2:53:06,  5.76s/it][A
Training...:  31% 806/2609 [46:25<2:53:13,  5.76s/it][A
Training...:  31% 807/2609 [46:31<2:50:02,  5.66s/it][A
Training...:  31% 808/2609 [46:36<2:46:09,  5.54s/it][A
Training...:  31% 809/2609 [46:41<2:41:46,  5.39s/it][A
Training...:  31% 810/2609 [46:46<2:36:43,  5.23s/it][A
Training...:  31% 811/2609 [46:51<2:32:15,  5.08s/it][A
Training...:  31% 812/2609 [46:55<2:27:41,  4.93s/it][A
Training...:  31% 813/2609 [47:00<2:23:56,  4.81s/it][A
Training...:  31% 814/2609 [47:04<2:19:48,  4.67s/it][A
Training...:  31% 815/2609 [47:09<2:16:35,  4.57s/it][A
Training...:  31% 816/2609 [47:13<2:12:58,  4.45s/it][A
Training...:  31% 817/2609 [47:17<2:09:33,  4.34s/it][A
Training...:  31% 818/2609 [47:21<2:05:29,  4.20s/it][A
Training...:  31% 819/2609 [47:25<2:02:34,  4.11s/it][A
Training...:  31% 820/2609 [47:28<1:59:09,  4.00s/it][A
Training...:  31% 821/2609 [47:32<1:56:10,  3.90s/it][A
Training...:  32% 822/2609 [47:35<1:52:27,  3.78s/it][A
Training...:  32% 823/2609 [47:39<1:49:42,  3.69s/it][A
Training...:  32% 824/2609 [47:42<1:46:43,  3.59s/it][A
Training...:  32% 825/2609 [47:46<1:44:20,  3.51s/it][A
Training...:  32% 826/2609 [47:49<1:41:16,  3.41s/it][A
Training...:  32% 827/2609 [47:52<1:38:29,  3.32s/it][A
Training...:  32% 828/2609 [47:55<1:35:35,  3.22s/it][A
Training...:  32% 829/2609 [47:58<1:32:49,  3.13s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:49:49<39:15:03, 9420.24s/it]
Training...:  32% 829/2609 [48:01<1:32:49,  3.13s/it][A
Training...:  32% 830/2609 [48:01<1:34:42,  3.19s/it][A
Training...:  32% 831/2609 [48:04<1:31:14,  3.08s/it][A
Training...:  32% 832/2609 [48:07<1:26:46,  2.93s/it][A
Training...:  32% 833/2609 [48:09<1:23:17,  2.81s/it][A
Training...:  32% 834/2609 [48:12<1:19:54,  2.70s/it][A
Training...:  32% 835/2609 [48:14<1:17:18,  2.61s/it][A
Training...:  32% 836/2609 [48:16<1:14:29,  2.52s/it][A
Training...:  32% 837/2609 [48:19<1:11:56,  2.44s/it][A
Training...:  32% 838/2609 [48:21<1:09:10,  2.34s/it][A
Training...:  32% 839/2609 [48:23<1:06:05,  2.24s/it][A
Training...:  32% 840/2609 [48:25<1:03:02,  2.14s/it][A
Training...:  32% 841/2609 [48:26<1:00:07,  2.04s/it][A
Training...:  32% 842/2609 [48:28<57:19,  1.95s/it]  [A
Training...:  32% 843/2609 [48:30<54:27,  1.85s/it][A
Training...:  32% 844/2609 [48:31<51:20,  1.75s/it][A
Training...:  32% 845/2609 [48:33<48:03,  1.63s/it][A
Training...:  32% 846/2609 [48:34<44:38,  1.52s/it][A
Training...:  32% 847/2609 [48:35<41:10,  1.40s/it][A
Training...:  33% 848/2609 [48:36<37:37,  1.28s/it][A
Training...:  33% 849/2609 [48:37<33:30,  1.14s/it][A
Training...:  33% 850/2609 [48:37<28:09,  1.04it/s][A
Training...:  33% 851/2609 [48:45<1:22:58,  2.83s/it][A
Training...:  33% 852/2609 [48:52<1:59:53,  4.09s/it][A
Training...:  33% 853/2609 [48:58<2:21:07,  4.82s/it][A
Training...:  33% 854/2609 [49:04<2:33:15,  5.24s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:50:59<39:15:03, 9420.24s/it]
Training...:  33% 854/2609 [49:11<2:33:15,  5.24s/it][A
Training...:  33% 855/2609 [49:11<2:46:47,  5.71s/it][A
Training...:  33% 856/2609 [49:17<2:47:53,  5.75s/it][A
Training...:  33% 857/2609 [49:22<2:46:17,  5.69s/it][A
Training...:  33% 858/2609 [49:28<2:42:28,  5.57s/it][A
Training...:  33% 859/2609 [49:33<2:38:19,  5.43s/it][A
Training...:  33% 860/2609 [49:38<2:33:27,  5.26s/it][A
Training...:  33% 861/2609 [49:42<2:28:50,  5.11s/it][A
Training...:  33% 862/2609 [49:47<2:24:02,  4.95s/it][A
Training...:  33% 863/2609 [49:52<2:20:25,  4.83s/it][A
Training...:  33% 864/2609 [49:56<2:15:44,  4.67s/it][A
Training...:  33% 865/2609 [50:00<2:12:13,  4.55s/it][A
Training...:  33% 866/2609 [50:04<2:08:22,  4.42s/it][A
Training...:  33% 867/2609 [50:08<2:05:17,  4.32s/it][A
Training...:  33% 868/2609 [50:12<2:01:12,  4.18s/it][A
Training...:  33% 869/2609 [50:16<1:57:44,  4.06s/it][A
Training...:  33% 870/2609 [50:20<1:54:21,  3.95s/it][A
Training...:  33% 871/2609 [50:23<1:51:17,  3.84s/it][A
Training...:  33% 872/2609 [50:27<1:48:13,  3.74s/it][A
Training...:  33% 873/2609 [50:30<1:45:24,  3.64s/it][A
Training...:  33% 874/2609 [50:33<1:42:17,  3.54s/it][A
Training...:  34% 875/2609 [50:37<1:39:41,  3.45s/it][A
Training...:  34% 876/2609 [50:40<1:37:02,  3.36s/it][A
Training...:  34% 877/2609 [50:43<1:35:17,  3.30s/it][A
Training...:  34% 878/2609 [50:46<1:32:29,  3.21s/it][A
Training...:  34% 879/2609 [50:49<1:29:31,  3.11s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:52:40<39:15:03, 9420.24s/it]
Training...:  34% 879/2609 [50:52<1:29:31,  3.11s/it][A
Training...:  34% 880/2609 [50:52<1:30:38,  3.15s/it][A
Training...:  34% 881/2609 [50:55<1:27:00,  3.02s/it][A
Training...:  34% 882/2609 [50:57<1:23:26,  2.90s/it][A
Training...:  34% 883/2609 [51:00<1:20:29,  2.80s/it][A
Training...:  34% 884/2609 [51:03<1:17:29,  2.70s/it][A
Training...:  34% 885/2609 [51:05<1:14:29,  2.59s/it][A
Training...:  34% 886/2609 [51:07<1:11:46,  2.50s/it][A
Training...:  34% 887/2609 [51:09<1:09:15,  2.41s/it][A
Training...:  34% 888/2609 [51:11<1:06:33,  2.32s/it][A
Training...:  34% 889/2609 [51:13<1:03:45,  2.22s/it][A
Training...:  34% 890/2609 [51:15<1:01:13,  2.14s/it][A
Training...:  34% 891/2609 [51:17<58:24,  2.04s/it]  [A
Training...:  34% 892/2609 [51:19<55:29,  1.94s/it][A
Training...:  34% 893/2609 [51:21<52:36,  1.84s/it][A
Training...:  34% 894/2609 [51:22<49:36,  1.74s/it][A
Training...:  34% 895/2609 [51:23<46:40,  1.63s/it][A
Training...:  34% 896/2609 [51:25<43:32,  1.52s/it][A
Training...:  34% 897/2609 [51:26<40:01,  1.40s/it][A
Training...:  34% 898/2609 [51:27<36:18,  1.27s/it][A
Training...:  34% 899/2609 [51:28<32:20,  1.13s/it][A
Training...:  34% 900/2609 [51:28<27:38,  1.03it/s][A
Training...:  35% 901/2609 [51:35<1:20:37,  2.83s/it][A
Training...:  35% 902/2609 [51:42<1:56:58,  4.11s/it][A
Training...:  35% 903/2609 [51:49<2:18:02,  4.86s/it][A
Training...:  35% 904/2609 [51:55<2:30:12,  5.29s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:53:50<39:15:03, 9420.24s/it]
Training...:  35% 904/2609 [52:02<2:30:12,  5.29s/it][A
Training...:  35% 905/2609 [52:02<2:43:04,  5.74s/it][A
Training...:  35% 906/2609 [52:08<2:43:02,  5.74s/it][A
Training...:  35% 907/2609 [52:13<2:40:27,  5.66s/it][A
Training...:  35% 908/2609 [52:19<2:36:19,  5.51s/it][A
Training...:  35% 909/2609 [52:24<2:32:42,  5.39s/it][A
Training...:  35% 910/2609 [52:28<2:27:51,  5.22s/it][A
Training...:  35% 911/2609 [52:33<2:24:17,  5.10s/it][A
Training...:  35% 912/2609 [52:38<2:19:28,  4.93s/it][A
Training...:  35% 913/2609 [52:42<2:16:03,  4.81s/it][A
Training...:  35% 914/2609 [52:47<2:12:04,  4.68s/it][A
Training...:  35% 915/2609 [52:51<2:08:33,  4.55s/it][A
Training...:  35% 916/2609 [52:55<2:04:49,  4.42s/it][A
Training...:  35% 917/2609 [52:59<2:01:19,  4.30s/it][A
Training...:  35% 918/2609 [53:03<1:58:08,  4.19s/it][A
Training...:  35% 919/2609 [53:07<1:55:30,  4.10s/it][A
Training...:  35% 920/2609 [53:11<1:52:26,  3.99s/it][A
Training...:  35% 921/2609 [53:14<1:49:30,  3.89s/it][A
Training...:  35% 922/2609 [53:18<1:46:39,  3.79s/it][A
Training...:  35% 923/2609 [53:21<1:43:46,  3.69s/it][A
Training...:  35% 924/2609 [53:25<1:40:56,  3.59s/it][A
Training...:  35% 925/2609 [53:28<1:38:33,  3.51s/it][A
Training...:  35% 926/2609 [53:31<1:35:36,  3.41s/it][A
Training...:  36% 927/2609 [53:34<1:32:40,  3.31s/it][A
Training...:  36% 928/2609 [53:37<1:29:57,  3.21s/it][A
Training...:  36% 929/2609 [53:40<1:28:07,  3.15s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:55:32<39:15:03, 9420.24s/it]
Training...:  36% 929/2609 [53:44<1:28:07,  3.15s/it][A
Training...:  36% 930/2609 [53:44<1:29:46,  3.21s/it][A
Training...:  36% 931/2609 [53:46<1:25:57,  3.07s/it][A
Training...:  36% 932/2609 [53:49<1:22:33,  2.95s/it][A
Training...:  36% 933/2609 [53:52<1:19:22,  2.84s/it][A
Training...:  36% 934/2609 [53:54<1:16:02,  2.72s/it][A
Training...:  36% 935/2609 [53:56<1:12:59,  2.62s/it][A
Training...:  36% 936/2609 [53:59<1:10:29,  2.53s/it][A
Training...:  36% 937/2609 [54:01<1:08:10,  2.45s/it][A
Training...:  36% 938/2609 [54:03<1:05:39,  2.36s/it][A
Training...:  36% 939/2609 [54:05<1:02:52,  2.26s/it][A
Training...:  36% 940/2609 [54:07<59:40,  2.15s/it]  [A
Training...:  36% 941/2609 [54:09<56:46,  2.04s/it][A
Training...:  36% 942/2609 [54:11<53:59,  1.94s/it][A
Training...:  36% 943/2609 [54:12<51:15,  1.85s/it][A
Training...:  36% 944/2609 [54:14<48:36,  1.75s/it][A
Training...:  36% 945/2609 [54:15<46:04,  1.66s/it][A
Training...:  36% 946/2609 [54:16<43:09,  1.56s/it][A
Training...:  36% 947/2609 [54:18<39:54,  1.44s/it][A
Training...:  36% 948/2609 [54:19<36:21,  1.31s/it][A
Training...:  36% 949/2609 [54:20<32:34,  1.18s/it][A
Training...:  36% 950/2609 [54:20<27:43,  1.00s/it][A
Training...:  36% 951/2609 [54:27<1:19:35,  2.88s/it][A
Training...:  36% 952/2609 [54:35<1:54:47,  4.16s/it][A
Training...:  37% 953/2609 [54:41<2:14:56,  4.89s/it][A
Training...:  37% 954/2609 [54:47<2:26:30,  5.31s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:56:43<39:15:03, 9420.24s/it]
Training...:  37% 954/2609 [54:54<2:26:30,  5.31s/it][A
Training...:  37% 955/2609 [54:54<2:38:41,  5.76s/it][A
Training...:  37% 956/2609 [55:00<2:37:54,  5.73s/it][A
Training...:  37% 957/2609 [55:05<2:36:03,  5.67s/it][A
Training...:  37% 958/2609 [55:11<2:32:24,  5.54s/it][A
Training...:  37% 959/2609 [55:16<2:28:59,  5.42s/it][A
Training...:  37% 960/2609 [55:21<2:25:17,  5.29s/it][A
Training...:  37% 961/2609 [55:26<2:21:01,  5.13s/it][A
Training...:  37% 962/2609 [55:30<2:16:43,  4.98s/it][A
Training...:  37% 963/2609 [55:35<2:13:04,  4.85s/it][A
Training...:  37% 964/2609 [55:39<2:08:39,  4.69s/it][A
Training...:  37% 965/2609 [55:43<2:05:00,  4.56s/it][A
Training...:  37% 966/2609 [55:47<2:01:02,  4.42s/it][A
Training...:  37% 967/2609 [55:51<1:58:22,  4.33s/it][A
Training...:  37% 968/2609 [55:55<1:54:58,  4.20s/it][A
Training...:  37% 969/2609 [55:59<1:51:49,  4.09s/it][A
Training...:  37% 970/2609 [56:03<1:48:50,  3.98s/it][A
Training...:  37% 971/2609 [56:07<1:46:12,  3.89s/it][A
Training...:  37% 972/2609 [56:10<1:43:11,  3.78s/it][A
Training...:  37% 973/2609 [56:14<1:39:53,  3.66s/it][A
Training...:  37% 974/2609 [56:17<1:37:02,  3.56s/it][A
Training...:  37% 975/2609 [56:20<1:34:05,  3.45s/it][A
Training...:  37% 976/2609 [56:23<1:31:22,  3.36s/it][A
Training...:  37% 977/2609 [56:26<1:28:48,  3.26s/it][A
Training...:  37% 978/2609 [56:29<1:26:28,  3.18s/it][A
Training...:  38% 979/2609 [56:32<1:24:09,  3.10s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:58:24<39:15:03, 9420.24s/it]
Training...:  38% 979/2609 [56:35<1:24:09,  3.10s/it][A
Training...:  38% 980/2609 [56:35<1:26:03,  3.17s/it][A
Training...:  38% 981/2609 [56:38<1:22:30,  3.04s/it][A
Training...:  38% 982/2609 [56:41<1:19:07,  2.92s/it][A
Training...:  38% 983/2609 [56:43<1:16:10,  2.81s/it][A
Training...:  38% 984/2609 [56:46<1:13:04,  2.70s/it][A
Training...:  38% 985/2609 [56:48<1:09:58,  2.59s/it][A
Training...:  38% 986/2609 [56:50<1:07:10,  2.48s/it][A
Training...:  38% 987/2609 [56:53<1:04:54,  2.40s/it][A
Training...:  38% 988/2609 [56:55<1:02:22,  2.31s/it][A
Training...:  38% 989/2609 [56:57<59:56,  2.22s/it]  [A
Training...:  38% 990/2609 [56:59<57:23,  2.13s/it][A
Training...:  38% 991/2609 [57:00<54:49,  2.03s/it][A
Training...:  38% 992/2609 [57:02<52:26,  1.95s/it][A
Training...:  38% 993/2609 [57:04<49:46,  1.85s/it][A
Training...:  38% 994/2609 [57:05<47:19,  1.76s/it][A
Training...:  38% 995/2609 [57:07<44:34,  1.66s/it][A
Training...:  38% 996/2609 [57:08<41:35,  1.55s/it][A
Training...:  38% 997/2609 [57:09<38:23,  1.43s/it][A
Training...:  38% 998/2609 [57:10<34:56,  1.30s/it][A
Training...:  38% 999/2609 [57:11<30:58,  1.15s/it][A
Training...:  38% 1000/2609 [57:12<25:57,  1.03it/s][A
Training...:  38% 1001/2609 [57:19<1:16:19,  2.85s/it][A
Training...:  38% 1002/2609 [57:26<1:51:46,  4.17s/it][A
Training...:  38% 1003/2609 [57:33<2:11:36,  4.92s/it][A
Training...:  38% 1004/2609 [57:39<2:22:19,  5.32s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [13:59:34<39:15:03, 9420.24s/it]
Training...:  38% 1004/2609 [57:46<2:22:19,  5.32s/it][A
Training...:  39% 1005/2609 [57:46<2:34:25,  5.78s/it][A
Training...:  39% 1006/2609 [57:52<2:34:05,  5.77s/it][A
Training...:  39% 1007/2609 [57:57<2:32:34,  5.71s/it][A
Training...:  39% 1008/2609 [58:02<2:28:52,  5.58s/it][A
Training...:  39% 1009/2609 [58:08<2:25:22,  5.45s/it][A
Training...:  39% 1010/2609 [58:13<2:21:38,  5.31s/it][A
Training...:  39% 1011/2609 [58:17<2:17:58,  5.18s/it][A
Training...:  39% 1012/2609 [58:22<2:13:40,  5.02s/it][A
Training...:  39% 1013/2609 [58:27<2:09:49,  4.88s/it][A
Training...:  39% 1014/2609 [58:31<2:05:21,  4.72s/it][A
Training...:  39% 1015/2609 [58:35<2:02:01,  4.59s/it][A
Training...:  39% 1016/2609 [58:39<1:58:30,  4.46s/it][A
Training...:  39% 1017/2609 [58:43<1:55:01,  4.33s/it][A
Training...:  39% 1018/2609 [58:47<1:51:48,  4.22s/it][A
Training...:  39% 1019/2609 [58:51<1:49:35,  4.14s/it][A
Training...:  39% 1020/2609 [58:55<1:46:42,  4.03s/it][A
Training...:  39% 1021/2609 [58:59<1:44:00,  3.93s/it][A
Training...:  39% 1022/2609 [59:02<1:40:28,  3.80s/it][A
Training...:  39% 1023/2609 [59:06<1:37:10,  3.68s/it][A
Training...:  39% 1024/2609 [59:09<1:34:14,  3.57s/it][A
Training...:  39% 1025/2609 [59:12<1:31:24,  3.46s/it][A
Training...:  39% 1026/2609 [59:15<1:28:48,  3.37s/it][A
Training...:  39% 1027/2609 [59:18<1:26:09,  3.27s/it][A
Training...:  39% 1028/2609 [59:21<1:23:19,  3.16s/it][A
Training...:  39% 1029/2609 [59:24<1:20:53,  3.07s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:01:16<39:15:03, 9420.24s/it]
Training...:  39% 1029/2609 [59:27<1:20:53,  3.07s/it][A
Training...:  39% 1030/2609 [59:27<1:22:14,  3.12s/it][A
Training...:  40% 1031/2609 [59:30<1:19:06,  3.01s/it][A
Training...:  40% 1032/2609 [59:33<1:15:55,  2.89s/it][A
Training...:  40% 1033/2609 [59:35<1:12:55,  2.78s/it][A
Training...:  40% 1034/2609 [59:38<1:10:00,  2.67s/it][A
Training...:  40% 1035/2609 [59:40<1:07:43,  2.58s/it][A
Training...:  40% 1036/2609 [59:42<1:05:15,  2.49s/it][A
Training...:  40% 1037/2609 [59:45<1:03:01,  2.41s/it][A
Training...:  40% 1038/2609 [59:47<1:00:28,  2.31s/it][A
Training...:  40% 1039/2609 [59:49<57:41,  2.20s/it]  [A
Training...:  40% 1040/2609 [59:51<55:04,  2.11s/it][A
Training...:  40% 1041/2609 [59:52<52:59,  2.03s/it][A
Training...:  40% 1042/2609 [59:54<50:30,  1.93s/it][A
Training...:  40% 1043/2609 [59:56<47:54,  1.84s/it][A
Training...:  40% 1044/2609 [59:57<45:11,  1.73s/it][A
Training...:  40% 1045/2609 [59:59<42:42,  1.64s/it][A
Training...:  40% 1046/2609 [1:00:00<39:42,  1.52s/it][A
Training...:  40% 1047/2609 [1:00:01<36:34,  1.40s/it][A
Training...:  40% 1048/2609 [1:00:02<33:02,  1.27s/it][A
Training...:  40% 1049/2609 [1:00:03<29:14,  1.12s/it][A
Training...:  40% 1050/2609 [1:00:03<24:43,  1.05it/s][A
Training...:  40% 1051/2609 [1:00:10<1:12:07,  2.78s/it][A
Training...:  40% 1052/2609 [1:00:17<1:46:02,  4.09s/it][A
Training...:  40% 1053/2609 [1:00:24<2:05:08,  4.83s/it][A
Training...:  40% 1054/2609 [1:00:30<2:16:05,  5.25s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:02:25<39:15:03, 9420.24s/it]
Training...:  40% 1054/2609 [1:00:37<2:16:05,  5.25s/it][A
Training...:  40% 1055/2609 [1:00:37<2:27:38,  5.70s/it][A
Training...:  40% 1056/2609 [1:00:43<2:28:01,  5.72s/it][A
Training...:  41% 1057/2609 [1:00:48<2:25:46,  5.64s/it][A
Training...:  41% 1058/2609 [1:00:53<2:22:17,  5.50s/it][A
Training...:  41% 1059/2609 [1:00:58<2:18:39,  5.37s/it][A
Training...:  41% 1060/2609 [1:01:03<2:14:29,  5.21s/it][A
Training...:  41% 1061/2609 [1:01:08<2:11:14,  5.09s/it][A
Training...:  41% 1062/2609 [1:01:13<2:07:13,  4.93s/it][A
Training...:  41% 1063/2609 [1:01:17<2:03:53,  4.81s/it][A
Training...:  41% 1064/2609 [1:01:21<1:59:29,  4.64s/it][A
Training...:  41% 1065/2609 [1:01:26<1:56:06,  4.51s/it][A
Training...:  41% 1066/2609 [1:01:30<1:52:31,  4.38s/it][A
Training...:  41% 1067/2609 [1:01:34<1:49:42,  4.27s/it][A
Training...:  41% 1068/2609 [1:01:38<1:46:22,  4.14s/it][A
Training...:  41% 1069/2609 [1:01:41<1:44:01,  4.05s/it][A
Training...:  41% 1070/2609 [1:01:45<1:41:57,  3.97s/it][A
Training...:  41% 1071/2609 [1:01:49<1:39:16,  3.87s/it][A
Training...:  41% 1072/2609 [1:01:52<1:35:54,  3.74s/it][A
Training...:  41% 1073/2609 [1:01:56<1:33:07,  3.64s/it][A
Training...:  41% 1074/2609 [1:01:59<1:30:31,  3.54s/it][A
Training...:  41% 1075/2609 [1:02:02<1:28:14,  3.45s/it][A
Training...:  41% 1076/2609 [1:02:05<1:25:59,  3.37s/it][A
Training...:  41% 1077/2609 [1:02:08<1:23:50,  3.28s/it][A
Training...:  41% 1078/2609 [1:02:11<1:21:33,  3.20s/it][A
Training...:  41% 1079/2609 [1:02:14<1:19:17,  3.11s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:04:06<39:15:03, 9420.24s/it]
Training...:  41% 1079/2609 [1:02:18<1:19:17,  3.11s/it][A
Training...:  41% 1080/2609 [1:02:18<1:20:59,  3.18s/it][A
Training...:  41% 1081/2609 [1:02:21<1:17:50,  3.06s/it][A
Training...:  41% 1082/2609 [1:02:23<1:14:26,  2.93s/it][A
Training...:  42% 1083/2609 [1:02:26<1:11:28,  2.81s/it][A
Training...:  42% 1084/2609 [1:02:28<1:08:56,  2.71s/it][A
Training...:  42% 1085/2609 [1:02:31<1:06:29,  2.62s/it][A
Training...:  42% 1086/2609 [1:02:33<1:04:09,  2.53s/it][A
Training...:  42% 1087/2609 [1:02:35<1:01:47,  2.44s/it][A
Training...:  42% 1088/2609 [1:02:37<59:26,  2.34s/it]  [A
Training...:  42% 1089/2609 [1:02:39<57:02,  2.25s/it][A
Training...:  42% 1090/2609 [1:02:41<54:47,  2.16s/it][A
Training...:  42% 1091/2609 [1:02:43<52:23,  2.07s/it][A
Training...:  42% 1092/2609 [1:02:45<50:02,  1.98s/it][A
Training...:  42% 1093/2609 [1:02:47<47:44,  1.89s/it][A
Training...:  42% 1094/2609 [1:02:48<45:13,  1.79s/it][A
Training...:  42% 1095/2609 [1:02:50<42:46,  1.70s/it][A
Training...:  42% 1096/2609 [1:02:51<39:54,  1.58s/it][A
Training...:  42% 1097/2609 [1:02:52<36:54,  1.46s/it][A
Training...:  42% 1098/2609 [1:02:53<33:28,  1.33s/it][A
Training...:  42% 1099/2609 [1:02:54<29:39,  1.18s/it][A
Training...:  42% 1100/2609 [1:02:54<25:05,  1.00it/s][A
Training...:  42% 1101/2609 [1:03:02<1:11:32,  2.85s/it][A
Training...:  42% 1102/2609 [1:03:09<1:43:48,  4.13s/it][A
Training...:  42% 1103/2609 [1:03:15<2:02:04,  4.86s/it][A
Training...:  42% 1104/2609 [1:03:22<2:12:30,  5.28s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:05:17<39:15:03, 9420.24s/it]
Training...:  42% 1104/2609 [1:03:28<2:12:30,  5.28s/it][A
Training...:  42% 1105/2609 [1:03:28<2:23:55,  5.74s/it][A
Training...:  42% 1106/2609 [1:03:35<2:26:40,  5.86s/it][A
Training...:  42% 1107/2609 [1:03:40<2:24:29,  5.77s/it][A
Training...:  42% 1108/2609 [1:03:45<2:21:18,  5.65s/it][A
Training...:  43% 1109/2609 [1:03:51<2:17:30,  5.50s/it][A
Training...:  43% 1110/2609 [1:03:55<2:12:44,  5.31s/it][A
Training...:  43% 1111/2609 [1:04:00<2:08:57,  5.17s/it][A
Training...:  43% 1112/2609 [1:04:05<2:04:53,  5.01s/it][A
Training...:  43% 1113/2609 [1:04:09<2:01:22,  4.87s/it][A
Training...:  43% 1114/2609 [1:04:14<1:57:28,  4.71s/it][A
Training...:  43% 1115/2609 [1:04:18<1:54:37,  4.60s/it][A
Training...:  43% 1116/2609 [1:04:22<1:51:18,  4.47s/it][A
Training...:  43% 1117/2609 [1:04:26<1:48:29,  4.36s/it][A
Training...:  43% 1118/2609 [1:04:30<1:45:46,  4.26s/it][A
Training...:  43% 1119/2609 [1:04:34<1:42:59,  4.15s/it][A
Training...:  43% 1120/2609 [1:04:38<1:40:05,  4.03s/it][A
Training...:  43% 1121/2609 [1:04:42<1:37:23,  3.93s/it][A
Training...:  43% 1122/2609 [1:04:45<1:34:49,  3.83s/it][A
Training...:  43% 1123/2609 [1:04:49<1:32:07,  3.72s/it][A
Training...:  43% 1124/2609 [1:04:52<1:29:37,  3.62s/it][A
Training...:  43% 1125/2609 [1:04:56<1:27:38,  3.54s/it][A
Training...:  43% 1126/2609 [1:04:59<1:24:38,  3.42s/it][A
Training...:  43% 1127/2609 [1:05:02<1:22:13,  3.33s/it][A
Training...:  43% 1128/2609 [1:05:05<1:19:31,  3.22s/it][A
Training...:  43% 1129/2609 [1:05:08<1:17:08,  3.13s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:06:59<39:15:03, 9420.24s/it]
Training...:  43% 1129/2609 [1:05:11<1:17:08,  3.13s/it][A
Training...:  43% 1130/2609 [1:05:11<1:18:39,  3.19s/it][A
Training...:  43% 1131/2609 [1:05:14<1:15:46,  3.08s/it][A
Training...:  43% 1132/2609 [1:05:17<1:12:39,  2.95s/it][A
Training...:  43% 1133/2609 [1:05:19<1:09:42,  2.83s/it][A
Training...:  43% 1134/2609 [1:05:22<1:06:55,  2.72s/it][A
Training...:  44% 1135/2609 [1:05:24<1:04:25,  2.62s/it][A
Training...:  44% 1136/2609 [1:05:26<1:02:12,  2.53s/it][A
Training...:  44% 1137/2609 [1:05:29<1:00:10,  2.45s/it][A
Training...:  44% 1138/2609 [1:05:31<57:58,  2.36s/it]  [A
Training...:  44% 1139/2609 [1:05:33<55:48,  2.28s/it][A
Training...:  44% 1140/2609 [1:05:35<53:32,  2.19s/it][A
Training...:  44% 1141/2609 [1:05:37<50:56,  2.08s/it][A
Training...:  44% 1142/2609 [1:05:38<48:36,  1.99s/it][A
Training...:  44% 1143/2609 [1:05:40<46:21,  1.90s/it][A
Training...:  44% 1144/2609 [1:05:42<43:45,  1.79s/it][A
Training...:  44% 1145/2609 [1:05:43<41:11,  1.69s/it][A
Training...:  44% 1146/2609 [1:05:44<38:34,  1.58s/it][A
Training...:  44% 1147/2609 [1:05:46<35:46,  1.47s/it][A
Training...:  44% 1148/2609 [1:05:47<32:26,  1.33s/it][A
Training...:  44% 1149/2609 [1:05:47<28:54,  1.19s/it][A
Training...:  44% 1150/2609 [1:05:48<24:34,  1.01s/it][A
Training...:  44% 1151/2609 [1:05:55<1:09:31,  2.86s/it][A
Training...:  44% 1152/2609 [1:06:02<1:40:35,  4.14s/it][A
Training...:  44% 1153/2609 [1:06:09<1:57:25,  4.84s/it][A
Training...:  44% 1154/2609 [1:06:15<2:07:17,  5.25s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:08:10<39:15:03, 9420.24s/it]
Training...:  44% 1154/2609 [1:06:22<2:07:17,  5.25s/it][A
Training...:  44% 1155/2609 [1:06:22<2:18:21,  5.71s/it][A
Training...:  44% 1156/2609 [1:06:28<2:18:10,  5.71s/it][A
Training...:  44% 1157/2609 [1:06:33<2:16:35,  5.64s/it][A
Training...:  44% 1158/2609 [1:06:38<2:13:30,  5.52s/it][A
Training...:  44% 1159/2609 [1:06:43<2:10:08,  5.39s/it][A
Training...:  44% 1160/2609 [1:06:48<2:07:36,  5.28s/it][A
Training...:  44% 1161/2609 [1:06:53<2:05:30,  5.20s/it][A
Training...:  45% 1162/2609 [1:06:58<2:01:13,  5.03s/it][A
Training...:  45% 1163/2609 [1:07:02<1:57:14,  4.86s/it][A
Training...:  45% 1164/2609 [1:07:07<1:53:03,  4.69s/it][A
Training...:  45% 1165/2609 [1:07:11<1:50:06,  4.58s/it][A
Training...:  45% 1166/2609 [1:07:15<1:46:40,  4.44s/it][A
Training...:  45% 1167/2609 [1:07:19<1:43:47,  4.32s/it][A
Training...:  45% 1168/2609 [1:07:23<1:40:17,  4.18s/it][A
Training...:  45% 1169/2609 [1:07:27<1:38:07,  4.09s/it][A
Training...:  45% 1170/2609 [1:07:31<1:35:00,  3.96s/it][A
Training...:  45% 1171/2609 [1:07:34<1:32:30,  3.86s/it][A
Training...:  45% 1172/2609 [1:07:38<1:30:06,  3.76s/it][A
Training...:  45% 1173/2609 [1:07:41<1:27:54,  3.67s/it][A
Training...:  45% 1174/2609 [1:07:45<1:25:28,  3.57s/it][A
Training...:  45% 1175/2609 [1:07:48<1:23:18,  3.49s/it][A
Training...:  45% 1176/2609 [1:07:51<1:20:41,  3.38s/it][A
Training...:  45% 1177/2609 [1:07:54<1:18:35,  3.29s/it][A
Training...:  45% 1178/2609 [1:07:57<1:16:19,  3.20s/it][A
Training...:  45% 1179/2609 [1:08:00<1:14:35,  3.13s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:09:52<39:15:03, 9420.24s/it]
Training...:  45% 1179/2609 [1:08:03<1:14:35,  3.13s/it][A
Training...:  45% 1180/2609 [1:08:03<1:16:08,  3.20s/it][A
Training...:  45% 1181/2609 [1:08:06<1:13:22,  3.08s/it][A
Training...:  45% 1182/2609 [1:08:09<1:10:01,  2.94s/it][A
Training...:  45% 1183/2609 [1:08:11<1:07:12,  2.83s/it][A
Training...:  45% 1184/2609 [1:08:14<1:04:37,  2.72s/it][A
Training...:  45% 1185/2609 [1:08:16<1:02:07,  2.62s/it][A
Training...:  45% 1186/2609 [1:08:19<59:45,  2.52s/it]  [A
Training...:  45% 1187/2609 [1:08:21<57:42,  2.43s/it][A
Training...:  46% 1188/2609 [1:08:23<55:24,  2.34s/it][A
Training...:  46% 1189/2609 [1:08:25<53:02,  2.24s/it][A
Training...:  46% 1190/2609 [1:08:27<50:54,  2.15s/it][A
Training...:  46% 1191/2609 [1:08:29<48:38,  2.06s/it][A
Training...:  46% 1192/2609 [1:08:30<46:25,  1.97s/it][A
Training...:  46% 1193/2609 [1:08:32<44:11,  1.87s/it][A
Training...:  46% 1194/2609 [1:08:34<41:33,  1.76s/it][A
Training...:  46% 1195/2609 [1:08:35<38:55,  1.65s/it][A
Training...:  46% 1196/2609 [1:08:36<36:12,  1.54s/it][A
Training...:  46% 1197/2609 [1:08:37<33:13,  1.41s/it][A
Training...:  46% 1198/2609 [1:08:38<29:55,  1.27s/it][A
Training...:  46% 1199/2609 [1:08:39<26:30,  1.13s/it][A
Training...:  46% 1200/2609 [1:08:40<22:13,  1.06it/s][A
Training...:  46% 1201/2609 [1:08:47<1:05:53,  2.81s/it][A
Training...:  46% 1202/2609 [1:08:54<1:35:58,  4.09s/it][A
Training...:  46% 1203/2609 [1:09:01<1:54:56,  4.90s/it][A
Training...:  46% 1204/2609 [1:09:07<2:04:33,  5.32s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:11:02<39:15:03, 9420.24s/it]
Training...:  46% 1204/2609 [1:09:14<2:04:33,  5.32s/it][A
Training...:  46% 1205/2609 [1:09:14<2:14:14,  5.74s/it][A
Training...:  46% 1206/2609 [1:09:19<2:13:34,  5.71s/it][A
Training...:  46% 1207/2609 [1:09:25<2:11:40,  5.64s/it][A
Training...:  46% 1208/2609 [1:09:30<2:08:24,  5.50s/it][A
Training...:  46% 1209/2609 [1:09:35<2:05:38,  5.38s/it][A
Training...:  46% 1210/2609 [1:09:40<2:01:55,  5.23s/it][A
Training...:  46% 1211/2609 [1:09:45<1:58:26,  5.08s/it][A
Training...:  46% 1212/2609 [1:09:49<1:54:45,  4.93s/it][A
Training...:  46% 1213/2609 [1:09:54<1:52:10,  4.82s/it][A
Training...:  47% 1214/2609 [1:09:58<1:48:23,  4.66s/it][A
Training...:  47% 1215/2609 [1:10:02<1:44:59,  4.52s/it][A
Training...:  47% 1216/2609 [1:10:06<1:41:40,  4.38s/it][A
Training...:  47% 1217/2609 [1:10:10<1:38:52,  4.26s/it][A
Training...:  47% 1218/2609 [1:10:14<1:35:52,  4.14s/it][A
Training...:  47% 1219/2609 [1:10:18<1:33:32,  4.04s/it][A
Training...:  47% 1220/2609 [1:10:22<1:30:48,  3.92s/it][A
Training...:  47% 1221/2609 [1:10:25<1:28:36,  3.83s/it][A
Training...:  47% 1222/2609 [1:10:29<1:25:51,  3.71s/it][A
Training...:  47% 1223/2609 [1:10:32<1:23:23,  3.61s/it][A
Training...:  47% 1224/2609 [1:10:35<1:21:00,  3.51s/it][A
Training...:  47% 1225/2609 [1:10:39<1:18:39,  3.41s/it][A
Training...:  47% 1226/2609 [1:10:42<1:16:23,  3.31s/it][A
Training...:  47% 1227/2609 [1:10:45<1:14:08,  3.22s/it][A
Training...:  47% 1228/2609 [1:10:48<1:12:02,  3.13s/it][A
Training...:  47% 1229/2609 [1:10:50<1:10:24,  3.06s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:12:42<39:15:03, 9420.24s/it]
Training...:  47% 1229/2609 [1:10:54<1:10:24,  3.06s/it][A
Training...:  47% 1230/2609 [1:10:54<1:11:37,  3.12s/it][A
Training...:  47% 1231/2609 [1:10:56<1:08:44,  2.99s/it][A
Training...:  47% 1232/2609 [1:10:59<1:06:03,  2.88s/it][A
Training...:  47% 1233/2609 [1:11:02<1:03:34,  2.77s/it][A
Training...:  47% 1234/2609 [1:11:04<1:01:17,  2.67s/it][A
Training...:  47% 1235/2609 [1:11:06<59:02,  2.58s/it]  [A
Training...:  47% 1236/2609 [1:11:09<56:56,  2.49s/it][A
Training...:  47% 1237/2609 [1:11:11<54:49,  2.40s/it][A
Training...:  47% 1238/2609 [1:11:13<52:56,  2.32s/it][A
Training...:  47% 1239/2609 [1:11:15<50:50,  2.23s/it][A
Training...:  48% 1240/2609 [1:11:17<48:37,  2.13s/it][A
Training...:  48% 1241/2609 [1:11:19<46:26,  2.04s/it][A
Training...:  48% 1242/2609 [1:11:20<44:16,  1.94s/it][A
Training...:  48% 1243/2609 [1:11:22<41:53,  1.84s/it][A
Training...:  48% 1244/2609 [1:11:23<39:32,  1.74s/it][A
Training...:  48% 1245/2609 [1:11:25<37:11,  1.64s/it][A
Training...:  48% 1246/2609 [1:11:26<34:43,  1.53s/it][A
Training...:  48% 1247/2609 [1:11:27<32:01,  1.41s/it][A
Training...:  48% 1248/2609 [1:11:28<29:04,  1.28s/it][A
Training...:  48% 1249/2609 [1:11:29<25:41,  1.13s/it][A
Training...:  48% 1250/2609 [1:11:30<21:28,  1.05it/s][A
Training...:  48% 1251/2609 [1:11:37<1:03:41,  2.81s/it][A
Training...:  48% 1252/2609 [1:11:44<1:32:46,  4.10s/it][A
Training...:  48% 1253/2609 [1:11:50<1:49:16,  4.83s/it][A
Training...:  48% 1254/2609 [1:11:57<1:59:02,  5.27s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:13:52<39:15:03, 9420.24s/it]
Training...:  48% 1254/2609 [1:12:03<1:59:02,  5.27s/it][A
Training...:  48% 1255/2609 [1:12:03<2:08:48,  5.71s/it][A
Training...:  48% 1256/2609 [1:12:09<2:09:20,  5.74s/it][A
Training...:  48% 1257/2609 [1:12:15<2:07:36,  5.66s/it][A
Training...:  48% 1258/2609 [1:12:20<2:04:30,  5.53s/it][A
Training...:  48% 1259/2609 [1:12:25<2:01:24,  5.40s/it][A
Training...:  48% 1260/2609 [1:12:30<1:57:31,  5.23s/it][A
Training...:  48% 1261/2609 [1:12:35<1:54:26,  5.09s/it][A
Training...:  48% 1262/2609 [1:12:39<1:51:23,  4.96s/it][A
Training...:  48% 1263/2609 [1:12:44<1:48:20,  4.83s/it][A
Training...:  48% 1264/2609 [1:12:48<1:44:47,  4.67s/it][A
Training...:  48% 1265/2609 [1:12:52<1:42:11,  4.56s/it][A
Training...:  49% 1266/2609 [1:12:57<1:39:02,  4.42s/it][A
Training...:  49% 1267/2609 [1:13:01<1:36:29,  4.31s/it][A
Training...:  49% 1268/2609 [1:13:05<1:33:53,  4.20s/it][A
Training...:  49% 1269/2609 [1:13:08<1:31:06,  4.08s/it][A
Training...:  49% 1270/2609 [1:13:12<1:28:19,  3.96s/it][A
Training...:  49% 1271/2609 [1:13:16<1:26:25,  3.88s/it][A
Training...:  49% 1272/2609 [1:13:19<1:24:02,  3.77s/it][A
Training...:  49% 1273/2609 [1:13:23<1:21:44,  3.67s/it][A
Training...:  49% 1274/2609 [1:13:26<1:19:45,  3.58s/it][A
Training...:  49% 1275/2609 [1:13:29<1:17:39,  3.49s/it][A
Training...:  49% 1276/2609 [1:13:32<1:15:26,  3.40s/it][A
Training...:  49% 1277/2609 [1:13:36<1:13:50,  3.33s/it][A
Training...:  49% 1278/2609 [1:13:39<1:11:17,  3.21s/it][A
Training...:  49% 1279/2609 [1:13:42<1:09:17,  3.13s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:15:33<39:15:03, 9420.24s/it]
Training...:  49% 1279/2609 [1:13:45<1:09:17,  3.13s/it][A
Training...:  49% 1280/2609 [1:13:45<1:10:41,  3.19s/it][A
Training...:  49% 1281/2609 [1:13:48<1:07:56,  3.07s/it][A
Training...:  49% 1282/2609 [1:13:50<1:04:57,  2.94s/it][A
Training...:  49% 1283/2609 [1:13:53<1:02:34,  2.83s/it][A
Training...:  49% 1284/2609 [1:13:55<1:00:00,  2.72s/it][A
Training...:  49% 1285/2609 [1:13:58<58:05,  2.63s/it]  [A
Training...:  49% 1286/2609 [1:14:00<56:26,  2.56s/it][A
Training...:  49% 1287/2609 [1:14:02<54:38,  2.48s/it][A
Training...:  49% 1288/2609 [1:14:05<52:44,  2.40s/it][A
Training...:  49% 1289/2609 [1:14:07<50:31,  2.30s/it][A
Training...:  49% 1290/2609 [1:14:09<48:22,  2.20s/it][A
Training...:  49% 1291/2609 [1:14:11<46:14,  2.11s/it][A
Training...:  50% 1292/2609 [1:14:12<43:54,  2.00s/it][A
Training...:  50% 1293/2609 [1:14:14<41:38,  1.90s/it][A
Training...:  50% 1294/2609 [1:14:16<39:23,  1.80s/it][A
Training...:  50% 1295/2609 [1:14:17<37:03,  1.69s/it][A
Training...:  50% 1296/2609 [1:14:18<34:35,  1.58s/it][A
Training...:  50% 1297/2609 [1:14:19<32:01,  1.46s/it][A
Training...:  50% 1298/2609 [1:14:21<29:15,  1.34s/it][A
Training...:  50% 1299/2609 [1:14:21<26:04,  1.19s/it][A
Training...:  50% 1300/2609 [1:14:22<22:05,  1.01s/it][A
Training...:  50% 1301/2609 [1:14:29<1:02:41,  2.88s/it][A
Training...:  50% 1302/2609 [1:14:36<1:30:26,  4.15s/it][A
Training...:  50% 1303/2609 [1:14:43<1:46:03,  4.87s/it][A
Training...:  50% 1304/2609 [1:14:49<1:55:34,  5.31s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:16:45<39:15:03, 9420.24s/it]
Training...:  50% 1304/2609 [1:14:56<1:55:34,  5.31s/it][A
Training...:  50% 1305/2609 [1:14:56<2:06:40,  5.83s/it][A
Training...:  50% 1306/2609 [1:15:02<2:06:36,  5.83s/it][A
Training...:  50% 1307/2609 [1:15:08<2:04:42,  5.75s/it][A
Training...:  50% 1308/2609 [1:15:13<2:01:40,  5.61s/it][A
Training...:  50% 1309/2609 [1:15:18<1:59:18,  5.51s/it][A
Training...:  50% 1310/2609 [1:15:23<1:55:59,  5.36s/it][A
Training...:  50% 1311/2609 [1:15:28<1:53:03,  5.23s/it][A
Training...:  50% 1312/2609 [1:15:33<1:49:36,  5.07s/it][A
Training...:  50% 1313/2609 [1:15:37<1:46:35,  4.93s/it][A
Training...:  50% 1314/2609 [1:15:42<1:43:44,  4.81s/it][A
Training...:  50% 1315/2609 [1:15:46<1:41:08,  4.69s/it][A
Training...:  50% 1316/2609 [1:15:51<1:37:55,  4.54s/it][A
Training...:  50% 1317/2609 [1:15:55<1:35:40,  4.44s/it][A
Training...:  51% 1318/2609 [1:15:59<1:34:01,  4.37s/it][A
Training...:  51% 1319/2609 [1:16:03<1:30:59,  4.23s/it][A
Training...:  51% 1320/2609 [1:16:07<1:27:52,  4.09s/it][A
Training...:  51% 1321/2609 [1:16:10<1:25:53,  4.00s/it][A
Training...:  51% 1322/2609 [1:16:14<1:23:12,  3.88s/it][A
Training...:  51% 1323/2609 [1:16:18<1:20:47,  3.77s/it][A
Training...:  51% 1324/2609 [1:16:21<1:18:07,  3.65s/it][A
Training...:  51% 1325/2609 [1:16:24<1:16:10,  3.56s/it][A
Training...:  51% 1326/2609 [1:16:27<1:13:38,  3.44s/it][A
Training...:  51% 1327/2609 [1:16:31<1:11:28,  3.35s/it][A
Training...:  51% 1328/2609 [1:16:34<1:09:15,  3.24s/it][A
Training...:  51% 1329/2609 [1:16:37<1:07:19,  3.16s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:18:28<39:15:03, 9420.24s/it]
Training...:  51% 1329/2609 [1:16:40<1:07:19,  3.16s/it][A
Training...:  51% 1330/2609 [1:16:40<1:08:44,  3.22s/it][A
Training...:  51% 1331/2609 [1:16:43<1:06:09,  3.11s/it][A
Training...:  51% 1332/2609 [1:16:45<1:03:45,  3.00s/it][A
Training...:  51% 1333/2609 [1:16:48<1:01:19,  2.88s/it][A
Training...:  51% 1334/2609 [1:16:51<58:58,  2.78s/it]  [A
Training...:  51% 1335/2609 [1:16:53<57:14,  2.70s/it][A
Training...:  51% 1336/2609 [1:16:55<54:42,  2.58s/it][A
Training...:  51% 1337/2609 [1:16:58<52:36,  2.48s/it][A
Training...:  51% 1338/2609 [1:17:00<50:26,  2.38s/it][A
Training...:  51% 1339/2609 [1:17:02<48:18,  2.28s/it][A
Training...:  51% 1340/2609 [1:17:04<46:16,  2.19s/it][A
Training...:  51% 1341/2609 [1:17:06<44:15,  2.09s/it][A
Training...:  51% 1342/2609 [1:17:08<42:14,  2.00s/it][A
Training...:  51% 1343/2609 [1:17:09<40:08,  1.90s/it][A
Training...:  52% 1344/2609 [1:17:11<37:41,  1.79s/it][A
Training...:  52% 1345/2609 [1:17:12<35:13,  1.67s/it][A
Training...:  52% 1346/2609 [1:17:13<32:46,  1.56s/it][A
Training...:  52% 1347/2609 [1:17:15<30:22,  1.44s/it][A
Training...:  52% 1348/2609 [1:17:16<27:42,  1.32s/it][A
Training...:  52% 1349/2609 [1:17:16<24:46,  1.18s/it][A
Training...:  52% 1350/2609 [1:17:17<20:59,  1.00s/it][A
Training...:  52% 1351/2609 [1:17:24<1:01:19,  2.93s/it][A
Training...:  52% 1352/2609 [1:17:32<1:28:04,  4.20s/it][A
Training...:  52% 1353/2609 [1:17:38<1:43:02,  4.92s/it][A
Training...:  52% 1354/2609 [1:17:45<1:52:17,  5.37s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:19:40<39:15:03, 9420.24s/it]
Training...:  52% 1354/2609 [1:17:52<1:52:17,  5.37s/it][A
Training...:  52% 1355/2609 [1:17:52<2:02:47,  5.88s/it][A
Training...:  52% 1356/2609 [1:17:57<2:01:51,  5.84s/it][A
Training...:  52% 1357/2609 [1:18:03<1:59:51,  5.74s/it][A
Training...:  52% 1358/2609 [1:18:08<1:56:49,  5.60s/it][A
Training...:  52% 1359/2609 [1:18:13<1:53:40,  5.46s/it][A
Training...:  52% 1360/2609 [1:18:18<1:50:37,  5.31s/it][A
Training...:  52% 1361/2609 [1:18:23<1:48:14,  5.20s/it][A
Training...:  52% 1362/2609 [1:18:28<1:44:02,  5.01s/it][A
Training...:  52% 1363/2609 [1:18:32<1:40:54,  4.86s/it][A
Training...:  52% 1364/2609 [1:18:37<1:37:18,  4.69s/it][A
Training...:  52% 1365/2609 [1:18:41<1:34:26,  4.55s/it][A
Training...:  52% 1366/2609 [1:18:45<1:31:17,  4.41s/it][A
Training...:  52% 1367/2609 [1:18:49<1:28:55,  4.30s/it][A
Training...:  52% 1368/2609 [1:18:53<1:26:03,  4.16s/it][A
Training...:  52% 1369/2609 [1:18:57<1:23:35,  4.05s/it][A
Training...:  53% 1370/2609 [1:19:00<1:21:24,  3.94s/it][A
Training...:  53% 1371/2609 [1:19:04<1:19:14,  3.84s/it][A
Training...:  53% 1372/2609 [1:19:07<1:16:57,  3.73s/it][A
Training...:  53% 1373/2609 [1:19:11<1:15:00,  3.64s/it][A
Training...:  53% 1374/2609 [1:19:14<1:12:39,  3.53s/it][A
Training...:  53% 1375/2609 [1:19:17<1:10:24,  3.42s/it][A
Training...:  53% 1376/2609 [1:19:20<1:08:20,  3.33s/it][A
Training...:  53% 1377/2609 [1:19:23<1:06:25,  3.24s/it][A
Training...:  53% 1378/2609 [1:19:26<1:04:33,  3.15s/it][A
Training...:  53% 1379/2609 [1:19:29<1:02:50,  3.07s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:21:21<39:15:03, 9420.24s/it]
Training...:  53% 1379/2609 [1:19:32<1:02:50,  3.07s/it][A
Training...:  53% 1380/2609 [1:19:32<1:03:52,  3.12s/it][A
Training...:  53% 1381/2609 [1:19:35<1:01:29,  3.00s/it][A
Training...:  53% 1382/2609 [1:19:38<58:54,  2.88s/it]  [A
Training...:  53% 1383/2609 [1:19:40<56:37,  2.77s/it][A
Training...:  53% 1384/2609 [1:19:43<54:33,  2.67s/it][A
Training...:  53% 1385/2609 [1:19:45<52:35,  2.58s/it][A
Training...:  53% 1386/2609 [1:19:47<50:49,  2.49s/it][A
Training...:  53% 1387/2609 [1:19:50<48:52,  2.40s/it][A
Training...:  53% 1388/2609 [1:19:52<47:11,  2.32s/it][A
Training...:  53% 1389/2609 [1:19:54<45:29,  2.24s/it][A
Training...:  53% 1390/2609 [1:19:56<43:28,  2.14s/it][A
Training...:  53% 1391/2609 [1:19:57<41:19,  2.04s/it][A
Training...:  53% 1392/2609 [1:19:59<39:18,  1.94s/it][A
Training...:  53% 1393/2609 [1:20:01<37:17,  1.84s/it][A
Training...:  53% 1394/2609 [1:20:02<35:06,  1.73s/it][A
Training...:  53% 1395/2609 [1:20:04<32:57,  1.63s/it][A
Training...:  54% 1396/2609 [1:20:05<30:38,  1.52s/it][A
Training...:  54% 1397/2609 [1:20:06<28:10,  1.39s/it][A
Training...:  54% 1398/2609 [1:20:07<25:28,  1.26s/it][A
Training...:  54% 1399/2609 [1:20:08<22:37,  1.12s/it][A
Training...:  54% 1400/2609 [1:20:08<19:08,  1.05it/s][A
Training...:  54% 1401/2609 [1:20:15<55:45,  2.77s/it][A
Training...:  54% 1402/2609 [1:20:22<1:22:01,  4.08s/it][A
Training...:  54% 1403/2609 [1:20:29<1:37:16,  4.84s/it][A
Training...:  54% 1404/2609 [1:20:35<1:46:43,  5.31s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:22:31<39:15:03, 9420.24s/it]
Training...:  54% 1404/2609 [1:20:42<1:46:43,  5.31s/it][A
Training...:  54% 1405/2609 [1:20:42<1:56:03,  5.78s/it][A
Training...:  54% 1406/2609 [1:20:48<1:55:56,  5.78s/it][A
Training...:  54% 1407/2609 [1:20:54<1:55:03,  5.74s/it][A
Training...:  54% 1408/2609 [1:20:59<1:52:22,  5.61s/it][A
Training...:  54% 1409/2609 [1:21:04<1:50:07,  5.51s/it][A
Training...:  54% 1410/2609 [1:21:09<1:47:03,  5.36s/it][A
Training...:  54% 1411/2609 [1:21:14<1:43:55,  5.20s/it][A
Training...:  54% 1412/2609 [1:21:19<1:41:07,  5.07s/it][A
Training...:  54% 1413/2609 [1:21:24<1:38:18,  4.93s/it][A
Training...:  54% 1414/2609 [1:21:28<1:36:21,  4.84s/it][A
Training...:  54% 1415/2609 [1:21:33<1:34:15,  4.74s/it][A
Training...:  54% 1416/2609 [1:21:37<1:31:14,  4.59s/it][A
Training...:  54% 1417/2609 [1:21:41<1:28:30,  4.46s/it][A
Training...:  54% 1418/2609 [1:21:45<1:25:37,  4.31s/it][A
Training...:  54% 1419/2609 [1:21:49<1:23:02,  4.19s/it][A
Training...:  54% 1420/2609 [1:21:53<1:20:12,  4.05s/it][A
Training...:  54% 1421/2609 [1:21:56<1:17:59,  3.94s/it][A
Training...:  55% 1422/2609 [1:22:00<1:15:54,  3.84s/it][A
Training...:  55% 1423/2609 [1:22:04<1:14:01,  3.75s/it][A
Training...:  55% 1424/2609 [1:22:07<1:12:05,  3.65s/it][A
Training...:  55% 1425/2609 [1:22:10<1:10:16,  3.56s/it][A
Training...:  55% 1426/2609 [1:22:14<1:08:11,  3.46s/it][A
Training...:  55% 1427/2609 [1:22:17<1:06:05,  3.36s/it][A
Training...:  55% 1428/2609 [1:22:20<1:03:54,  3.25s/it][A
Training...:  55% 1429/2609 [1:22:23<1:01:54,  3.15s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:24:14<39:15:03, 9420.24s/it]
Training...:  55% 1429/2609 [1:22:26<1:01:54,  3.15s/it][A
Training...:  55% 1430/2609 [1:22:26<1:03:05,  3.21s/it][A
Training...:  55% 1431/2609 [1:22:29<1:00:23,  3.08s/it][A
Training...:  55% 1432/2609 [1:22:31<57:40,  2.94s/it]  [A
Training...:  55% 1433/2609 [1:22:34<55:25,  2.83s/it][A
Training...:  55% 1434/2609 [1:22:36<53:09,  2.71s/it][A
Training...:  55% 1435/2609 [1:22:39<51:19,  2.62s/it][A
Training...:  55% 1436/2609 [1:22:41<49:25,  2.53s/it][A
Training...:  55% 1437/2609 [1:22:43<47:36,  2.44s/it][A
Training...:  55% 1438/2609 [1:22:45<45:33,  2.33s/it][A
Training...:  55% 1439/2609 [1:22:47<43:50,  2.25s/it][A
Training...:  55% 1440/2609 [1:22:49<41:55,  2.15s/it][A
Training...:  55% 1441/2609 [1:22:51<40:09,  2.06s/it][A
Training...:  55% 1442/2609 [1:22:53<38:09,  1.96s/it][A
Training...:  55% 1443/2609 [1:22:55<36:17,  1.87s/it][A
Training...:  55% 1444/2609 [1:22:56<34:11,  1.76s/it][A
Training...:  55% 1445/2609 [1:22:57<32:09,  1.66s/it][A
Training...:  55% 1446/2609 [1:22:59<29:53,  1.54s/it][A
Training...:  55% 1447/2609 [1:23:00<27:21,  1.41s/it][A
Training...:  56% 1448/2609 [1:23:01<24:44,  1.28s/it][A
Training...:  56% 1449/2609 [1:23:02<21:54,  1.13s/it][A
Training...:  56% 1450/2609 [1:23:02<18:26,  1.05it/s][A
Training...:  56% 1451/2609 [1:23:09<54:27,  2.82s/it][A
Training...:  56% 1452/2609 [1:23:17<1:19:55,  4.15s/it][A
Training...:  56% 1453/2609 [1:23:23<1:34:09,  4.89s/it][A
Training...:  56% 1454/2609 [1:23:29<1:42:17,  5.31s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:25:25<39:15:03, 9420.24s/it]
Training...:  56% 1454/2609 [1:23:37<1:42:17,  5.31s/it][A
Training...:  56% 1455/2609 [1:23:37<1:53:29,  5.90s/it][A
Training...:  56% 1456/2609 [1:23:43<1:53:28,  5.91s/it][A
Training...:  56% 1457/2609 [1:23:48<1:51:17,  5.80s/it][A
Training...:  56% 1458/2609 [1:23:54<1:48:19,  5.65s/it][A
Training...:  56% 1459/2609 [1:23:59<1:45:27,  5.50s/it][A
Training...:  56% 1460/2609 [1:24:04<1:42:03,  5.33s/it][A
Training...:  56% 1461/2609 [1:24:08<1:39:14,  5.19s/it][A
Training...:  56% 1462/2609 [1:24:13<1:36:01,  5.02s/it][A
Training...:  56% 1463/2609 [1:24:18<1:33:03,  4.87s/it][A
Training...:  56% 1464/2609 [1:24:22<1:30:21,  4.74s/it][A
Training...:  56% 1465/2609 [1:24:26<1:28:03,  4.62s/it][A
Training...:  56% 1466/2609 [1:24:30<1:25:06,  4.47s/it][A
Training...:  56% 1467/2609 [1:24:35<1:22:35,  4.34s/it][A
Training...:  56% 1468/2609 [1:24:38<1:20:08,  4.21s/it][A
Training...:  56% 1469/2609 [1:24:42<1:18:02,  4.11s/it][A
Training...:  56% 1470/2609 [1:24:46<1:15:22,  3.97s/it][A
Training...:  56% 1471/2609 [1:24:50<1:13:15,  3.86s/it][A
Training...:  56% 1472/2609 [1:24:53<1:11:04,  3.75s/it][A
Training...:  56% 1473/2609 [1:24:56<1:08:52,  3.64s/it][A
Training...:  56% 1474/2609 [1:25:00<1:06:56,  3.54s/it][A
Training...:  57% 1475/2609 [1:25:03<1:05:05,  3.44s/it][A
Training...:  57% 1476/2609 [1:25:06<1:02:55,  3.33s/it][A
Training...:  57% 1477/2609 [1:25:09<1:01:08,  3.24s/it][A
Training...:  57% 1478/2609 [1:25:12<59:30,  3.16s/it]  [A
Training...:  57% 1479/2609 [1:25:15<57:43,  3.06s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:27:06<39:15:03, 9420.24s/it]
Training...:  57% 1479/2609 [1:25:18<57:43,  3.06s/it][A
Training...:  57% 1480/2609 [1:25:18<58:35,  3.11s/it][A
Training...:  57% 1481/2609 [1:25:21<56:12,  2.99s/it][A
Training...:  57% 1482/2609 [1:25:23<53:54,  2.87s/it][A
Training...:  57% 1483/2609 [1:25:26<51:50,  2.76s/it][A
Training...:  57% 1484/2609 [1:25:28<49:51,  2.66s/it][A
Training...:  57% 1485/2609 [1:25:31<47:56,  2.56s/it][A
Training...:  57% 1486/2609 [1:25:33<46:10,  2.47s/it][A
Training...:  57% 1487/2609 [1:25:35<44:36,  2.39s/it][A
Training...:  57% 1488/2609 [1:25:37<42:51,  2.29s/it][A
Training...:  57% 1489/2609 [1:25:39<41:18,  2.21s/it][A
Training...:  57% 1490/2609 [1:25:41<39:32,  2.12s/it][A
Training...:  57% 1491/2609 [1:25:43<37:38,  2.02s/it][A
Training...:  57% 1492/2609 [1:25:45<35:53,  1.93s/it][A
Training...:  57% 1493/2609 [1:25:46<34:03,  1.83s/it][A
Training...:  57% 1494/2609 [1:25:48<32:02,  1.72s/it][A
Training...:  57% 1495/2609 [1:25:49<29:52,  1.61s/it][A
Training...:  57% 1496/2609 [1:25:50<27:50,  1.50s/it][A
Training...:  57% 1497/2609 [1:25:51<25:33,  1.38s/it][A
Training...:  57% 1498/2609 [1:25:52<22:57,  1.24s/it][A
Training...:  57% 1499/2609 [1:25:53<20:15,  1.09s/it][A
Training...:  57% 1500/2609 [1:25:54<16:59,  1.09it/s][A
Training...:  58% 1501/2609 [1:26:01<51:30,  2.79s/it][A
Training...:  58% 1502/2609 [1:26:08<1:15:10,  4.07s/it][A
Training...:  58% 1503/2609 [1:26:14<1:29:15,  4.84s/it][A
Training...:  58% 1504/2609 [1:26:21<1:37:17,  5.28s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:28:16<39:15:03, 9420.24s/it]
Training...:  58% 1504/2609 [1:26:27<1:37:17,  5.28s/it][A
Training...:  58% 1505/2609 [1:26:27<1:45:24,  5.73s/it][A
Training...:  58% 1506/2609 [1:26:33<1:45:25,  5.73s/it][A
Training...:  58% 1507/2609 [1:26:39<1:44:06,  5.67s/it][A
Training...:  58% 1508/2609 [1:26:44<1:41:40,  5.54s/it][A
Training...:  58% 1509/2609 [1:26:49<1:39:45,  5.44s/it][A
Training...:  58% 1510/2609 [1:26:54<1:36:37,  5.27s/it][A
Training...:  58% 1511/2609 [1:26:59<1:33:59,  5.14s/it][A
Training...:  58% 1512/2609 [1:27:04<1:31:14,  4.99s/it][A
Training...:  58% 1513/2609 [1:27:08<1:28:56,  4.87s/it][A
Training...:  58% 1514/2609 [1:27:12<1:25:54,  4.71s/it][A
Training...:  58% 1515/2609 [1:27:17<1:23:28,  4.58s/it][A
Training...:  58% 1516/2609 [1:27:21<1:20:41,  4.43s/it][A
Training...:  58% 1517/2609 [1:27:25<1:18:32,  4.32s/it][A
Training...:  58% 1518/2609 [1:27:29<1:16:05,  4.18s/it][A
Training...:  58% 1519/2609 [1:27:33<1:14:06,  4.08s/it][A
Training...:  58% 1520/2609 [1:27:36<1:12:09,  3.98s/it][A
Training...:  58% 1521/2609 [1:27:40<1:10:11,  3.87s/it][A
Training...:  58% 1522/2609 [1:27:43<1:07:52,  3.75s/it][A
Training...:  58% 1523/2609 [1:27:47<1:05:51,  3.64s/it][A
Training...:  58% 1524/2609 [1:27:50<1:03:58,  3.54s/it][A
Training...:  58% 1525/2609 [1:27:53<1:02:03,  3.43s/it][A
Training...:  58% 1526/2609 [1:27:56<1:00:21,  3.34s/it][A
Training...:  59% 1527/2609 [1:27:59<58:45,  3.26s/it]  [A
Training...:  59% 1528/2609 [1:28:02<57:09,  3.17s/it][A
Training...:  59% 1529/2609 [1:28:05<55:37,  3.09s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:29:57<39:15:03, 9420.24s/it]
Training...:  59% 1529/2609 [1:28:09<55:37,  3.09s/it][A
Training...:  59% 1530/2609 [1:28:09<57:11,  3.18s/it][A
Training...:  59% 1531/2609 [1:28:12<55:15,  3.08s/it][A
Training...:  59% 1532/2609 [1:28:14<53:23,  2.97s/it][A
Training...:  59% 1533/2609 [1:28:17<51:33,  2.88s/it][A
Training...:  59% 1534/2609 [1:28:19<49:22,  2.76s/it][A
Training...:  59% 1535/2609 [1:28:22<47:21,  2.65s/it][A
Training...:  59% 1536/2609 [1:28:24<45:37,  2.55s/it][A
Training...:  59% 1537/2609 [1:28:26<44:05,  2.47s/it][A
Training...:  59% 1538/2609 [1:28:29<42:19,  2.37s/it][A
Training...:  59% 1539/2609 [1:28:31<40:32,  2.27s/it][A
Training...:  59% 1540/2609 [1:28:33<38:38,  2.17s/it][A
Training...:  59% 1541/2609 [1:28:34<36:52,  2.07s/it][A
Training...:  59% 1542/2609 [1:28:36<35:13,  1.98s/it][A
Training...:  59% 1543/2609 [1:28:38<33:23,  1.88s/it][A
Training...:  59% 1544/2609 [1:28:39<31:27,  1.77s/it][A
Training...:  59% 1545/2609 [1:28:41<29:27,  1.66s/it][A
Training...:  59% 1546/2609 [1:28:42<27:26,  1.55s/it][A
Training...:  59% 1547/2609 [1:28:43<25:20,  1.43s/it][A
Training...:  59% 1548/2609 [1:28:44<22:57,  1.30s/it][A
Training...:  59% 1549/2609 [1:28:45<20:23,  1.15s/it][A
Training...:  59% 1550/2609 [1:28:46<17:18,  1.02it/s][A
Training...:  59% 1551/2609 [1:28:53<49:55,  2.83s/it][A
Training...:  59% 1552/2609 [1:29:00<1:12:16,  4.10s/it][A
Training...:  60% 1553/2609 [1:29:06<1:25:30,  4.86s/it][A
Training...:  60% 1554/2609 [1:29:13<1:33:16,  5.30s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:31:08<39:15:03, 9420.24s/it]
Training...:  60% 1554/2609 [1:29:19<1:33:16,  5.30s/it][A
Training...:  60% 1555/2609 [1:29:19<1:40:46,  5.74s/it][A
Training...:  60% 1556/2609 [1:29:25<1:40:34,  5.73s/it][A
Training...:  60% 1557/2609 [1:29:31<1:39:20,  5.67s/it][A
Training...:  60% 1558/2609 [1:29:36<1:36:54,  5.53s/it][A
Training...:  60% 1559/2609 [1:29:41<1:34:51,  5.42s/it][A
Training...:  60% 1560/2609 [1:29:46<1:32:20,  5.28s/it][A
Training...:  60% 1561/2609 [1:29:51<1:30:07,  5.16s/it][A
Training...:  60% 1562/2609 [1:29:56<1:27:38,  5.02s/it][A
Training...:  60% 1563/2609 [1:30:00<1:25:00,  4.88s/it][A
Training...:  60% 1564/2609 [1:30:05<1:22:27,  4.73s/it][A
Training...:  60% 1565/2609 [1:30:09<1:19:58,  4.60s/it][A
Training...:  60% 1566/2609 [1:30:13<1:17:24,  4.45s/it][A
Training...:  60% 1567/2609 [1:30:17<1:15:01,  4.32s/it][A
Training...:  60% 1568/2609 [1:30:21<1:13:06,  4.21s/it][A
Training...:  60% 1569/2609 [1:30:25<1:11:05,  4.10s/it][A
Training...:  60% 1570/2609 [1:30:28<1:09:00,  3.99s/it][A
Training...:  60% 1571/2609 [1:30:32<1:07:07,  3.88s/it][A
Training...:  60% 1572/2609 [1:30:36<1:05:21,  3.78s/it][A
Training...:  60% 1573/2609 [1:30:39<1:03:20,  3.67s/it][A
Training...:  60% 1574/2609 [1:30:42<1:01:35,  3.57s/it][A
Training...:  60% 1575/2609 [1:30:46<59:58,  3.48s/it]  [A
Training...:  60% 1576/2609 [1:30:49<58:32,  3.40s/it][A
Training...:  60% 1577/2609 [1:30:52<57:34,  3.35s/it][A
Training...:  60% 1578/2609 [1:30:55<55:54,  3.25s/it][A
Training...:  61% 1579/2609 [1:30:58<54:03,  3.15s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:32:50<39:15:03, 9420.24s/it]
Training...:  61% 1579/2609 [1:31:01<54:03,  3.15s/it][A
Training...:  61% 1580/2609 [1:31:01<54:52,  3.20s/it][A
Training...:  61% 1581/2609 [1:31:04<52:27,  3.06s/it][A
Training...:  61% 1582/2609 [1:31:07<50:05,  2.93s/it][A
Training...:  61% 1583/2609 [1:31:09<47:56,  2.80s/it][A
Training...:  61% 1584/2609 [1:31:12<46:07,  2.70s/it][A
Training...:  61% 1585/2609 [1:31:14<44:19,  2.60s/it][A
Training...:  61% 1586/2609 [1:31:16<42:28,  2.49s/it][A
Training...:  61% 1587/2609 [1:31:19<40:52,  2.40s/it][A
Training...:  61% 1588/2609 [1:31:21<39:08,  2.30s/it][A
Training...:  61% 1589/2609 [1:31:23<37:29,  2.21s/it][A
Training...:  61% 1590/2609 [1:31:24<35:43,  2.10s/it][A
Training...:  61% 1591/2609 [1:31:26<34:02,  2.01s/it][A
Training...:  61% 1592/2609 [1:31:28<32:28,  1.92s/it][A
Training...:  61% 1593/2609 [1:31:30<30:59,  1.83s/it][A
Training...:  61% 1594/2609 [1:31:31<29:13,  1.73s/it][A
Training...:  61% 1595/2609 [1:31:32<27:25,  1.62s/it][A
Training...:  61% 1596/2609 [1:31:34<25:35,  1.52s/it][A
Training...:  61% 1597/2609 [1:31:35<23:38,  1.40s/it][A
Training...:  61% 1598/2609 [1:31:36<21:27,  1.27s/it][A
Training...:  61% 1599/2609 [1:31:37<19:02,  1.13s/it][A
Training...:  61% 1600/2609 [1:31:37<16:05,  1.05it/s][A
Training...:  61% 1601/2609 [1:31:44<47:05,  2.80s/it][A
Training...:  61% 1602/2609 [1:31:51<1:08:51,  4.10s/it][A
Training...:  61% 1603/2609 [1:31:58<1:21:02,  4.83s/it][A
Training...:  61% 1604/2609 [1:32:04<1:28:22,  5.28s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:33:59<39:15:03, 9420.24s/it]
Training...:  61% 1604/2609 [1:32:11<1:28:22,  5.28s/it][A
Training...:  62% 1605/2609 [1:32:11<1:36:17,  5.75s/it][A
Training...:  62% 1606/2609 [1:32:17<1:36:00,  5.74s/it][A
Training...:  62% 1607/2609 [1:32:22<1:35:15,  5.70s/it][A
Training...:  62% 1608/2609 [1:32:28<1:33:22,  5.60s/it][A
Training...:  62% 1609/2609 [1:32:33<1:31:07,  5.47s/it][A
Training...:  62% 1610/2609 [1:32:38<1:27:51,  5.28s/it][A
Training...:  62% 1611/2609 [1:32:43<1:25:21,  5.13s/it][A
Training...:  62% 1612/2609 [1:32:47<1:22:53,  4.99s/it][A
Training...:  62% 1613/2609 [1:32:52<1:20:29,  4.85s/it][A
Training...:  62% 1614/2609 [1:32:56<1:17:57,  4.70s/it][A
Training...:  62% 1615/2609 [1:33:00<1:15:56,  4.58s/it][A
Training...:  62% 1616/2609 [1:33:05<1:13:46,  4.46s/it][A
Training...:  62% 1617/2609 [1:33:09<1:11:49,  4.34s/it][A
Training...:  62% 1618/2609 [1:33:13<1:09:45,  4.22s/it][A
Training...:  62% 1619/2609 [1:33:16<1:07:50,  4.11s/it][A
Training...:  62% 1620/2609 [1:33:20<1:05:51,  4.00s/it][A
Training...:  62% 1621/2609 [1:33:24<1:04:06,  3.89s/it][A
Training...:  62% 1622/2609 [1:33:27<1:02:44,  3.81s/it][A
Training...:  62% 1623/2609 [1:33:31<1:01:35,  3.75s/it][A
Training...:  62% 1624/2609 [1:33:34<59:40,  3.64s/it]  [A
Training...:  62% 1625/2609 [1:33:38<58:00,  3.54s/it][A
Training...:  62% 1626/2609 [1:33:41<56:12,  3.43s/it][A
Training...:  62% 1627/2609 [1:33:44<54:24,  3.32s/it][A
Training...:  62% 1628/2609 [1:33:47<52:49,  3.23s/it][A
Training...:  62% 1629/2609 [1:33:50<51:20,  3.14s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:35:42<39:15:03, 9420.24s/it]
Training...:  62% 1629/2609 [1:33:53<51:20,  3.14s/it][A
Training...:  62% 1630/2609 [1:33:53<52:34,  3.22s/it][A
Training...:  63% 1631/2609 [1:33:56<50:18,  3.09s/it][A
Training...:  63% 1632/2609 [1:33:59<48:01,  2.95s/it][A
Training...:  63% 1633/2609 [1:34:01<46:10,  2.84s/it][A
Training...:  63% 1634/2609 [1:34:04<44:16,  2.72s/it][A
Training...:  63% 1635/2609 [1:34:06<42:50,  2.64s/it][A
Training...:  63% 1636/2609 [1:34:09<41:08,  2.54s/it][A
Training...:  63% 1637/2609 [1:34:11<39:36,  2.45s/it][A
Training...:  63% 1638/2609 [1:34:13<38:02,  2.35s/it][A
Training...:  63% 1639/2609 [1:34:15<36:33,  2.26s/it][A
Training...:  63% 1640/2609 [1:34:17<34:54,  2.16s/it][A
Training...:  63% 1641/2609 [1:34:19<33:29,  2.08s/it][A
Training...:  63% 1642/2609 [1:34:21<31:56,  1.98s/it][A
Training...:  63% 1643/2609 [1:34:22<30:34,  1.90s/it][A
Training...:  63% 1644/2609 [1:34:24<28:47,  1.79s/it][A
Training...:  63% 1645/2609 [1:34:25<27:01,  1.68s/it][A
Training...:  63% 1646/2609 [1:34:26<25:12,  1.57s/it][A
Training...:  63% 1647/2609 [1:34:28<23:15,  1.45s/it][A
Training...:  63% 1648/2609 [1:34:29<21:03,  1.32s/it][A
Training...:  63% 1649/2609 [1:34:29<18:43,  1.17s/it][A
Training...:  63% 1650/2609 [1:34:30<15:44,  1.02it/s][A
Training...:  63% 1651/2609 [1:34:37<45:25,  2.84s/it][A
Training...:  63% 1652/2609 [1:34:44<1:05:47,  4.13s/it][A
Training...:  63% 1653/2609 [1:34:51<1:18:01,  4.90s/it][A
Training...:  63% 1654/2609 [1:34:57<1:24:59,  5.34s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:36:53<39:15:03, 9420.24s/it]
Training...:  63% 1654/2609 [1:35:04<1:24:59,  5.34s/it][A
Training...:  63% 1655/2609 [1:35:04<1:32:01,  5.79s/it][A
Training...:  63% 1656/2609 [1:35:10<1:32:04,  5.80s/it][A
Training...:  64% 1657/2609 [1:35:16<1:31:01,  5.74s/it][A
Training...:  64% 1658/2609 [1:35:21<1:28:39,  5.59s/it][A
Training...:  64% 1659/2609 [1:35:26<1:27:03,  5.50s/it][A
Training...:  64% 1660/2609 [1:35:31<1:25:37,  5.41s/it][A
Training...:  64% 1661/2609 [1:35:36<1:22:58,  5.25s/it][A
Training...:  64% 1662/2609 [1:35:41<1:20:05,  5.07s/it][A
Training...:  64% 1663/2609 [1:35:46<1:17:56,  4.94s/it][A
Training...:  64% 1664/2609 [1:35:50<1:15:09,  4.77s/it][A
Training...:  64% 1665/2609 [1:35:54<1:12:47,  4.63s/it][A
Training...:  64% 1666/2609 [1:35:58<1:10:15,  4.47s/it][A
Training...:  64% 1667/2609 [1:36:02<1:08:24,  4.36s/it][A
Training...:  64% 1668/2609 [1:36:06<1:06:14,  4.22s/it][A
Training...:  64% 1669/2609 [1:36:10<1:04:03,  4.09s/it][A
Training...:  64% 1670/2609 [1:36:14<1:02:01,  3.96s/it][A
Training...:  64% 1671/2609 [1:36:17<1:00:06,  3.85s/it][A
Training...:  64% 1672/2609 [1:36:21<58:15,  3.73s/it]  [A
Training...:  64% 1673/2609 [1:36:24<56:43,  3.64s/it][A
Training...:  64% 1674/2609 [1:36:28<55:08,  3.54s/it][A
Training...:  64% 1675/2609 [1:36:31<53:49,  3.46s/it][A
Training...:  64% 1676/2609 [1:36:34<52:08,  3.35s/it][A
Training...:  64% 1677/2609 [1:36:37<50:39,  3.26s/it][A
Training...:  64% 1678/2609 [1:36:40<49:20,  3.18s/it][A
Training...:  64% 1679/2609 [1:36:43<47:59,  3.10s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:38:34<39:15:03, 9420.24s/it]
Training...:  64% 1679/2609 [1:36:46<47:59,  3.10s/it][A
Training...:  64% 1680/2609 [1:36:46<48:47,  3.15s/it][A
Training...:  64% 1681/2609 [1:36:49<46:42,  3.02s/it][A
Training...:  64% 1682/2609 [1:36:51<44:51,  2.90s/it][A
Training...:  65% 1683/2609 [1:36:54<43:06,  2.79s/it][A
Training...:  65% 1684/2609 [1:36:56<41:21,  2.68s/it][A
Training...:  65% 1685/2609 [1:36:59<39:43,  2.58s/it][A
Training...:  65% 1686/2609 [1:37:01<38:08,  2.48s/it][A
Training...:  65% 1687/2609 [1:37:03<36:48,  2.40s/it][A
Training...:  65% 1688/2609 [1:37:05<35:25,  2.31s/it][A
Training...:  65% 1689/2609 [1:37:07<34:11,  2.23s/it][A
Training...:  65% 1690/2609 [1:37:09<32:53,  2.15s/it][A
Training...:  65% 1691/2609 [1:37:11<31:30,  2.06s/it][A
Training...:  65% 1692/2609 [1:37:13<29:59,  1.96s/it][A
Training...:  65% 1693/2609 [1:37:15<28:28,  1.87s/it][A
Training...:  65% 1694/2609 [1:37:16<26:57,  1.77s/it][A
Training...:  65% 1695/2609 [1:37:18<25:28,  1.67s/it][A
Training...:  65% 1696/2609 [1:37:19<23:46,  1.56s/it][A
Training...:  65% 1697/2609 [1:37:20<21:58,  1.45s/it][A
Training...:  65% 1698/2609 [1:37:21<19:58,  1.32s/it][A
Training...:  65% 1699/2609 [1:37:22<17:37,  1.16s/it][A
Training...:  65% 1700/2609 [1:37:22<14:50,  1.02it/s][A
Training...:  65% 1701/2609 [1:37:30<42:38,  2.82s/it][A
Training...:  65% 1702/2609 [1:37:37<1:01:44,  4.08s/it][A
Training...:  65% 1703/2609 [1:37:43<1:12:20,  4.79s/it][A
Training...:  65% 1704/2609 [1:37:49<1:18:58,  5.24s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:39:45<39:15:03, 9420.24s/it]
Training...:  65% 1704/2609 [1:37:56<1:18:58,  5.24s/it][A
Training...:  65% 1705/2609 [1:37:56<1:26:51,  5.76s/it][A
Training...:  65% 1706/2609 [1:38:02<1:26:43,  5.76s/it][A
Training...:  65% 1707/2609 [1:38:08<1:25:40,  5.70s/it][A
Training...:  65% 1708/2609 [1:38:13<1:23:45,  5.58s/it][A
Training...:  66% 1709/2609 [1:38:18<1:21:31,  5.44s/it][A
Training...:  66% 1710/2609 [1:38:23<1:18:46,  5.26s/it][A
Training...:  66% 1711/2609 [1:38:28<1:16:58,  5.14s/it][A
Training...:  66% 1712/2609 [1:38:32<1:14:29,  4.98s/it][A
Training...:  66% 1713/2609 [1:38:37<1:12:31,  4.86s/it][A
Training...:  66% 1714/2609 [1:38:41<1:10:20,  4.72s/it][A
Training...:  66% 1715/2609 [1:38:46<1:08:24,  4.59s/it][A
Training...:  66% 1716/2609 [1:38:50<1:06:34,  4.47s/it][A
Training...:  66% 1717/2609 [1:38:54<1:04:52,  4.36s/it][A
Training...:  66% 1718/2609 [1:38:58<1:02:54,  4.24s/it][A
Training...:  66% 1719/2609 [1:39:02<1:00:57,  4.11s/it][A
Training...:  66% 1720/2609 [1:39:05<58:57,  3.98s/it]  [A
Training...:  66% 1721/2609 [1:39:09<57:40,  3.90s/it][A
Training...:  66% 1722/2609 [1:39:13<55:57,  3.79s/it][A
Training...:  66% 1723/2609 [1:39:16<54:31,  3.69s/it][A
Training...:  66% 1724/2609 [1:39:19<52:51,  3.58s/it][A
Training...:  66% 1725/2609 [1:39:23<51:26,  3.49s/it][A
Training...:  66% 1726/2609 [1:39:26<49:51,  3.39s/it][A
Training...:  66% 1727/2609 [1:39:29<48:24,  3.29s/it][A
Training...:  66% 1728/2609 [1:39:32<46:55,  3.20s/it][A
Training...:  66% 1729/2609 [1:39:35<45:30,  3.10s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:41:26<39:15:03, 9420.24s/it]
Training...:  66% 1729/2609 [1:39:38<45:30,  3.10s/it][A
Training...:  66% 1730/2609 [1:39:38<46:02,  3.14s/it][A
Training...:  66% 1731/2609 [1:39:41<43:56,  3.00s/it][A
Training...:  66% 1732/2609 [1:39:43<42:05,  2.88s/it][A
Training...:  66% 1733/2609 [1:39:46<40:28,  2.77s/it][A
Training...:  66% 1734/2609 [1:39:48<39:03,  2.68s/it][A
Training...:  67% 1735/2609 [1:39:51<37:50,  2.60s/it][A
Training...:  67% 1736/2609 [1:39:53<36:25,  2.50s/it][A
Training...:  67% 1737/2609 [1:39:55<35:04,  2.41s/it][A
Training...:  67% 1738/2609 [1:39:57<33:38,  2.32s/it][A
Training...:  67% 1739/2609 [1:39:59<32:07,  2.22s/it][A
Training...:  67% 1740/2609 [1:40:01<30:46,  2.12s/it][A
Training...:  67% 1741/2609 [1:40:03<29:16,  2.02s/it][A
Training...:  67% 1742/2609 [1:40:05<27:50,  1.93s/it][A
Training...:  67% 1743/2609 [1:40:06<26:24,  1.83s/it][A
Training...:  67% 1744/2609 [1:40:08<24:55,  1.73s/it][A
Training...:  67% 1745/2609 [1:40:09<23:24,  1.63s/it][A
Training...:  67% 1746/2609 [1:40:10<21:49,  1.52s/it][A
Training...:  67% 1747/2609 [1:40:11<20:13,  1.41s/it][A
Training...:  67% 1748/2609 [1:40:12<18:21,  1.28s/it][A
Training...:  67% 1749/2609 [1:40:13<16:18,  1.14s/it][A
Training...:  67% 1750/2609 [1:40:14<13:50,  1.03it/s][A
Training...:  67% 1751/2609 [1:40:21<40:50,  2.86s/it][A
Training...:  67% 1752/2609 [1:40:28<59:03,  4.13s/it][A
Training...:  67% 1753/2609 [1:40:35<1:09:43,  4.89s/it][A
Training...:  67% 1754/2609 [1:40:41<1:15:44,  5.32s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:42:36<39:15:03, 9420.24s/it]
Training...:  67% 1754/2609 [1:40:48<1:15:44,  5.32s/it][A
Training...:  67% 1755/2609 [1:40:48<1:21:45,  5.74s/it][AStep... (13050 | Loss: 0.13662445545196533, Learning Rate: 7.464848749805242e-05, Gradient Norm: 0.5771315097808838)
Step... (13075 | Loss: 0.08763006329536438, Learning Rate: 7.459797780029476e-05, Gradient Norm: 0.6017256379127502)
Step... (13100 | Loss: 0.22799767553806305, Learning Rate: 7.454747537849471e-05, Gradient Norm: 0.7568475008010864)
Step... (13125 | Loss: 0.06854256242513657, Learning Rate: 7.449697295669466e-05, Gradient Norm: 0.529728353023529)
Step... (13150 | Loss: 0.13260643184185028, Learning Rate: 7.4446463258937e-05, Gradient Norm: 0.6774527430534363)
Step... (13175 | Loss: 0.10635159909725189, Learning Rate: 7.439596083713695e-05, Gradient Norm: 0.6441662311553955)
Step... (13200 | Loss: 0.19594652950763702, Learning Rate: 7.434545841533691e-05, Gradient Norm: 0.8032304644584656)
Step... (13225 | Loss: 0.061386629939079285, Learning Rate: 7.429494871757925e-05, Gradient Norm: 0.5682129263877869)
Step... (13250 | Loss: 0.16933104395866394, Learning Rate: 7.42444462957792e-05, Gradient Norm: 0.6186806559562683)
Step... (13275 | Loss: 0.09954912960529327, Learning Rate: 7.419394387397915e-05, Gradient Norm: 0.9546672701835632)
Step... (13300 | Loss: 0.18334557116031647, Learning Rate: 7.414343417622149e-05, Gradient Norm: 0.7151881456375122)
Step... (13325 | Loss: 0.11790069192647934, Learning Rate: 7.409293175442144e-05, Gradient Norm: 0.7474694848060608)
Step... (13350 | Loss: 0.18236806988716125, Learning Rate: 7.404242205666378e-05, Gradient Norm: 0.7280070781707764)
Step... (13375 | Loss: 0.08112546056509018, Learning Rate: 7.399191963486373e-05, Gradient Norm: 0.6171314716339111)
Step... (13400 | Loss: 0.13187654316425323, Learning Rate: 7.394141721306369e-05, Gradient Norm: 0.5862021446228027)
Step... (13425 | Loss: 0.06651732325553894, Learning Rate: 7.389090751530603e-05, Gradient Norm: 0.5076069235801697)
Step... (13450 | Loss: 0.1507975459098816, Learning Rate: 7.384040509350598e-05, Gradient Norm: 0.9707422256469727)
Step... (13475 | Loss: 0.10502015054225922, Learning Rate: 7.378989539574832e-05, Gradient Norm: 0.6977221369743347)
Step... (13500 | Loss: 0.1814766675233841, Learning Rate: 7.373939297394827e-05, Gradient Norm: 1.0619142055511475)
Step... (13525 | Loss: 0.08922041207551956, Learning Rate: 7.368888327619061e-05, Gradient Norm: 0.674455463886261)
Step... (13550 | Loss: 0.19925208389759064, Learning Rate: 7.363838085439056e-05, Gradient Norm: 0.7845368981361389)
Step... (13575 | Loss: 0.09905166178941727, Learning Rate: 7.358787843259051e-05, Gradient Norm: 0.7467373013496399)
Step... (13600 | Loss: 0.21614520251750946, Learning Rate: 7.353736873483285e-05, Gradient Norm: 0.7172365188598633)
Step... (13625 | Loss: 0.08632427453994751, Learning Rate: 7.34868663130328e-05, Gradient Norm: 0.5402415990829468)
Step... (13650 | Loss: 0.14359687268733978, Learning Rate: 7.343636389123276e-05, Gradient Norm: 0.5675047039985657)
Step... (13675 | Loss: 0.09916704148054123, Learning Rate: 7.33858541934751e-05, Gradient Norm: 0.5616188645362854)
Step... (13700 | Loss: 0.19014504551887512, Learning Rate: 7.333534449571744e-05, Gradient Norm: 0.681752622127533)
Step... (13725 | Loss: 0.1078886017203331, Learning Rate: 7.3284849349875e-05, Gradient Norm: 1.3200088739395142)
Step... (13750 | Loss: 0.1668151170015335, Learning Rate: 7.323433965211734e-05, Gradient Norm: 0.6350716352462769)
Step... (13775 | Loss: 0.09970995038747787, Learning Rate: 7.318382995435968e-05, Gradient Norm: 0.7429246306419373)
Step... (13800 | Loss: 0.16819137334823608, Learning Rate: 7.313333480851725e-05, Gradient Norm: 0.8347805738449097)
Step... (13825 | Loss: 0.0891629308462143, Learning Rate: 7.308282511075959e-05, Gradient Norm: 0.7573909163475037)
Step... (13850 | Loss: 0.16997693479061127, Learning Rate: 7.303231541300192e-05, Gradient Norm: 0.7288236618041992)
Step... (13875 | Loss: 0.0842859223484993, Learning Rate: 7.298182026715949e-05, Gradient Norm: 0.9556844234466553)
Step... (13900 | Loss: 0.17982840538024902, Learning Rate: 7.293131056940183e-05, Gradient Norm: 0.7047349214553833)
Step... (13925 | Loss: 0.14445678889751434, Learning Rate: 7.288080087164417e-05, Gradient Norm: 0.8446053266525269)
Step... (13950 | Loss: 0.19460228085517883, Learning Rate: 7.283030572580174e-05, Gradient Norm: 0.6958212852478027)
Step... (13975 | Loss: 0.11148052662611008, Learning Rate: 7.277979602804407e-05, Gradient Norm: 0.8086815476417542)
Step... (14000 | Loss: 0.15051178634166718, Learning Rate: 7.272928633028641e-05, Gradient Norm: 0.6119850277900696)
Step... (14025 | Loss: 0.08028140664100647, Learning Rate: 7.267879118444398e-05, Gradient Norm: 0.5912534594535828)
Step... (14050 | Loss: 0.2307722121477127, Learning Rate: 7.262828148668632e-05, Gradient Norm: 1.2442067861557007)
Step... (14075 | Loss: 0.10098773241043091, Learning Rate: 7.257777178892866e-05, Gradient Norm: 0.9854538440704346)
Step... (14100 | Loss: 0.1685587763786316, Learning Rate: 7.252726936712861e-05, Gradient Norm: 0.785944402217865)
Step... (14125 | Loss: 0.07586716115474701, Learning Rate: 7.247676694532856e-05, Gradient Norm: 0.5556766390800476)
Step... (14150 | Loss: 0.16468898952007294, Learning Rate: 7.24262572475709e-05, Gradient Norm: 0.6092351078987122)
Step... (14175 | Loss: 0.06365618854761124, Learning Rate: 7.237575482577085e-05, Gradient Norm: 0.6331422924995422)
Step... (14200 | Loss: 0.18724410235881805, Learning Rate: 7.232525240397081e-05, Gradient Norm: 0.6663020849227905)
Step... (14225 | Loss: 0.10550183057785034, Learning Rate: 7.227474270621315e-05, Gradient Norm: 0.6821128726005554)
Step... (14250 | Loss: 0.1286497414112091, Learning Rate: 7.22242402844131e-05, Gradient Norm: 0.5916711688041687)
Step... (14275 | Loss: 0.11641902476549149, Learning Rate: 7.217373786261305e-05, Gradient Norm: 0.7038871645927429)
Step... (14300 | Loss: 0.19377216696739197, Learning Rate: 7.212322816485539e-05, Gradient Norm: 0.6743177771568298)
Step... (14325 | Loss: 0.09965398907661438, Learning Rate: 7.207272574305534e-05, Gradient Norm: 0.6891793012619019)
Step... (14350 | Loss: 0.15553586184978485, Learning Rate: 7.20222233212553e-05, Gradient Norm: 0.6417385339736938)
Step... (14375 | Loss: 0.09014254808425903, Learning Rate: 7.197171362349764e-05, Gradient Norm: 0.6479730606079102)
Step... (14400 | Loss: 0.15326768159866333, Learning Rate: 7.192121120169759e-05, Gradient Norm: 0.6165122389793396)
Step... (14425 | Loss: 0.09263032674789429, Learning Rate: 7.187070877989754e-05, Gradient Norm: 0.7142206430435181)
Step... (14450 | Loss: 0.17132407426834106, Learning Rate: 7.182019908213988e-05, Gradient Norm: 0.667022705078125)
Step... (14475 | Loss: 0.09046497941017151, Learning Rate: 7.176969666033983e-05, Gradient Norm: 0.6670737862586975)
Step... (14500 | Loss: 0.251329243183136, Learning Rate: 7.171919423853979e-05, Gradient Norm: 0.690753161907196)
Step... (14525 | Loss: 0.17404374480247498, Learning Rate: 7.166868454078212e-05, Gradient Norm: 0.674710750579834)
Step... (14550 | Loss: 0.13754378259181976, Learning Rate: 7.161818211898208e-05, Gradient Norm: 0.6507953405380249)
Step... (14575 | Loss: 0.14848338067531586, Learning Rate: 7.156767969718203e-05, Gradient Norm: 0.7256637811660767)
Step... (14600 | Loss: 0.14334465563297272, Learning Rate: 7.151716999942437e-05, Gradient Norm: 0.733644962310791)
Step... (14625 | Loss: 0.10064314305782318, Learning Rate: 7.146666757762432e-05, Gradient Norm: 0.5956737995147705)
Step... (14650 | Loss: 0.17484311759471893, Learning Rate: 7.141616515582427e-05, Gradient Norm: 0.7759003043174744)
Step... (14675 | Loss: 0.10219234228134155, Learning Rate: 7.136565545806661e-05, Gradient Norm: 0.6721158027648926)
Step... (14700 | Loss: 0.18265023827552795, Learning Rate: 7.131515303626657e-05, Gradient Norm: 3.0247325897216797)
Step... (14725 | Loss: 0.09948568791151047, Learning Rate: 7.12646433385089e-05, Gradient Norm: 0.9694288969039917)
Step... (14750 | Loss: 0.16796669363975525, Learning Rate: 7.121414091670886e-05, Gradient Norm: 0.672953188419342)
Step... (14775 | Loss: 0.09087798744440079, Learning Rate: 7.11636312189512e-05, Gradient Norm: 0.6549712419509888)

Training...:  67% 1756/2609 [1:40:54<1:22:28,  5.80s/it][A
Training...:  67% 1757/2609 [1:40:59<1:21:07,  5.71s/it][A
Training...:  67% 1758/2609 [1:41:05<1:18:59,  5.57s/it][A
Training...:  67% 1759/2609 [1:41:10<1:16:45,  5.42s/it][A
Training...:  67% 1760/2609 [1:41:14<1:14:25,  5.26s/it][A
Training...:  67% 1761/2609 [1:41:19<1:12:04,  5.10s/it][A
Training...:  68% 1762/2609 [1:41:24<1:09:48,  4.94s/it][A
Training...:  68% 1763/2609 [1:41:28<1:07:49,  4.81s/it][A
Training...:  68% 1764/2609 [1:41:33<1:05:44,  4.67s/it][A
Training...:  68% 1765/2609 [1:41:37<1:03:46,  4.53s/it][A
Training...:  68% 1766/2609 [1:41:41<1:01:47,  4.40s/it][A
Training...:  68% 1767/2609 [1:41:45<1:00:06,  4.28s/it][A
Training...:  68% 1768/2609 [1:41:49<58:31,  4.18s/it]  [A
Training...:  68% 1769/2609 [1:41:53<57:13,  4.09s/it][A
Training...:  68% 1770/2609 [1:41:56<55:23,  3.96s/it][A
Training...:  68% 1771/2609 [1:42:00<54:06,  3.87s/it][A
Training...:  68% 1772/2609 [1:42:04<52:34,  3.77s/it][A
Training...:  68% 1773/2609 [1:42:07<51:06,  3.67s/it][A
Training...:  68% 1774/2609 [1:42:10<49:23,  3.55s/it][A
Training...:  68% 1775/2609 [1:42:14<47:53,  3.45s/it][A
Training...:  68% 1776/2609 [1:42:17<46:41,  3.36s/it][A
Training...:  68% 1777/2609 [1:42:20<45:52,  3.31s/it][A
Training...:  68% 1778/2609 [1:42:23<44:28,  3.21s/it][A
Training...:  68% 1779/2609 [1:42:26<43:04,  3.11s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:44:17<39:15:03, 9420.24s/it]
Training...:  68% 1779/2609 [1:42:29<43:04,  3.11s/it][A
Training...:  68% 1780/2609 [1:42:29<43:29,  3.15s/it][A
Training...:  68% 1781/2609 [1:42:32<41:45,  3.03s/it][A
Training...:  68% 1782/2609 [1:42:34<39:58,  2.90s/it][A
Training...:  68% 1783/2609 [1:42:37<38:29,  2.80s/it][A
Training...:  68% 1784/2609 [1:42:39<36:56,  2.69s/it][A
Training...:  68% 1785/2609 [1:42:42<35:27,  2.58s/it][A
Training...:  68% 1786/2609 [1:42:44<34:10,  2.49s/it][A
Training...:  68% 1787/2609 [1:42:46<32:52,  2.40s/it][A
Training...:  69% 1788/2609 [1:42:48<31:39,  2.31s/it][A
Training...:  69% 1789/2609 [1:42:50<30:32,  2.23s/it][A
Training...:  69% 1790/2609 [1:42:52<29:16,  2.14s/it][A
Training...:  69% 1791/2609 [1:42:54<28:06,  2.06s/it][A
Training...:  69% 1792/2609 [1:42:56<26:49,  1.97s/it][A
Training...:  69% 1793/2609 [1:42:58<25:35,  1.88s/it][A
Training...:  69% 1794/2609 [1:42:59<24:05,  1.77s/it][A
Training...:  69% 1795/2609 [1:43:00<22:38,  1.67s/it][A
Training...:  69% 1796/2609 [1:43:02<20:59,  1.55s/it][A
Training...:  69% 1797/2609 [1:43:03<19:21,  1.43s/it][A
Training...:  69% 1798/2609 [1:43:04<17:32,  1.30s/it][A
Training...:  69% 1799/2609 [1:43:05<15:29,  1.15s/it][A
Training...:  69% 1800/2609 [1:43:05<12:53,  1.05it/s][A
Training...:  69% 1801/2609 [1:43:12<37:56,  2.82s/it][A
Training...:  69% 1802/2609 [1:43:20<55:43,  4.14s/it][A
Training...:  69% 1803/2609 [1:43:26<1:05:42,  4.89s/it][A
Training...:  69% 1804/2609 [1:43:33<1:11:38,  5.34s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:45:28<39:15:03, 9420.24s/it]
Training...:  69% 1804/2609 [1:43:40<1:11:38,  5.34s/it][A
Training...:  69% 1805/2609 [1:43:40<1:18:28,  5.86s/it][A
Training...:  69% 1806/2609 [1:43:45<1:17:47,  5.81s/it][A
Training...:  69% 1807/2609 [1:43:51<1:16:43,  5.74s/it][A
Training...:  69% 1808/2609 [1:43:56<1:14:24,  5.57s/it][A
Training...:  69% 1809/2609 [1:44:01<1:12:35,  5.44s/it][A
Training...:  69% 1810/2609 [1:44:06<1:10:20,  5.28s/it][A
Training...:  69% 1811/2609 [1:44:11<1:08:29,  5.15s/it][A
Training...:  69% 1812/2609 [1:44:16<1:06:32,  5.01s/it][A
Training...:  69% 1813/2609 [1:44:20<1:04:28,  4.86s/it][A
Training...:  70% 1814/2609 [1:44:25<1:02:27,  4.71s/it][A
Training...:  70% 1815/2609 [1:44:29<1:00:37,  4.58s/it][A
Training...:  70% 1816/2609 [1:44:33<58:53,  4.46s/it]  [A
Training...:  70% 1817/2609 [1:44:37<57:21,  4.34s/it][A
Training...:  70% 1818/2609 [1:44:41<55:39,  4.22s/it][A
Training...:  70% 1819/2609 [1:44:45<54:00,  4.10s/it][A
Training...:  70% 1820/2609 [1:44:49<52:21,  3.98s/it][A
Training...:  70% 1821/2609 [1:44:52<50:58,  3.88s/it][A
Training...:  70% 1822/2609 [1:44:56<49:16,  3.76s/it][A
Training...:  70% 1823/2609 [1:44:59<47:50,  3.65s/it][A
Training...:  70% 1824/2609 [1:45:02<46:18,  3.54s/it][A
Training...:  70% 1825/2609 [1:45:06<45:01,  3.45s/it][A
Training...:  70% 1826/2609 [1:45:09<43:46,  3.35s/it][A
Training...:  70% 1827/2609 [1:45:12<42:44,  3.28s/it][A
Training...:  70% 1828/2609 [1:45:15<41:38,  3.20s/it][A
Training...:  70% 1829/2609 [1:45:18<40:34,  3.12s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:47:09<39:15:03, 9420.24s/it]
Training...:  70% 1829/2609 [1:45:21<40:34,  3.12s/it][A
Training...:  70% 1830/2609 [1:45:21<40:50,  3.15s/it][A
Training...:  70% 1831/2609 [1:45:24<38:55,  3.00s/it][A
Training...:  70% 1832/2609 [1:45:26<37:22,  2.89s/it][A
Training...:  70% 1833/2609 [1:45:29<36:02,  2.79s/it][A
Training...:  70% 1834/2609 [1:45:31<34:47,  2.69s/it][A
Training...:  70% 1835/2609 [1:45:34<33:30,  2.60s/it][A
Training...:  70% 1836/2609 [1:45:36<32:12,  2.50s/it][A
Training...:  70% 1837/2609 [1:45:38<30:53,  2.40s/it][A
Training...:  70% 1838/2609 [1:45:40<29:41,  2.31s/it][A
Training...:  70% 1839/2609 [1:45:42<28:32,  2.22s/it][A
Training...:  71% 1840/2609 [1:45:44<27:17,  2.13s/it][A
Training...:  71% 1841/2609 [1:45:46<26:08,  2.04s/it][A
Training...:  71% 1842/2609 [1:45:48<24:56,  1.95s/it][A
Training...:  71% 1843/2609 [1:45:49<23:48,  1.87s/it][A
Training...:  71% 1844/2609 [1:45:51<22:33,  1.77s/it][A
Training...:  71% 1845/2609 [1:45:52<21:14,  1.67s/it][A
Training...:  71% 1846/2609 [1:45:54<19:46,  1.56s/it][A
Training...:  71% 1847/2609 [1:45:55<18:06,  1.43s/it][A
Training...:  71% 1848/2609 [1:45:56<16:17,  1.28s/it][A
Training...:  71% 1849/2609 [1:45:57<14:20,  1.13s/it][A
Training...:  71% 1850/2609 [1:45:57<12:06,  1.05it/s][A
Training...:  71% 1851/2609 [1:46:04<35:38,  2.82s/it][A
Training...:  71% 1852/2609 [1:46:11<51:38,  4.09s/it][A
Training...:  71% 1853/2609 [1:46:18<1:00:55,  4.84s/it][A
Training...:  71% 1854/2609 [1:46:24<1:06:00,  5.25s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:48:19<39:15:03, 9420.24s/it]
Training...:  71% 1854/2609 [1:46:31<1:06:00,  5.25s/it][A
Training...:  71% 1855/2609 [1:46:31<1:11:30,  5.69s/it][A
Training...:  71% 1856/2609 [1:46:36<1:11:27,  5.69s/it][A
Training...:  71% 1857/2609 [1:46:42<1:10:34,  5.63s/it][A
Training...:  71% 1858/2609 [1:46:47<1:09:14,  5.53s/it][A
Training...:  71% 1859/2609 [1:46:52<1:07:39,  5.41s/it][A
Training...:  71% 1860/2609 [1:46:57<1:05:32,  5.25s/it][A
Training...:  71% 1861/2609 [1:47:02<1:03:46,  5.12s/it][A
Training...:  71% 1862/2609 [1:47:07<1:01:35,  4.95s/it][A
Training...:  71% 1863/2609 [1:47:11<1:00:02,  4.83s/it][A
Training...:  71% 1864/2609 [1:47:15<57:58,  4.67s/it]  [A
Training...:  71% 1865/2609 [1:47:20<56:17,  4.54s/it][A
Training...:  72% 1866/2609 [1:47:24<54:48,  4.43s/it][A
Training...:  72% 1867/2609 [1:47:28<53:16,  4.31s/it][A
Training...:  72% 1868/2609 [1:47:32<51:39,  4.18s/it][A
Training...:  72% 1869/2609 [1:47:36<50:15,  4.08s/it][A
Training...:  72% 1870/2609 [1:47:39<49:06,  3.99s/it][A
Training...:  72% 1871/2609 [1:47:43<47:56,  3.90s/it][A
Training...:  72% 1872/2609 [1:47:47<46:23,  3.78s/it][A
Training...:  72% 1873/2609 [1:47:50<45:02,  3.67s/it][A
Training...:  72% 1874/2609 [1:47:53<43:45,  3.57s/it][A
Training...:  72% 1875/2609 [1:47:57<42:32,  3.48s/it][A
Training...:  72% 1876/2609 [1:48:00<41:15,  3.38s/it][A
Training...:  72% 1877/2609 [1:48:03<39:59,  3.28s/it][A
Training...:  72% 1878/2609 [1:48:06<38:43,  3.18s/it][A
Training...:  72% 1879/2609 [1:48:09<37:53,  3.11s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:50:00<39:15:03, 9420.24s/it]
Training...:  72% 1879/2609 [1:48:12<37:53,  3.11s/it][A
Training...:  72% 1880/2609 [1:48:12<38:42,  3.19s/it][A
Training...:  72% 1881/2609 [1:48:15<37:06,  3.06s/it][A
Training...:  72% 1882/2609 [1:48:17<35:25,  2.92s/it][A
Training...:  72% 1883/2609 [1:48:20<34:03,  2.81s/it][A
Training...:  72% 1884/2609 [1:48:22<32:39,  2.70s/it][A
Training...:  72% 1885/2609 [1:48:25<31:20,  2.60s/it][A
Training...:  72% 1886/2609 [1:48:27<30:09,  2.50s/it][A
Training...:  72% 1887/2609 [1:48:29<28:55,  2.40s/it][A
Training...:  72% 1888/2609 [1:48:31<27:40,  2.30s/it][A
Training...:  72% 1889/2609 [1:48:33<26:32,  2.21s/it][A
Training...:  72% 1890/2609 [1:48:35<25:22,  2.12s/it][A
Training...:  72% 1891/2609 [1:48:37<24:16,  2.03s/it][A
Training...:  73% 1892/2609 [1:48:39<23:12,  1.94s/it][A
Training...:  73% 1893/2609 [1:48:40<22:05,  1.85s/it][A
Training...:  73% 1894/2609 [1:48:42<20:51,  1.75s/it][A
Training...:  73% 1895/2609 [1:48:43<19:32,  1.64s/it][A
Training...:  73% 1896/2609 [1:48:45<18:22,  1.55s/it][A
Training...:  73% 1897/2609 [1:48:46<16:54,  1.42s/it][A
Training...:  73% 1898/2609 [1:48:47<15:12,  1.28s/it][A
Training...:  73% 1899/2609 [1:48:48<13:25,  1.13s/it][A
Training...:  73% 1900/2609 [1:48:48<11:17,  1.05it/s][A
Training...:  73% 1901/2609 [1:48:55<33:13,  2.82s/it][A
Training...:  73% 1902/2609 [1:49:02<48:21,  4.10s/it][A
Training...:  73% 1903/2609 [1:49:09<57:16,  4.87s/it][A
Training...:  73% 1904/2609 [1:49:15<1:02:15,  5.30s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:51:10<39:15:03, 9420.24s/it]
Training...:  73% 1904/2609 [1:49:22<1:02:15,  5.30s/it][A
Training...:  73% 1905/2609 [1:49:22<1:07:16,  5.73s/it][A
Training...:  73% 1906/2609 [1:49:28<1:06:56,  5.71s/it][A
Training...:  73% 1907/2609 [1:49:33<1:06:19,  5.67s/it][A
Training...:  73% 1908/2609 [1:49:39<1:04:52,  5.55s/it][A
Training...:  73% 1909/2609 [1:49:44<1:03:27,  5.44s/it][A
Training...:  73% 1910/2609 [1:49:49<1:01:18,  5.26s/it][A
Training...:  73% 1911/2609 [1:49:53<59:38,  5.13s/it]  [A
Training...:  73% 1912/2609 [1:49:58<57:46,  4.97s/it][A
Training...:  73% 1913/2609 [1:50:03<56:14,  4.85s/it][A
Training...:  73% 1914/2609 [1:50:07<54:22,  4.69s/it][A
Training...:  73% 1915/2609 [1:50:11<52:51,  4.57s/it][A
Training...:  73% 1916/2609 [1:50:15<51:40,  4.47s/it][A
Training...:  73% 1917/2609 [1:50:20<50:14,  4.36s/it][A
Training...:  74% 1918/2609 [1:50:23<48:38,  4.22s/it][A
Training...:  74% 1919/2609 [1:50:27<47:09,  4.10s/it][A
Training...:  74% 1920/2609 [1:50:31<45:37,  3.97s/it][A
Training...:  74% 1921/2609 [1:50:35<44:24,  3.87s/it][A
Training...:  74% 1922/2609 [1:50:38<43:06,  3.77s/it][A
Training...:  74% 1923/2609 [1:50:42<41:57,  3.67s/it][A
Training...:  74% 1924/2609 [1:50:45<40:45,  3.57s/it][A
Training...:  74% 1925/2609 [1:50:48<39:26,  3.46s/it][A
Training...:  74% 1926/2609 [1:50:51<38:11,  3.35s/it][A
Training...:  74% 1927/2609 [1:50:54<37:09,  3.27s/it][A
Training...:  74% 1928/2609 [1:50:57<35:57,  3.17s/it][A
Training...:  74% 1929/2609 [1:51:00<35:01,  3.09s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:52:52<39:15:03, 9420.24s/it]
Training...:  74% 1929/2609 [1:51:03<35:01,  3.09s/it][A
Training...:  74% 1930/2609 [1:51:03<35:31,  3.14s/it][A
Training...:  74% 1931/2609 [1:51:06<34:12,  3.03s/it][A
Training...:  74% 1932/2609 [1:51:09<32:47,  2.91s/it][A
Training...:  74% 1933/2609 [1:51:11<31:26,  2.79s/it][A
Training...:  74% 1934/2609 [1:51:14<30:18,  2.69s/it][A
Training...:  74% 1935/2609 [1:51:16<29:12,  2.60s/it][A
Training...:  74% 1936/2609 [1:51:18<28:06,  2.51s/it][A
Training...:  74% 1937/2609 [1:51:21<26:56,  2.41s/it][A
Training...:  74% 1938/2609 [1:51:23<25:48,  2.31s/it][A
Training...:  74% 1939/2609 [1:51:25<24:48,  2.22s/it][A
Training...:  74% 1940/2609 [1:51:27<23:35,  2.12s/it][A
Training...:  74% 1941/2609 [1:51:28<22:29,  2.02s/it][A
Training...:  74% 1942/2609 [1:51:30<21:22,  1.92s/it][A
Training...:  74% 1943/2609 [1:51:32<20:14,  1.82s/it][A
Training...:  75% 1944/2609 [1:51:33<19:04,  1.72s/it][A
Training...:  75% 1945/2609 [1:51:34<17:53,  1.62s/it][A
Training...:  75% 1946/2609 [1:51:36<16:40,  1.51s/it][A
Training...:  75% 1947/2609 [1:51:37<15:22,  1.39s/it][A
Training...:  75% 1948/2609 [1:51:38<13:54,  1.26s/it][A
Training...:  75% 1949/2609 [1:51:39<12:18,  1.12s/it][A
Training...:  75% 1950/2609 [1:51:39<10:23,  1.06it/s][A
Training...:  75% 1951/2609 [1:51:46<30:37,  2.79s/it][A
Training...:  75% 1952/2609 [1:51:53<44:36,  4.07s/it][A
Training...:  75% 1953/2609 [1:52:00<52:31,  4.80s/it][A
Training...:  75% 1954/2609 [1:52:06<56:45,  5.20s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:54:01<39:15:03, 9420.24s/it]
Training...:  75% 1954/2609 [1:52:13<56:45,  5.20s/it][A
Training...:  75% 1955/2609 [1:52:13<1:01:45,  5.67s/it][A
Training...:  75% 1956/2609 [1:52:19<1:02:45,  5.77s/it][A
Training...:  75% 1957/2609 [1:52:24<1:01:58,  5.70s/it][A
Training...:  75% 1958/2609 [1:52:29<1:00:18,  5.56s/it][A
Training...:  75% 1959/2609 [1:52:35<58:39,  5.41s/it]  [A
Training...:  75% 1960/2609 [1:52:39<56:49,  5.25s/it][A
Training...:  75% 1961/2609 [1:52:44<55:08,  5.11s/it][A
Training...:  75% 1962/2609 [1:52:49<53:26,  4.96s/it][A
Training...:  75% 1963/2609 [1:52:53<51:53,  4.82s/it][A
Training...:  75% 1964/2609 [1:52:58<50:08,  4.66s/it][A
Training...:  75% 1965/2609 [1:53:02<48:43,  4.54s/it][A
Training...:  75% 1966/2609 [1:53:06<47:11,  4.40s/it][A
Training...:  75% 1967/2609 [1:53:10<45:52,  4.29s/it][A
Training...:  75% 1968/2609 [1:53:14<44:29,  4.16s/it][A
Training...:  75% 1969/2609 [1:53:18<43:36,  4.09s/it][A
Training...:  76% 1970/2609 [1:53:21<42:21,  3.98s/it][A
Training...:  76% 1971/2609 [1:53:25<41:15,  3.88s/it][A
Training...:  76% 1972/2609 [1:53:29<39:53,  3.76s/it][A
Training...:  76% 1973/2609 [1:53:32<38:52,  3.67s/it][A
Training...:  76% 1974/2609 [1:53:35<37:49,  3.57s/it][A
Training...:  76% 1975/2609 [1:53:39<36:53,  3.49s/it][A
Training...:  76% 1976/2609 [1:53:42<36:00,  3.41s/it][A
Training...:  76% 1977/2609 [1:53:45<35:05,  3.33s/it][A
Training...:  76% 1978/2609 [1:53:48<34:02,  3.24s/it][A
Training...:  76% 1979/2609 [1:53:51<33:00,  3.14s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:55:43<39:15:03, 9420.24s/it]
Training...:  76% 1979/2609 [1:53:54<33:00,  3.14s/it][A
Training...:  76% 1980/2609 [1:53:54<33:32,  3.20s/it][A
Training...:  76% 1981/2609 [1:53:57<32:07,  3.07s/it][A
Training...:  76% 1982/2609 [1:54:00<30:43,  2.94s/it][A
Training...:  76% 1983/2609 [1:54:02<29:30,  2.83s/it][A
Training...:  76% 1984/2609 [1:54:05<28:28,  2.73s/it][A
Training...:  76% 1985/2609 [1:54:07<27:32,  2.65s/it][A
Training...:  76% 1986/2609 [1:54:10<26:31,  2.55s/it][A
Training...:  76% 1987/2609 [1:54:12<25:23,  2.45s/it][A
Training...:  76% 1988/2609 [1:54:14<24:20,  2.35s/it][A
Training...:  76% 1989/2609 [1:54:16<23:20,  2.26s/it][A
Training...:  76% 1990/2609 [1:54:18<22:20,  2.17s/it][A
Training...:  76% 1991/2609 [1:54:20<21:23,  2.08s/it][A
Training...:  76% 1992/2609 [1:54:22<20:30,  1.99s/it][A
Training...:  76% 1993/2609 [1:54:23<19:30,  1.90s/it][A
Training...:  76% 1994/2609 [1:54:25<18:25,  1.80s/it][A
Training...:  76% 1995/2609 [1:54:26<17:15,  1.69s/it][A
Training...:  77% 1996/2609 [1:54:28<16:04,  1.57s/it][A
Training...:  77% 1997/2609 [1:54:29<14:42,  1.44s/it][A
Training...:  77% 1998/2609 [1:54:30<13:11,  1.30s/it][A
Training...:  77% 1999/2609 [1:54:30<11:39,  1.15s/it][A
Training...:  77% 2000/2609 [1:54:31<09:50,  1.03it/s][A
Training...:  77% 2001/2609 [1:54:38<28:47,  2.84s/it][A
Training...:  77% 2002/2609 [1:54:45<41:21,  4.09s/it][A
Training...:  77% 2003/2609 [1:54:52<48:31,  4.80s/it][A
Training...:  77% 2004/2609 [1:54:58<52:22,  5.19s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:56:53<39:15:03, 9420.24s/it]
Training...:  77% 2004/2609 [1:55:04<52:22,  5.19s/it][A
Training...:  77% 2005/2609 [1:55:04<56:57,  5.66s/it][A
Training...:  77% 2006/2609 [1:55:10<56:33,  5.63s/it][A
Training...:  77% 2007/2609 [1:55:15<55:43,  5.55s/it][A
Training...:  77% 2008/2609 [1:55:21<54:25,  5.43s/it][A
Training...:  77% 2009/2609 [1:55:26<53:14,  5.32s/it][A
Training...:  77% 2010/2609 [1:55:31<51:46,  5.19s/it][A
Training...:  77% 2011/2609 [1:55:35<50:23,  5.06s/it][A
Training...:  77% 2012/2609 [1:55:40<48:51,  4.91s/it][A
Training...:  77% 2013/2609 [1:55:44<47:33,  4.79s/it][A
Training...:  77% 2014/2609 [1:55:49<46:17,  4.67s/it][A
Training...:  77% 2015/2609 [1:55:53<45:26,  4.59s/it][A
Training...:  77% 2016/2609 [1:55:57<44:12,  4.47s/it][A
Training...:  77% 2017/2609 [1:56:01<42:47,  4.34s/it][A
Training...:  77% 2018/2609 [1:56:05<41:10,  4.18s/it][A
Training...:  77% 2019/2609 [1:56:09<40:05,  4.08s/it][A
Training...:  77% 2020/2609 [1:56:13<38:44,  3.95s/it][A
Training...:  77% 2021/2609 [1:56:16<37:38,  3.84s/it][A
Training...:  78% 2022/2609 [1:56:20<36:23,  3.72s/it][A
Training...:  78% 2023/2609 [1:56:23<35:12,  3.61s/it][A
Training...:  78% 2024/2609 [1:56:26<34:07,  3.50s/it][A
Training...:  78% 2025/2609 [1:56:29<32:58,  3.39s/it][A
Training...:  78% 2026/2609 [1:56:32<31:53,  3.28s/it][A
Training...:  78% 2027/2609 [1:56:35<30:55,  3.19s/it][A
Training...:  78% 2028/2609 [1:56:38<30:03,  3.10s/it][A
Training...:  78% 2029/2609 [1:56:41<29:16,  3.03s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:58:33<39:15:03, 9420.24s/it]
Training...:  78% 2029/2609 [1:56:44<29:16,  3.03s/it][A
Training...:  78% 2030/2609 [1:56:44<29:43,  3.08s/it][A
Training...:  78% 2031/2609 [1:56:47<28:26,  2.95s/it][A
Training...:  78% 2032/2609 [1:56:50<27:17,  2.84s/it][A
Training...:  78% 2033/2609 [1:56:52<26:06,  2.72s/it][A
Training...:  78% 2034/2609 [1:56:54<25:05,  2.62s/it][A
Training...:  78% 2035/2609 [1:56:57<24:07,  2.52s/it][A
Training...:  78% 2036/2609 [1:56:59<23:14,  2.43s/it][A
Training...:  78% 2037/2609 [1:57:01<22:20,  2.34s/it][A
Training...:  78% 2038/2609 [1:57:03<21:22,  2.25s/it][A
Training...:  78% 2039/2609 [1:57:05<20:29,  2.16s/it][A
Training...:  78% 2040/2609 [1:57:07<19:34,  2.06s/it][A
Training...:  78% 2041/2609 [1:57:09<18:40,  1.97s/it][A
Training...:  78% 2042/2609 [1:57:10<17:48,  1.88s/it][A
Training...:  78% 2043/2609 [1:57:12<16:47,  1.78s/it][A
Training...:  78% 2044/2609 [1:57:13<15:49,  1.68s/it][A
Training...:  78% 2045/2609 [1:57:15<14:45,  1.57s/it][A
Training...:  78% 2046/2609 [1:57:16<13:41,  1.46s/it][A
Training...:  78% 2047/2609 [1:57:17<12:34,  1.34s/it][A
Training...:  78% 2048/2609 [1:57:18<11:20,  1.21s/it][A
Training...:  79% 2049/2609 [1:57:19<10:04,  1.08s/it][A
Training...:  79% 2050/2609 [1:57:19<08:32,  1.09it/s][A
Training...:  79% 2051/2609 [1:57:26<26:02,  2.80s/it][A
Training...:  79% 2052/2609 [1:57:33<38:04,  4.10s/it][A
Training...:  79% 2053/2609 [1:57:40<44:56,  4.85s/it][A
Training...:  79% 2054/2609 [1:57:46<48:43,  5.27s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [14:59:42<39:15:03, 9420.24s/it]
Training...:  79% 2054/2609 [1:57:53<48:43,  5.27s/it][A
Training...:  79% 2055/2609 [1:57:53<53:20,  5.78s/it][A
Training...:  79% 2056/2609 [1:57:59<53:17,  5.78s/it][A
Training...:  79% 2057/2609 [1:58:05<52:22,  5.69s/it][A
Training...:  79% 2058/2609 [1:58:10<50:58,  5.55s/it][A
Training...:  79% 2059/2609 [1:58:15<49:38,  5.42s/it][A
Training...:  79% 2060/2609 [1:58:20<47:53,  5.23s/it][A
Training...:  79% 2061/2609 [1:58:24<46:25,  5.08s/it][A
Training...:  79% 2062/2609 [1:58:29<44:52,  4.92s/it][A
Training...:  79% 2063/2609 [1:58:33<43:32,  4.78s/it][A
Training...:  79% 2064/2609 [1:58:38<42:04,  4.63s/it][A
Training...:  79% 2065/2609 [1:58:42<40:51,  4.51s/it][A
Training...:  79% 2066/2609 [1:58:46<39:44,  4.39s/it][A
Training...:  79% 2067/2609 [1:58:50<38:43,  4.29s/it][A
Training...:  79% 2068/2609 [1:58:54<37:24,  4.15s/it][A
Training...:  79% 2069/2609 [1:58:58<36:10,  4.02s/it][A
Training...:  79% 2070/2609 [1:59:01<35:03,  3.90s/it][A
Training...:  79% 2071/2609 [1:59:05<34:05,  3.80s/it][A
Training...:  79% 2072/2609 [1:59:08<33:07,  3.70s/it][A
Training...:  79% 2073/2609 [1:59:12<32:16,  3.61s/it][A
Training...:  79% 2074/2609 [1:59:15<31:21,  3.52s/it][A
Training...:  80% 2075/2609 [1:59:18<30:36,  3.44s/it][A
Training...:  80% 2076/2609 [1:59:21<29:51,  3.36s/it][A
Training...:  80% 2077/2609 [1:59:25<29:08,  3.29s/it][A
Training...:  80% 2078/2609 [1:59:28<28:19,  3.20s/it][A
Training...:  80% 2079/2609 [1:59:30<27:30,  3.11s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [15:01:22<39:15:03, 9420.24s/it]
Training...:  80% 2079/2609 [1:59:34<27:30,  3.11s/it][A
Training...:  80% 2080/2609 [1:59:34<27:50,  3.16s/it][A
Training...:  80% 2081/2609 [1:59:36<26:38,  3.03s/it][A
Training...:  80% 2082/2609 [1:59:39<25:31,  2.91s/it][A
Training...:  80% 2083/2609 [1:59:42<24:26,  2.79s/it][A
Training...:  80% 2084/2609 [1:59:44<23:29,  2.69s/it][A
Training...:  80% 2085/2609 [1:59:46<22:35,  2.59s/it][A
Training...:  80% 2086/2609 [1:59:49<21:41,  2.49s/it][A
Training...:  80% 2087/2609 [1:59:51<20:51,  2.40s/it][A
Training...:  80% 2088/2609 [1:59:53<20:00,  2.30s/it][A
Training...:  80% 2089/2609 [1:59:55<19:15,  2.22s/it][A
Training...:  80% 2090/2609 [1:59:57<18:26,  2.13s/it][A
Training...:  80% 2091/2609 [1:59:59<17:37,  2.04s/it][A
Training...:  80% 2092/2609 [2:00:00<16:45,  1.94s/it][A
Training...:  80% 2093/2609 [2:00:02<15:55,  1.85s/it][A
Training...:  80% 2094/2609 [2:00:04<15:03,  1.75s/it][A
Training...:  80% 2095/2609 [2:00:05<14:14,  1.66s/it][A
Training...:  80% 2096/2609 [2:00:06<13:16,  1.55s/it][A
Training...:  80% 2097/2609 [2:00:07<12:12,  1.43s/it][A
Training...:  80% 2098/2609 [2:00:08<11:04,  1.30s/it][A
Training...:  80% 2099/2609 [2:00:09<09:49,  1.16s/it][A
Training...:  80% 2100/2609 [2:00:10<08:17,  1.02it/s][A
Training...:  81% 2101/2609 [2:00:17<23:55,  2.82s/it][A
Training...:  81% 2102/2609 [2:00:24<35:15,  4.17s/it][A
Training...:  81% 2103/2609 [2:00:31<41:17,  4.90s/it][A
Training...:  81% 2104/2609 [2:00:37<44:42,  5.31s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [15:02:32<39:15:03, 9420.24s/it]
Training...:  81% 2104/2609 [2:00:44<44:42,  5.31s/it][A
Training...:  81% 2105/2609 [2:00:44<48:26,  5.77s/it][A
Training...:  81% 2106/2609 [2:00:50<48:23,  5.77s/it][A
Training...:  81% 2107/2609 [2:00:55<47:48,  5.71s/it][A
Training...:  81% 2108/2609 [2:01:01<46:43,  5.60s/it][A
Training...:  81% 2109/2609 [2:01:06<45:34,  5.47s/it][A
Training...:  81% 2110/2609 [2:01:11<44:08,  5.31s/it][A
Training...:  81% 2111/2609 [2:01:16<42:53,  5.17s/it][A
Training...:  81% 2112/2609 [2:01:20<41:29,  5.01s/it][A
Training...:  81% 2113/2609 [2:01:25<40:26,  4.89s/it][A
Training...:  81% 2114/2609 [2:01:29<39:13,  4.75s/it][A
Training...:  81% 2115/2609 [2:01:34<38:04,  4.62s/it][A
Training...:  81% 2116/2609 [2:01:38<36:56,  4.50s/it][A
Training...:  81% 2117/2609 [2:01:42<35:55,  4.38s/it][A
Training...:  81% 2118/2609 [2:01:46<34:50,  4.26s/it][A
Training...:  81% 2119/2609 [2:01:50<33:57,  4.16s/it][A
Training...:  81% 2120/2609 [2:01:54<32:55,  4.04s/it][A
Training...:  81% 2121/2609 [2:01:57<32:08,  3.95s/it][A
Training...:  81% 2122/2609 [2:02:01<31:16,  3.85s/it][A
Training...:  81% 2123/2609 [2:02:05<30:34,  3.78s/it][A
Training...:  81% 2124/2609 [2:02:08<29:43,  3.68s/it][A
Training...:  81% 2125/2609 [2:02:11<28:55,  3.59s/it][A
Training...:  81% 2126/2609 [2:02:15<28:03,  3.49s/it][A
Training...:  82% 2127/2609 [2:02:18<27:20,  3.40s/it][A
Training...:  82% 2128/2609 [2:02:21<26:29,  3.31s/it][A
Training...:  82% 2129/2609 [2:02:24<25:44,  3.22s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [15:04:16<39:15:03, 9420.24s/it]
Training...:  82% 2129/2609 [2:02:27<25:44,  3.22s/it][A
Training...:  82% 2130/2609 [2:02:27<26:15,  3.29s/it][A
Training...:  82% 2131/2609 [2:02:30<25:12,  3.16s/it][A
Training...:  82% 2132/2609 [2:02:33<24:19,  3.06s/it][A
Training...:  82% 2133/2609 [2:02:36<23:24,  2.95s/it][A
Training...:  82% 2134/2609 [2:02:38<22:34,  2.85s/it][A
Training...:  82% 2135/2609 [2:02:41<21:43,  2.75s/it][A
Training...:  82% 2136/2609 [2:02:43<20:53,  2.65s/it][A
Training...:  82% 2137/2609 [2:02:46<19:59,  2.54s/it][A
Training...:  82% 2138/2609 [2:02:48<19:15,  2.45s/it][A
Training...:  82% 2139/2609 [2:02:50<18:24,  2.35s/it][A
Training...:  82% 2140/2609 [2:02:52<17:29,  2.24s/it][A
Training...:  82% 2141/2609 [2:02:54<16:40,  2.14s/it][A
Training...:  82% 2142/2609 [2:02:56<15:45,  2.03s/it][A
Training...:  82% 2143/2609 [2:02:57<14:53,  1.92s/it][A
Training...:  82% 2144/2609 [2:02:59<14:03,  1.81s/it][A
Training...:  82% 2145/2609 [2:03:00<13:04,  1.69s/it][A
Training...:  82% 2146/2609 [2:03:02<12:06,  1.57s/it][A
Training...:  82% 2147/2609 [2:03:03<11:07,  1.45s/it][A
Training...:  82% 2148/2609 [2:03:04<10:02,  1.31s/it][A
Training...:  82% 2149/2609 [2:03:04<08:54,  1.16s/it][A
Training...:  82% 2150/2609 [2:03:05<07:34,  1.01it/s][A
Training...:  82% 2151/2609 [2:03:12<21:57,  2.88s/it][A
Training...:  82% 2152/2609 [2:03:20<31:51,  4.18s/it][A
Training...:  83% 2153/2609 [2:03:26<37:21,  4.92s/it][A
Training...:  83% 2154/2609 [2:03:32<40:23,  5.33s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [15:05:28<39:15:03, 9420.24s/it]
Training...:  83% 2154/2609 [2:03:39<40:23,  5.33s/it][A
Training...:  83% 2155/2609 [2:03:39<43:33,  5.76s/it][A
Training...:  83% 2156/2609 [2:03:45<43:25,  5.75s/it][A
Training...:  83% 2157/2609 [2:03:51<42:50,  5.69s/it][A
Training...:  83% 2158/2609 [2:03:56<41:50,  5.57s/it][A
Training...:  83% 2159/2609 [2:04:01<41:03,  5.48s/it][A
Training...:  83% 2160/2609 [2:04:06<39:50,  5.32s/it][A
Training...:  83% 2161/2609 [2:04:11<38:53,  5.21s/it][A
Training...:  83% 2162/2609 [2:04:16<37:39,  5.05s/it][A
Training...:  83% 2163/2609 [2:04:20<36:40,  4.93s/it][A
Training...:  83% 2164/2609 [2:04:25<35:19,  4.76s/it][A
Training...:  83% 2165/2609 [2:04:29<34:12,  4.62s/it][A
Training...:  83% 2166/2609 [2:04:33<33:11,  4.50s/it][A
Training...:  83% 2167/2609 [2:04:37<32:13,  4.37s/it][A
Training...:  83% 2168/2609 [2:04:41<31:09,  4.24s/it][A
Training...:  83% 2169/2609 [2:04:45<30:14,  4.12s/it][A
Training...:  83% 2170/2609 [2:04:49<29:23,  4.02s/it][A
Training...:  83% 2171/2609 [2:04:53<28:44,  3.94s/it][A
Training...:  83% 2172/2609 [2:04:56<27:54,  3.83s/it][A
Training...:  83% 2173/2609 [2:05:00<27:10,  3.74s/it][A
Training...:  83% 2174/2609 [2:05:03<26:17,  3.63s/it][A
Training...:  83% 2175/2609 [2:05:06<25:37,  3.54s/it][A
Training...:  83% 2176/2609 [2:05:10<24:52,  3.45s/it][A
Training...:  83% 2177/2609 [2:05:13<24:04,  3.34s/it][A
Training...:  83% 2178/2609 [2:05:16<23:15,  3.24s/it][A
Training...:  84% 2179/2609 [2:05:19<22:38,  3.16s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [15:07:10<39:15:03, 9420.24s/it]
Training...:  84% 2179/2609 [2:05:22<22:38,  3.16s/it][A
Training...:  84% 2180/2609 [2:05:22<23:17,  3.26s/it][A
Training...:  84% 2181/2609 [2:05:25<22:28,  3.15s/it][A
Training...:  84% 2182/2609 [2:05:28<21:30,  3.02s/it][A
Training...:  84% 2183/2609 [2:05:30<20:37,  2.90s/it][A
Training...:  84% 2184/2609 [2:05:33<19:46,  2.79s/it][A
Training...:  84% 2185/2609 [2:05:35<18:57,  2.68s/it][A
Training...:  84% 2186/2609 [2:05:38<18:10,  2.58s/it][A
Training...:  84% 2187/2609 [2:05:40<17:27,  2.48s/it][A
Training...:  84% 2188/2609 [2:05:42<16:44,  2.39s/it][A
Training...:  84% 2189/2609 [2:05:44<16:03,  2.29s/it][A
Training...:  84% 2190/2609 [2:05:46<15:21,  2.20s/it][A
Training...:  84% 2191/2609 [2:05:48<14:42,  2.11s/it][A
Training...:  84% 2192/2609 [2:05:50<14:02,  2.02s/it][A
Training...:  84% 2193/2609 [2:05:52<13:19,  1.92s/it][A
Training...:  84% 2194/2609 [2:05:53<12:32,  1.81s/it][A
Training...:  84% 2195/2609 [2:05:55<11:43,  1.70s/it][A
Training...:  84% 2196/2609 [2:05:56<10:53,  1.58s/it][A
Training...:  84% 2197/2609 [2:05:57<10:03,  1.47s/it][A
Training...:  84% 2198/2609 [2:05:58<09:07,  1.33s/it][A
Training...:  84% 2199/2609 [2:05:59<08:06,  1.19s/it][A
Training...:  84% 2200/2609 [2:06:00<06:53,  1.01s/it][A
Training...:  84% 2201/2609 [2:06:07<19:43,  2.90s/it][A
Training...:  84% 2202/2609 [2:06:14<28:23,  4.19s/it][A
Training...:  84% 2203/2609 [2:06:21<33:11,  4.91s/it][A
Training...:  84% 2204/2609 [2:06:27<35:58,  5.33s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [15:08:22<39:15:03, 9420.24s/it]
Training...:  84% 2204/2609 [2:06:34<35:58,  5.33s/it][A
Training...:  85% 2205/2609 [2:06:34<38:46,  5.76s/it][A
Training...:  85% 2206/2609 [2:06:39<38:39,  5.76s/it][A
Training...:  85% 2207/2609 [2:06:45<38:08,  5.69s/it][A
Training...:  85% 2208/2609 [2:06:50<37:17,  5.58s/it][A
Training...:  85% 2209/2609 [2:06:56<36:25,  5.46s/it][A
Training...:  85% 2210/2609 [2:07:00<35:12,  5.30s/it][A
Training...:  85% 2211/2609 [2:07:05<34:16,  5.17s/it][A
Training...:  85% 2212/2609 [2:07:10<33:14,  5.02s/it][A
Training...:  85% 2213/2609 [2:07:15<32:12,  4.88s/it][A
Training...:  85% 2214/2609 [2:07:19<30:59,  4.71s/it][A
Training...:  85% 2215/2609 [2:07:23<30:10,  4.59s/it][A
Training...:  85% 2216/2609 [2:07:27<29:15,  4.47s/it][A
Training...:  85% 2217/2609 [2:07:32<28:36,  4.38s/it][A
Training...:  85% 2218/2609 [2:07:35<27:42,  4.25s/it][A
Training...:  85% 2219/2609 [2:07:39<26:57,  4.15s/it][A
Training...:  85% 2220/2609 [2:07:43<26:05,  4.03s/it][A
Training...:  85% 2221/2609 [2:07:47<25:20,  3.92s/it][A
Training...:  85% 2222/2609 [2:07:50<24:28,  3.79s/it][A
Training...:  85% 2223/2609 [2:07:54<23:46,  3.70s/it][A
Training...:  85% 2224/2609 [2:07:57<22:56,  3.57s/it][A
Training...:  85% 2225/2609 [2:08:00<22:15,  3.48s/it][A
Training...:  85% 2226/2609 [2:08:03<21:32,  3.37s/it][A
Training...:  85% 2227/2609 [2:08:07<20:56,  3.29s/it][A
Training...:  85% 2228/2609 [2:08:10<20:24,  3.21s/it][A
Training...:  85% 2229/2609 [2:08:13<19:57,  3.15s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [15:10:04<39:15:03, 9420.24s/it]
Training...:  85% 2229/2609 [2:08:16<19:57,  3.15s/it][A
Training...:  85% 2230/2609 [2:08:16<20:15,  3.21s/it][A
Training...:  86% 2231/2609 [2:08:19<19:18,  3.06s/it][A
Training...:  86% 2232/2609 [2:08:21<18:25,  2.93s/it][A
Training...:  86% 2233/2609 [2:08:24<17:39,  2.82s/it][A
Training...:  86% 2234/2609 [2:08:26<16:55,  2.71s/it][A
Training...:  86% 2235/2609 [2:08:29<16:13,  2.60s/it][A
Training...:  86% 2236/2609 [2:08:31<15:35,  2.51s/it][A
Training...:  86% 2237/2609 [2:08:33<14:58,  2.42s/it][A
Training...:  86% 2238/2609 [2:08:35<14:22,  2.32s/it][A
Training...:  86% 2239/2609 [2:08:37<13:46,  2.23s/it][A
Training...:  86% 2240/2609 [2:08:39<13:04,  2.13s/it][A
Training...:  86% 2241/2609 [2:08:41<12:29,  2.04s/it][A
Training...:  86% 2242/2609 [2:08:43<11:54,  1.95s/it][A
Training...:  86% 2243/2609 [2:08:44<11:17,  1.85s/it][A
Training...:  86% 2244/2609 [2:08:46<10:38,  1.75s/it][A
Training...:  86% 2245/2609 [2:08:47<10:00,  1.65s/it][A
Training...:  86% 2246/2609 [2:08:49<09:20,  1.54s/it][A
Training...:  86% 2247/2609 [2:08:50<08:40,  1.44s/it][A
Training...:  86% 2248/2609 [2:08:51<07:57,  1.32s/it][A
Training...:  86% 2249/2609 [2:08:52<07:03,  1.18s/it][A
Training...:  86% 2250/2609 [2:08:52<05:57,  1.01it/s][A
Training...:  86% 2251/2609 [2:08:59<17:07,  2.87s/it][A
Training...:  86% 2252/2609 [2:09:06<24:30,  4.12s/it][A
Training...:  86% 2253/2609 [2:09:13<28:46,  4.85s/it][A
Training...:  86% 2254/2609 [2:09:19<31:07,  5.26s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [15:11:14<39:15:03, 9420.24s/it]
Training...:  86% 2254/2609 [2:09:26<31:07,  5.26s/it][A
Training...:  86% 2255/2609 [2:09:26<33:37,  5.70s/it][A
Training...:  86% 2256/2609 [2:09:32<33:34,  5.71s/it][A
Training...:  87% 2257/2609 [2:09:37<33:20,  5.68s/it][A
Training...:  87% 2258/2609 [2:09:43<32:38,  5.58s/it][A
Training...:  87% 2259/2609 [2:09:48<31:49,  5.46s/it][A
Training...:  87% 2260/2609 [2:09:53<30:52,  5.31s/it][A
Training...:  87% 2261/2609 [2:09:58<30:00,  5.17s/it][A
Training...:  87% 2262/2609 [2:10:02<29:05,  5.03s/it][A
Training...:  87% 2263/2609 [2:10:07<28:15,  4.90s/it][A
Training...:  87% 2264/2609 [2:10:11<27:20,  4.75s/it][A
Training...:  87% 2265/2609 [2:10:16<26:56,  4.70s/it][A
Training...:  87% 2266/2609 [2:10:20<26:04,  4.56s/it][A
Training...:  87% 2267/2609 [2:10:24<25:11,  4.42s/it][A
Training...:  87% 2268/2609 [2:10:28<24:16,  4.27s/it][A
Training...:  87% 2269/2609 [2:10:32<23:29,  4.15s/it][A
Training...:  87% 2270/2609 [2:10:36<22:40,  4.01s/it][A
Training...:  87% 2271/2609 [2:10:39<21:59,  3.91s/it][A
Training...:  87% 2272/2609 [2:10:43<21:17,  3.79s/it][A
Training...:  87% 2273/2609 [2:10:46<20:43,  3.70s/it][A
Training...:  87% 2274/2609 [2:10:50<20:05,  3.60s/it][A
Training...:  87% 2275/2609 [2:10:53<19:32,  3.51s/it][A
Training...:  87% 2276/2609 [2:10:56<18:56,  3.41s/it][A
Training...:  87% 2277/2609 [2:10:59<18:25,  3.33s/it][A
Training...:  87% 2278/2609 [2:11:02<17:48,  3.23s/it][A
Training...:  87% 2279/2609 [2:11:05<17:18,  3.15s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [15:12:57<39:15:03, 9420.24s/it]
Training...:  87% 2279/2609 [2:11:09<17:18,  3.15s/it][A
Training...:  87% 2280/2609 [2:11:09<17:33,  3.20s/it][A
Training...:  87% 2281/2609 [2:11:11<16:45,  3.07s/it][A
Training...:  87% 2282/2609 [2:11:14<15:58,  2.93s/it][A
Training...:  88% 2283/2609 [2:11:17<15:19,  2.82s/it][A
Training...:  88% 2284/2609 [2:11:19<14:44,  2.72s/it][A
Training...:  88% 2285/2609 [2:11:22<14:13,  2.63s/it][A
Training...:  88% 2286/2609 [2:11:24<13:38,  2.54s/it][A
Training...:  88% 2287/2609 [2:11:26<13:11,  2.46s/it][A
Training...:  88% 2288/2609 [2:11:28<12:38,  2.36s/it][A
Training...:  88% 2289/2609 [2:11:30<12:08,  2.28s/it][A
Training...:  88% 2290/2609 [2:11:32<11:38,  2.19s/it][A
Training...:  88% 2291/2609 [2:11:34<11:08,  2.10s/it][A
Training...:  88% 2292/2609 [2:11:36<10:36,  2.01s/it][A
Training...:  88% 2293/2609 [2:11:38<10:04,  1.91s/it][A
Training...:  88% 2294/2609 [2:11:39<09:27,  1.80s/it][A
Training...:  88% 2295/2609 [2:11:41<08:49,  1.69s/it][A
Training...:  88% 2296/2609 [2:11:42<08:11,  1.57s/it][A
Training...:  88% 2297/2609 [2:11:43<07:32,  1.45s/it][A
Training...:  88% 2298/2609 [2:11:44<06:50,  1.32s/it][A
Training...:  88% 2299/2609 [2:11:45<06:00,  1.16s/it][A
Training...:  88% 2300/2609 [2:11:45<05:02,  1.02it/s][A
Training...:  88% 2301/2609 [2:11:53<14:25,  2.81s/it][A
Training...:  88% 2302/2609 [2:12:00<20:55,  4.09s/it][A
Training...:  88% 2303/2609 [2:12:06<24:40,  4.84s/it][A
Training...:  88% 2304/2609 [2:12:13<26:51,  5.28s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [15:14:08<39:15:03, 9420.24s/it]
Training...:  88% 2304/2609 [2:12:19<26:51,  5.28s/it][A
Training...:  88% 2305/2609 [2:12:19<29:07,  5.75s/it][A
Training...:  88% 2306/2609 [2:12:25<29:00,  5.74s/it][A
Training...:  88% 2307/2609 [2:12:31<28:33,  5.67s/it][A
Training...:  88% 2308/2609 [2:12:36<27:52,  5.56s/it][A
Training...:  89% 2309/2609 [2:12:41<27:06,  5.42s/it][A
Training...:  89% 2310/2609 [2:12:46<26:12,  5.26s/it][A
Training...:  89% 2311/2609 [2:12:51<25:29,  5.13s/it][A
Training...:  89% 2312/2609 [2:12:55<24:44,  5.00s/it][A
Training...:  89% 2313/2609 [2:13:00<24:16,  4.92s/it][A
Training...:  89% 2314/2609 [2:13:05<23:39,  4.81s/it][A
Training...:  89% 2315/2609 [2:13:09<22:54,  4.67s/it][A
Training...:  89% 2316/2609 [2:13:13<22:04,  4.52s/it][A
Training...:  89% 2317/2609 [2:13:17<21:22,  4.39s/it][A
Training...:  89% 2318/2609 [2:13:21<20:37,  4.25s/it][A
Training...:  89% 2319/2609 [2:13:25<19:59,  4.14s/it][A
Training...:  89% 2320/2609 [2:13:29<19:19,  4.01s/it][A
Training...:  89% 2321/2609 [2:13:32<18:44,  3.91s/it][A
Training...:  89% 2322/2609 [2:13:36<18:07,  3.79s/it][A
Training...:  89% 2323/2609 [2:13:39<17:35,  3.69s/it][A
Training...:  89% 2324/2609 [2:13:43<17:02,  3.59s/it][A
Training...:  89% 2325/2609 [2:13:46<16:29,  3.48s/it][A
Training...:  89% 2326/2609 [2:13:49<15:58,  3.39s/it][A
Training...:  89% 2327/2609 [2:13:52<15:31,  3.30s/it][A
Training...:  89% 2328/2609 [2:13:55<14:58,  3.20s/it][A
Training...:  89% 2329/2609 [2:13:58<14:32,  3.11s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [15:15:50<39:15:03, 9420.24s/it]
Training...:  89% 2329/2609 [2:14:02<14:32,  3.11s/it][A
Training...:  89% 2330/2609 [2:14:02<14:50,  3.19s/it][A
Training...:  89% 2331/2609 [2:14:04<14:09,  3.06s/it][A
Training...:  89% 2332/2609 [2:14:07<13:34,  2.94s/it][A
Training...:  89% 2333/2609 [2:14:10<13:00,  2.83s/it][A
Training...:  89% 2334/2609 [2:14:12<12:29,  2.72s/it][A
Training...:  89% 2335/2609 [2:14:14<12:01,  2.63s/it][A
Training...:  90% 2336/2609 [2:14:17<11:30,  2.53s/it][A
Training...:  90% 2337/2609 [2:14:19<11:00,  2.43s/it][A
Training...:  90% 2338/2609 [2:14:21<10:29,  2.32s/it][A
Training...:  90% 2339/2609 [2:14:23<10:02,  2.23s/it][A
Training...:  90% 2340/2609 [2:14:25<09:34,  2.14s/it][A
Training...:  90% 2341/2609 [2:14:27<09:06,  2.04s/it][A
Training...:  90% 2342/2609 [2:14:28<08:37,  1.94s/it][A
Training...:  90% 2343/2609 [2:14:30<08:10,  1.84s/it][A
Training...:  90% 2344/2609 [2:14:32<07:41,  1.74s/it][A
Training...:  90% 2345/2609 [2:14:33<07:13,  1.64s/it][A
Training...:  90% 2346/2609 [2:14:34<06:44,  1.54s/it][A
Training...:  90% 2347/2609 [2:14:35<06:13,  1.42s/it][A
Training...:  90% 2348/2609 [2:14:36<05:38,  1.30s/it][A
Training...:  90% 2349/2609 [2:14:37<04:58,  1.15s/it][A
Training...:  90% 2350/2609 [2:14:38<04:12,  1.03it/s][A
Training...:  90% 2351/2609 [2:14:45<11:52,  2.76s/it][A
Training...:  90% 2352/2609 [2:14:52<17:07,  4.00s/it][A
Training...:  90% 2353/2609 [2:14:58<20:19,  4.76s/it][A
Training...:  90% 2354/2609 [2:15:04<22:00,  5.18s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [15:16:59<39:15:03, 9420.24s/it]
Training...:  90% 2354/2609 [2:15:11<22:00,  5.18s/it][A
Training...:  90% 2355/2609 [2:15:11<23:48,  5.63s/it][A
Training...:  90% 2356/2609 [2:15:17<23:42,  5.62s/it][A
Training...:  90% 2357/2609 [2:15:22<23:15,  5.54s/it][A
Training...:  90% 2358/2609 [2:15:27<22:39,  5.42s/it][A
Training...:  90% 2359/2609 [2:15:32<22:09,  5.32s/it][A
Training...:  90% 2360/2609 [2:15:37<21:33,  5.20s/it][A
Training...:  90% 2361/2609 [2:15:42<21:03,  5.10s/it][A
Training...:  91% 2362/2609 [2:15:47<20:22,  4.95s/it][A
Training...:  91% 2363/2609 [2:15:51<19:43,  4.81s/it][A
Training...:  91% 2364/2609 [2:15:55<19:04,  4.67s/it][A
Training...:  91% 2365/2609 [2:16:00<18:31,  4.56s/it][A
Training...:  91% 2366/2609 [2:16:04<17:57,  4.43s/it][A
Training...:  91% 2367/2609 [2:16:08<17:24,  4.31s/it][A
Training...:  91% 2368/2609 [2:16:12<16:52,  4.20s/it][A
Training...:  91% 2369/2609 [2:16:16<16:28,  4.12s/it][A
Training...:  91% 2370/2609 [2:16:19<15:54,  3.99s/it][A
Training...:  91% 2371/2609 [2:16:23<15:33,  3.92s/it][A
Training...:  91% 2372/2609 [2:16:27<15:06,  3.82s/it][A
Training...:  91% 2373/2609 [2:16:30<14:41,  3.74s/it][A
Training...:  91% 2374/2609 [2:16:34<14:12,  3.63s/it][A
Training...:  91% 2375/2609 [2:16:37<13:42,  3.51s/it][A
Training...:  91% 2376/2609 [2:16:40<13:11,  3.40s/it][A
Training...:  91% 2377/2609 [2:16:43<12:45,  3.30s/it][A
Training...:  91% 2378/2609 [2:16:46<12:18,  3.20s/it][A
Training...:  91% 2379/2609 [2:16:49<11:54,  3.11s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [15:18:40<39:15:03, 9420.24s/it]
Training...:  91% 2379/2609 [2:16:52<11:54,  3.11s/it][A
Training...:  91% 2380/2609 [2:16:52<12:00,  3.15s/it][A
Training...:  91% 2381/2609 [2:16:55<11:28,  3.02s/it][A
Training...:  91% 2382/2609 [2:16:57<10:56,  2.89s/it][A
Training...:  91% 2383/2609 [2:17:00<10:30,  2.79s/it][A
Training...:  91% 2384/2609 [2:17:02<10:02,  2.68s/it][A
Training...:  91% 2385/2609 [2:17:05<09:38,  2.58s/it][A
Training...:  91% 2386/2609 [2:17:07<09:12,  2.48s/it][A
Training...:  91% 2387/2609 [2:17:09<08:46,  2.37s/it][A
Training...:  92% 2388/2609 [2:17:11<08:23,  2.28s/it][A
Training...:  92% 2389/2609 [2:17:13<08:01,  2.19s/it][A
Training...:  92% 2390/2609 [2:17:15<07:40,  2.10s/it][A
Training...:  92% 2391/2609 [2:17:17<07:18,  2.01s/it][A
Training...:  92% 2392/2609 [2:17:19<06:55,  1.91s/it][A
Training...:  92% 2393/2609 [2:17:20<06:31,  1.81s/it][A
Training...:  92% 2394/2609 [2:17:22<06:06,  1.71s/it][A
Training...:  92% 2395/2609 [2:17:23<05:42,  1.60s/it][A
Training...:  92% 2396/2609 [2:17:24<05:19,  1.50s/it][A
Training...:  92% 2397/2609 [2:17:25<04:52,  1.38s/it][A
Training...:  92% 2398/2609 [2:17:26<04:22,  1.24s/it][A
Training...:  92% 2399/2609 [2:17:27<03:52,  1.11s/it][A
Training...:  92% 2400/2609 [2:17:28<03:17,  1.06it/s][A
Training...:  92% 2401/2609 [2:17:35<09:47,  2.83s/it][A
Training...:  92% 2402/2609 [2:17:42<14:15,  4.13s/it][A
Training...:  92% 2403/2609 [2:17:49<16:51,  4.91s/it][A
Training...:  92% 2404/2609 [2:17:55<18:11,  5.32s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [15:19:50<39:15:03, 9420.24s/it]
Training...:  92% 2404/2609 [2:18:02<18:11,  5.32s/it][A
Training...:  92% 2405/2609 [2:18:02<19:37,  5.77s/it][A
Training...:  92% 2406/2609 [2:18:08<19:33,  5.78s/it][A
Training...:  92% 2407/2609 [2:18:13<19:14,  5.71s/it][A
Training...:  92% 2408/2609 [2:18:19<18:43,  5.59s/it][A
Training...:  92% 2409/2609 [2:18:24<18:11,  5.46s/it][A
Training...:  92% 2410/2609 [2:18:29<17:35,  5.31s/it][A
Training...:  92% 2411/2609 [2:18:34<17:14,  5.23s/it][A
Training...:  92% 2412/2609 [2:18:38<16:34,  5.05s/it][A
Training...:  92% 2413/2609 [2:18:43<16:01,  4.90s/it][A
Training...:  93% 2414/2609 [2:18:47<15:34,  4.79s/it][A
Training...:  93% 2415/2609 [2:18:52<15:02,  4.65s/it][A
Training...:  93% 2416/2609 [2:18:56<14:30,  4.51s/it][A
Training...:  93% 2417/2609 [2:19:00<14:04,  4.40s/it][A
Training...:  93% 2418/2609 [2:19:04<13:34,  4.26s/it][A
Training...:  93% 2419/2609 [2:19:08<13:09,  4.15s/it][A
Training...:  93% 2420/2609 [2:19:12<12:41,  4.03s/it][A
Training...:  93% 2421/2609 [2:19:15<12:18,  3.93s/it][A
Training...:  93% 2422/2609 [2:19:19<11:55,  3.83s/it][A
Training...:  93% 2423/2609 [2:19:22<11:32,  3.72s/it][A
Training...:  93% 2424/2609 [2:19:26<11:08,  3.61s/it][A
Training...:  93% 2425/2609 [2:19:29<10:51,  3.54s/it][A
Training...:  93% 2426/2609 [2:19:32<10:27,  3.43s/it][A
Training...:  93% 2427/2609 [2:19:35<10:09,  3.35s/it][A
Training...:  93% 2428/2609 [2:19:38<09:48,  3.25s/it][A
Training...:  93% 2429/2609 [2:19:41<09:29,  3.16s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [15:21:33<39:15:03, 9420.24s/it]
Training...:  93% 2429/2609 [2:19:45<09:29,  3.16s/it][A
Training...:  93% 2430/2609 [2:19:45<09:35,  3.22s/it][A
Training...:  93% 2431/2609 [2:19:48<09:09,  3.09s/it][A
Training...:  93% 2432/2609 [2:19:50<08:43,  2.96s/it][A
Training...:  93% 2433/2609 [2:19:53<08:19,  2.84s/it][A
Training...:  93% 2434/2609 [2:19:55<07:57,  2.73s/it][A
Training...:  93% 2435/2609 [2:19:58<07:37,  2.63s/it][A
Training...:  93% 2436/2609 [2:20:00<07:18,  2.54s/it][A
Training...:  93% 2437/2609 [2:20:02<07:00,  2.44s/it][A
Training...:  93% 2438/2609 [2:20:04<06:39,  2.34s/it][A
Training...:  93% 2439/2609 [2:20:06<06:19,  2.23s/it][A
Training...:  94% 2440/2609 [2:20:08<06:00,  2.14s/it][A
Training...:  94% 2441/2609 [2:20:10<05:43,  2.05s/it][A
Training...:  94% 2442/2609 [2:20:12<05:26,  1.95s/it][A
Training...:  94% 2443/2609 [2:20:13<05:10,  1.87s/it][A
Training...:  94% 2444/2609 [2:20:15<04:53,  1.78s/it][A
Training...:  94% 2445/2609 [2:20:16<04:36,  1.69s/it][A
Training...:  94% 2446/2609 [2:20:18<04:18,  1.58s/it][A
Training...:  94% 2447/2609 [2:20:19<03:56,  1.46s/it][A
Training...:  94% 2448/2609 [2:20:20<03:36,  1.35s/it][A
Training...:  94% 2449/2609 [2:20:21<03:10,  1.19s/it][A
Training...:  94% 2450/2609 [2:20:21<02:39,  1.00s/it][A
Training...:  94% 2451/2609 [2:20:29<07:34,  2.87s/it][A
Training...:  94% 2452/2609 [2:20:36<10:55,  4.17s/it][A
Training...:  94% 2453/2609 [2:20:43<12:44,  4.90s/it][A
Training...:  94% 2454/2609 [2:20:49<13:42,  5.30s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [15:22:44<39:15:03, 9420.24s/it]
Training...:  94% 2454/2609 [2:20:55<13:42,  5.30s/it][A
Training...:  94% 2455/2609 [2:20:55<14:42,  5.73s/it][A
Training...:  94% 2456/2609 [2:21:01<14:36,  5.73s/it][A
Training...:  94% 2457/2609 [2:21:07<14:20,  5.66s/it][A
Training...:  94% 2458/2609 [2:21:12<13:57,  5.55s/it][A
Training...:  94% 2459/2609 [2:21:17<13:30,  5.40s/it][A
Training...:  94% 2460/2609 [2:21:22<13:02,  5.25s/it][A
Training...:  94% 2461/2609 [2:21:27<12:37,  5.12s/it][A
Training...:  94% 2462/2609 [2:21:31<12:10,  4.97s/it][A
Training...:  94% 2463/2609 [2:21:36<11:50,  4.87s/it][A
Training...:  94% 2464/2609 [2:21:40<11:24,  4.72s/it][A
Training...:  94% 2465/2609 [2:21:45<10:59,  4.58s/it][A
Training...:  95% 2466/2609 [2:21:49<10:36,  4.45s/it][A
Training...:  95% 2467/2609 [2:21:53<10:18,  4.35s/it][A
Training...:  95% 2468/2609 [2:21:57<09:55,  4.23s/it][A
Training...:  95% 2469/2609 [2:22:01<09:39,  4.14s/it][A
Training...:  95% 2470/2609 [2:22:05<09:18,  4.02s/it][A
Training...:  95% 2471/2609 [2:22:08<09:01,  3.92s/it][A
Training...:  95% 2472/2609 [2:22:12<08:41,  3.81s/it][A
Training...:  95% 2473/2609 [2:22:15<08:24,  3.71s/it][A
Training...:  95% 2474/2609 [2:22:19<08:05,  3.60s/it][A
Training...:  95% 2475/2609 [2:22:22<07:51,  3.52s/it][A
Training...:  95% 2476/2609 [2:22:25<07:33,  3.41s/it][A
Training...:  95% 2477/2609 [2:22:28<07:17,  3.32s/it][A
Training...:  95% 2478/2609 [2:22:31<07:00,  3.21s/it][A
Training...:  95% 2479/2609 [2:22:34<06:47,  3.13s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [15:24:26<39:15:03, 9420.24s/it]
Training...:  95% 2479/2609 [2:22:37<06:47,  3.13s/it][A
Training...:  95% 2480/2609 [2:22:37<06:54,  3.21s/it][A
Training...:  95% 2481/2609 [2:22:40<06:35,  3.09s/it][A
Training...:  95% 2482/2609 [2:22:43<06:15,  2.96s/it][A
Training...:  95% 2483/2609 [2:22:45<05:56,  2.83s/it][A
Training...:  95% 2484/2609 [2:22:48<05:37,  2.70s/it][A
Training...:  95% 2485/2609 [2:22:50<05:22,  2.60s/it][A
Training...:  95% 2486/2609 [2:22:53<05:08,  2.51s/it][A
Training...:  95% 2487/2609 [2:22:55<04:56,  2.43s/it][A
Training...:  95% 2488/2609 [2:22:57<04:42,  2.33s/it][A
Training...:  95% 2489/2609 [2:22:59<04:27,  2.23s/it][A
Training...:  95% 2490/2609 [2:23:01<04:14,  2.14s/it][A
Training...:  95% 2491/2609 [2:23:03<04:01,  2.04s/it][A
Training...:  96% 2492/2609 [2:23:04<03:47,  1.95s/it][A
Training...:  96% 2493/2609 [2:23:06<03:34,  1.85s/it][A
Training...:  96% 2494/2609 [2:23:07<03:21,  1.75s/it][A
Training...:  96% 2495/2609 [2:23:09<03:08,  1.65s/it][A
Training...:  96% 2496/2609 [2:23:10<02:55,  1.55s/it][A
Training...:  96% 2497/2609 [2:23:11<02:39,  1.43s/it][A
Training...:  96% 2498/2609 [2:23:12<02:24,  1.30s/it][A
Training...:  96% 2499/2609 [2:23:13<02:07,  1.16s/it][A
Training...:  96% 2500/2609 [2:23:14<01:46,  1.02it/s][A
Training...:  96% 2501/2609 [2:23:21<05:07,  2.84s/it][A
Training...:  96% 2502/2609 [2:23:28<07:22,  4.14s/it][A
Training...:  96% 2503/2609 [2:23:35<08:35,  4.86s/it][A
Training...:  96% 2504/2609 [2:23:41<09:14,  5.28s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [15:25:36<39:15:03, 9420.24s/it]
Training...:  96% 2504/2609 [2:23:48<09:14,  5.28s/it][A
Training...:  96% 2505/2609 [2:23:48<09:56,  5.74s/it][A
Training...:  96% 2506/2609 [2:23:53<09:47,  5.70s/it][A
Training...:  96% 2507/2609 [2:23:59<09:32,  5.61s/it][A
Training...:  96% 2508/2609 [2:24:04<09:17,  5.52s/it][A
Training...:  96% 2509/2609 [2:24:09<08:58,  5.38s/it][A
Training...:  96% 2510/2609 [2:24:14<08:41,  5.27s/it][A
Training...:  96% 2511/2609 [2:24:19<08:21,  5.12s/it][A
Training...:  96% 2512/2609 [2:24:24<08:02,  4.98s/it][A
Training...:  96% 2513/2609 [2:24:28<07:44,  4.84s/it][A
Training...:  96% 2514/2609 [2:24:32<07:24,  4.68s/it][A
Training...:  96% 2515/2609 [2:24:37<07:08,  4.56s/it][A
Training...:  96% 2516/2609 [2:24:41<06:50,  4.41s/it][A
Training...:  96% 2517/2609 [2:24:45<06:35,  4.29s/it][A
Training...:  97% 2518/2609 [2:24:49<06:20,  4.18s/it][A
Training...:  97% 2519/2609 [2:24:52<06:06,  4.07s/it][A
Training...:  97% 2520/2609 [2:24:56<05:54,  3.99s/it][A
Training...:  97% 2521/2609 [2:25:00<05:46,  3.94s/it][A
Training...:  97% 2522/2609 [2:25:04<05:34,  3.84s/it][A
Training...:  97% 2523/2609 [2:25:07<05:20,  3.73s/it][A
Training...:  97% 2524/2609 [2:25:10<05:07,  3.61s/it][A
Training...:  97% 2525/2609 [2:25:14<04:54,  3.51s/it][A
Training...:  97% 2526/2609 [2:25:17<04:42,  3.40s/it][A
Training...:  97% 2527/2609 [2:25:20<04:29,  3.29s/it][A
Training...:  97% 2528/2609 [2:25:23<04:18,  3.19s/it][A
Training...:  97% 2529/2609 [2:25:26<04:07,  3.09s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [15:27:17<39:15:03, 9420.24s/it]
Training...:  97% 2529/2609 [2:25:29<04:07,  3.09s/it][A
Training...:  97% 2530/2609 [2:25:29<04:07,  3.13s/it][A
Training...:  97% 2531/2609 [2:25:32<03:54,  3.00s/it][A
Training...:  97% 2532/2609 [2:25:34<03:40,  2.87s/it][A
Training...:  97% 2533/2609 [2:25:37<03:29,  2.76s/it][A
Training...:  97% 2534/2609 [2:25:39<03:18,  2.65s/it][A
Training...:  97% 2535/2609 [2:25:41<03:08,  2.55s/it][A
Training...:  97% 2536/2609 [2:25:44<02:58,  2.44s/it][A
Training...:  97% 2537/2609 [2:25:46<02:48,  2.34s/it][A
Training...:  97% 2538/2609 [2:25:48<02:39,  2.24s/it][A
Training...:  97% 2539/2609 [2:25:50<02:30,  2.15s/it][A
Training...:  97% 2540/2609 [2:25:51<02:20,  2.04s/it][A
Training...:  97% 2541/2609 [2:25:53<02:12,  1.95s/it][A
Training...:  97% 2542/2609 [2:25:55<02:04,  1.85s/it][A
Training...:  97% 2543/2609 [2:25:56<01:56,  1.76s/it][A
Training...:  98% 2544/2609 [2:25:58<01:48,  1.67s/it][A
Training...:  98% 2545/2609 [2:25:59<01:40,  1.56s/it][A
Training...:  98% 2546/2609 [2:26:00<01:31,  1.46s/it][A
Training...:  98% 2547/2609 [2:26:01<01:23,  1.34s/it][A
Training...:  98% 2548/2609 [2:26:02<01:14,  1.22s/it][A
Training...:  98% 2549/2609 [2:26:03<01:05,  1.09s/it][A
Training...:  98% 2550/2609 [2:26:04<00:54,  1.08it/s][A
Training...:  98% 2551/2609 [2:26:11<02:40,  2.76s/it][A
Training...:  98% 2552/2609 [2:26:18<03:50,  4.04s/it][A
Training...:  98% 2553/2609 [2:26:25<04:31,  4.84s/it][A
Training...:  98% 2554/2609 [2:26:31<04:52,  5.31s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [15:28:26<39:15:03, 9420.24s/it]
Training...:  98% 2554/2609 [2:26:38<04:52,  5.31s/it][A
Training...:  98% 2555/2609 [2:26:38<05:11,  5.77s/it][A
Training...:  98% 2556/2609 [2:26:44<05:07,  5.81s/it][A
Training...:  98% 2557/2609 [2:26:49<04:59,  5.76s/it][A
Training...:  98% 2558/2609 [2:26:55<04:47,  5.63s/it][A
Training...:  98% 2559/2609 [2:27:00<04:34,  5.50s/it][A
Training...:  98% 2560/2609 [2:27:05<04:21,  5.33s/it][A
Training...:  98% 2561/2609 [2:27:10<04:09,  5.19s/it][A
Training...:  98% 2562/2609 [2:27:14<03:55,  5.02s/it][A
Training...:  98% 2563/2609 [2:27:19<03:44,  4.87s/it][A
Training...:  98% 2564/2609 [2:27:23<03:32,  4.72s/it][A
Training...:  98% 2565/2609 [2:27:28<03:23,  4.63s/it][A
Training...:  98% 2566/2609 [2:27:32<03:14,  4.51s/it][A
Training...:  98% 2567/2609 [2:27:36<03:04,  4.39s/it][A
Training...:  98% 2568/2609 [2:27:40<02:54,  4.26s/it][A
Training...:  98% 2569/2609 [2:27:44<02:45,  4.14s/it][A
Training...:  99% 2570/2609 [2:27:47<02:35,  4.00s/it][A
Training...:  99% 2571/2609 [2:27:51<02:27,  3.88s/it][A
Training...:  99% 2572/2609 [2:27:54<02:18,  3.75s/it][A
Training...:  99% 2573/2609 [2:27:58<02:11,  3.66s/it][A
Training...:  99% 2574/2609 [2:28:01<02:04,  3.55s/it][A
Training...:  99% 2575/2609 [2:28:04<01:57,  3.46s/it][A
Training...:  99% 2576/2609 [2:28:08<01:50,  3.35s/it][A
Training...:  99% 2577/2609 [2:28:11<01:44,  3.27s/it][A
Training...:  99% 2578/2609 [2:28:13<01:38,  3.17s/it][A
Training...:  99% 2579/2609 [2:28:16<01:32,  3.08s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [15:30:08<39:15:03, 9420.24s/it]
Training...:  99% 2579/2609 [2:28:20<01:32,  3.08s/it][A
Training...:  99% 2580/2609 [2:28:20<01:30,  3.12s/it][A
Training...:  99% 2581/2609 [2:28:22<01:24,  3.00s/it][A
Training...:  99% 2582/2609 [2:28:25<01:17,  2.89s/it][A
Training...:  99% 2583/2609 [2:28:28<01:12,  2.79s/it][A
Training...:  99% 2584/2609 [2:28:30<01:07,  2.69s/it][A
Training...:  99% 2585/2609 [2:28:32<01:02,  2.58s/it][A
Training...:  99% 2586/2609 [2:28:35<00:57,  2.50s/it][A
Training...:  99% 2587/2609 [2:28:37<00:52,  2.41s/it][A
Training...:  99% 2588/2609 [2:28:39<00:48,  2.31s/it][A
Training...:  99% 2589/2609 [2:28:41<00:44,  2.22s/it][A
Training...:  99% 2590/2609 [2:28:43<00:40,  2.13s/it][A
Training...:  99% 2591/2609 [2:28:45<00:36,  2.03s/it][A
Training...:  99% 2592/2609 [2:28:46<00:32,  1.94s/it][A
Training...:  99% 2593/2609 [2:28:48<00:29,  1.85s/it][A
Training...:  99% 2594/2609 [2:28:49<00:26,  1.74s/it][A
Training...:  99% 2595/2609 [2:28:51<00:22,  1.64s/it][A
Training...: 100% 2596/2609 [2:28:52<00:19,  1.53s/it][A
Training...: 100% 2597/2609 [2:28:53<00:16,  1.41s/it][A
Training...: 100% 2598/2609 [2:28:54<00:14,  1.29s/it][A
Training...: 100% 2599/2609 [2:28:55<00:11,  1.14s/it][A
Training...: 100% 2600/2609 [2:28:56<00:08,  1.02it/s][A
Training...: 100% 2601/2609 [2:29:02<00:21,  2.70s/it][A
Training...: 100% 2602/2609 [2:29:08<00:25,  3.58s/it][A
Training...: 100% 2603/2609 [2:29:13<00:23,  3.87s/it][A
Training...: 100% 2604/2609 [2:29:17<00:19,  3.89s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  25% 5/20 [15:31:09<39:15:03, 9420.24s/it]
Training...: 100% 2604/2609 [2:29:21<00:19,  3.89s/it][A
Training...: 100% 2605/2609 [2:29:21<00:15,  3.95s/it][A
Training...: 100% 2606/2609 [2:29:24<00:11,  3.68s/it][A
Training...: 100% 2607/2609 [2:29:26<00:06,  3.38s/it][A
Training...: 100% 2608/2609 [2:29:29<00:03,  3.02s/it][A
Training...: 100% 2609/2609 [2:29:30<00:00,  2.60s/it][ATraining...: 100% 2609/2609 [2:29:30<00:00,  3.44s/it]
Step... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [15:31:18<36:02:29, 9267.83s/it]
Training...:   0% 0/2609 [00:00<?, ?it/s][AStep... (14800 | Loss: 0.1260434240102768, Learning Rate: 7.111312879715115e-05, Gradient Norm: 0.5801516175270081)
Step... (14825 | Loss: 0.1090717688202858, Learning Rate: 7.106261909939349e-05, Gradient Norm: 0.7418851852416992)
Step... (14850 | Loss: 0.1874433010816574, Learning Rate: 7.101211667759344e-05, Gradient Norm: 1.6066851615905762)
Step... (14875 | Loss: 0.10388604551553726, Learning Rate: 7.096161425579339e-05, Gradient Norm: 0.8150708079338074)
Step... (14900 | Loss: 0.2013595998287201, Learning Rate: 7.091110455803573e-05, Gradient Norm: 0.7773807644844055)
Step... (14925 | Loss: 0.11354877799749374, Learning Rate: 7.086060213623568e-05, Gradient Norm: 0.8612627387046814)
Step... (14950 | Loss: 0.16937877237796783, Learning Rate: 7.081009971443564e-05, Gradient Norm: 0.7873163223266602)
Step... (14975 | Loss: 0.09985106438398361, Learning Rate: 7.075959001667798e-05, Gradient Norm: 0.7273350358009338)
Step... (15000 | Loss: 0.14385482668876648, Learning Rate: 7.070908759487793e-05, Gradient Norm: 0.6317121386528015)
Step... (15025 | Loss: 0.11264485120773315, Learning Rate: 7.065858517307788e-05, Gradient Norm: 0.7300935387611389)
Step... (15050 | Loss: 0.17480473220348358, Learning Rate: 7.060807547532022e-05, Gradient Norm: 0.6872656345367432)
Step... (15075 | Loss: 0.08989693224430084, Learning Rate: 7.055757305352017e-05, Gradient Norm: 0.6170492768287659)
Step... (15100 | Loss: 0.19811105728149414, Learning Rate: 7.050707063172013e-05, Gradient Norm: 0.8926967978477478)
Step... (15125 | Loss: 0.10500581562519073, Learning Rate: 7.045656093396246e-05, Gradient Norm: 0.6690301299095154)
Step... (15150 | Loss: 0.15318888425827026, Learning Rate: 7.040605851216242e-05, Gradient Norm: 0.7011606693267822)
Step... (15175 | Loss: 0.09351769089698792, Learning Rate: 7.035555609036237e-05, Gradient Norm: 0.7388468384742737)
Step... (15200 | Loss: 0.14977045357227325, Learning Rate: 7.030504639260471e-05, Gradient Norm: 0.5932967066764832)
Step... (15225 | Loss: 0.08561393618583679, Learning Rate: 7.025454397080466e-05, Gradient Norm: 0.5563339591026306)
Step... (15250 | Loss: 0.2095557600259781, Learning Rate: 7.020404154900461e-05, Gradient Norm: 0.7229378819465637)
Step... (15275 | Loss: 0.10786289721727371, Learning Rate: 7.015353185124695e-05, Gradient Norm: 0.6097819805145264)
Step... (15300 | Loss: 0.1691831648349762, Learning Rate: 7.01030294294469e-05, Gradient Norm: 1.3510379791259766)
Step... (15325 | Loss: 0.09026844799518585, Learning Rate: 7.005252700764686e-05, Gradient Norm: 0.7456491589546204)
Step... (15350 | Loss: 0.19895273447036743, Learning Rate: 7.00020173098892e-05, Gradient Norm: 0.9306000471115112)
Step... (15375 | Loss: 0.07776061445474625, Learning Rate: 6.995151488808915e-05, Gradient Norm: 0.5935315489768982)
Step... (15400 | Loss: 0.17972354590892792, Learning Rate: 6.99010124662891e-05, Gradient Norm: 0.7080461382865906)
Step... (15425 | Loss: 0.09849674999713898, Learning Rate: 6.985050276853144e-05, Gradient Norm: 1.277854084968567)
Step... (15450 | Loss: 0.1717528998851776, Learning Rate: 6.98000003467314e-05, Gradient Norm: 0.6406494975090027)
Step... (15475 | Loss: 0.13326960802078247, Learning Rate: 6.974949792493135e-05, Gradient Norm: 0.8779330849647522)
Step... (15500 | Loss: 0.1795583963394165, Learning Rate: 6.969898822717369e-05, Gradient Norm: 0.63149493932724)
Step... (15525 | Loss: 0.10674606263637543, Learning Rate: 6.964848580537364e-05, Gradient Norm: 0.7347184419631958)
Step... (15550 | Loss: 0.15038204193115234, Learning Rate: 6.959798338357359e-05, Gradient Norm: 0.5885828733444214)
Step... (15575 | Loss: 0.19011200964450836, Learning Rate: 6.954747368581593e-05, Gradient Norm: 0.9068229794502258)
Step... (15600 | Loss: 0.15944084525108337, Learning Rate: 6.949696398805827e-05, Gradient Norm: 0.7136467695236206)
Step... (15625 | Loss: 0.12498694658279419, Learning Rate: 6.944646884221584e-05, Gradient Norm: 0.7195886969566345)
Step... (15650 | Loss: 0.11004115641117096, Learning Rate: 6.939595914445817e-05, Gradient Norm: 0.6002708077430725)

Training...:   0% 1/2609 [00:07<5:16:36,  7.28s/it][A
Training...:   0% 2/2609 [00:14<5:13:48,  7.22s/it][A
Training...:   0% 3/2609 [00:21<5:02:25,  6.96s/it][A
Training...:   0% 4/2609 [00:27<4:54:39,  6.79s/it][A
Training...:   0% 5/2609 [00:33<4:45:39,  6.58s/it][A
Training...:   0% 6/2609 [00:39<4:35:04,  6.34s/it][A
Training...:   0% 7/2609 [00:45<4:24:04,  6.09s/it][A
Training...:   0% 8/2609 [00:50<4:12:58,  5.84s/it][A
Training...:   0% 9/2609 [00:55<4:04:23,  5.64s/it][A
Training...:   0% 10/2609 [01:00<3:55:18,  5.43s/it][A
Training...:   0% 11/2609 [01:05<3:49:06,  5.29s/it][A
Training...:   0% 12/2609 [01:10<3:40:58,  5.11s/it][A
Training...:   0% 13/2609 [01:14<3:33:43,  4.94s/it][A
Training...:   1% 14/2609 [01:19<3:27:30,  4.80s/it][A
Training...:   1% 15/2609 [01:23<3:20:55,  4.65s/it][A
Training...:   1% 16/2609 [01:27<3:14:20,  4.50s/it][A
Training...:   1% 17/2609 [01:31<3:08:42,  4.37s/it][A
Training...:   1% 18/2609 [01:35<3:02:59,  4.24s/it][A
Training...:   1% 19/2609 [01:39<2:58:03,  4.12s/it][A
Training...:   1% 20/2609 [01:43<2:53:09,  4.01s/it][A                                                                                                                                                                   
                                                    [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [15:33:07<36:02:29, 9267.83s/it]
Training...:   1% 20/2609 [01:47<2:53:09,  4.01s/it][A
Training...:   1% 21/2609 [01:47<2:56:01,  4.08s/it][A
Training...:   1% 22/2609 [01:51<2:48:56,  3.92s/it][A
Training...:   1% 23/2609 [01:54<2:42:28,  3.77s/it][A
Training...:   1% 24/2609 [01:58<2:36:21,  3.63s/it][A
Training...:   1% 25/2609 [02:01<2:31:53,  3.53s/it][A
Training...:   1% 26/2609 [02:04<2:27:01,  3.42s/it][A
Training...:   1% 27/2609 [02:07<2:23:37,  3.34s/it][A
Training...:   1% 28/2609 [02:10<2:19:34,  3.24s/it][A
Training...:   1% 29/2609 [02:13<2:16:07,  3.17s/it][A
Training...:   1% 30/2609 [02:16<2:11:30,  3.06s/it][A
Training...:   1% 31/2609 [02:19<2:07:44,  2.97s/it][A
Training...:   1% 32/2609 [02:21<2:04:22,  2.90s/it][A
Training...:   1% 33/2609 [02:24<2:00:11,  2.80s/it][A
Training...:   1% 34/2609 [02:27<1:56:31,  2.72s/it][A
Training...:   1% 35/2609 [02:29<1:52:51,  2.63s/it][A
Training...:   1% 36/2609 [02:31<1:49:06,  2.54s/it][A
Training...:   1% 37/2609 [02:34<1:45:10,  2.45s/it][A
Training...:   1% 38/2609 [02:36<1:41:03,  2.36s/it][A
Training...:   1% 39/2609 [02:38<1:37:10,  2.27s/it][A
Training...:   2% 40/2609 [02:40<1:33:37,  2.19s/it][A
Training...:   2% 41/2609 [02:42<1:29:45,  2.10s/it][A
Training...:   2% 42/2609 [02:43<1:25:29,  2.00s/it][A
Training...:   2% 43/2609 [02:45<1:21:33,  1.91s/it][A
Training...:   2% 44/2609 [02:47<1:17:12,  1.81s/it][A
Training...:   2% 45/2609 [02:48<1:12:51,  1.71s/it][A                                                                                                                                                                   
                                                    [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [15:34:10<36:02:29, 9267.83s/it]
Training...:   2% 45/2609 [02:50<1:12:51,  1.71s/it][A
Training...:   2% 46/2609 [02:50<1:12:25,  1.70s/it][A
Training...:   2% 47/2609 [02:51<1:06:02,  1.55s/it][A
Training...:   2% 48/2609 [02:52<59:13,  1.39s/it]  [A
Training...:   2% 49/2609 [02:53<52:17,  1.23s/it][A
Training...:   2% 50/2609 [02:53<44:01,  1.03s/it][A
Training...:   2% 51/2609 [03:01<2:03:39,  2.90s/it][A
Training...:   2% 52/2609 [03:08<2:57:23,  4.16s/it][A
Training...:   2% 53/2609 [03:15<3:30:57,  4.95s/it][A
Training...:   2% 54/2609 [03:21<3:49:37,  5.39s/it][A
Training...:   2% 55/2609 [03:27<3:58:43,  5.61s/it][A
Training...:   2% 56/2609 [03:33<4:03:51,  5.73s/it][A
Training...:   2% 57/2609 [03:39<4:03:39,  5.73s/it][A
Training...:   2% 58/2609 [03:44<3:56:58,  5.57s/it][A
Training...:   2% 59/2609 [03:49<3:50:28,  5.42s/it][A
Training...:   2% 60/2609 [03:54<3:43:27,  5.26s/it][A
Training...:   2% 61/2609 [03:59<3:37:31,  5.12s/it][A
Training...:   2% 62/2609 [04:03<3:30:56,  4.97s/it][A
Training...:   2% 63/2609 [04:08<3:24:42,  4.82s/it][A
Training...:   2% 64/2609 [04:12<3:17:46,  4.66s/it][A
Training...:   2% 65/2609 [04:16<3:11:48,  4.52s/it][A
Training...:   3% 66/2609 [04:20<3:05:55,  4.39s/it][A
Training...:   3% 67/2609 [04:24<3:00:53,  4.27s/it][A
Training...:   3% 68/2609 [04:28<2:55:43,  4.15s/it][A
Training...:   3% 69/2609 [04:32<2:51:39,  4.05s/it][A
Training...:   3% 70/2609 [04:36<2:46:45,  3.94s/it][A                                                                                                                                                                   
                                                    [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [15:36:00<36:02:29, 9267.83s/it]
Training...:   3% 70/2609 [04:40<2:46:45,  3.94s/it][A
Training...:   3% 71/2609 [04:40<2:50:08,  4.02s/it][A
Training...:   3% 72/2609 [04:43<2:42:36,  3.85s/it][A
Training...:   3% 73/2609 [04:47<2:37:16,  3.72s/it][A
Training...:   3% 74/2609 [04:50<2:31:59,  3.60s/it][A
Training...:   3% 75/2609 [04:53<2:27:03,  3.48s/it][A
Training...:   3% 76/2609 [04:57<2:22:17,  3.37s/it][A
Training...:   3% 77/2609 [05:00<2:18:12,  3.28s/it][A
Training...:   3% 78/2609 [05:03<2:13:56,  3.18s/it][A
Training...:   3% 79/2609 [05:05<2:09:48,  3.08s/it][A
Training...:   3% 80/2609 [05:08<2:05:35,  2.98s/it][A
Training...:   3% 81/2609 [05:11<2:01:44,  2.89s/it][A
Training...:   3% 82/2609 [05:13<1:57:11,  2.78s/it][A
Training...:   3% 83/2609 [05:16<1:53:56,  2.71s/it][A
Training...:   3% 84/2609 [05:18<1:50:01,  2.61s/it][A
Training...:   3% 85/2609 [05:21<1:46:27,  2.53s/it][A
Training...:   3% 86/2609 [05:23<1:43:07,  2.45s/it][A
Training...:   3% 87/2609 [05:25<1:39:05,  2.36s/it][A
Training...:   3% 88/2609 [05:27<1:35:11,  2.27s/it][A
Training...:   3% 89/2609 [05:29<1:31:41,  2.18s/it][A
Training...:   3% 90/2609 [05:31<1:27:49,  2.09s/it][A
Training...:   3% 91/2609 [05:33<1:23:53,  2.00s/it][A
Training...:   4% 92/2609 [05:34<1:20:05,  1.91s/it][A
Training...:   4% 93/2609 [05:36<1:16:18,  1.82s/it][A
Training...:   4% 94/2609 [05:38<1:12:25,  1.73s/it][A
Training...:   4% 95/2609 [05:39<1:08:46,  1.64s/it][A                                                                                                                                                                   
                                                    [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [15:37:01<36:02:29, 9267.83s/it]
Training...:   4% 95/2609 [05:41<1:08:46,  1.64s/it][A
Training...:   4% 96/2609 [05:41<1:08:41,  1.64s/it][A
Training...:   4% 97/2609 [05:42<1:02:41,  1.50s/it][A
Training...:   4% 98/2609 [05:43<56:50,  1.36s/it]  [A
Training...:   4% 99/2609 [05:44<50:21,  1.20s/it][A
Training...:   4% 100/2609 [05:44<42:36,  1.02s/it][A
Training...:   4% 101/2609 [05:51<2:00:03,  2.87s/it][A
Training...:   4% 102/2609 [05:59<2:56:35,  4.23s/it][A
Training...:   4% 103/2609 [06:06<3:28:05,  4.98s/it][A
Training...:   4% 104/2609 [06:12<3:45:48,  5.41s/it][A
Training...:   4% 105/2609 [06:18<3:54:36,  5.62s/it][A
Training...:   4% 106/2609 [06:24<3:55:16,  5.64s/it][A
Training...:   4% 107/2609 [06:29<3:53:15,  5.59s/it][A
Training...:   4% 108/2609 [06:35<3:49:57,  5.52s/it][A
Training...:   4% 109/2609 [06:40<3:46:29,  5.44s/it][A
Training...:   4% 110/2609 [06:45<3:39:43,  5.28s/it][A
Training...:   4% 111/2609 [06:50<3:34:38,  5.16s/it][A
Training...:   4% 112/2609 [06:54<3:29:29,  5.03s/it][A
Training...:   4% 113/2609 [06:59<3:23:42,  4.90s/it][A
Training...:   4% 114/2609 [07:03<3:17:02,  4.74s/it][A
Training...:   4% 115/2609 [07:08<3:12:18,  4.63s/it][A
Training...:   4% 116/2609 [07:12<3:05:57,  4.48s/it][A
Training...:   4% 117/2609 [07:16<3:00:53,  4.36s/it][A
Training...:   5% 118/2609 [07:20<2:55:25,  4.23s/it][A
Training...:   5% 119/2609 [07:24<2:51:06,  4.12s/it][A
Training...:   5% 120/2609 [07:27<2:45:56,  4.00s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [15:38:52<36:02:29, 9267.83s/it]
Training...:   5% 120/2609 [07:32<2:45:56,  4.00s/it][A
Training...:   5% 121/2609 [07:32<2:49:33,  4.09s/it][A
Training...:   5% 122/2609 [07:35<2:42:55,  3.93s/it][A
Training...:   5% 123/2609 [07:39<2:37:43,  3.81s/it][A
Training...:   5% 124/2609 [07:42<2:31:49,  3.67s/it][A
Training...:   5% 125/2609 [07:45<2:27:08,  3.55s/it][A
Training...:   5% 126/2609 [07:49<2:21:32,  3.42s/it][A
Training...:   5% 127/2609 [07:52<2:17:17,  3.32s/it][A
Training...:   5% 128/2609 [07:55<2:12:51,  3.21s/it][A
Training...:   5% 129/2609 [07:57<2:08:56,  3.12s/it][A
Training...:   5% 130/2609 [08:00<2:05:16,  3.03s/it][A
Training...:   5% 131/2609 [08:03<2:01:30,  2.94s/it][A
Training...:   5% 132/2609 [08:06<1:57:38,  2.85s/it][A
Training...:   5% 133/2609 [08:08<1:54:32,  2.78s/it][A
Training...:   5% 134/2609 [08:11<1:51:14,  2.70s/it][A
Training...:   5% 135/2609 [08:13<1:47:19,  2.60s/it][A
Training...:   5% 136/2609 [08:16<1:43:46,  2.52s/it][A
Training...:   5% 137/2609 [08:18<1:40:29,  2.44s/it][A
Training...:   5% 138/2609 [08:20<1:36:44,  2.35s/it][A
Training...:   5% 139/2609 [08:22<1:32:56,  2.26s/it][A
Training...:   5% 140/2609 [08:24<1:29:02,  2.16s/it][A
Training...:   5% 141/2609 [08:26<1:25:16,  2.07s/it][A
Training...:   5% 142/2609 [08:28<1:21:46,  1.99s/it][A
Training...:   5% 143/2609 [08:29<1:17:54,  1.90s/it][A
Training...:   6% 144/2609 [08:31<1:13:35,  1.79s/it][A
Training...:   6% 145/2609 [08:32<1:09:13,  1.69s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [15:39:54<36:02:29, 9267.83s/it]
Training...:   6% 145/2609 [08:34<1:09:13,  1.69s/it][A
Training...:   6% 146/2609 [08:34<1:08:59,  1.68s/it][A
Training...:   6% 147/2609 [08:35<1:02:47,  1.53s/it][A
Training...:   6% 148/2609 [08:36<56:43,  1.38s/it]  [A
Training...:   6% 149/2609 [08:37<50:04,  1.22s/it][A
Training...:   6% 150/2609 [08:38<42:20,  1.03s/it][A
Training...:   6% 151/2609 [08:45<2:01:17,  2.96s/it][A
Training...:   6% 152/2609 [08:52<2:52:46,  4.22s/it][A
Training...:   6% 153/2609 [08:59<3:22:51,  4.96s/it][A
Training...:   6% 154/2609 [09:05<3:38:42,  5.35s/it][A
Training...:   6% 155/2609 [09:11<3:45:20,  5.51s/it][A
Training...:   6% 156/2609 [09:17<3:47:11,  5.56s/it][A
Training...:   6% 157/2609 [09:22<3:47:08,  5.56s/it][A
Training...:   6% 158/2609 [09:27<3:42:45,  5.45s/it][A
Training...:   6% 159/2609 [09:32<3:38:12,  5.34s/it][A
Training...:   6% 160/2609 [09:37<3:32:27,  5.21s/it][A
Training...:   6% 161/2609 [09:42<3:27:05,  5.08s/it][A
Training...:   6% 162/2609 [09:47<3:22:06,  4.96s/it][A
Training...:   6% 163/2609 [09:51<3:16:56,  4.83s/it][A
Training...:   6% 164/2609 [09:56<3:10:42,  4.68s/it][A
Training...:   6% 165/2609 [10:00<3:05:27,  4.55s/it][A
Training...:   6% 166/2609 [10:04<2:59:40,  4.41s/it][A
Training...:   6% 167/2609 [10:08<2:55:55,  4.32s/it][A
Training...:   6% 168/2609 [10:12<2:51:40,  4.22s/it][A
Training...:   6% 169/2609 [10:16<2:47:25,  4.12s/it][A
Training...:   7% 170/2609 [10:20<2:42:38,  4.00s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [15:41:44<36:02:29, 9267.83s/it]
Training...:   7% 170/2609 [10:24<2:42:38,  4.00s/it][A
Training...:   7% 171/2609 [10:24<2:46:07,  4.09s/it][A
Training...:   7% 172/2609 [10:28<2:39:34,  3.93s/it][A
Training...:   7% 173/2609 [10:31<2:33:33,  3.78s/it][A
Training...:   7% 174/2609 [10:34<2:27:56,  3.65s/it][A
Training...:   7% 175/2609 [10:38<2:23:47,  3.54s/it][A
Training...:   7% 176/2609 [10:41<2:19:18,  3.44s/it][A
Training...:   7% 177/2609 [10:44<2:15:43,  3.35s/it][A
Training...:   7% 178/2609 [10:47<2:12:24,  3.27s/it][A
Training...:   7% 179/2609 [10:50<2:08:50,  3.18s/it][A
Training...:   7% 180/2609 [10:53<2:04:55,  3.09s/it][A
Training...:   7% 181/2609 [10:56<2:01:08,  2.99s/it][A
Training...:   7% 182/2609 [10:58<1:57:02,  2.89s/it][A
Training...:   7% 183/2609 [11:01<1:57:45,  2.91s/it][A
Training...:   7% 184/2609 [11:04<1:52:42,  2.79s/it][A
Training...:   7% 185/2609 [11:06<1:48:26,  2.68s/it][A
Training...:   7% 186/2609 [11:09<1:44:29,  2.59s/it][A
Training...:   7% 187/2609 [11:11<1:40:28,  2.49s/it][A
Training...:   7% 188/2609 [11:13<1:36:20,  2.39s/it][A
Training...:   7% 189/2609 [11:15<1:33:29,  2.32s/it][A
Training...:   7% 190/2609 [11:17<1:30:09,  2.24s/it][A
Training...:   7% 191/2609 [11:19<1:25:38,  2.13s/it][A
Training...:   7% 192/2609 [11:21<1:21:22,  2.02s/it][A
Training...:   7% 193/2609 [11:23<1:17:02,  1.91s/it][A
Training...:   7% 194/2609 [11:24<1:12:29,  1.80s/it][A
Training...:   7% 195/2609 [11:26<1:08:18,  1.70s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [15:42:47<36:02:29, 9267.83s/it]
Training...:   7% 195/2609 [11:27<1:08:18,  1.70s/it][A
Training...:   8% 196/2609 [11:27<1:07:44,  1.68s/it][A
Training...:   8% 197/2609 [11:28<1:01:53,  1.54s/it][A
Training...:   8% 198/2609 [11:29<56:11,  1.40s/it]  [A
Training...:   8% 199/2609 [11:30<49:39,  1.24s/it][A
Training...:   8% 200/2609 [11:31<41:46,  1.04s/it][A
Training...:   8% 201/2609 [11:38<1:59:50,  2.99s/it][A
Training...:   8% 202/2609 [11:46<2:52:16,  4.29s/it][A
Training...:   8% 203/2609 [11:52<3:21:13,  5.02s/it][A
Training...:   8% 204/2609 [11:59<3:37:17,  5.42s/it][A
Training...:   8% 205/2609 [12:05<3:44:39,  5.61s/it][A
Training...:   8% 206/2609 [12:11<3:46:40,  5.66s/it][A
Training...:   8% 207/2609 [12:16<3:47:10,  5.67s/it][A
Training...:   8% 208/2609 [12:22<3:42:28,  5.56s/it][A
Training...:   8% 209/2609 [12:27<3:37:39,  5.44s/it][A
Training...:   8% 210/2609 [12:32<3:32:26,  5.31s/it][A
Training...:   8% 211/2609 [12:37<3:28:31,  5.22s/it][A
Training...:   8% 212/2609 [12:42<3:22:30,  5.07s/it][A
Training...:   8% 213/2609 [12:46<3:17:09,  4.94s/it][A
Training...:   8% 214/2609 [12:51<3:13:51,  4.86s/it][A
Training...:   8% 215/2609 [12:55<3:09:14,  4.74s/it][A
Training...:   8% 216/2609 [13:00<3:03:11,  4.59s/it][A
Training...:   8% 217/2609 [13:04<2:57:20,  4.45s/it][A
Training...:   8% 218/2609 [13:08<2:52:27,  4.33s/it][A
Training...:   8% 219/2609 [13:12<2:47:25,  4.20s/it][A
Training...:   8% 220/2609 [13:15<2:42:24,  4.08s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [15:44:40<36:02:29, 9267.83s/it]
Training...:   8% 220/2609 [13:20<2:42:24,  4.08s/it][A
Training...:   8% 221/2609 [13:20<2:44:55,  4.14s/it][A
Training...:   9% 222/2609 [13:23<2:38:10,  3.98s/it][A
Training...:   9% 223/2609 [13:27<2:32:14,  3.83s/it][A
Training...:   9% 224/2609 [13:30<2:26:00,  3.67s/it][A
Training...:   9% 225/2609 [13:33<2:21:50,  3.57s/it][A
Training...:   9% 226/2609 [13:37<2:16:57,  3.45s/it][A
Training...:   9% 227/2609 [13:40<2:13:34,  3.36s/it][A
Training...:   9% 228/2609 [13:43<2:09:03,  3.25s/it][A
Training...:   9% 229/2609 [13:46<2:04:57,  3.15s/it][A
Training...:   9% 230/2609 [13:49<2:01:23,  3.06s/it][A
Training...:   9% 231/2609 [13:51<1:57:57,  2.98s/it][A
Training...:   9% 232/2609 [13:54<1:53:29,  2.86s/it][A
Training...:   9% 233/2609 [13:56<1:49:54,  2.78s/it][A
Training...:   9% 234/2609 [13:59<1:46:02,  2.68s/it][A
Training...:   9% 235/2609 [14:01<1:42:12,  2.58s/it][A
Training...:   9% 236/2609 [14:04<1:38:45,  2.50s/it][A
Training...:   9% 237/2609 [14:06<1:35:09,  2.41s/it][A
Training...:   9% 238/2609 [14:08<1:31:10,  2.31s/it][A
Training...:   9% 239/2609 [14:10<1:27:39,  2.22s/it][A
Training...:   9% 240/2609 [14:12<1:24:12,  2.13s/it][A
Training...:   9% 241/2609 [14:14<1:20:09,  2.03s/it][A
Training...:   9% 242/2609 [14:15<1:16:15,  1.93s/it][A
Training...:   9% 243/2609 [14:17<1:12:02,  1.83s/it][A
Training...:   9% 244/2609 [14:18<1:07:43,  1.72s/it][A
Training...:   9% 245/2609 [14:20<1:03:31,  1.61s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [15:45:41<36:02:29, 9267.83s/it]
Training...:   9% 245/2609 [14:21<1:03:31,  1.61s/it][A
Training...:   9% 246/2609 [14:21<1:03:22,  1.61s/it][A
Training...:   9% 247/2609 [14:22<57:36,  1.46s/it]  [A
Training...:  10% 248/2609 [14:23<51:51,  1.32s/it][A
Training...:  10% 249/2609 [14:24<45:31,  1.16s/it][A
Training...:  10% 250/2609 [14:25<38:18,  1.03it/s][A
Training...:  10% 251/2609 [14:32<1:54:18,  2.91s/it][A
Training...:  10% 252/2609 [14:40<2:47:56,  4.27s/it][A
Training...:  10% 253/2609 [14:46<3:15:51,  4.99s/it][A
Training...:  10% 254/2609 [14:53<3:33:11,  5.43s/it][A
Training...:  10% 255/2609 [14:59<3:40:09,  5.61s/it][A
Training...:  10% 256/2609 [15:04<3:41:25,  5.65s/it][A
Training...:  10% 257/2609 [15:10<3:39:44,  5.61s/it][A
Training...:  10% 258/2609 [15:15<3:35:19,  5.50s/it][A
Training...:  10% 259/2609 [15:20<3:30:45,  5.38s/it][A
Training...:  10% 260/2609 [15:25<3:24:37,  5.23s/it][A
Training...:  10% 261/2609 [15:30<3:19:11,  5.09s/it][A
Training...:  10% 262/2609 [15:35<3:13:55,  4.96s/it][A
Training...:  10% 263/2609 [15:39<3:10:01,  4.86s/it][A
Training...:  10% 264/2609 [15:44<3:04:28,  4.72s/it][A
Training...:  10% 265/2609 [15:48<2:59:50,  4.60s/it][A
Training...:  10% 266/2609 [15:52<2:54:43,  4.47s/it][A
Training...:  10% 267/2609 [15:56<2:50:01,  4.36s/it][A
Training...:  10% 268/2609 [16:00<2:45:38,  4.25s/it][A
Training...:  10% 269/2609 [16:04<2:41:08,  4.13s/it][A
Training...:  10% 270/2609 [16:08<2:36:21,  4.01s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [15:47:32<36:02:29, 9267.83s/it]
Training...:  10% 270/2609 [16:12<2:36:21,  4.01s/it][A
Training...:  10% 271/2609 [16:12<2:39:40,  4.10s/it][A
Training...:  10% 272/2609 [16:16<2:32:50,  3.92s/it][A
Training...:  10% 273/2609 [16:19<2:27:28,  3.79s/it][A
Training...:  11% 274/2609 [16:22<2:21:54,  3.65s/it][A
Training...:  11% 275/2609 [16:26<2:17:17,  3.53s/it][A
Training...:  11% 276/2609 [16:29<2:12:05,  3.40s/it][A
Training...:  11% 277/2609 [16:32<2:08:00,  3.29s/it][A
Training...:  11% 278/2609 [16:35<2:03:50,  3.19s/it][A
Training...:  11% 279/2609 [16:38<2:00:38,  3.11s/it][A
Training...:  11% 280/2609 [16:41<1:57:23,  3.02s/it][A
Training...:  11% 281/2609 [16:43<1:53:33,  2.93s/it][A
Training...:  11% 282/2609 [16:46<1:49:36,  2.83s/it][A
Training...:  11% 283/2609 [16:48<1:46:19,  2.74s/it][A
Training...:  11% 284/2609 [16:51<1:43:34,  2.67s/it][A
Training...:  11% 285/2609 [16:53<1:40:24,  2.59s/it][A
Training...:  11% 286/2609 [16:56<1:36:47,  2.50s/it][A
Training...:  11% 287/2609 [16:58<1:33:02,  2.40s/it][A
Training...:  11% 288/2609 [17:00<1:29:24,  2.31s/it][A
Training...:  11% 289/2609 [17:02<1:25:51,  2.22s/it][A
Training...:  11% 290/2609 [17:04<1:22:44,  2.14s/it][A
Training...:  11% 291/2609 [17:06<1:19:37,  2.06s/it][A
Training...:  11% 292/2609 [17:07<1:16:02,  1.97s/it][A
Training...:  11% 293/2609 [17:09<1:12:28,  1.88s/it][A
Training...:  11% 294/2609 [17:11<1:08:02,  1.76s/it][A
Training...:  11% 295/2609 [17:12<1:03:37,  1.65s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [15:48:34<36:02:29, 9267.83s/it]
Training...:  11% 295/2609 [17:14<1:03:37,  1.65s/it][A
Training...:  11% 296/2609 [17:14<1:03:24,  1.64s/it][A
Training...:  11% 297/2609 [17:15<57:39,  1.50s/it]  [A
Training...:  11% 298/2609 [17:16<51:46,  1.34s/it][A
Training...:  11% 299/2609 [17:17<45:29,  1.18s/it][A
Training...:  11% 300/2609 [17:17<38:03,  1.01it/s][A
Training...:  12% 301/2609 [17:24<1:51:06,  2.89s/it][A
Training...:  12% 302/2609 [17:32<2:42:19,  4.22s/it][A
Training...:  12% 303/2609 [17:38<3:10:59,  4.97s/it][A
Training...:  12% 304/2609 [17:45<3:25:59,  5.36s/it][A
Training...:  12% 305/2609 [17:51<3:32:55,  5.54s/it][A
Training...:  12% 306/2609 [17:56<3:35:04,  5.60s/it][A
Training...:  12% 307/2609 [18:02<3:33:56,  5.58s/it][A
Training...:  12% 308/2609 [18:07<3:29:44,  5.47s/it][A
Training...:  12% 309/2609 [18:12<3:25:11,  5.35s/it][A
Training...:  12% 310/2609 [18:17<3:18:48,  5.19s/it][A
Training...:  12% 311/2609 [18:22<3:13:46,  5.06s/it][A
Training...:  12% 312/2609 [18:26<3:07:57,  4.91s/it][A
Training...:  12% 313/2609 [18:31<3:03:07,  4.79s/it][A
Training...:  12% 314/2609 [18:35<2:57:18,  4.64s/it][A
Training...:  12% 315/2609 [18:39<2:52:07,  4.50s/it][A
Training...:  12% 316/2609 [18:43<2:46:42,  4.36s/it][A
Training...:  12% 317/2609 [18:47<2:42:09,  4.25s/it][A
Training...:  12% 318/2609 [18:51<2:37:10,  4.12s/it][A
Training...:  12% 319/2609 [18:55<2:32:50,  4.00s/it][A
Training...:  12% 320/2609 [18:59<2:28:53,  3.90s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [15:50:23<36:02:29, 9267.83s/it]
Training...:  12% 320/2609 [19:03<2:28:53,  3.90s/it][A
Training...:  12% 321/2609 [19:03<2:31:39,  3.98s/it][A
Training...:  12% 322/2609 [19:06<2:24:56,  3.80s/it][A
Training...:  12% 323/2609 [19:10<2:19:50,  3.67s/it][A
Training...:  12% 324/2609 [19:13<2:14:27,  3.53s/it][A
Training...:  12% 325/2609 [19:16<2:10:13,  3.42s/it][A
Training...:  12% 326/2609 [19:19<2:05:44,  3.30s/it][A
Training...:  13% 327/2609 [19:22<2:02:06,  3.21s/it][A
Training...:  13% 328/2609 [19:25<1:58:15,  3.11s/it][A
Training...:  13% 329/2609 [19:28<1:54:44,  3.02s/it][A
Training...:  13% 330/2609 [19:30<1:51:37,  2.94s/it][A
Training...:  13% 331/2609 [19:33<1:48:22,  2.85s/it][A
Training...:  13% 332/2609 [19:36<1:44:57,  2.77s/it][A
Training...:  13% 333/2609 [19:38<1:41:57,  2.69s/it][A
Training...:  13% 334/2609 [19:41<1:39:09,  2.62s/it][A
Training...:  13% 335/2609 [19:43<1:36:20,  2.54s/it][A
Training...:  13% 336/2609 [19:45<1:34:14,  2.49s/it][A
Training...:  13% 337/2609 [19:47<1:30:40,  2.39s/it][A
Training...:  13% 338/2609 [19:50<1:27:15,  2.31s/it][A
Training...:  13% 339/2609 [19:51<1:23:33,  2.21s/it][A
Training...:  13% 340/2609 [19:53<1:19:51,  2.11s/it][A
Training...:  13% 341/2609 [19:55<1:16:38,  2.03s/it][A
Training...:  13% 342/2609 [19:57<1:12:59,  1.93s/it][A
Training...:  13% 343/2609 [19:59<1:09:22,  1.84s/it][A
Training...:  13% 344/2609 [20:00<1:05:22,  1.73s/it][A
Training...:  13% 345/2609 [20:01<1:01:17,  1.62s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [15:51:23<36:02:29, 9267.83s/it]
Training...:  13% 345/2609 [20:03<1:01:17,  1.62s/it][A
Training...:  13% 346/2609 [20:03<1:01:02,  1.62s/it][A
Training...:  13% 347/2609 [20:04<55:47,  1.48s/it]  [A
Training...:  13% 348/2609 [20:05<50:19,  1.34s/it][A
Training...:  13% 349/2609 [20:06<44:21,  1.18s/it][A
Training...:  13% 350/2609 [20:07<37:19,  1.01it/s][A
Training...:  13% 351/2609 [20:14<1:48:49,  2.89s/it][A
Training...:  13% 352/2609 [20:21<2:36:01,  4.15s/it][A
Training...:  14% 353/2609 [20:28<3:04:42,  4.91s/it][A
Training...:  14% 354/2609 [20:34<3:19:34,  5.31s/it][A
Training...:  14% 355/2609 [20:40<3:28:08,  5.54s/it][A
Training...:  14% 356/2609 [20:46<3:31:43,  5.64s/it][A
Training...:  14% 357/2609 [20:52<3:32:38,  5.67s/it][A
Training...:  14% 358/2609 [20:57<3:30:52,  5.62s/it][A
Training...:  14% 359/2609 [21:02<3:26:26,  5.51s/it][A
Training...:  14% 360/2609 [21:07<3:21:49,  5.38s/it][A
Training...:  14% 361/2609 [21:12<3:15:36,  5.22s/it][A
Training...:  14% 362/2609 [21:17<3:09:17,  5.05s/it][A
Training...:  14% 363/2609 [21:22<3:04:22,  4.93s/it][A
Training...:  14% 364/2609 [21:26<2:58:31,  4.77s/it][A
Training...:  14% 365/2609 [21:30<2:54:18,  4.66s/it][A
Training...:  14% 366/2609 [21:35<2:49:18,  4.53s/it][A
Training...:  14% 367/2609 [21:39<2:46:05,  4.44s/it][A
Training...:  14% 368/2609 [21:43<2:40:25,  4.30s/it][A
Training...:  14% 369/2609 [21:47<2:35:45,  4.17s/it][A
Training...:  14% 370/2609 [21:50<2:31:20,  4.06s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [15:53:15<36:02:29, 9267.83s/it]
Training...:  14% 370/2609 [21:55<2:31:20,  4.06s/it][A
Training...:  14% 371/2609 [21:55<2:33:22,  4.11s/it][A
Training...:  14% 372/2609 [21:58<2:27:15,  3.95s/it][A
Training...:  14% 373/2609 [22:02<2:21:45,  3.80s/it][A
Training...:  14% 374/2609 [22:05<2:16:53,  3.67s/it][A
Training...:  14% 375/2609 [22:08<2:11:42,  3.54s/it][A
Training...:  14% 376/2609 [22:11<2:06:34,  3.40s/it][A
Training...:  14% 377/2609 [22:14<2:02:44,  3.30s/it][A
Training...:  14% 378/2609 [22:17<1:59:11,  3.21s/it][A
Training...:  15% 379/2609 [22:20<1:55:41,  3.11s/it][A
Training...:  15% 380/2609 [22:23<1:52:05,  3.02s/it][A
Training...:  15% 381/2609 [22:26<1:49:03,  2.94s/it][A
Training...:  15% 382/2609 [22:29<1:46:20,  2.87s/it][A
Training...:  15% 383/2609 [22:31<1:42:37,  2.77s/it][A
Training...:  15% 384/2609 [22:34<1:39:08,  2.67s/it][A
Training...:  15% 385/2609 [22:36<1:35:53,  2.59s/it][A
Training...:  15% 386/2609 [22:38<1:32:20,  2.49s/it][A
Training...:  15% 387/2609 [22:40<1:29:53,  2.43s/it][A
Training...:  15% 388/2609 [22:43<1:26:25,  2.33s/it][A
Training...:  15% 389/2609 [22:45<1:23:04,  2.25s/it][A
Training...:  15% 390/2609 [22:47<1:19:35,  2.15s/it][A
Training...:  15% 391/2609 [22:48<1:16:07,  2.06s/it][A
Training...:  15% 392/2609 [22:50<1:12:35,  1.96s/it][A
Training...:  15% 393/2609 [22:52<1:09:16,  1.88s/it][A
Training...:  15% 394/2609 [22:53<1:05:40,  1.78s/it][A
Training...:  15% 395/2609 [22:55<1:01:52,  1.68s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [15:54:16<36:02:29, 9267.83s/it]
Training...:  15% 395/2609 [22:56<1:01:52,  1.68s/it][A
Training...:  15% 396/2609 [22:56<1:01:34,  1.67s/it][A
Training...:  15% 397/2609 [22:58<55:56,  1.52s/it]  [A
Training...:  15% 398/2609 [22:59<50:01,  1.36s/it][A
Training...:  15% 399/2609 [22:59<43:41,  1.19s/it][A
Training...:  15% 400/2609 [23:00<36:15,  1.02it/s][A
Training...:  15% 401/2609 [23:07<1:46:25,  2.89s/it][A
Training...:  15% 402/2609 [23:14<2:34:01,  4.19s/it][A
Training...:  15% 403/2609 [23:21<3:01:33,  4.94s/it][A
Training...:  15% 404/2609 [23:28<3:17:32,  5.38s/it][A
Training...:  16% 405/2609 [23:34<3:25:34,  5.60s/it][A
Training...:  16% 406/2609 [23:40<3:28:39,  5.68s/it][A
Training...:  16% 407/2609 [23:45<3:28:30,  5.68s/it][A
Training...:  16% 408/2609 [23:51<3:25:55,  5.61s/it][A
Training...:  16% 409/2609 [23:56<3:23:07,  5.54s/it][A
Training...:  16% 410/2609 [24:01<3:18:36,  5.42s/it][A
Training...:  16% 411/2609 [24:06<3:12:51,  5.26s/it][A
Training...:  16% 412/2609 [24:11<3:07:08,  5.11s/it][A
Training...:  16% 413/2609 [24:16<3:02:21,  4.98s/it][A
Training...:  16% 414/2609 [24:20<2:57:28,  4.85s/it][A
Training...:  16% 415/2609 [24:24<2:51:48,  4.70s/it][A
Training...:  16% 416/2609 [24:29<2:47:33,  4.58s/it][A
Training...:  16% 417/2609 [24:33<2:42:45,  4.46s/it][A
Training...:  16% 418/2609 [24:37<2:37:17,  4.31s/it][A
Training...:  16% 419/2609 [24:41<2:33:08,  4.20s/it][A
Training...:  16% 420/2609 [24:45<2:28:48,  4.08s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [15:56:09<36:02:29, 9267.83s/it]
Training...:  16% 420/2609 [24:49<2:28:48,  4.08s/it][A
Training...:  16% 421/2609 [24:49<2:30:57,  4.14s/it][A
Training...:  16% 422/2609 [24:52<2:25:01,  3.98s/it][A
Training...:  16% 423/2609 [24:56<2:20:39,  3.86s/it][A
Training...:  16% 424/2609 [25:00<2:16:31,  3.75s/it][A
Training...:  16% 425/2609 [25:03<2:12:18,  3.64s/it][A
Training...:  16% 426/2609 [25:06<2:08:07,  3.52s/it][A
Training...:  16% 427/2609 [25:09<2:04:08,  3.41s/it][A
Training...:  16% 428/2609 [25:12<2:00:08,  3.31s/it][A
Training...:  16% 429/2609 [25:15<1:56:43,  3.21s/it][A
Training...:  16% 430/2609 [25:18<1:53:47,  3.13s/it][A
Training...:  17% 431/2609 [25:21<1:50:15,  3.04s/it][A
Training...:  17% 432/2609 [25:24<1:46:10,  2.93s/it][A
Training...:  17% 433/2609 [25:26<1:42:34,  2.83s/it][A
Training...:  17% 434/2609 [25:29<1:38:57,  2.73s/it][A
Training...:  17% 435/2609 [25:31<1:35:37,  2.64s/it][A
Training...:  17% 436/2609 [25:34<1:32:20,  2.55s/it][A
Training...:  17% 437/2609 [25:36<1:29:15,  2.47s/it][A
Training...:  17% 438/2609 [25:38<1:25:31,  2.36s/it][A
Training...:  17% 439/2609 [25:40<1:22:07,  2.27s/it][A
Training...:  17% 440/2609 [25:42<1:18:59,  2.19s/it][A
Training...:  17% 441/2609 [25:44<1:15:29,  2.09s/it][A
Training...:  17% 442/2609 [25:46<1:11:53,  1.99s/it][A
Training...:  17% 443/2609 [25:47<1:08:09,  1.89s/it][A
Training...:  17% 444/2609 [25:49<1:04:17,  1.78s/it][A
Training...:  17% 445/2609 [25:50<1:00:14,  1.67s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [15:57:12<36:02:29, 9267.83s/it]
Training...:  17% 445/2609 [25:52<1:00:14,  1.67s/it][A
Training...:  17% 446/2609 [25:52<59:41,  1.66s/it]  [A
Training...:  17% 447/2609 [25:53<54:54,  1.52s/it][A
Training...:  17% 448/2609 [25:54<49:38,  1.38s/it][A
Training...:  17% 449/2609 [25:55<43:45,  1.22s/it][A
Training...:  17% 450/2609 [25:56<36:42,  1.02s/it][A
Training...:  17% 451/2609 [26:03<1:42:52,  2.86s/it][A
Training...:  17% 452/2609 [26:10<2:26:24,  4.07s/it][A
Training...:  17% 453/2609 [26:16<2:52:11,  4.79s/it][A
Training...:  17% 454/2609 [26:22<3:08:36,  5.25s/it][A
Training...:  17% 455/2609 [26:28<3:15:12,  5.44s/it][A
Training...:  17% 456/2609 [26:34<3:16:36,  5.48s/it][A
Training...:  18% 457/2609 [26:39<3:16:14,  5.47s/it][A
Training...:  18% 458/2609 [26:44<3:12:34,  5.37s/it][A
Training...:  18% 459/2609 [26:50<3:09:46,  5.30s/it][A
Training...:  18% 460/2609 [26:55<3:08:52,  5.27s/it][A
Training...:  18% 461/2609 [27:00<3:03:55,  5.14s/it][A
Training...:  18% 462/2609 [27:04<2:58:09,  4.98s/it][A
Training...:  18% 463/2609 [27:09<2:52:57,  4.84s/it][A
Training...:  18% 464/2609 [27:13<2:47:25,  4.68s/it][A
Training...:  18% 465/2609 [27:17<2:42:33,  4.55s/it][A
Training...:  18% 466/2609 [27:21<2:37:56,  4.42s/it][A
Training...:  18% 467/2609 [27:26<2:34:00,  4.31s/it][A
Training...:  18% 468/2609 [27:29<2:29:59,  4.20s/it][A
Training...:  18% 469/2609 [27:33<2:26:39,  4.11s/it][A
Training...:  18% 470/2609 [27:37<2:22:31,  4.00s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [15:59:01<36:02:29, 9267.83s/it]
Training...:  18% 470/2609 [27:41<2:22:31,  4.00s/it][A
Training...:  18% 471/2609 [27:41<2:25:20,  4.08s/it][A
Training...:  18% 472/2609 [27:45<2:19:58,  3.93s/it][A
Training...:  18% 473/2609 [27:48<2:15:18,  3.80s/it][A
Training...:  18% 474/2609 [27:52<2:10:34,  3.67s/it][A
Training...:  18% 475/2609 [27:55<2:05:55,  3.54s/it][A
Training...:  18% 476/2609 [27:58<2:01:50,  3.43s/it][A
Training...:  18% 477/2609 [28:01<1:59:04,  3.35s/it][A
Training...:  18% 478/2609 [28:04<1:54:59,  3.24s/it][A
Training...:  18% 479/2609 [28:07<1:51:46,  3.15s/it][A
Training...:  18% 480/2609 [28:10<1:48:03,  3.05s/it][A
Training...:  18% 481/2609 [28:13<1:43:57,  2.93s/it][A
Training...:  18% 482/2609 [28:15<1:40:22,  2.83s/it][A
Training...:  19% 483/2609 [28:18<1:36:59,  2.74s/it][A
Training...:  19% 484/2609 [28:20<1:33:34,  2.64s/it][A
Training...:  19% 485/2609 [28:23<1:30:23,  2.55s/it][A
Training...:  19% 486/2609 [28:25<1:27:10,  2.46s/it][A
Training...:  19% 487/2609 [28:27<1:24:08,  2.38s/it][A
Training...:  19% 488/2609 [28:29<1:20:48,  2.29s/it][A
Training...:  19% 489/2609 [28:31<1:17:33,  2.19s/it][A
Training...:  19% 490/2609 [28:33<1:14:17,  2.10s/it][A
Training...:  19% 491/2609 [28:35<1:10:50,  2.01s/it][A
Training...:  19% 492/2609 [28:36<1:07:26,  1.91s/it][A
Training...:  19% 493/2609 [28:38<1:03:59,  1.81s/it][A
Training...:  19% 494/2609 [28:40<1:00:33,  1.72s/it][A
Training...:  19% 495/2609 [28:41<56:53,  1.61s/it]  [A                                                                                                                                                                   
                                                   [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:00:02<36:02:29, 9267.83s/it]
Training...:  19% 495/2609 [28:43<56:53,  1.61s/it][A
Training...:  19% 496/2609 [28:43<56:26,  1.60s/it][A
Training...:  19% 497/2609 [28:44<51:24,  1.46s/it][A
Training...:  19% 498/2609 [28:45<45:52,  1.30s/it][A
Training...:  19% 499/2609 [28:45<40:29,  1.15s/it][A
Training...:  19% 500/2609 [28:46<34:07,  1.03it/s][A
Training...:  19% 501/2609 [28:53<1:41:58,  2.90s/it][A
Training...:  19% 502/2609 [29:00<2:25:51,  4.15s/it][A
Training...:  19% 503/2609 [29:07<2:51:49,  4.90s/it][A
Training...:  19% 504/2609 [29:13<3:05:52,  5.30s/it][A
Training...:  19% 505/2609 [29:19<3:12:32,  5.49s/it][A
Training...:  19% 506/2609 [29:25<3:14:29,  5.55s/it][A
Training...:  19% 507/2609 [29:30<3:14:03,  5.54s/it][A
Training...:  19% 508/2609 [29:36<3:11:40,  5.47s/it][A
Training...:  20% 509/2609 [29:41<3:08:35,  5.39s/it][A
Training...:  20% 510/2609 [29:46<3:03:46,  5.25s/it][A
Training...:  20% 511/2609 [29:51<2:59:16,  5.13s/it][A
Training...:  20% 512/2609 [29:55<2:54:44,  5.00s/it][A
Training...:  20% 513/2609 [30:00<2:50:30,  4.88s/it][A
Training...:  20% 514/2609 [30:04<2:45:13,  4.73s/it][A
Training...:  20% 515/2609 [30:09<2:40:14,  4.59s/it][A
Training...:  20% 516/2609 [30:13<2:35:40,  4.46s/it][A
Training...:  20% 517/2609 [30:17<2:31:07,  4.33s/it][A
Training...:  20% 518/2609 [30:21<2:26:43,  4.21s/it][A
Training...:  20% 519/2609 [30:25<2:23:06,  4.11s/it][A
Training...:  20% 520/2609 [30:28<2:19:05,  3.99s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:01:53<36:02:29, 9267.83s/it]
Training...:  20% 520/2609 [30:33<2:19:05,  3.99s/it][A
Training...:  20% 521/2609 [30:33<2:21:47,  4.07s/it][A
Training...:  20% 522/2609 [30:36<2:16:15,  3.92s/it][A
Training...:  20% 523/2609 [30:40<2:11:45,  3.79s/it][A
Training...:  20% 524/2609 [30:43<2:07:15,  3.66s/it][A
Training...:  20% 525/2609 [30:46<2:03:22,  3.55s/it][A
Training...:  20% 526/2609 [30:49<1:59:07,  3.43s/it][A
Training...:  20% 527/2609 [30:53<1:55:25,  3.33s/it][A
Training...:  20% 528/2609 [30:56<1:51:44,  3.22s/it][A
Training...:  20% 529/2609 [30:59<1:48:54,  3.14s/it][A
Training...:  20% 530/2609 [31:01<1:45:39,  3.05s/it][A
Training...:  20% 531/2609 [31:04<1:42:53,  2.97s/it][A
Training...:  20% 532/2609 [31:07<1:39:11,  2.87s/it][A
Training...:  20% 533/2609 [31:09<1:35:52,  2.77s/it][A
Training...:  20% 534/2609 [31:12<1:32:18,  2.67s/it][A
Training...:  21% 535/2609 [31:14<1:29:02,  2.58s/it][A
Training...:  21% 536/2609 [31:16<1:25:41,  2.48s/it][A
Training...:  21% 537/2609 [31:19<1:22:37,  2.39s/it][A
Training...:  21% 538/2609 [31:21<1:19:08,  2.29s/it][A
Training...:  21% 539/2609 [31:23<1:15:59,  2.20s/it][A
Training...:  21% 540/2609 [31:24<1:12:35,  2.10s/it][A
Training...:  21% 541/2609 [31:26<1:09:33,  2.02s/it][A
Training...:  21% 542/2609 [31:28<1:06:28,  1.93s/it][A
Training...:  21% 543/2609 [31:30<1:03:32,  1.85s/it][A
Training...:  21% 544/2609 [31:31<1:00:17,  1.75s/it][A
Training...:  21% 545/2609 [31:33<56:42,  1.65s/it]  [A                                                                                                                                                                   
                                                   [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:02:54<36:02:29, 9267.83s/it]
Training...:  21% 545/2609 [31:34<56:42,  1.65s/it][A
Training...:  21% 546/2609 [31:34<56:07,  1.63s/it][A
Training...:  21% 547/2609 [31:35<50:57,  1.48s/it][A
Training...:  21% 548/2609 [31:36<45:26,  1.32s/it][A
Training...:  21% 549/2609 [31:37<39:38,  1.15s/it][A
Training...:  21% 550/2609 [31:38<32:55,  1.04it/s][A
Training...:  21% 551/2609 [31:45<1:36:45,  2.82s/it][A
Training...:  21% 552/2609 [31:52<2:21:16,  4.12s/it][A
Training...:  21% 553/2609 [31:58<2:46:10,  4.85s/it][A
Training...:  21% 554/2609 [32:05<2:59:57,  5.25s/it][A
Training...:  21% 555/2609 [32:10<3:06:23,  5.44s/it][A
Training...:  21% 556/2609 [32:16<3:08:43,  5.52s/it][A
Training...:  21% 557/2609 [32:22<3:07:34,  5.48s/it][A
Training...:  21% 558/2609 [32:27<3:03:32,  5.37s/it][A
Training...:  21% 559/2609 [32:32<2:59:38,  5.26s/it][A
Training...:  21% 560/2609 [32:37<2:55:19,  5.13s/it][A
Training...:  22% 561/2609 [32:41<2:50:41,  5.00s/it][A
Training...:  22% 562/2609 [32:46<2:46:10,  4.87s/it][A
Training...:  22% 563/2609 [32:50<2:42:00,  4.75s/it][A
Training...:  22% 564/2609 [32:55<2:37:32,  4.62s/it][A
Training...:  22% 565/2609 [32:59<2:34:00,  4.52s/it][A
Training...:  22% 566/2609 [33:03<2:29:34,  4.39s/it][A
Training...:  22% 567/2609 [33:07<2:26:11,  4.30s/it][A
Training...:  22% 568/2609 [33:11<2:22:25,  4.19s/it][A
Training...:  22% 569/2609 [33:15<2:19:28,  4.10s/it][A
Training...:  22% 570/2609 [33:19<2:15:07,  3.98s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:04:43<36:02:29, 9267.83s/it]
Training...:  22% 570/2609 [33:23<2:15:07,  3.98s/it][A
Training...:  22% 571/2609 [33:23<2:18:00,  4.06s/it][A
Training...:  22% 572/2609 [33:26<2:12:02,  3.89s/it][A
Training...:  22% 573/2609 [33:30<2:07:10,  3.75s/it][A
Training...:  22% 574/2609 [33:33<2:02:31,  3.61s/it][A
Training...:  22% 575/2609 [33:36<1:58:21,  3.49s/it][A
Training...:  22% 576/2609 [33:39<1:54:19,  3.37s/it][A
Training...:  22% 577/2609 [33:42<1:51:57,  3.31s/it][A
Training...:  22% 578/2609 [33:45<1:48:23,  3.20s/it][A
Training...:  22% 579/2609 [33:48<1:45:30,  3.12s/it][A
Training...:  22% 580/2609 [33:51<1:42:22,  3.03s/it][A
Training...:  22% 581/2609 [33:54<1:39:21,  2.94s/it][A
Training...:  22% 582/2609 [33:57<1:36:06,  2.84s/it][A
Training...:  22% 583/2609 [33:59<1:33:06,  2.76s/it][A
Training...:  22% 584/2609 [34:02<1:30:00,  2.67s/it][A
Training...:  22% 585/2609 [34:04<1:27:39,  2.60s/it][A
Training...:  22% 586/2609 [34:06<1:25:11,  2.53s/it][A
Training...:  22% 587/2609 [34:09<1:22:35,  2.45s/it][A
Training...:  23% 588/2609 [34:11<1:19:38,  2.36s/it][A
Training...:  23% 589/2609 [34:13<1:16:31,  2.27s/it][A
Training...:  23% 590/2609 [34:15<1:13:15,  2.18s/it][A
Training...:  23% 591/2609 [34:17<1:09:54,  2.08s/it][A
Training...:  23% 592/2609 [34:18<1:06:33,  1.98s/it][A
Training...:  23% 593/2609 [34:20<1:03:18,  1.88s/it][A
Training...:  23% 594/2609 [34:22<59:42,  1.78s/it]  [A
Training...:  23% 595/2609 [34:23<56:11,  1.67s/it][A                                                                                                                                                                   
                                                   [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:05:45<36:02:29, 9267.83s/it]
Training...:  23% 595/2609 [34:25<56:11,  1.67s/it][A
Training...:  23% 596/2609 [34:25<55:57,  1.67s/it][A
Training...:  23% 597/2609 [34:26<51:11,  1.53s/it][A
Training...:  23% 598/2609 [34:27<46:22,  1.38s/it][A
Training...:  23% 599/2609 [34:28<40:55,  1.22s/it][A
Training...:  23% 600/2609 [34:28<34:25,  1.03s/it][A
Training...:  23% 601/2609 [34:36<1:37:33,  2.92s/it][A
Training...:  23% 602/2609 [34:43<2:20:31,  4.20s/it][A
Training...:  23% 603/2609 [34:49<2:45:00,  4.94s/it][A
Training...:  23% 604/2609 [34:56<2:57:29,  5.31s/it][A
Training...:  23% 605/2609 [35:02<3:04:16,  5.52s/it][A
Training...:  23% 606/2609 [35:07<3:05:45,  5.56s/it][A
Training...:  23% 607/2609 [35:13<3:05:14,  5.55s/it][A
Training...:  23% 608/2609 [35:18<3:02:25,  5.47s/it][A
Training...:  23% 609/2609 [35:23<2:59:38,  5.39s/it][A
Training...:  23% 610/2609 [35:28<2:54:43,  5.24s/it][A
Training...:  23% 611/2609 [35:33<2:51:22,  5.15s/it][A
Training...:  23% 612/2609 [35:38<2:46:57,  5.02s/it][A
Training...:  23% 613/2609 [35:43<2:43:16,  4.91s/it][A
Training...:  24% 614/2609 [35:47<2:38:08,  4.76s/it][A
Training...:  24% 615/2609 [35:51<2:33:38,  4.62s/it][A
Training...:  24% 616/2609 [35:55<2:29:38,  4.51s/it][A
Training...:  24% 617/2609 [36:00<2:25:40,  4.39s/it][A
Training...:  24% 618/2609 [36:04<2:21:01,  4.25s/it][A
Training...:  24% 619/2609 [36:07<2:17:00,  4.13s/it][A
Training...:  24% 620/2609 [36:11<2:12:53,  4.01s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:07:35<36:02:29, 9267.83s/it]
Training...:  24% 620/2609 [36:15<2:12:53,  4.01s/it][A
Training...:  24% 621/2609 [36:15<2:15:25,  4.09s/it][A
Training...:  24% 622/2609 [36:19<2:09:24,  3.91s/it][A
Training...:  24% 623/2609 [36:22<2:04:52,  3.77s/it][A
Training...:  24% 624/2609 [36:26<2:00:52,  3.65s/it][A
Training...:  24% 625/2609 [36:29<1:56:57,  3.54s/it][A
Training...:  24% 626/2609 [36:32<1:52:54,  3.42s/it][A
Training...:  24% 627/2609 [36:35<1:49:04,  3.30s/it][A
Training...:  24% 628/2609 [36:38<1:45:34,  3.20s/it][A
Training...:  24% 629/2609 [36:41<1:42:32,  3.11s/it][A
Training...:  24% 630/2609 [36:44<1:39:34,  3.02s/it][A
Training...:  24% 631/2609 [36:46<1:36:15,  2.92s/it][A
Training...:  24% 632/2609 [36:49<1:33:12,  2.83s/it][A
Training...:  24% 633/2609 [36:52<1:30:00,  2.73s/it][A
Training...:  24% 634/2609 [36:54<1:27:29,  2.66s/it][A
Training...:  24% 635/2609 [36:56<1:24:36,  2.57s/it][A
Training...:  24% 636/2609 [36:59<1:21:52,  2.49s/it][A
Training...:  24% 637/2609 [37:01<1:18:43,  2.40s/it][A
Training...:  24% 638/2609 [37:03<1:16:04,  2.32s/it][A
Training...:  24% 639/2609 [37:05<1:12:46,  2.22s/it][A
Training...:  25% 640/2609 [37:07<1:09:51,  2.13s/it][A
Training...:  25% 641/2609 [37:09<1:06:45,  2.04s/it][A
Training...:  25% 642/2609 [37:11<1:03:56,  1.95s/it][A
Training...:  25% 643/2609 [37:12<1:01:06,  1.86s/it][A
Training...:  25% 644/2609 [37:14<58:05,  1.77s/it]  [A
Training...:  25% 645/2609 [37:15<54:33,  1.67s/it][A                                                                                                                                                                   
                                                   [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:08:37<36:02:29, 9267.83s/it]
Training...:  25% 645/2609 [37:17<54:33,  1.67s/it][A
Training...:  25% 646/2609 [37:17<54:08,  1.65s/it][A
Training...:  25% 647/2609 [37:18<49:04,  1.50s/it][A
Training...:  25% 648/2609 [37:19<43:55,  1.34s/it][A
Training...:  25% 649/2609 [37:20<38:29,  1.18s/it][A
Training...:  25% 650/2609 [37:20<32:16,  1.01it/s][A
Training...:  25% 651/2609 [37:28<1:34:02,  2.88s/it][A
Training...:  25% 652/2609 [37:35<2:14:55,  4.14s/it][A
Training...:  25% 653/2609 [37:41<2:38:52,  4.87s/it][A
Training...:  25% 654/2609 [37:48<2:53:21,  5.32s/it][A
Training...:  25% 655/2609 [37:54<2:59:42,  5.52s/it][A
Training...:  25% 656/2609 [37:59<3:02:57,  5.62s/it][A
Training...:  25% 657/2609 [38:05<3:02:30,  5.61s/it][A
Training...:  25% 658/2609 [38:10<2:59:03,  5.51s/it][A
Training...:  25% 659/2609 [38:15<2:55:42,  5.41s/it][A
Training...:  25% 660/2609 [38:20<2:51:29,  5.28s/it][A
Training...:  25% 661/2609 [38:25<2:47:13,  5.15s/it][A
Training...:  25% 662/2609 [38:30<2:43:39,  5.04s/it][A
Training...:  25% 663/2609 [38:35<2:40:12,  4.94s/it][A
Training...:  25% 664/2609 [38:39<2:35:56,  4.81s/it][A
Training...:  25% 665/2609 [38:44<2:31:17,  4.67s/it][A
Training...:  26% 666/2609 [38:48<2:27:15,  4.55s/it][A
Training...:  26% 667/2609 [38:52<2:23:13,  4.43s/it][A
Training...:  26% 668/2609 [38:56<2:19:14,  4.30s/it][A
Training...:  26% 669/2609 [39:00<2:15:29,  4.19s/it][A
Training...:  26% 670/2609 [39:04<2:13:03,  4.12s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:10:28<36:02:29, 9267.83s/it]
Training...:  26% 670/2609 [39:08<2:13:03,  4.12s/it][A
Training...:  26% 671/2609 [39:08<2:15:28,  4.19s/it][A
Training...:  26% 672/2609 [39:12<2:09:42,  4.02s/it][A
Training...:  26% 673/2609 [39:15<2:05:02,  3.88s/it][A
Training...:  26% 674/2609 [39:19<2:00:07,  3.72s/it][A
Training...:  26% 675/2609 [39:22<1:55:56,  3.60s/it][A
Training...:  26% 676/2609 [39:25<1:51:51,  3.47s/it][A
Training...:  26% 677/2609 [39:28<1:48:10,  3.36s/it][A
Training...:  26% 678/2609 [39:31<1:44:54,  3.26s/it][A
Training...:  26% 679/2609 [39:34<1:41:52,  3.17s/it][A
Training...:  26% 680/2609 [39:37<1:38:45,  3.07s/it][A
Training...:  26% 681/2609 [39:40<1:35:50,  2.98s/it][A
Training...:  26% 682/2609 [39:43<1:32:39,  2.88s/it][A
Training...:  26% 683/2609 [39:45<1:29:53,  2.80s/it][A
Training...:  26% 684/2609 [39:48<1:26:51,  2.71s/it][A
Training...:  26% 685/2609 [39:50<1:23:43,  2.61s/it][A
Training...:  26% 686/2609 [39:52<1:20:33,  2.51s/it][A
Training...:  26% 687/2609 [39:55<1:17:39,  2.42s/it][A
Training...:  26% 688/2609 [39:57<1:14:37,  2.33s/it][A
Training...:  26% 689/2609 [39:59<1:11:29,  2.23s/it][A
Training...:  26% 690/2609 [40:01<1:08:22,  2.14s/it][A
Training...:  26% 691/2609 [40:03<1:05:25,  2.05s/it][A
Training...:  27% 692/2609 [40:04<1:02:17,  1.95s/it][A
Training...:  27% 693/2609 [40:06<59:19,  1.86s/it]  [A
Training...:  27% 694/2609 [40:07<56:19,  1.76s/it][A
Training...:  27% 695/2609 [40:09<53:00,  1.66s/it][A                                                                                                                                                                   
                                                   [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:11:30<36:02:29, 9267.83s/it]
Training...:  27% 695/2609 [40:11<53:00,  1.66s/it][A
Training...:  27% 696/2609 [40:11<53:01,  1.66s/it][A
Training...:  27% 697/2609 [40:12<48:14,  1.51s/it][A
Training...:  27% 698/2609 [40:13<43:27,  1.36s/it][A
Training...:  27% 699/2609 [40:14<38:17,  1.20s/it][A
Training...:  27% 700/2609 [40:14<32:30,  1.02s/it][A
Training...:  27% 701/2609 [40:21<1:31:40,  2.88s/it][A
Training...:  27% 702/2609 [40:28<2:12:13,  4.16s/it][A
Training...:  27% 703/2609 [40:35<2:35:35,  4.90s/it][A
Training...:  27% 704/2609 [40:41<2:48:52,  5.32s/it][A
Training...:  27% 705/2609 [40:47<2:54:55,  5.51s/it][A
Training...:  27% 706/2609 [40:53<2:57:06,  5.58s/it][A
Training...:  27% 707/2609 [40:59<2:59:20,  5.66s/it][A
Training...:  27% 708/2609 [41:04<2:56:13,  5.56s/it][A
Training...:  27% 709/2609 [41:09<2:51:58,  5.43s/it][A
Training...:  27% 710/2609 [41:14<2:47:13,  5.28s/it][A
Training...:  27% 711/2609 [41:19<2:42:53,  5.15s/it][A
Training...:  27% 712/2609 [41:24<2:38:25,  5.01s/it][A
Training...:  27% 713/2609 [41:28<2:33:35,  4.86s/it][A
Training...:  27% 714/2609 [41:33<2:29:08,  4.72s/it][A
Training...:  27% 715/2609 [41:37<2:24:53,  4.59s/it][A
Training...:  27% 716/2609 [41:41<2:20:05,  4.44s/it][A
Training...:  27% 717/2609 [41:45<2:16:58,  4.34s/it][A
Training...:  28% 718/2609 [41:49<2:13:05,  4.22s/it][A
Training...:  28% 719/2609 [41:53<2:09:32,  4.11s/it][A
Training...:  28% 720/2609 [41:57<2:06:01,  4.00s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:13:21<36:02:29, 9267.83s/it]
Training...:  28% 720/2609 [42:01<2:06:01,  4.00s/it][A
Training...:  28% 721/2609 [42:01<2:07:51,  4.06s/it][A
Training...:  28% 722/2609 [42:05<2:02:40,  3.90s/it][A
Training...:  28% 723/2609 [42:08<1:57:37,  3.74s/it][A
Training...:  28% 724/2609 [42:11<1:53:33,  3.61s/it][A
Training...:  28% 725/2609 [42:14<1:49:56,  3.50s/it][A
Training...:  28% 726/2609 [42:18<1:45:54,  3.37s/it][A
Training...:  28% 727/2609 [42:21<1:42:29,  3.27s/it][A
Training...:  28% 728/2609 [42:23<1:39:15,  3.17s/it][A
Training...:  28% 729/2609 [42:26<1:36:31,  3.08s/it][A
Training...:  28% 730/2609 [42:29<1:33:26,  2.98s/it][A
Training...:  28% 731/2609 [42:32<1:31:05,  2.91s/it][A
Training...:  28% 732/2609 [42:35<1:28:30,  2.83s/it][A
Training...:  28% 733/2609 [42:37<1:25:26,  2.73s/it][A
Training...:  28% 734/2609 [42:39<1:22:39,  2.65s/it][A
Training...:  28% 735/2609 [42:42<1:19:41,  2.55s/it][A
Training...:  28% 736/2609 [42:44<1:16:44,  2.46s/it][A
Training...:  28% 737/2609 [42:46<1:13:49,  2.37s/it][A
Training...:  28% 738/2609 [42:48<1:10:45,  2.27s/it][A
Training...:  28% 739/2609 [42:50<1:07:44,  2.17s/it][A
Training...:  28% 740/2609 [42:52<1:04:57,  2.09s/it][A
Training...:  28% 741/2609 [42:54<1:01:56,  1.99s/it][A
Training...:  28% 742/2609 [42:56<59:01,  1.90s/it]  [A
Training...:  28% 743/2609 [42:57<55:52,  1.80s/it][A
Training...:  29% 744/2609 [42:59<52:42,  1.70s/it][A
Training...:  29% 745/2609 [43:00<49:09,  1.58s/it][A                                                                                                                                                                   
                                                   [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:14:21<36:02:29, 9267.83s/it]
Training...:  29% 745/2609 [43:01<49:09,  1.58s/it][A
Training...:  29% 746/2609 [43:01<49:09,  1.58s/it][A
Training...:  29% 747/2609 [43:03<44:40,  1.44s/it][A
Training...:  29% 748/2609 [43:03<39:47,  1.28s/it][A
Training...:  29% 749/2609 [43:04<34:57,  1.13s/it][A
Training...:  29% 750/2609 [43:05<29:09,  1.06it/s][A
Training...:  29% 751/2609 [43:12<1:27:59,  2.84s/it][A
Training...:  29% 752/2609 [43:19<2:07:25,  4.12s/it][A
Training...:  29% 753/2609 [43:26<2:30:44,  4.87s/it][A
Training...:  29% 754/2609 [43:32<2:44:30,  5.32s/it][A
Training...:  29% 755/2609 [43:38<2:50:34,  5.52s/it][A
Training...:  29% 756/2609 [43:44<2:52:14,  5.58s/it][A
Training...:  29% 757/2609 [43:49<2:52:11,  5.58s/it][A
Training...:  29% 758/2609 [43:55<2:50:12,  5.52s/it][A
Training...:  29% 759/2609 [44:00<2:46:41,  5.41s/it][A
Training...:  29% 760/2609 [44:05<2:42:02,  5.26s/it][A
Training...:  29% 761/2609 [44:10<2:37:47,  5.12s/it][A
Training...:  29% 762/2609 [44:14<2:33:17,  4.98s/it][A
Training...:  29% 763/2609 [44:19<2:29:19,  4.85s/it][A
Training...:  29% 764/2609 [44:23<2:24:57,  4.71s/it][A
Training...:  29% 765/2609 [44:28<2:21:04,  4.59s/it][A
Training...:  29% 766/2609 [44:32<2:17:06,  4.46s/it][A
Training...:  29% 767/2609 [44:36<2:13:03,  4.33s/it][A
Training...:  29% 768/2609 [44:40<2:08:57,  4.20s/it][A
Training...:  29% 769/2609 [44:43<2:05:32,  4.09s/it][A
Training...:  30% 770/2609 [44:47<2:02:21,  3.99s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:16:11<36:02:29, 9267.83s/it]
Training...:  30% 770/2609 [44:51<2:02:21,  3.99s/it][A
Training...:  30% 771/2609 [44:51<2:04:47,  4.07s/it][A
Training...:  30% 772/2609 [44:55<1:59:59,  3.92s/it][A
Training...:  30% 773/2609 [44:58<1:54:56,  3.76s/it][A
Training...:  30% 774/2609 [45:02<1:50:36,  3.62s/it][A
Training...:  30% 775/2609 [45:05<1:46:41,  3.49s/it][A
Training...:  30% 776/2609 [45:08<1:43:01,  3.37s/it][A
Training...:  30% 777/2609 [45:11<1:39:53,  3.27s/it][A
Training...:  30% 778/2609 [45:14<1:36:58,  3.18s/it][A
Training...:  30% 779/2609 [45:17<1:34:17,  3.09s/it][A
Training...:  30% 780/2609 [45:20<1:31:43,  3.01s/it][A
Training...:  30% 781/2609 [45:22<1:28:45,  2.91s/it][A
Training...:  30% 782/2609 [45:25<1:25:56,  2.82s/it][A
Training...:  30% 783/2609 [45:28<1:23:16,  2.74s/it][A
Training...:  30% 784/2609 [45:30<1:20:20,  2.64s/it][A
Training...:  30% 785/2609 [45:32<1:17:42,  2.56s/it][A
Training...:  30% 786/2609 [45:35<1:15:06,  2.47s/it][A
Training...:  30% 787/2609 [45:37<1:12:59,  2.40s/it][A
Training...:  30% 788/2609 [45:39<1:10:16,  2.32s/it][A
Training...:  30% 789/2609 [45:41<1:07:46,  2.23s/it][A
Training...:  30% 790/2609 [45:43<1:05:10,  2.15s/it][A
Training...:  30% 791/2609 [45:45<1:02:24,  2.06s/it][A
Training...:  30% 792/2609 [45:47<59:41,  1.97s/it]  [A
Training...:  30% 793/2609 [45:48<56:36,  1.87s/it][A
Training...:  30% 794/2609 [45:50<53:29,  1.77s/it][A
Training...:  30% 795/2609 [45:51<50:11,  1.66s/it][A                                                                                                                                                                   
                                                   [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:17:13<36:02:29, 9267.83s/it]
Training...:  30% 795/2609 [45:53<50:11,  1.66s/it][A
Training...:  31% 796/2609 [45:53<49:42,  1.64s/it][A
Training...:  31% 797/2609 [45:54<45:15,  1.50s/it][A
Training...:  31% 798/2609 [45:55<40:53,  1.35s/it][A
Training...:  31% 799/2609 [45:56<36:23,  1.21s/it][A
Training...:  31% 800/2609 [45:56<30:53,  1.02s/it][A
Training...:  31% 801/2609 [46:03<1:25:39,  2.84s/it][A
Training...:  31% 802/2609 [46:11<2:04:24,  4.13s/it][A
Training...:  31% 803/2609 [46:17<2:27:15,  4.89s/it][A
Training...:  31% 804/2609 [46:24<2:39:43,  5.31s/it][A
Training...:  31% 805/2609 [46:30<2:45:53,  5.52s/it][A
Training...:  31% 806/2609 [46:35<2:48:02,  5.59s/it][A
Training...:  31% 807/2609 [46:41<2:48:26,  5.61s/it][A
Training...:  31% 808/2609 [46:46<2:46:04,  5.53s/it][A
Training...:  31% 809/2609 [46:52<2:42:56,  5.43s/it][A
Training...:  31% 810/2609 [46:56<2:38:44,  5.29s/it][A
Training...:  31% 811/2609 [47:01<2:35:12,  5.18s/it][A
Training...:  31% 812/2609 [47:06<2:30:19,  5.02s/it][A
Training...:  31% 813/2609 [47:11<2:25:53,  4.87s/it][A
Training...:  31% 814/2609 [47:15<2:21:25,  4.73s/it][A
Training...:  31% 815/2609 [47:19<2:17:23,  4.60s/it][A
Training...:  31% 816/2609 [47:23<2:13:18,  4.46s/it][A
Training...:  31% 817/2609 [47:27<2:09:48,  4.35s/it][A
Training...:  31% 818/2609 [47:31<2:06:11,  4.23s/it][A
Training...:  31% 819/2609 [47:35<2:03:32,  4.14s/it][A
Training...:  31% 820/2609 [47:39<2:00:09,  4.03s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:19:03<36:02:29, 9267.83s/it]
Training...:  31% 820/2609 [47:43<2:00:09,  4.03s/it][A
Training...:  31% 821/2609 [47:43<2:02:03,  4.10s/it][A
Training...:  32% 822/2609 [47:47<1:57:07,  3.93s/it][A
Training...:  32% 823/2609 [47:50<1:52:38,  3.78s/it][A
Training...:  32% 824/2609 [47:54<1:48:30,  3.65s/it][A
Training...:  32% 825/2609 [47:57<1:44:53,  3.53s/it][A
Training...:  32% 826/2609 [48:00<1:41:38,  3.42s/it][A
Training...:  32% 827/2609 [48:03<1:39:35,  3.35s/it][A
Training...:  32% 828/2609 [48:06<1:36:08,  3.24s/it][A
Training...:  32% 829/2609 [48:09<1:32:58,  3.13s/it][A
Training...:  32% 830/2609 [48:12<1:29:54,  3.03s/it][A
Training...:  32% 831/2609 [48:15<1:27:27,  2.95s/it][A
Training...:  32% 832/2609 [48:17<1:24:18,  2.85s/it][A
Training...:  32% 833/2609 [48:20<1:21:32,  2.75s/it][A
Training...:  32% 834/2609 [48:22<1:18:42,  2.66s/it][A
Training...:  32% 835/2609 [48:25<1:16:07,  2.57s/it][A
Training...:  32% 836/2609 [48:27<1:13:35,  2.49s/it][A
Training...:  32% 837/2609 [48:29<1:11:25,  2.42s/it][A
Training...:  32% 838/2609 [48:31<1:08:56,  2.34s/it][A
Training...:  32% 839/2609 [48:33<1:06:32,  2.26s/it][A
Training...:  32% 840/2609 [48:35<1:03:49,  2.16s/it][A
Training...:  32% 841/2609 [48:37<1:01:03,  2.07s/it][A
Training...:  32% 842/2609 [48:39<58:20,  1.98s/it]  [A
Training...:  32% 843/2609 [48:41<55:33,  1.89s/it][A
Training...:  32% 844/2609 [48:42<52:37,  1.79s/it][A
Training...:  32% 845/2609 [48:44<49:35,  1.69s/it][A                                                                                                                                                                   
                                                   [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:20:05<36:02:29, 9267.83s/it]
Training...:  32% 845/2609 [48:45<49:35,  1.69s/it][A
Training...:  32% 846/2609 [48:45<49:14,  1.68s/it][A
Training...:  32% 847/2609 [48:47<44:54,  1.53s/it][A
Training...:  33% 848/2609 [48:48<40:35,  1.38s/it][A
Training...:  33% 849/2609 [48:48<35:44,  1.22s/it][A
Training...:  33% 850/2609 [48:49<30:03,  1.03s/it][A
Training...:  33% 851/2609 [48:56<1:23:55,  2.86s/it][A
Training...:  33% 852/2609 [49:03<2:01:02,  4.13s/it][A
Training...:  33% 853/2609 [49:10<2:21:43,  4.84s/it][A
Training...:  33% 854/2609 [49:16<2:34:55,  5.30s/it][A
Training...:  33% 855/2609 [49:22<2:41:51,  5.54s/it][A
Training...:  33% 856/2609 [49:28<2:43:16,  5.59s/it][A
Training...:  33% 857/2609 [49:33<2:42:47,  5.58s/it][A
Training...:  33% 858/2609 [49:39<2:40:13,  5.49s/it][A
Training...:  33% 859/2609 [49:44<2:37:06,  5.39s/it][A
Training...:  33% 860/2609 [49:49<2:33:13,  5.26s/it][A
Training...:  33% 861/2609 [49:54<2:30:03,  5.15s/it][A
Training...:  33% 862/2609 [49:58<2:26:03,  5.02s/it][A
Training...:  33% 863/2609 [50:03<2:23:37,  4.94s/it][A
Training...:  33% 864/2609 [50:08<2:18:58,  4.78s/it][A
Training...:  33% 865/2609 [50:12<2:14:52,  4.64s/it][A
Training...:  33% 866/2609 [50:16<2:10:15,  4.48s/it][A
Training...:  33% 867/2609 [50:20<2:06:45,  4.37s/it][A
Training...:  33% 868/2609 [50:24<2:02:24,  4.22s/it][A
Training...:  33% 869/2609 [50:28<1:58:58,  4.10s/it][A
Training...:  33% 870/2609 [50:32<1:55:16,  3.98s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:21:56<36:02:29, 9267.83s/it]
Training...:  33% 870/2609 [50:36<1:55:16,  3.98s/it][A
Training...:  33% 871/2609 [50:36<1:57:44,  4.06s/it][A
Training...:  33% 872/2609 [50:39<1:52:56,  3.90s/it][A
Training...:  33% 873/2609 [50:43<1:49:13,  3.78s/it][A
Training...:  33% 874/2609 [50:46<1:45:25,  3.65s/it][A
Training...:  34% 875/2609 [50:49<1:41:43,  3.52s/it][A
Training...:  34% 876/2609 [50:52<1:38:11,  3.40s/it][A
Training...:  34% 877/2609 [50:56<1:35:15,  3.30s/it][A
Training...:  34% 878/2609 [50:59<1:32:39,  3.21s/it][A
Training...:  34% 879/2609 [51:02<1:30:27,  3.14s/it][A
Training...:  34% 880/2609 [51:04<1:27:35,  3.04s/it][A
Training...:  34% 881/2609 [51:07<1:24:46,  2.94s/it][A
Training...:  34% 882/2609 [51:10<1:21:50,  2.84s/it][A
Training...:  34% 883/2609 [51:12<1:19:35,  2.77s/it][A
Training...:  34% 884/2609 [51:15<1:16:53,  2.67s/it][A
Training...:  34% 885/2609 [51:17<1:14:44,  2.60s/it][A
Training...:  34% 886/2609 [51:19<1:12:17,  2.52s/it][A
Training...:  34% 887/2609 [51:22<1:09:52,  2.43s/it][A
Training...:  34% 888/2609 [51:24<1:07:07,  2.34s/it][A
Training...:  34% 889/2609 [51:26<1:04:21,  2.25s/it][A
Training...:  34% 890/2609 [51:28<1:01:26,  2.14s/it][A
Training...:  34% 891/2609 [51:30<58:48,  2.05s/it]  [A
Training...:  34% 892/2609 [51:31<56:05,  1.96s/it][A
Training...:  34% 893/2609 [51:33<53:16,  1.86s/it][A
Training...:  34% 894/2609 [51:34<50:22,  1.76s/it][A
Training...:  34% 895/2609 [51:36<47:23,  1.66s/it][A                                                                                                                                                                   
                                                   [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:22:57<36:02:29, 9267.83s/it]
Training...:  34% 895/2609 [51:38<47:23,  1.66s/it][A
Training...:  34% 896/2609 [51:38<47:08,  1.65s/it][A
Training...:  34% 897/2609 [51:39<42:40,  1.50s/it][A
Training...:  34% 898/2609 [51:40<38:24,  1.35s/it][A
Training...:  34% 899/2609 [51:40<33:38,  1.18s/it][A
Training...:  34% 900/2609 [51:41<28:07,  1.01it/s][A
Training...:  35% 901/2609 [51:48<1:20:47,  2.84s/it][A
Training...:  35% 902/2609 [51:55<1:56:38,  4.10s/it][A
Training...:  35% 903/2609 [52:02<2:18:44,  4.88s/it][A
Training...:  35% 904/2609 [52:08<2:31:16,  5.32s/it][A
Training...:  35% 905/2609 [52:14<2:36:40,  5.52s/it][A
Training...:  35% 906/2609 [52:20<2:38:10,  5.57s/it][A
Training...:  35% 907/2609 [52:26<2:39:43,  5.63s/it][A
Training...:  35% 908/2609 [52:31<2:36:16,  5.51s/it][A
Training...:  35% 909/2609 [52:36<2:33:04,  5.40s/it][A
Training...:  35% 910/2609 [52:41<2:28:40,  5.25s/it][A
Training...:  35% 911/2609 [52:46<2:25:15,  5.13s/it][A
Training...:  35% 912/2609 [52:51<2:21:24,  5.00s/it][A
Training...:  35% 913/2609 [52:55<2:17:21,  4.86s/it][A
Training...:  35% 914/2609 [52:59<2:12:47,  4.70s/it][A
Training...:  35% 915/2609 [53:04<2:09:35,  4.59s/it][A
Training...:  35% 916/2609 [53:08<2:05:57,  4.46s/it][A
Training...:  35% 917/2609 [53:12<2:02:36,  4.35s/it][A
Training...:  35% 918/2609 [53:16<1:58:18,  4.20s/it][A
Training...:  35% 919/2609 [53:20<1:54:44,  4.07s/it][A
Training...:  35% 920/2609 [53:23<1:51:25,  3.96s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:24:47<36:02:29, 9267.83s/it]
Training...:  35% 920/2609 [53:28<1:51:25,  3.96s/it][A
Training...:  35% 921/2609 [53:28<1:53:44,  4.04s/it][A
Training...:  35% 922/2609 [53:31<1:49:17,  3.89s/it][A
Training...:  35% 923/2609 [53:34<1:45:24,  3.75s/it][A
Training...:  35% 924/2609 [53:38<1:41:38,  3.62s/it][A
Training...:  35% 925/2609 [53:41<1:38:38,  3.51s/it][A
Training...:  35% 926/2609 [53:44<1:35:27,  3.40s/it][A
Training...:  36% 927/2609 [53:47<1:32:25,  3.30s/it][A
Training...:  36% 928/2609 [53:50<1:29:52,  3.21s/it][A
Training...:  36% 929/2609 [53:53<1:27:10,  3.11s/it][A
Training...:  36% 930/2609 [53:56<1:24:47,  3.03s/it][A
Training...:  36% 931/2609 [53:59<1:22:17,  2.94s/it][A
Training...:  36% 932/2609 [54:01<1:19:29,  2.84s/it][A
Training...:  36% 933/2609 [54:04<1:16:45,  2.75s/it][A
Training...:  36% 934/2609 [54:06<1:14:09,  2.66s/it][A
Training...:  36% 935/2609 [54:09<1:11:13,  2.55s/it][A
Training...:  36% 936/2609 [54:11<1:08:51,  2.47s/it][A
Training...:  36% 937/2609 [54:13<1:06:20,  2.38s/it][A
Training...:  36% 938/2609 [54:15<1:03:33,  2.28s/it][A
Training...:  36% 939/2609 [54:17<1:01:03,  2.19s/it][A
Training...:  36% 940/2609 [54:19<58:36,  2.11s/it]  [A
Training...:  36% 941/2609 [54:21<56:02,  2.02s/it][A
Training...:  36% 942/2609 [54:23<53:50,  1.94s/it][A
Training...:  36% 943/2609 [54:24<50:53,  1.83s/it][A
Training...:  36% 944/2609 [54:26<48:02,  1.73s/it][A
Training...:  36% 945/2609 [54:27<45:04,  1.63s/it][A                                                                                                                                                                   
                                                   [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:25:49<36:02:29, 9267.83s/it]
Training...:  36% 945/2609 [54:29<45:04,  1.63s/it][A
Training...:  36% 946/2609 [54:29<44:51,  1.62s/it][A
Training...:  36% 947/2609 [54:30<40:46,  1.47s/it][A
Training...:  36% 948/2609 [54:31<36:45,  1.33s/it][A
Training...:  36% 949/2609 [54:32<32:22,  1.17s/it][A
Training...:  36% 950/2609 [54:32<27:08,  1.02it/s][A
Training...:  36% 951/2609 [54:39<1:19:16,  2.87s/it][A
Training...:  36% 952/2609 [54:47<1:55:04,  4.17s/it][A
Training...:  37% 953/2609 [54:53<2:17:50,  4.99s/it][A
Training...:  37% 954/2609 [55:00<2:29:01,  5.40s/it][A
Training...:  37% 955/2609 [55:06<2:33:29,  5.57s/it][A
Training...:  37% 956/2609 [55:12<2:34:45,  5.62s/it][A
Training...:  37% 957/2609 [55:17<2:34:08,  5.60s/it][A
Training...:  37% 958/2609 [55:22<2:32:22,  5.54s/it][A
Training...:  37% 959/2609 [55:28<2:30:15,  5.46s/it][A
Training...:  37% 960/2609 [55:33<2:26:16,  5.32s/it][A
Training...:  37% 961/2609 [55:38<2:23:15,  5.22s/it][A
Training...:  37% 962/2609 [55:42<2:19:04,  5.07s/it][A
Training...:  37% 963/2609 [55:47<2:16:13,  4.97s/it][A
Training...:  37% 964/2609 [55:52<2:11:29,  4.80s/it][A
Training...:  37% 965/2609 [55:56<2:07:55,  4.67s/it][A
Training...:  37% 966/2609 [56:00<2:04:18,  4.54s/it][A
Training...:  37% 967/2609 [56:04<2:01:14,  4.43s/it][A
Training...:  37% 968/2609 [56:08<1:57:40,  4.30s/it][A
Training...:  37% 969/2609 [56:12<1:53:53,  4.17s/it][A
Training...:  37% 970/2609 [56:16<1:50:35,  4.05s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:27:40<36:02:29, 9267.83s/it]
Training...:  37% 970/2609 [56:20<1:50:35,  4.05s/it][A
Training...:  37% 971/2609 [56:20<1:52:29,  4.12s/it][A
Training...:  37% 972/2609 [56:24<1:48:06,  3.96s/it][A
Training...:  37% 973/2609 [56:27<1:43:56,  3.81s/it][A
Training...:  37% 974/2609 [56:31<1:39:45,  3.66s/it][A
Training...:  37% 975/2609 [56:34<1:36:34,  3.55s/it][A
Training...:  37% 976/2609 [56:37<1:33:22,  3.43s/it][A
Training...:  37% 977/2609 [56:40<1:30:33,  3.33s/it][A
Training...:  37% 978/2609 [56:43<1:27:43,  3.23s/it][A
Training...:  38% 979/2609 [56:46<1:24:48,  3.12s/it][A
Training...:  38% 980/2609 [56:49<1:22:04,  3.02s/it][A
Training...:  38% 981/2609 [56:52<1:19:37,  2.93s/it][A
Training...:  38% 982/2609 [56:54<1:17:05,  2.84s/it][A
Training...:  38% 983/2609 [56:57<1:14:35,  2.75s/it][A
Training...:  38% 984/2609 [56:59<1:12:09,  2.66s/it][A
Training...:  38% 985/2609 [57:02<1:09:51,  2.58s/it][A
Training...:  38% 986/2609 [57:04<1:07:33,  2.50s/it][A
Training...:  38% 987/2609 [57:06<1:05:14,  2.41s/it][A
Training...:  38% 988/2609 [57:08<1:02:43,  2.32s/it][A
Training...:  38% 989/2609 [57:10<1:00:14,  2.23s/it][A
Training...:  38% 990/2609 [57:12<57:35,  2.13s/it]  [A
Training...:  38% 991/2609 [57:14<54:54,  2.04s/it][A
Training...:  38% 992/2609 [57:16<52:20,  1.94s/it][A
Training...:  38% 993/2609 [57:17<49:47,  1.85s/it][A
Training...:  38% 994/2609 [57:19<46:50,  1.74s/it][A
Training...:  38% 995/2609 [57:20<43:49,  1.63s/it][A                                                                                                                                                                   
                                                   [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:28:42<36:02:29, 9267.83s/it]
Training...:  38% 995/2609 [57:22<43:49,  1.63s/it][A
Training...:  38% 996/2609 [57:22<43:34,  1.62s/it][A
Training...:  38% 997/2609 [57:23<39:50,  1.48s/it][A
Training...:  38% 998/2609 [57:24<35:52,  1.34s/it][A
Training...:  38% 999/2609 [57:25<31:34,  1.18s/it][A
Training...:  38% 1000/2609 [57:25<26:43,  1.00it/s][A
Training...:  38% 1001/2609 [57:33<1:16:55,  2.87s/it][A
Training...:  38% 1002/2609 [57:40<1:51:59,  4.18s/it][A
Training...:  38% 1003/2609 [57:47<2:13:24,  4.98s/it][A
Training...:  38% 1004/2609 [57:53<2:23:39,  5.37s/it][A
Training...:  39% 1005/2609 [57:59<2:28:36,  5.56s/it][A
Training...:  39% 1006/2609 [58:05<2:29:49,  5.61s/it][A
Training...:  39% 1007/2609 [58:10<2:29:09,  5.59s/it][A
Training...:  39% 1008/2609 [58:15<2:26:44,  5.50s/it][A
Training...:  39% 1009/2609 [58:21<2:24:05,  5.40s/it][A
Training...:  39% 1010/2609 [58:26<2:19:48,  5.25s/it][A
Training...:  39% 1011/2609 [58:30<2:16:25,  5.12s/it][A
Training...:  39% 1012/2609 [58:35<2:12:25,  4.98s/it][A
Training...:  39% 1013/2609 [58:40<2:09:14,  4.86s/it][A
Training...:  39% 1014/2609 [58:44<2:06:19,  4.75s/it][A
Training...:  39% 1015/2609 [58:48<2:03:36,  4.65s/it][A
Training...:  39% 1016/2609 [58:53<1:59:46,  4.51s/it][A
Training...:  39% 1017/2609 [58:57<1:57:12,  4.42s/it][A
Training...:  39% 1018/2609 [59:01<1:53:53,  4.30s/it][A
Training...:  39% 1019/2609 [59:05<1:50:43,  4.18s/it][A
Training...:  39% 1020/2609 [59:09<1:47:09,  4.05s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:30:33<36:02:29, 9267.83s/it]
Training...:  39% 1020/2609 [59:13<1:47:09,  4.05s/it][A
Training...:  39% 1021/2609 [59:13<1:49:46,  4.15s/it][A
Training...:  39% 1022/2609 [59:16<1:45:09,  3.98s/it][A
Training...:  39% 1023/2609 [59:20<1:41:20,  3.83s/it][A
Training...:  39% 1024/2609 [59:23<1:37:17,  3.68s/it][A
Training...:  39% 1025/2609 [59:27<1:34:04,  3.56s/it][A
Training...:  39% 1026/2609 [59:30<1:31:07,  3.45s/it][A
Training...:  39% 1027/2609 [59:33<1:28:23,  3.35s/it][A
Training...:  39% 1028/2609 [59:36<1:25:19,  3.24s/it][A
Training...:  39% 1029/2609 [59:39<1:22:43,  3.14s/it][A
Training...:  39% 1030/2609 [59:42<1:20:34,  3.06s/it][A
Training...:  40% 1031/2609 [59:44<1:18:35,  2.99s/it][A
Training...:  40% 1032/2609 [59:47<1:15:52,  2.89s/it][A
Training...:  40% 1033/2609 [59:50<1:13:30,  2.80s/it][A
Training...:  40% 1034/2609 [59:52<1:11:10,  2.71s/it][A
Training...:  40% 1035/2609 [59:55<1:09:06,  2.63s/it][A
Training...:  40% 1036/2609 [59:57<1:07:03,  2.56s/it][A
Training...:  40% 1037/2609 [59:59<1:04:59,  2.48s/it][A
Training...:  40% 1038/2609 [1:00:02<1:02:57,  2.40s/it][A
Training...:  40% 1039/2609 [1:00:04<1:00:15,  2.30s/it][A
Training...:  40% 1040/2609 [1:00:06<57:32,  2.20s/it]  [A
Training...:  40% 1041/2609 [1:00:07<54:54,  2.10s/it][A
Training...:  40% 1042/2609 [1:00:09<52:11,  2.00s/it][A
Training...:  40% 1043/2609 [1:00:11<49:27,  1.90s/it][A
Training...:  40% 1044/2609 [1:00:12<46:31,  1.78s/it][A
Training...:  40% 1045/2609 [1:00:14<43:28,  1.67s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:31:35<36:02:29, 9267.83s/it]
Training...:  40% 1045/2609 [1:00:15<43:28,  1.67s/it][A
Training...:  40% 1046/2609 [1:00:15<43:21,  1.66s/it][A
Training...:  40% 1047/2609 [1:00:17<39:16,  1.51s/it][A
Training...:  40% 1048/2609 [1:00:18<35:12,  1.35s/it][A
Training...:  40% 1049/2609 [1:00:18<30:50,  1.19s/it][A
Training...:  40% 1050/2609 [1:00:19<25:43,  1.01it/s][A
Training...:  40% 1051/2609 [1:00:26<1:14:15,  2.86s/it][A
Training...:  40% 1052/2609 [1:00:33<1:47:24,  4.14s/it][A
Training...:  40% 1053/2609 [1:00:40<2:06:12,  4.87s/it][A
Training...:  40% 1054/2609 [1:00:46<2:17:07,  5.29s/it][A
Training...:  40% 1055/2609 [1:00:52<2:22:45,  5.51s/it][A
Training...:  40% 1056/2609 [1:00:58<2:24:11,  5.57s/it][A
Training...:  41% 1057/2609 [1:01:03<2:24:26,  5.58s/it][A
Training...:  41% 1058/2609 [1:01:09<2:23:10,  5.54s/it][A
Training...:  41% 1059/2609 [1:01:14<2:20:37,  5.44s/it][A
Training...:  41% 1060/2609 [1:01:19<2:16:53,  5.30s/it][A
Training...:  41% 1061/2609 [1:01:24<2:13:45,  5.18s/it][A
Training...:  41% 1062/2609 [1:01:29<2:09:35,  5.03s/it][A
Training...:  41% 1063/2609 [1:01:33<2:06:30,  4.91s/it][A
Training...:  41% 1064/2609 [1:01:38<2:02:39,  4.76s/it][A
Training...:  41% 1065/2609 [1:01:42<1:59:14,  4.63s/it][A
Training...:  41% 1066/2609 [1:01:46<1:55:30,  4.49s/it][A
Training...:  41% 1067/2609 [1:01:50<1:52:03,  4.36s/it][A
Training...:  41% 1068/2609 [1:01:54<1:48:57,  4.24s/it][A
Training...:  41% 1069/2609 [1:01:58<1:46:53,  4.16s/it][A
Training...:  41% 1070/2609 [1:02:02<1:44:40,  4.08s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:33:26<36:02:29, 9267.83s/it]
Training...:  41% 1070/2609 [1:02:06<1:44:40,  4.08s/it][A
Training...:  41% 1071/2609 [1:02:06<1:45:54,  4.13s/it][A
Training...:  41% 1072/2609 [1:02:10<1:41:33,  3.96s/it][A
Training...:  41% 1073/2609 [1:02:13<1:38:05,  3.83s/it][A
Training...:  41% 1074/2609 [1:02:17<1:34:13,  3.68s/it][A
Training...:  41% 1075/2609 [1:02:20<1:31:02,  3.56s/it][A
Training...:  41% 1076/2609 [1:02:23<1:27:42,  3.43s/it][A
Training...:  41% 1077/2609 [1:02:26<1:25:07,  3.33s/it][A
Training...:  41% 1078/2609 [1:02:29<1:22:17,  3.23s/it][A
Training...:  41% 1079/2609 [1:02:32<1:19:38,  3.12s/it][A
Training...:  41% 1080/2609 [1:02:35<1:16:40,  3.01s/it][A
Training...:  41% 1081/2609 [1:02:38<1:14:33,  2.93s/it][A
Training...:  41% 1082/2609 [1:02:40<1:12:07,  2.83s/it][A
Training...:  42% 1083/2609 [1:02:43<1:10:16,  2.76s/it][A
Training...:  42% 1084/2609 [1:02:45<1:08:01,  2.68s/it][A
Training...:  42% 1085/2609 [1:02:48<1:05:49,  2.59s/it][A
Training...:  42% 1086/2609 [1:02:50<1:03:30,  2.50s/it][A
Training...:  42% 1087/2609 [1:02:52<1:01:15,  2.42s/it][A
Training...:  42% 1088/2609 [1:02:54<58:35,  2.31s/it]  [A
Training...:  42% 1089/2609 [1:02:56<56:01,  2.21s/it][A
Training...:  42% 1090/2609 [1:02:58<53:22,  2.11s/it][A
Training...:  42% 1091/2609 [1:03:00<50:54,  2.01s/it][A
Training...:  42% 1092/2609 [1:03:02<48:17,  1.91s/it][A
Training...:  42% 1093/2609 [1:03:03<45:45,  1.81s/it][A
Training...:  42% 1094/2609 [1:03:05<43:07,  1.71s/it][A
Training...:  42% 1095/2609 [1:03:06<40:30,  1.61s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:34:28<36:02:29, 9267.83s/it]
Training...:  42% 1095/2609 [1:03:08<40:30,  1.61s/it][A
Training...:  42% 1096/2609 [1:03:08<40:27,  1.60s/it][A
Training...:  42% 1097/2609 [1:03:09<36:35,  1.45s/it][A
Training...:  42% 1098/2609 [1:03:10<32:39,  1.30s/it][A
Training...:  42% 1099/2609 [1:03:10<28:15,  1.12s/it][A
Training...:  42% 1100/2609 [1:03:11<23:52,  1.05it/s][A
Training...:  42% 1101/2609 [1:03:18<1:11:03,  2.83s/it][A
Training...:  42% 1102/2609 [1:03:25<1:42:43,  4.09s/it][A
Training...:  42% 1103/2609 [1:03:32<2:01:29,  4.84s/it][A
Training...:  42% 1104/2609 [1:03:38<2:12:45,  5.29s/it][A
Training...:  42% 1105/2609 [1:03:44<2:18:13,  5.51s/it][A
Training...:  42% 1106/2609 [1:03:50<2:20:28,  5.61s/it][A
Training...:  42% 1107/2609 [1:03:56<2:20:00,  5.59s/it][A
Training...:  42% 1108/2609 [1:04:01<2:18:55,  5.55s/it][A
Training...:  43% 1109/2609 [1:04:06<2:17:48,  5.51s/it][A
Training...:  43% 1110/2609 [1:04:12<2:15:12,  5.41s/it][A
Training...:  43% 1111/2609 [1:04:17<2:11:37,  5.27s/it][A
Training...:  43% 1112/2609 [1:04:21<2:07:23,  5.11s/it][A
Training...:  43% 1113/2609 [1:04:26<2:03:35,  4.96s/it][A
Training...:  43% 1114/2609 [1:04:30<1:59:29,  4.80s/it][A
Training...:  43% 1115/2609 [1:04:35<1:55:55,  4.66s/it][A
Training...:  43% 1116/2609 [1:04:39<1:52:17,  4.51s/it][A
Training...:  43% 1117/2609 [1:04:43<1:48:50,  4.38s/it][A
Training...:  43% 1118/2609 [1:04:47<1:45:25,  4.24s/it][A
Training...:  43% 1119/2609 [1:04:51<1:42:48,  4.14s/it][A
Training...:  43% 1120/2609 [1:04:54<1:39:37,  4.01s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:36:18<36:02:29, 9267.83s/it]
Training...:  43% 1120/2609 [1:04:59<1:39:37,  4.01s/it][A
Training...:  43% 1121/2609 [1:04:59<1:40:56,  4.07s/it][A
Training...:  43% 1122/2609 [1:05:02<1:36:57,  3.91s/it][A
Training...:  43% 1123/2609 [1:05:06<1:33:29,  3.77s/it][A
Training...:  43% 1124/2609 [1:05:09<1:30:23,  3.65s/it][A
Training...:  43% 1125/2609 [1:05:12<1:27:49,  3.55s/it][A
Training...:  43% 1126/2609 [1:05:15<1:24:37,  3.42s/it][A
Training...:  43% 1127/2609 [1:05:18<1:22:00,  3.32s/it][A
Training...:  43% 1128/2609 [1:05:21<1:19:31,  3.22s/it][A
Training...:  43% 1129/2609 [1:05:24<1:17:42,  3.15s/it][A
Training...:  43% 1130/2609 [1:05:27<1:15:14,  3.05s/it][A
Training...:  43% 1131/2609 [1:05:30<1:13:07,  2.97s/it][A
Training...:  43% 1132/2609 [1:05:33<1:10:55,  2.88s/it][A
Training...:  43% 1133/2609 [1:05:35<1:08:30,  2.78s/it][A
Training...:  43% 1134/2609 [1:05:38<1:06:17,  2.70s/it][A
Training...:  44% 1135/2609 [1:05:40<1:04:11,  2.61s/it][A
Training...:  44% 1136/2609 [1:05:42<1:01:48,  2.52s/it][A
Training...:  44% 1137/2609 [1:05:45<59:47,  2.44s/it]  [A
Training...:  44% 1138/2609 [1:05:47<57:29,  2.34s/it][A
Training...:  44% 1139/2609 [1:05:49<55:21,  2.26s/it][A
Training...:  44% 1140/2609 [1:05:51<53:11,  2.17s/it][A
Training...:  44% 1141/2609 [1:05:53<50:49,  2.08s/it][A
Training...:  44% 1142/2609 [1:05:55<48:36,  1.99s/it][A
Training...:  44% 1143/2609 [1:05:56<46:40,  1.91s/it][A
Training...:  44% 1144/2609 [1:05:58<44:11,  1.81s/it][A
Training...:  44% 1145/2609 [1:05:59<41:33,  1.70s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:37:21<36:02:29, 9267.83s/it]
Training...:  44% 1145/2609 [1:06:01<41:33,  1.70s/it][A
Training...:  44% 1146/2609 [1:06:01<41:21,  1.70s/it][A
Training...:  44% 1147/2609 [1:06:02<37:32,  1.54s/it][A
Training...:  44% 1148/2609 [1:06:03<33:50,  1.39s/it][A
Training...:  44% 1149/2609 [1:06:04<29:43,  1.22s/it][A
Training...:  44% 1150/2609 [1:06:05<24:48,  1.02s/it][A
Training...:  44% 1151/2609 [1:06:12<1:11:33,  2.94s/it][A
Training...:  44% 1152/2609 [1:06:19<1:42:23,  4.22s/it][A
Training...:  44% 1153/2609 [1:06:26<2:00:37,  4.97s/it][A
Training...:  44% 1154/2609 [1:06:32<2:10:43,  5.39s/it][A
Training...:  44% 1155/2609 [1:06:38<2:15:20,  5.59s/it][A
Training...:  44% 1156/2609 [1:06:44<2:15:24,  5.59s/it][A
Training...:  44% 1157/2609 [1:06:49<2:14:38,  5.56s/it][A
Training...:  44% 1158/2609 [1:06:55<2:12:13,  5.47s/it][A
Training...:  44% 1159/2609 [1:07:00<2:09:46,  5.37s/it][A
Training...:  44% 1160/2609 [1:07:05<2:06:01,  5.22s/it][A
Training...:  44% 1161/2609 [1:07:09<2:02:46,  5.09s/it][A
Training...:  45% 1162/2609 [1:07:14<1:59:22,  4.95s/it][A
Training...:  45% 1163/2609 [1:07:19<1:56:54,  4.85s/it][A
Training...:  45% 1164/2609 [1:07:23<1:53:26,  4.71s/it][A
Training...:  45% 1165/2609 [1:07:27<1:50:14,  4.58s/it][A
Training...:  45% 1166/2609 [1:07:32<1:47:06,  4.45s/it][A
Training...:  45% 1167/2609 [1:07:36<1:45:09,  4.38s/it][A
Training...:  45% 1168/2609 [1:07:40<1:41:49,  4.24s/it][A
Training...:  45% 1169/2609 [1:07:44<1:39:00,  4.13s/it][A
Training...:  45% 1170/2609 [1:07:47<1:35:51,  4.00s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:39:11<36:02:29, 9267.83s/it]
Training...:  45% 1170/2609 [1:07:51<1:35:51,  4.00s/it][A
Training...:  45% 1171/2609 [1:07:51<1:37:25,  4.06s/it][A
Training...:  45% 1172/2609 [1:07:55<1:33:10,  3.89s/it][A
Training...:  45% 1173/2609 [1:07:58<1:29:33,  3.74s/it][A
Training...:  45% 1174/2609 [1:08:02<1:26:22,  3.61s/it][A
Training...:  45% 1175/2609 [1:08:05<1:23:24,  3.49s/it][A
Training...:  45% 1176/2609 [1:08:08<1:20:42,  3.38s/it][A
Training...:  45% 1177/2609 [1:08:11<1:18:33,  3.29s/it][A
Training...:  45% 1178/2609 [1:08:14<1:16:25,  3.20s/it][A
Training...:  45% 1179/2609 [1:08:17<1:14:31,  3.13s/it][A
Training...:  45% 1180/2609 [1:08:20<1:12:16,  3.03s/it][A
Training...:  45% 1181/2609 [1:08:23<1:10:07,  2.95s/it][A
Training...:  45% 1182/2609 [1:08:25<1:07:49,  2.85s/it][A
Training...:  45% 1183/2609 [1:08:28<1:05:42,  2.76s/it][A
Training...:  45% 1184/2609 [1:08:30<1:03:23,  2.67s/it][A
Training...:  45% 1185/2609 [1:08:33<1:01:11,  2.58s/it][A
Training...:  45% 1186/2609 [1:08:35<59:04,  2.49s/it]  [A
Training...:  45% 1187/2609 [1:08:37<56:54,  2.40s/it][A
Training...:  46% 1188/2609 [1:08:39<54:42,  2.31s/it][A
Training...:  46% 1189/2609 [1:08:41<52:43,  2.23s/it][A
Training...:  46% 1190/2609 [1:08:43<50:25,  2.13s/it][A
Training...:  46% 1191/2609 [1:08:45<48:09,  2.04s/it][A
Training...:  46% 1192/2609 [1:08:47<45:48,  1.94s/it][A
Training...:  46% 1193/2609 [1:08:48<43:42,  1.85s/it][A
Training...:  46% 1194/2609 [1:08:50<41:09,  1.75s/it][A
Training...:  46% 1195/2609 [1:08:51<38:39,  1.64s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:40:13<36:02:29, 9267.83s/it]
Training...:  46% 1195/2609 [1:08:53<38:39,  1.64s/it][A
Training...:  46% 1196/2609 [1:08:53<38:27,  1.63s/it][A
Training...:  46% 1197/2609 [1:08:54<34:50,  1.48s/it][A
Training...:  46% 1198/2609 [1:08:55<31:07,  1.32s/it][A
Training...:  46% 1199/2609 [1:08:56<27:22,  1.16s/it][A
Training...:  46% 1200/2609 [1:08:56<23:00,  1.02it/s][A
Training...:  46% 1201/2609 [1:09:03<1:06:01,  2.81s/it][A
Training...:  46% 1202/2609 [1:09:11<1:37:24,  4.15s/it][A
Training...:  46% 1203/2609 [1:09:17<1:53:38,  4.85s/it][A
Training...:  46% 1204/2609 [1:09:23<2:01:59,  5.21s/it][A
Training...:  46% 1205/2609 [1:09:29<2:06:36,  5.41s/it][A
Training...:  46% 1206/2609 [1:09:35<2:08:20,  5.49s/it][A
Training...:  46% 1207/2609 [1:09:40<2:08:01,  5.48s/it][A
Training...:  46% 1208/2609 [1:09:45<2:06:08,  5.40s/it][A
Training...:  46% 1209/2609 [1:09:50<2:03:37,  5.30s/it][A
Training...:  46% 1210/2609 [1:09:55<2:00:15,  5.16s/it][A
Training...:  46% 1211/2609 [1:10:00<1:57:53,  5.06s/it][A
Training...:  46% 1212/2609 [1:10:05<1:54:03,  4.90s/it][A
Training...:  46% 1213/2609 [1:10:09<1:50:56,  4.77s/it][A
Training...:  47% 1214/2609 [1:10:13<1:47:25,  4.62s/it][A
Training...:  47% 1215/2609 [1:10:18<1:44:34,  4.50s/it][A
Training...:  47% 1216/2609 [1:10:22<1:41:31,  4.37s/it][A
Training...:  47% 1217/2609 [1:10:26<1:38:49,  4.26s/it][A
Training...:  47% 1218/2609 [1:10:29<1:36:06,  4.15s/it][A
Training...:  47% 1219/2609 [1:10:33<1:33:25,  4.03s/it][A
Training...:  47% 1220/2609 [1:10:37<1:30:20,  3.90s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:42:01<36:02:29, 9267.83s/it]
Training...:  47% 1220/2609 [1:10:41<1:30:20,  3.90s/it][A
Training...:  47% 1221/2609 [1:10:41<1:32:04,  3.98s/it][A
Training...:  47% 1222/2609 [1:10:45<1:29:00,  3.85s/it][A
Training...:  47% 1223/2609 [1:10:48<1:25:59,  3.72s/it][A
Training...:  47% 1224/2609 [1:10:51<1:23:07,  3.60s/it][A
Training...:  47% 1225/2609 [1:10:54<1:20:17,  3.48s/it][A
Training...:  47% 1226/2609 [1:10:58<1:17:35,  3.37s/it][A
Training...:  47% 1227/2609 [1:11:01<1:15:06,  3.26s/it][A
Training...:  47% 1228/2609 [1:11:03<1:12:37,  3.16s/it][A
Training...:  47% 1229/2609 [1:11:06<1:10:28,  3.06s/it][A
Training...:  47% 1230/2609 [1:11:09<1:08:32,  2.98s/it][A
Training...:  47% 1231/2609 [1:11:12<1:06:52,  2.91s/it][A
Training...:  47% 1232/2609 [1:11:15<1:04:49,  2.82s/it][A
Training...:  47% 1233/2609 [1:11:17<1:02:48,  2.74s/it][A
Training...:  47% 1234/2609 [1:11:19<1:00:25,  2.64s/it][A
Training...:  47% 1235/2609 [1:11:22<58:28,  2.55s/it]  [A
Training...:  47% 1236/2609 [1:11:24<56:14,  2.46s/it][A
Training...:  47% 1237/2609 [1:11:26<54:12,  2.37s/it][A
Training...:  47% 1238/2609 [1:11:28<52:17,  2.29s/it][A
Training...:  47% 1239/2609 [1:11:30<50:09,  2.20s/it][A
Training...:  48% 1240/2609 [1:11:32<48:20,  2.12s/it][A
Training...:  48% 1241/2609 [1:11:34<46:14,  2.03s/it][A
Training...:  48% 1242/2609 [1:11:36<43:53,  1.93s/it][A
Training...:  48% 1243/2609 [1:11:37<41:30,  1.82s/it][A
Training...:  48% 1244/2609 [1:11:39<39:10,  1.72s/it][A
Training...:  48% 1245/2609 [1:11:40<36:48,  1.62s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:43:02<36:02:29, 9267.83s/it]
Training...:  48% 1245/2609 [1:11:42<36:48,  1.62s/it][A
Training...:  48% 1246/2609 [1:11:42<36:33,  1.61s/it][A
Training...:  48% 1247/2609 [1:11:43<33:08,  1.46s/it][A
Training...:  48% 1248/2609 [1:11:44<29:39,  1.31s/it][A
Training...:  48% 1249/2609 [1:11:45<25:52,  1.14s/it][A
Training...:  48% 1250/2609 [1:11:45<21:43,  1.04it/s][A
Training...:  48% 1251/2609 [1:11:52<1:03:27,  2.80s/it][A
Training...:  48% 1252/2609 [1:11:59<1:32:35,  4.09s/it][A
Training...:  48% 1253/2609 [1:12:06<1:48:47,  4.81s/it][A
Training...:  48% 1254/2609 [1:12:12<1:59:11,  5.28s/it][A
Training...:  48% 1255/2609 [1:12:18<2:04:02,  5.50s/it][A
Training...:  48% 1256/2609 [1:12:24<2:04:46,  5.53s/it][A
Training...:  48% 1257/2609 [1:12:29<2:05:10,  5.56s/it][A
Training...:  48% 1258/2609 [1:12:35<2:02:52,  5.46s/it][A
Training...:  48% 1259/2609 [1:12:40<2:00:25,  5.35s/it][A
Training...:  48% 1260/2609 [1:12:45<1:57:07,  5.21s/it][A
Training...:  48% 1261/2609 [1:12:49<1:54:39,  5.10s/it][A
Training...:  48% 1262/2609 [1:12:54<1:51:15,  4.96s/it][A
Training...:  48% 1263/2609 [1:12:59<1:48:16,  4.83s/it][A
Training...:  48% 1264/2609 [1:13:03<1:45:26,  4.70s/it][A
Training...:  48% 1265/2609 [1:13:07<1:42:47,  4.59s/it][A
Training...:  49% 1266/2609 [1:13:12<1:40:14,  4.48s/it][A
Training...:  49% 1267/2609 [1:13:16<1:38:01,  4.38s/it][A
Training...:  49% 1268/2609 [1:13:20<1:34:57,  4.25s/it][A
Training...:  49% 1269/2609 [1:13:24<1:32:13,  4.13s/it][A
Training...:  49% 1270/2609 [1:13:27<1:29:05,  3.99s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:44:51<36:02:29, 9267.83s/it]
Training...:  49% 1270/2609 [1:13:31<1:29:05,  3.99s/it][A
Training...:  49% 1271/2609 [1:13:31<1:30:48,  4.07s/it][A
Training...:  49% 1272/2609 [1:13:35<1:27:32,  3.93s/it][A
Training...:  49% 1273/2609 [1:13:39<1:24:28,  3.79s/it][A
Training...:  49% 1274/2609 [1:13:42<1:21:15,  3.65s/it][A
Training...:  49% 1275/2609 [1:13:45<1:18:37,  3.54s/it][A
Training...:  49% 1276/2609 [1:13:48<1:15:43,  3.41s/it][A
Training...:  49% 1277/2609 [1:13:51<1:13:22,  3.30s/it][A
Training...:  49% 1278/2609 [1:13:54<1:11:12,  3.21s/it][A
Training...:  49% 1279/2609 [1:13:57<1:08:57,  3.11s/it][A
Training...:  49% 1280/2609 [1:14:00<1:06:44,  3.01s/it][A
Training...:  49% 1281/2609 [1:14:03<1:05:01,  2.94s/it][A
Training...:  49% 1282/2609 [1:14:05<1:02:50,  2.84s/it][A
Training...:  49% 1283/2609 [1:14:08<1:00:59,  2.76s/it][A
Training...:  49% 1284/2609 [1:14:10<58:57,  2.67s/it]  [A
Training...:  49% 1285/2609 [1:14:13<57:03,  2.59s/it][A
Training...:  49% 1286/2609 [1:14:15<55:05,  2.50s/it][A
Training...:  49% 1287/2609 [1:14:17<53:11,  2.41s/it][A
Training...:  49% 1288/2609 [1:14:19<51:16,  2.33s/it][A
Training...:  49% 1289/2609 [1:14:21<49:34,  2.25s/it][A
Training...:  49% 1290/2609 [1:14:23<47:33,  2.16s/it][A
Training...:  49% 1291/2609 [1:14:25<45:28,  2.07s/it][A
Training...:  50% 1292/2609 [1:14:27<43:28,  1.98s/it][A
Training...:  50% 1293/2609 [1:14:29<41:08,  1.88s/it][A
Training...:  50% 1294/2609 [1:14:30<38:42,  1.77s/it][A
Training...:  50% 1295/2609 [1:14:32<36:16,  1.66s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:45:53<36:02:29, 9267.83s/it]
Training...:  50% 1295/2609 [1:14:33<36:16,  1.66s/it][A
Training...:  50% 1296/2609 [1:14:33<35:44,  1.63s/it][A
Training...:  50% 1297/2609 [1:14:34<32:10,  1.47s/it][A
Training...:  50% 1298/2609 [1:14:35<28:31,  1.31s/it][A
Training...:  50% 1299/2609 [1:14:36<24:46,  1.14s/it][A
Training...:  50% 1300/2609 [1:14:36<20:50,  1.05it/s][A
Training...:  50% 1301/2609 [1:14:44<1:02:10,  2.85s/it][A
Training...:  50% 1302/2609 [1:14:51<1:30:47,  4.17s/it][A
Training...:  50% 1303/2609 [1:14:58<1:47:44,  4.95s/it][A
Training...:  50% 1304/2609 [1:15:04<1:57:25,  5.40s/it][A
Training...:  50% 1305/2609 [1:15:10<2:01:42,  5.60s/it][A
Training...:  50% 1306/2609 [1:15:16<2:02:41,  5.65s/it][A
Training...:  50% 1307/2609 [1:15:22<2:02:11,  5.63s/it][A
Training...:  50% 1308/2609 [1:15:27<1:59:56,  5.53s/it][A
Training...:  50% 1309/2609 [1:15:32<1:57:23,  5.42s/it][A
Training...:  50% 1310/2609 [1:15:37<1:54:41,  5.30s/it][A
Training...:  50% 1311/2609 [1:15:42<1:52:47,  5.21s/it][A
Training...:  50% 1312/2609 [1:15:47<1:49:04,  5.05s/it][A
Training...:  50% 1313/2609 [1:15:51<1:45:56,  4.90s/it][A
Training...:  50% 1314/2609 [1:15:56<1:42:10,  4.73s/it][A
Training...:  50% 1315/2609 [1:16:00<1:39:29,  4.61s/it][A
Training...:  50% 1316/2609 [1:16:04<1:36:24,  4.47s/it][A
Training...:  50% 1317/2609 [1:16:08<1:34:17,  4.38s/it][A
Training...:  51% 1318/2609 [1:16:12<1:31:41,  4.26s/it][A
Training...:  51% 1319/2609 [1:16:16<1:29:29,  4.16s/it][A
Training...:  51% 1320/2609 [1:16:20<1:27:10,  4.06s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:47:44<36:02:29, 9267.83s/it]
Training...:  51% 1320/2609 [1:16:24<1:27:10,  4.06s/it][A
Training...:  51% 1321/2609 [1:16:24<1:28:43,  4.13s/it][A
Training...:  51% 1322/2609 [1:16:28<1:25:14,  3.97s/it][A
Training...:  51% 1323/2609 [1:16:31<1:22:14,  3.84s/it][A
Training...:  51% 1324/2609 [1:16:35<1:19:24,  3.71s/it][A
Training...:  51% 1325/2609 [1:16:38<1:16:59,  3.60s/it][A
Training...:  51% 1326/2609 [1:16:41<1:14:37,  3.49s/it][A
Training...:  51% 1327/2609 [1:16:45<1:12:14,  3.38s/it][A
Training...:  51% 1328/2609 [1:16:48<1:09:53,  3.27s/it][A
Training...:  51% 1329/2609 [1:16:51<1:07:59,  3.19s/it][A
Training...:  51% 1330/2609 [1:16:53<1:05:44,  3.08s/it][A
Training...:  51% 1331/2609 [1:16:56<1:03:45,  2.99s/it][A
Training...:  51% 1332/2609 [1:16:59<1:01:25,  2.89s/it][A
Training...:  51% 1333/2609 [1:17:01<59:23,  2.79s/it]  [A
Training...:  51% 1334/2609 [1:17:04<57:10,  2.69s/it][A
Training...:  51% 1335/2609 [1:17:06<55:07,  2.60s/it][A
Training...:  51% 1336/2609 [1:17:09<53:08,  2.50s/it][A
Training...:  51% 1337/2609 [1:17:11<51:17,  2.42s/it][A
Training...:  51% 1338/2609 [1:17:13<49:23,  2.33s/it][A
Training...:  51% 1339/2609 [1:17:15<47:41,  2.25s/it][A
Training...:  51% 1340/2609 [1:17:17<45:30,  2.15s/it][A
Training...:  51% 1341/2609 [1:17:19<43:34,  2.06s/it][A
Training...:  51% 1342/2609 [1:17:20<41:26,  1.96s/it][A
Training...:  51% 1343/2609 [1:17:22<39:17,  1.86s/it][A
Training...:  52% 1344/2609 [1:17:24<37:00,  1.76s/it][A
Training...:  52% 1345/2609 [1:17:25<34:35,  1.64s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:48:46<36:02:29, 9267.83s/it]
Training...:  52% 1345/2609 [1:17:27<34:35,  1.64s/it][A
Training...:  52% 1346/2609 [1:17:27<34:24,  1.63s/it][A
Training...:  52% 1347/2609 [1:17:28<31:10,  1.48s/it][A
Training...:  52% 1348/2609 [1:17:29<27:42,  1.32s/it][A
Training...:  52% 1349/2609 [1:17:29<24:29,  1.17s/it][A
Training...:  52% 1350/2609 [1:17:30<20:34,  1.02it/s][A
Training...:  52% 1351/2609 [1:17:37<1:00:27,  2.88s/it][A
Training...:  52% 1352/2609 [1:17:44<1:26:46,  4.14s/it][A
Training...:  52% 1353/2609 [1:17:51<1:42:20,  4.89s/it][A
Training...:  52% 1354/2609 [1:17:57<1:51:08,  5.31s/it][A
Training...:  52% 1355/2609 [1:18:03<1:55:56,  5.55s/it][A
Training...:  52% 1356/2609 [1:18:09<1:56:38,  5.59s/it][A
Training...:  52% 1357/2609 [1:18:15<1:55:35,  5.54s/it][A
Training...:  52% 1358/2609 [1:18:20<1:53:18,  5.43s/it][A
Training...:  52% 1359/2609 [1:18:25<1:50:53,  5.32s/it][A
Training...:  52% 1360/2609 [1:18:30<1:47:41,  5.17s/it][A
Training...:  52% 1361/2609 [1:18:34<1:45:11,  5.06s/it][A
Training...:  52% 1362/2609 [1:18:39<1:41:52,  4.90s/it][A
Training...:  52% 1363/2609 [1:18:43<1:39:05,  4.77s/it][A
Training...:  52% 1364/2609 [1:18:48<1:35:51,  4.62s/it][A
Training...:  52% 1365/2609 [1:18:52<1:33:27,  4.51s/it][A
Training...:  52% 1366/2609 [1:18:56<1:31:03,  4.40s/it][A
Training...:  52% 1367/2609 [1:19:00<1:28:46,  4.29s/it][A
Training...:  52% 1368/2609 [1:19:04<1:26:09,  4.17s/it][A
Training...:  52% 1369/2609 [1:19:08<1:24:25,  4.09s/it][A
Training...:  53% 1370/2609 [1:19:12<1:22:23,  3.99s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:50:36<36:02:29, 9267.83s/it]
Training...:  53% 1370/2609 [1:19:16<1:22:23,  3.99s/it][A
Training...:  53% 1371/2609 [1:19:16<1:23:50,  4.06s/it][A
Training...:  53% 1372/2609 [1:19:19<1:20:17,  3.89s/it][A
Training...:  53% 1373/2609 [1:19:23<1:17:16,  3.75s/it][A
Training...:  53% 1374/2609 [1:19:26<1:14:32,  3.62s/it][A
Training...:  53% 1375/2609 [1:19:29<1:12:14,  3.51s/it][A
Training...:  53% 1376/2609 [1:19:32<1:09:39,  3.39s/it][A
Training...:  53% 1377/2609 [1:19:35<1:07:23,  3.28s/it][A
Training...:  53% 1378/2609 [1:19:38<1:05:10,  3.18s/it][A
Training...:  53% 1379/2609 [1:19:41<1:03:20,  3.09s/it][A
Training...:  53% 1380/2609 [1:19:44<1:01:58,  3.03s/it][A
Training...:  53% 1381/2609 [1:19:47<1:00:24,  2.95s/it][A
Training...:  53% 1382/2609 [1:19:50<58:25,  2.86s/it]  [A
Training...:  53% 1383/2609 [1:19:52<56:17,  2.76s/it][A
Training...:  53% 1384/2609 [1:19:55<54:15,  2.66s/it][A
Training...:  53% 1385/2609 [1:19:57<52:16,  2.56s/it][A
Training...:  53% 1386/2609 [1:19:59<50:22,  2.47s/it][A
Training...:  53% 1387/2609 [1:20:01<48:32,  2.38s/it][A
Training...:  53% 1388/2609 [1:20:03<46:37,  2.29s/it][A
Training...:  53% 1389/2609 [1:20:05<45:04,  2.22s/it][A
Training...:  53% 1390/2609 [1:20:07<43:12,  2.13s/it][A
Training...:  53% 1391/2609 [1:20:09<41:19,  2.04s/it][A
Training...:  53% 1392/2609 [1:20:11<39:26,  1.94s/it][A
Training...:  53% 1393/2609 [1:20:13<37:46,  1.86s/it][A
Training...:  53% 1394/2609 [1:20:14<35:44,  1.77s/it][A
Training...:  53% 1395/2609 [1:20:16<33:31,  1.66s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:51:37<36:02:29, 9267.83s/it]
Training...:  53% 1395/2609 [1:20:17<33:31,  1.66s/it][A
Training...:  54% 1396/2609 [1:20:17<33:14,  1.64s/it][A
Training...:  54% 1397/2609 [1:20:18<30:09,  1.49s/it][A
Training...:  54% 1398/2609 [1:20:19<26:51,  1.33s/it][A
Training...:  54% 1399/2609 [1:20:20<23:34,  1.17s/it][A
Training...:  54% 1400/2609 [1:20:21<19:52,  1.01it/s][A
Training...:  54% 1401/2609 [1:20:28<57:02,  2.83s/it][A
Training...:  54% 1402/2609 [1:20:35<1:22:13,  4.09s/it][A
Training...:  54% 1403/2609 [1:20:41<1:37:18,  4.84s/it][A
Training...:  54% 1404/2609 [1:20:48<1:45:47,  5.27s/it][A
Training...:  54% 1405/2609 [1:20:54<1:50:10,  5.49s/it][A
Training...:  54% 1406/2609 [1:20:59<1:52:23,  5.61s/it][A
Training...:  54% 1407/2609 [1:21:05<1:52:21,  5.61s/it][A
Training...:  54% 1408/2609 [1:21:10<1:50:48,  5.54s/it][A
Training...:  54% 1409/2609 [1:21:16<1:49:06,  5.46s/it][A
Training...:  54% 1410/2609 [1:21:21<1:46:25,  5.33s/it][A
Training...:  54% 1411/2609 [1:21:26<1:44:31,  5.24s/it][A
Training...:  54% 1412/2609 [1:21:31<1:41:43,  5.10s/it][A
Training...:  54% 1413/2609 [1:21:35<1:38:47,  4.96s/it][A
Training...:  54% 1414/2609 [1:21:40<1:35:58,  4.82s/it][A
Training...:  54% 1415/2609 [1:21:44<1:33:42,  4.71s/it][A
Training...:  54% 1416/2609 [1:21:48<1:30:44,  4.56s/it][A
Training...:  54% 1417/2609 [1:21:52<1:28:04,  4.43s/it][A
Training...:  54% 1418/2609 [1:21:56<1:25:06,  4.29s/it][A
Training...:  54% 1419/2609 [1:22:00<1:23:17,  4.20s/it][A
Training...:  54% 1420/2609 [1:22:04<1:21:07,  4.09s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:53:28<36:02:29, 9267.83s/it]
Training...:  54% 1420/2609 [1:22:09<1:21:07,  4.09s/it][A
Training...:  54% 1421/2609 [1:22:09<1:22:09,  4.15s/it][A
Training...:  55% 1422/2609 [1:22:12<1:18:31,  3.97s/it][A
Training...:  55% 1423/2609 [1:22:16<1:15:26,  3.82s/it][A
Training...:  55% 1424/2609 [1:22:19<1:12:17,  3.66s/it][A
Training...:  55% 1425/2609 [1:22:22<1:09:45,  3.54s/it][A
Training...:  55% 1426/2609 [1:22:25<1:06:54,  3.39s/it][A
Training...:  55% 1427/2609 [1:22:28<1:05:00,  3.30s/it][A
Training...:  55% 1428/2609 [1:22:31<1:02:55,  3.20s/it][A
Training...:  55% 1429/2609 [1:22:34<1:01:08,  3.11s/it][A
Training...:  55% 1430/2609 [1:22:37<59:09,  3.01s/it]  [A
Training...:  55% 1431/2609 [1:22:40<57:24,  2.92s/it][A
Training...:  55% 1432/2609 [1:22:42<55:30,  2.83s/it][A
Training...:  55% 1433/2609 [1:22:45<53:44,  2.74s/it][A
Training...:  55% 1434/2609 [1:22:47<52:00,  2.66s/it][A
Training...:  55% 1435/2609 [1:22:50<50:25,  2.58s/it][A
Training...:  55% 1436/2609 [1:22:52<48:19,  2.47s/it][A
Training...:  55% 1437/2609 [1:22:54<46:52,  2.40s/it][A
Training...:  55% 1438/2609 [1:22:56<45:08,  2.31s/it][A
Training...:  55% 1439/2609 [1:22:58<43:19,  2.22s/it][A
Training...:  55% 1440/2609 [1:23:00<41:18,  2.12s/it][A
Training...:  55% 1441/2609 [1:23:02<39:23,  2.02s/it][A
Training...:  55% 1442/2609 [1:23:04<37:32,  1.93s/it][A
Training...:  55% 1443/2609 [1:23:05<35:33,  1.83s/it][A
Training...:  55% 1444/2609 [1:23:07<33:32,  1.73s/it][A
Training...:  55% 1445/2609 [1:23:08<31:36,  1.63s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:54:30<36:02:29, 9267.83s/it]
Training...:  55% 1445/2609 [1:23:10<31:36,  1.63s/it][A
Training...:  55% 1446/2609 [1:23:10<31:22,  1.62s/it][A
Training...:  55% 1447/2609 [1:23:11<28:34,  1.48s/it][A
Training...:  56% 1448/2609 [1:23:12<25:41,  1.33s/it][A
Training...:  56% 1449/2609 [1:23:13<22:40,  1.17s/it][A
Training...:  56% 1450/2609 [1:23:13<19:11,  1.01it/s][A
Training...:  56% 1451/2609 [1:23:20<55:20,  2.87s/it][A
Training...:  56% 1452/2609 [1:23:28<1:20:08,  4.16s/it][A
Training...:  56% 1453/2609 [1:23:34<1:34:38,  4.91s/it][A
Training...:  56% 1454/2609 [1:23:41<1:42:43,  5.34s/it][A
Training...:  56% 1455/2609 [1:23:47<1:46:59,  5.56s/it][A
Training...:  56% 1456/2609 [1:23:52<1:48:03,  5.62s/it][A
Training...:  56% 1457/2609 [1:23:58<1:49:23,  5.70s/it][A
Training...:  56% 1458/2609 [1:24:04<1:46:52,  5.57s/it][A
Training...:  56% 1459/2609 [1:24:09<1:44:11,  5.44s/it][A
Training...:  56% 1460/2609 [1:24:14<1:41:22,  5.29s/it][A
Training...:  56% 1461/2609 [1:24:19<1:39:15,  5.19s/it][A
Training...:  56% 1462/2609 [1:24:23<1:36:18,  5.04s/it][A
Training...:  56% 1463/2609 [1:24:28<1:33:45,  4.91s/it][A
Training...:  56% 1464/2609 [1:24:32<1:30:20,  4.73s/it][A
Training...:  56% 1465/2609 [1:24:36<1:27:24,  4.58s/it][A
Training...:  56% 1466/2609 [1:24:41<1:24:17,  4.43s/it][A
Training...:  56% 1467/2609 [1:24:45<1:22:21,  4.33s/it][A
Training...:  56% 1468/2609 [1:24:49<1:19:48,  4.20s/it][A
Training...:  56% 1469/2609 [1:24:52<1:17:40,  4.09s/it][A
Training...:  56% 1470/2609 [1:24:56<1:15:23,  3.97s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:56:20<36:02:29, 9267.83s/it]
Training...:  56% 1470/2609 [1:25:00<1:15:23,  3.97s/it][A
Training...:  56% 1471/2609 [1:25:00<1:16:58,  4.06s/it][A
Training...:  56% 1472/2609 [1:25:04<1:13:42,  3.89s/it][A
Training...:  56% 1473/2609 [1:25:07<1:11:04,  3.75s/it][A
Training...:  56% 1474/2609 [1:25:11<1:08:29,  3.62s/it][A
Training...:  57% 1475/2609 [1:25:14<1:06:27,  3.52s/it][A
Training...:  57% 1476/2609 [1:25:17<1:04:39,  3.42s/it][A
Training...:  57% 1477/2609 [1:25:20<1:02:37,  3.32s/it][A
Training...:  57% 1478/2609 [1:25:23<1:00:32,  3.21s/it][A
Training...:  57% 1479/2609 [1:25:26<58:46,  3.12s/it]  [A
Training...:  57% 1480/2609 [1:25:29<56:50,  3.02s/it][A
Training...:  57% 1481/2609 [1:25:31<55:07,  2.93s/it][A
Training...:  57% 1482/2609 [1:25:34<53:13,  2.83s/it][A
Training...:  57% 1483/2609 [1:25:37<51:35,  2.75s/it][A
Training...:  57% 1484/2609 [1:25:39<49:59,  2.67s/it][A
Training...:  57% 1485/2609 [1:25:42<48:21,  2.58s/it][A
Training...:  57% 1486/2609 [1:25:44<46:35,  2.49s/it][A
Training...:  57% 1487/2609 [1:25:46<45:09,  2.41s/it][A
Training...:  57% 1488/2609 [1:25:48<43:18,  2.32s/it][A
Training...:  57% 1489/2609 [1:25:50<41:46,  2.24s/it][A
Training...:  57% 1490/2609 [1:25:52<39:55,  2.14s/it][A
Training...:  57% 1491/2609 [1:25:54<38:19,  2.06s/it][A
Training...:  57% 1492/2609 [1:25:56<36:26,  1.96s/it][A
Training...:  57% 1493/2609 [1:25:57<34:33,  1.86s/it][A
Training...:  57% 1494/2609 [1:25:59<32:33,  1.75s/it][A
Training...:  57% 1495/2609 [1:26:00<30:30,  1.64s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:57:22<36:02:29, 9267.83s/it]
Training...:  57% 1495/2609 [1:26:02<30:30,  1.64s/it][A
Training...:  57% 1496/2609 [1:26:02<30:14,  1.63s/it][A
Training...:  57% 1497/2609 [1:26:03<27:31,  1.48s/it][A
Training...:  57% 1498/2609 [1:26:04<24:46,  1.34s/it][A
Training...:  57% 1499/2609 [1:26:05<21:52,  1.18s/it][A
Training...:  57% 1500/2609 [1:26:05<18:21,  1.01it/s][A
Training...:  58% 1501/2609 [1:26:12<52:30,  2.84s/it][A
Training...:  58% 1502/2609 [1:26:19<1:15:29,  4.09s/it][A
Training...:  58% 1503/2609 [1:26:26<1:28:28,  4.80s/it][A
Training...:  58% 1504/2609 [1:26:32<1:36:17,  5.23s/it][A
Training...:  58% 1505/2609 [1:26:39<1:42:29,  5.57s/it][A
Training...:  58% 1506/2609 [1:26:44<1:42:50,  5.59s/it][A
Training...:  58% 1507/2609 [1:26:50<1:42:44,  5.59s/it][A
Training...:  58% 1508/2609 [1:26:55<1:40:58,  5.50s/it][A
Training...:  58% 1509/2609 [1:27:00<1:39:17,  5.42s/it][A
Training...:  58% 1510/2609 [1:27:05<1:36:37,  5.28s/it][A
Training...:  58% 1511/2609 [1:27:10<1:35:16,  5.21s/it][A
Training...:  58% 1512/2609 [1:27:15<1:32:14,  5.05s/it][A
Training...:  58% 1513/2609 [1:27:20<1:29:52,  4.92s/it][A
Training...:  58% 1514/2609 [1:27:24<1:27:18,  4.78s/it][A
Training...:  58% 1515/2609 [1:27:28<1:25:01,  4.66s/it][A
Training...:  58% 1516/2609 [1:27:33<1:22:44,  4.54s/it][A
Training...:  58% 1517/2609 [1:27:37<1:20:41,  4.43s/it][A
Training...:  58% 1518/2609 [1:27:41<1:18:16,  4.30s/it][A
Training...:  58% 1519/2609 [1:27:45<1:15:53,  4.18s/it][A
Training...:  58% 1520/2609 [1:27:49<1:13:46,  4.06s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [16:59:13<36:02:29, 9267.83s/it]
Training...:  58% 1520/2609 [1:27:53<1:13:46,  4.06s/it][A
Training...:  58% 1521/2609 [1:27:53<1:14:49,  4.13s/it][A
Training...:  58% 1522/2609 [1:27:56<1:11:58,  3.97s/it][A
Training...:  58% 1523/2609 [1:28:00<1:10:02,  3.87s/it][A
Training...:  58% 1524/2609 [1:28:03<1:07:05,  3.71s/it][A
Training...:  58% 1525/2609 [1:28:07<1:04:48,  3.59s/it][A
Training...:  58% 1526/2609 [1:28:10<1:02:26,  3.46s/it][A
Training...:  59% 1527/2609 [1:28:13<1:00:32,  3.36s/it][A
Training...:  59% 1528/2609 [1:28:16<58:38,  3.25s/it]  [A
Training...:  59% 1529/2609 [1:28:19<56:52,  3.16s/it][A
Training...:  59% 1530/2609 [1:28:22<55:15,  3.07s/it][A
Training...:  59% 1531/2609 [1:28:25<53:24,  2.97s/it][A
Training...:  59% 1532/2609 [1:28:27<51:19,  2.86s/it][A
Training...:  59% 1533/2609 [1:28:30<49:37,  2.77s/it][A
Training...:  59% 1534/2609 [1:28:32<47:49,  2.67s/it][A
Training...:  59% 1535/2609 [1:28:34<46:14,  2.58s/it][A
Training...:  59% 1536/2609 [1:28:37<44:33,  2.49s/it][A
Training...:  59% 1537/2609 [1:28:39<43:07,  2.41s/it][A
Training...:  59% 1538/2609 [1:28:41<41:19,  2.31s/it][A
Training...:  59% 1539/2609 [1:28:43<39:44,  2.23s/it][A
Training...:  59% 1540/2609 [1:28:45<38:01,  2.13s/it][A
Training...:  59% 1541/2609 [1:28:47<36:14,  2.04s/it][A
Training...:  59% 1542/2609 [1:28:49<34:42,  1.95s/it][A
Training...:  59% 1543/2609 [1:28:50<33:00,  1.86s/it][A
Training...:  59% 1544/2609 [1:28:52<31:00,  1.75s/it][A
Training...:  59% 1545/2609 [1:28:53<29:02,  1.64s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:00:15<36:02:29, 9267.83s/it]
Training...:  59% 1545/2609 [1:28:55<29:02,  1.64s/it][A
Training...:  59% 1546/2609 [1:28:55<28:58,  1.64s/it][A
Training...:  59% 1547/2609 [1:28:56<26:18,  1.49s/it][A
Training...:  59% 1548/2609 [1:28:57<23:32,  1.33s/it][A
Training...:  59% 1549/2609 [1:28:58<20:45,  1.18s/it][A
Training...:  59% 1550/2609 [1:28:58<17:25,  1.01it/s][A
Training...:  59% 1551/2609 [1:29:05<49:32,  2.81s/it][A
Training...:  59% 1552/2609 [1:29:12<1:12:05,  4.09s/it][A
Training...:  60% 1553/2609 [1:29:19<1:25:34,  4.86s/it][A
Training...:  60% 1554/2609 [1:29:25<1:33:02,  5.29s/it][A
Training...:  60% 1555/2609 [1:29:31<1:36:56,  5.52s/it][A
Training...:  60% 1556/2609 [1:29:37<1:37:57,  5.58s/it][A
Training...:  60% 1557/2609 [1:29:43<1:37:56,  5.59s/it][A
Training...:  60% 1558/2609 [1:29:48<1:36:52,  5.53s/it][A
Training...:  60% 1559/2609 [1:29:53<1:34:57,  5.43s/it][A
Training...:  60% 1560/2609 [1:29:58<1:32:28,  5.29s/it][A
Training...:  60% 1561/2609 [1:30:03<1:30:50,  5.20s/it][A
Training...:  60% 1562/2609 [1:30:08<1:27:38,  5.02s/it][A
Training...:  60% 1563/2609 [1:30:12<1:24:37,  4.85s/it][A
Training...:  60% 1564/2609 [1:30:17<1:21:54,  4.70s/it][A
Training...:  60% 1565/2609 [1:30:21<1:19:36,  4.57s/it][A
Training...:  60% 1566/2609 [1:30:25<1:17:09,  4.44s/it][A
Training...:  60% 1567/2609 [1:30:29<1:14:54,  4.31s/it][A
Training...:  60% 1568/2609 [1:30:33<1:12:29,  4.18s/it][A
Training...:  60% 1569/2609 [1:30:37<1:10:24,  4.06s/it][A
Training...:  60% 1570/2609 [1:30:40<1:08:16,  3.94s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:02:05<36:02:29, 9267.83s/it]
Training...:  60% 1570/2609 [1:30:45<1:08:16,  3.94s/it][A
Training...:  60% 1571/2609 [1:30:45<1:09:47,  4.03s/it][A
Training...:  60% 1572/2609 [1:30:48<1:06:59,  3.88s/it][A
Training...:  60% 1573/2609 [1:30:52<1:04:42,  3.75s/it][A
Training...:  60% 1574/2609 [1:30:55<1:02:23,  3.62s/it][A
Training...:  60% 1575/2609 [1:30:58<1:00:28,  3.51s/it][A
Training...:  60% 1576/2609 [1:31:01<58:26,  3.39s/it]  [A
Training...:  60% 1577/2609 [1:31:04<56:41,  3.30s/it][A
Training...:  60% 1578/2609 [1:31:07<55:04,  3.21s/it][A
Training...:  61% 1579/2609 [1:31:10<53:51,  3.14s/it][A
Training...:  61% 1580/2609 [1:31:13<52:24,  3.06s/it][A
Training...:  61% 1581/2609 [1:31:16<51:06,  2.98s/it][A
Training...:  61% 1582/2609 [1:31:19<49:26,  2.89s/it][A
Training...:  61% 1583/2609 [1:31:21<47:57,  2.80s/it][A
Training...:  61% 1584/2609 [1:31:24<46:11,  2.70s/it][A
Training...:  61% 1585/2609 [1:31:26<44:25,  2.60s/it][A
Training...:  61% 1586/2609 [1:31:28<43:01,  2.52s/it][A
Training...:  61% 1587/2609 [1:31:31<41:27,  2.43s/it][A
Training...:  61% 1588/2609 [1:31:33<39:50,  2.34s/it][A
Training...:  61% 1589/2609 [1:31:35<38:11,  2.25s/it][A
Training...:  61% 1590/2609 [1:31:37<36:28,  2.15s/it][A
Training...:  61% 1591/2609 [1:31:39<34:42,  2.05s/it][A
Training...:  61% 1592/2609 [1:31:40<32:51,  1.94s/it][A
Training...:  61% 1593/2609 [1:31:42<31:11,  1.84s/it][A
Training...:  61% 1594/2609 [1:31:43<29:27,  1.74s/it][A
Training...:  61% 1595/2609 [1:31:45<27:29,  1.63s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:03:06<36:02:29, 9267.83s/it]
Training...:  61% 1595/2609 [1:31:46<27:29,  1.63s/it][A
Training...:  61% 1596/2609 [1:31:46<27:21,  1.62s/it][A
Training...:  61% 1597/2609 [1:31:47<24:57,  1.48s/it][A
Training...:  61% 1598/2609 [1:31:48<22:17,  1.32s/it][A
Training...:  61% 1599/2609 [1:31:49<19:34,  1.16s/it][A
Training...:  61% 1600/2609 [1:31:50<16:22,  1.03it/s][A
Training...:  61% 1601/2609 [1:31:57<48:15,  2.87s/it][A
Training...:  61% 1602/2609 [1:32:04<1:09:15,  4.13s/it][A
Training...:  61% 1603/2609 [1:32:11<1:21:17,  4.85s/it][A
Training...:  61% 1604/2609 [1:32:17<1:27:52,  5.25s/it][A
Training...:  62% 1605/2609 [1:32:23<1:31:03,  5.44s/it][A
Training...:  62% 1606/2609 [1:32:28<1:32:25,  5.53s/it][A
Training...:  62% 1607/2609 [1:32:34<1:32:00,  5.51s/it][A
Training...:  62% 1608/2609 [1:32:39<1:30:06,  5.40s/it][A
Training...:  62% 1609/2609 [1:32:44<1:28:37,  5.32s/it][A
Training...:  62% 1610/2609 [1:32:49<1:26:36,  5.20s/it][A
Training...:  62% 1611/2609 [1:32:54<1:24:32,  5.08s/it][A
Training...:  62% 1612/2609 [1:32:58<1:21:48,  4.92s/it][A
Training...:  62% 1613/2609 [1:33:03<1:19:55,  4.82s/it][A
Training...:  62% 1614/2609 [1:33:07<1:17:09,  4.65s/it][A
Training...:  62% 1615/2609 [1:33:11<1:14:49,  4.52s/it][A
Training...:  62% 1616/2609 [1:33:16<1:12:41,  4.39s/it][A
Training...:  62% 1617/2609 [1:33:20<1:10:40,  4.27s/it][A
Training...:  62% 1618/2609 [1:33:23<1:08:44,  4.16s/it][A
Training...:  62% 1619/2609 [1:33:27<1:07:14,  4.07s/it][A
Training...:  62% 1620/2609 [1:33:31<1:05:32,  3.98s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:04:55<36:02:29, 9267.83s/it]
Training...:  62% 1620/2609 [1:33:35<1:05:32,  3.98s/it][A
Training...:  62% 1621/2609 [1:33:35<1:07:22,  4.09s/it][A
Training...:  62% 1622/2609 [1:33:39<1:04:33,  3.92s/it][A
Training...:  62% 1623/2609 [1:33:42<1:02:15,  3.79s/it][A
Training...:  62% 1624/2609 [1:33:46<59:53,  3.65s/it]  [A
Training...:  62% 1625/2609 [1:33:49<57:49,  3.53s/it][A
Training...:  62% 1626/2609 [1:33:52<55:47,  3.41s/it][A
Training...:  62% 1627/2609 [1:33:55<54:07,  3.31s/it][A
Training...:  62% 1628/2609 [1:33:58<52:27,  3.21s/it][A
Training...:  62% 1629/2609 [1:34:01<50:47,  3.11s/it][A
Training...:  62% 1630/2609 [1:34:04<48:59,  3.00s/it][A
Training...:  63% 1631/2609 [1:34:07<47:18,  2.90s/it][A
Training...:  63% 1632/2609 [1:34:09<45:53,  2.82s/it][A
Training...:  63% 1633/2609 [1:34:12<44:25,  2.73s/it][A
Training...:  63% 1634/2609 [1:34:14<42:52,  2.64s/it][A
Training...:  63% 1635/2609 [1:34:16<41:08,  2.53s/it][A
Training...:  63% 1636/2609 [1:34:19<39:36,  2.44s/it][A
Training...:  63% 1637/2609 [1:34:21<38:00,  2.35s/it][A
Training...:  63% 1638/2609 [1:34:23<36:23,  2.25s/it][A
Training...:  63% 1639/2609 [1:34:25<34:52,  2.16s/it][A
Training...:  63% 1640/2609 [1:34:27<33:27,  2.07s/it][A
Training...:  63% 1641/2609 [1:34:28<31:49,  1.97s/it][A
Training...:  63% 1642/2609 [1:34:30<30:18,  1.88s/it][A
Training...:  63% 1643/2609 [1:34:32<28:41,  1.78s/it][A
Training...:  63% 1644/2609 [1:34:33<27:15,  1.70s/it][A
Training...:  63% 1645/2609 [1:34:34<25:37,  1.60s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:05:56<36:02:29, 9267.83s/it]
Training...:  63% 1645/2609 [1:34:36<25:37,  1.60s/it][A
Training...:  63% 1646/2609 [1:34:36<25:42,  1.60s/it][A
Training...:  63% 1647/2609 [1:34:37<23:27,  1.46s/it][A
Training...:  63% 1648/2609 [1:34:38<21:05,  1.32s/it][A
Training...:  63% 1649/2609 [1:34:39<18:35,  1.16s/it][A
Training...:  63% 1650/2609 [1:34:39<15:42,  1.02it/s][A
Training...:  63% 1651/2609 [1:34:47<45:06,  2.83s/it][A
Training...:  63% 1652/2609 [1:34:54<1:04:43,  4.06s/it][A
Training...:  63% 1653/2609 [1:35:00<1:16:44,  4.82s/it][A
Training...:  63% 1654/2609 [1:35:06<1:23:02,  5.22s/it][A
Training...:  63% 1655/2609 [1:35:12<1:26:14,  5.42s/it][A
Training...:  63% 1656/2609 [1:35:18<1:28:15,  5.56s/it][A
Training...:  64% 1657/2609 [1:35:23<1:27:28,  5.51s/it][A
Training...:  64% 1658/2609 [1:35:29<1:25:41,  5.41s/it][A
Training...:  64% 1659/2609 [1:35:34<1:24:02,  5.31s/it][A
Training...:  64% 1660/2609 [1:35:39<1:22:01,  5.19s/it][A
Training...:  64% 1661/2609 [1:35:43<1:19:57,  5.06s/it][A
Training...:  64% 1662/2609 [1:35:48<1:18:09,  4.95s/it][A
Training...:  64% 1663/2609 [1:35:53<1:16:48,  4.87s/it][A
Training...:  64% 1664/2609 [1:35:57<1:14:11,  4.71s/it][A
Training...:  64% 1665/2609 [1:36:01<1:12:00,  4.58s/it][A
Training...:  64% 1666/2609 [1:36:05<1:09:28,  4.42s/it][A
Training...:  64% 1667/2609 [1:36:09<1:07:32,  4.30s/it][A
Training...:  64% 1668/2609 [1:36:13<1:05:24,  4.17s/it][A
Training...:  64% 1669/2609 [1:36:17<1:03:43,  4.07s/it][A
Training...:  64% 1670/2609 [1:36:21<1:01:56,  3.96s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:07:45<36:02:29, 9267.83s/it]
Training...:  64% 1670/2609 [1:36:25<1:01:56,  3.96s/it][A
Training...:  64% 1671/2609 [1:36:25<1:03:10,  4.04s/it][A
Training...:  64% 1672/2609 [1:36:29<1:00:47,  3.89s/it][A
Training...:  64% 1673/2609 [1:36:32<58:18,  3.74s/it]  [A
Training...:  64% 1674/2609 [1:36:35<56:15,  3.61s/it][A
Training...:  64% 1675/2609 [1:36:38<54:09,  3.48s/it][A
Training...:  64% 1676/2609 [1:36:42<52:23,  3.37s/it][A
Training...:  64% 1677/2609 [1:36:45<51:05,  3.29s/it][A
Training...:  64% 1678/2609 [1:36:48<49:42,  3.20s/it][A
Training...:  64% 1679/2609 [1:36:51<48:07,  3.11s/it][A
Training...:  64% 1680/2609 [1:36:53<46:42,  3.02s/it][A
Training...:  64% 1681/2609 [1:36:56<45:18,  2.93s/it][A
Training...:  64% 1682/2609 [1:36:59<43:52,  2.84s/it][A
Training...:  65% 1683/2609 [1:37:01<42:24,  2.75s/it][A
Training...:  65% 1684/2609 [1:37:04<40:59,  2.66s/it][A
Training...:  65% 1685/2609 [1:37:06<39:38,  2.57s/it][A
Training...:  65% 1686/2609 [1:37:08<38:18,  2.49s/it][A
Training...:  65% 1687/2609 [1:37:11<37:05,  2.41s/it][A
Training...:  65% 1688/2609 [1:37:13<35:27,  2.31s/it][A
Training...:  65% 1689/2609 [1:37:15<34:02,  2.22s/it][A
Training...:  65% 1690/2609 [1:37:17<32:26,  2.12s/it][A
Training...:  65% 1691/2609 [1:37:18<30:52,  2.02s/it][A
Training...:  65% 1692/2609 [1:37:20<29:27,  1.93s/it][A
Training...:  65% 1693/2609 [1:37:22<27:44,  1.82s/it][A
Training...:  65% 1694/2609 [1:37:23<26:07,  1.71s/it][A
Training...:  65% 1695/2609 [1:37:24<24:33,  1.61s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:08:46<36:02:29, 9267.83s/it]
Training...:  65% 1695/2609 [1:37:26<24:33,  1.61s/it][A
Training...:  65% 1696/2609 [1:37:26<24:31,  1.61s/it][A
Training...:  65% 1697/2609 [1:37:27<22:19,  1.47s/it][A
Training...:  65% 1698/2609 [1:37:28<20:01,  1.32s/it][A
Training...:  65% 1699/2609 [1:37:29<17:43,  1.17s/it][A
Training...:  65% 1700/2609 [1:37:30<14:56,  1.01it/s][A
Training...:  65% 1701/2609 [1:37:37<42:45,  2.83s/it][A
Training...:  65% 1702/2609 [1:37:44<1:01:55,  4.10s/it][A
Training...:  65% 1703/2609 [1:37:50<1:13:27,  4.86s/it][A
Training...:  65% 1704/2609 [1:37:57<1:20:03,  5.31s/it][A
Training...:  65% 1705/2609 [1:38:03<1:22:55,  5.50s/it][A
Training...:  65% 1706/2609 [1:38:08<1:23:50,  5.57s/it][A
Training...:  65% 1707/2609 [1:38:14<1:23:26,  5.55s/it][A
Training...:  65% 1708/2609 [1:38:19<1:21:52,  5.45s/it][A
Training...:  66% 1709/2609 [1:38:24<1:20:00,  5.33s/it][A
Training...:  66% 1710/2609 [1:38:29<1:18:07,  5.21s/it][A
Training...:  66% 1711/2609 [1:38:34<1:16:44,  5.13s/it][A
Training...:  66% 1712/2609 [1:38:39<1:13:59,  4.95s/it][A
Training...:  66% 1713/2609 [1:38:43<1:11:37,  4.80s/it][A
Training...:  66% 1714/2609 [1:38:47<1:09:10,  4.64s/it][A
Training...:  66% 1715/2609 [1:38:52<1:07:14,  4.51s/it][A
Training...:  66% 1716/2609 [1:38:56<1:05:13,  4.38s/it][A
Training...:  66% 1717/2609 [1:39:00<1:03:34,  4.28s/it][A
Training...:  66% 1718/2609 [1:39:04<1:01:50,  4.16s/it][A
Training...:  66% 1719/2609 [1:39:07<1:00:31,  4.08s/it][A
Training...:  66% 1720/2609 [1:39:11<58:52,  3.97s/it]  [A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:10:35<36:02:29, 9267.83s/it]
Training...:  66% 1720/2609 [1:39:15<58:52,  3.97s/it][A
Training...:  66% 1721/2609 [1:39:15<59:52,  4.05s/it][A
Training...:  66% 1722/2609 [1:39:19<57:30,  3.89s/it][A
Training...:  66% 1723/2609 [1:39:22<55:31,  3.76s/it][A
Training...:  66% 1724/2609 [1:39:26<53:30,  3.63s/it][A
Training...:  66% 1725/2609 [1:39:29<51:51,  3.52s/it][A
Training...:  66% 1726/2609 [1:39:32<50:08,  3.41s/it][A
Training...:  66% 1727/2609 [1:39:35<48:35,  3.31s/it][A
Training...:  66% 1728/2609 [1:39:38<47:11,  3.21s/it][A
Training...:  66% 1729/2609 [1:39:41<45:49,  3.12s/it][A
Training...:  66% 1730/2609 [1:39:44<44:30,  3.04s/it][A
Training...:  66% 1731/2609 [1:39:47<43:11,  2.95s/it][A
Training...:  66% 1732/2609 [1:39:49<41:53,  2.87s/it][A
Training...:  66% 1733/2609 [1:39:52<40:35,  2.78s/it][A
Training...:  66% 1734/2609 [1:39:54<39:24,  2.70s/it][A
Training...:  67% 1735/2609 [1:39:57<38:03,  2.61s/it][A
Training...:  67% 1736/2609 [1:39:59<36:48,  2.53s/it][A
Training...:  67% 1737/2609 [1:40:01<35:28,  2.44s/it][A
Training...:  67% 1738/2609 [1:40:04<33:58,  2.34s/it][A
Training...:  67% 1739/2609 [1:40:06<32:37,  2.25s/it][A
Training...:  67% 1740/2609 [1:40:08<31:18,  2.16s/it][A
Training...:  67% 1741/2609 [1:40:09<30:00,  2.07s/it][A
Training...:  67% 1742/2609 [1:40:11<28:45,  1.99s/it][A
Training...:  67% 1743/2609 [1:40:13<27:22,  1.90s/it][A
Training...:  67% 1744/2609 [1:40:14<25:56,  1.80s/it][A
Training...:  67% 1745/2609 [1:40:16<24:19,  1.69s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:11:37<36:02:29, 9267.83s/it]
Training...:  67% 1745/2609 [1:40:18<24:19,  1.69s/it][A
Training...:  67% 1746/2609 [1:40:18<24:15,  1.69s/it][A
Training...:  67% 1747/2609 [1:40:19<21:57,  1.53s/it][A
Training...:  67% 1748/2609 [1:40:20<19:40,  1.37s/it][A
Training...:  67% 1749/2609 [1:40:20<17:09,  1.20s/it][A
Training...:  67% 1750/2609 [1:40:21<14:22,  1.00s/it][A
Training...:  67% 1751/2609 [1:40:28<41:12,  2.88s/it][A
Training...:  67% 1752/2609 [1:40:35<59:08,  4.14s/it][A
Training...:  67% 1753/2609 [1:40:42<1:09:04,  4.84s/it][A
Training...:  67% 1754/2609 [1:40:48<1:14:56,  5.26s/it][A
Training...:  67% 1755/2609 [1:40:54<1:17:50,  5.47s/it][A
Training...:  67% 1756/2609 [1:41:00<1:18:26,  5.52s/it][A
Training...:  67% 1757/2609 [1:41:05<1:18:31,  5.53s/it][A
Training...:  67% 1758/2609 [1:41:10<1:17:13,  5.44s/it][A
Training...:  67% 1759/2609 [1:41:16<1:16:02,  5.37s/it][A
Training...:  67% 1760/2609 [1:41:21<1:13:50,  5.22s/it][A
Training...:  67% 1761/2609 [1:41:25<1:11:54,  5.09s/it][A
Training...:  68% 1762/2609 [1:41:30<1:09:40,  4.94s/it][A
Training...:  68% 1763/2609 [1:41:35<1:08:07,  4.83s/it][A
Training...:  68% 1764/2609 [1:41:39<1:06:08,  4.70s/it][A
Training...:  68% 1765/2609 [1:41:43<1:04:30,  4.59s/it][A
Training...:  68% 1766/2609 [1:41:47<1:02:33,  4.45s/it][A
Training...:  68% 1767/2609 [1:41:51<1:00:50,  4.34s/it][A
Training...:  68% 1768/2609 [1:41:55<59:12,  4.22s/it]  [A
Training...:  68% 1769/2609 [1:41:59<57:21,  4.10s/it][A
Training...:  68% 1770/2609 [1:42:03<55:26,  3.96s/it][A                                                                                                                                                                   
                                                      [AStep... (15675 | Loss: 0.08147148787975311, Learning Rate: 6.934544944670051e-05, Gradient Norm: 0.5376931428909302)
Step... (15700 | Loss: 0.0735299214720726, Learning Rate: 6.929495430085808e-05, Gradient Norm: 0.8033434748649597)
Step... (15725 | Loss: 0.11399699747562408, Learning Rate: 6.924444460310042e-05, Gradient Norm: 0.6250713467597961)
Step... (15750 | Loss: 0.03680680692195892, Learning Rate: 6.919393490534276e-05, Gradient Norm: 0.6278594732284546)
Step... (15775 | Loss: 0.09104524552822113, Learning Rate: 6.914343975950032e-05, Gradient Norm: 0.8911696672439575)
Step... (15800 | Loss: 0.06096060946583748, Learning Rate: 6.909293006174266e-05, Gradient Norm: 0.6874733567237854)
Step... (15825 | Loss: 0.09387752413749695, Learning Rate: 6.9042420363985e-05, Gradient Norm: 0.5678393244743347)
Step... (15850 | Loss: 0.0477353110909462, Learning Rate: 6.899192521814257e-05, Gradient Norm: 0.6450470089912415)
Step... (15875 | Loss: 0.11834334582090378, Learning Rate: 6.894141552038491e-05, Gradient Norm: 0.7293819189071655)
Step... (15900 | Loss: 0.06114213168621063, Learning Rate: 6.889090582262725e-05, Gradient Norm: 0.8693517446517944)
Step... (15925 | Loss: 0.08955346792936325, Learning Rate: 6.88404034008272e-05, Gradient Norm: 0.5207052230834961)
Step... (15950 | Loss: 0.05880337581038475, Learning Rate: 6.878990097902715e-05, Gradient Norm: 1.0491334199905396)
Step... (15975 | Loss: 0.0647687315940857, Learning Rate: 6.873939128126949e-05, Gradient Norm: 0.5073170065879822)
Step... (16000 | Loss: 0.030927060171961784, Learning Rate: 6.868888885946944e-05, Gradient Norm: 0.48113659024238586)
Step... (16025 | Loss: 0.06545133888721466, Learning Rate: 6.863837916171178e-05, Gradient Norm: 0.4485272467136383)
Step... (16050 | Loss: 0.052757568657398224, Learning Rate: 6.858787673991174e-05, Gradient Norm: 0.8994166851043701)
Step... (16075 | Loss: 0.06817097216844559, Learning Rate: 6.853737431811169e-05, Gradient Norm: 0.5337690114974976)
Step... (16100 | Loss: 0.09968408942222595, Learning Rate: 6.848686462035403e-05, Gradient Norm: 0.7468751668930054)
Step... (16125 | Loss: 0.0495813749730587, Learning Rate: 6.843636219855398e-05, Gradient Norm: 0.42805543541908264)
Step... (16150 | Loss: 0.07009977102279663, Learning Rate: 6.838585250079632e-05, Gradient Norm: 0.9296045899391174)
Step... (16175 | Loss: 0.08234691619873047, Learning Rate: 6.833535007899627e-05, Gradient Norm: 0.6006113290786743)
Step... (16200 | Loss: 0.17105211317539215, Learning Rate: 6.828484038123861e-05, Gradient Norm: 1.1865290403366089)
Step... (16225 | Loss: 0.0982445701956749, Learning Rate: 6.823433795943856e-05, Gradient Norm: 0.5312818884849548)
Step... (16250 | Loss: 0.0637085884809494, Learning Rate: 6.818383553763852e-05, Gradient Norm: 0.7109401822090149)
Step... (16275 | Loss: 0.10644086450338364, Learning Rate: 6.813332583988085e-05, Gradient Norm: 0.7598057389259338)
Step... (16300 | Loss: 0.04919024556875229, Learning Rate: 6.80828234180808e-05, Gradient Norm: 0.7317672967910767)
Step... (16325 | Loss: 0.08850329369306564, Learning Rate: 6.803232099628076e-05, Gradient Norm: 1.023858904838562)
Step... (16350 | Loss: 0.0646824985742569, Learning Rate: 6.79818112985231e-05, Gradient Norm: 0.6527300477027893)
Step... (16375 | Loss: 0.06315471976995468, Learning Rate: 6.793130887672305e-05, Gradient Norm: 0.5065448880195618)
Step... (16400 | Loss: 0.08775800466537476, Learning Rate: 6.7880806454923e-05, Gradient Norm: 0.9925963282585144)
Step... (16425 | Loss: 0.11331365257501602, Learning Rate: 6.783029675716534e-05, Gradient Norm: 0.6906624436378479)
Step... (16450 | Loss: 0.16670021414756775, Learning Rate: 6.77797943353653e-05, Gradient Norm: 1.1569198369979858)
Step... (16475 | Loss: 0.0703229308128357, Learning Rate: 6.772929191356525e-05, Gradient Norm: 0.4690694212913513)
Step... (16500 | Loss: 0.03548814356327057, Learning Rate: 6.767878221580759e-05, Gradient Norm: 0.584396481513977)
Step... (16525 | Loss: 0.07993759959936142, Learning Rate: 6.762827979400754e-05, Gradient Norm: 0Step... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:13:27<36:02:29, 9267.83s/it]
.5327641367912292)
Step... (16550 | Loss: 0.06375887989997864, Learning Rate: 6.757777737220749e-05, Gradient Norm: 0.7626321911811829)
Step... (16575 | Loss: 0.09241615980863571, Learning Rate: 6.752726767444983e-05, Gradient Norm: 0.623901903629303)
Step... (16600 | Loss: 0.08924639225006104, Learning Rate: 6.747676525264978e-05, Gradient Norm: 0.904755711555481)
Step... (16625 | Loss: 0.09925686568021774, Learning Rate: 6.742626283084974e-05, Gradient Norm: 0.6518183350563049)
Step... (16650 | Loss: 0.07311180233955383, Learning Rate: 6.737575313309208e-05, Gradient Norm: 0.8812230229377747)
Step... (16675 | Loss: 0.0797286108136177, Learning Rate: 6.732525071129203e-05, Gradient Norm: 0.6191443204879761)
Step... (16700 | Loss: 0.07122401148080826, Learning Rate: 6.727474828949198e-05, Gradient Norm: 0.7236319184303284)
Step... (16725 | Loss: 0.0934365838766098, Learning Rate: 6.722423859173432e-05, Gradient Norm: 0.5900998115539551)
Step... (16750 | Loss: 0.06159533932805061, Learning Rate: 6.717373616993427e-05, Gradient Norm: 0.936606228351593)
Step... (16775 | Loss: 0.070122629404068, Learning Rate: 6.712323374813423e-05, Gradient Norm: 0.5892953872680664)
Step... (16800 | Loss: 0.08129484206438065, Learning Rate: 6.707272405037656e-05, Gradient Norm: 0.9089511632919312)
Step... (16825 | Loss: 0.2158879190683365, Learning Rate: 6.702222162857652e-05, Gradient Norm: 2.8540842533111572)
Step... (16850 | Loss: 0.100283682346344, Learning Rate: 6.697171920677647e-05, Gradient Norm: 1.269801378250122)
Step... (16875 | Loss: 0.08757232129573822, Learning Rate: 6.692120950901881e-05, Gradient Norm: 0.7399919629096985)
Step... (16900 | Loss: 0.11929858475923538, Learning Rate: 6.687070708721876e-05, Gradient Norm: 1.2554669380187988)
Step... (16925 | Loss: 0.061864469200372696, Learning Rate: 6.682020466541871e-05, Gradient Norm: 0.5970016717910767)
Step... (16950 | Loss: 0.06634284555912018, Learning Rate: 6.676969496766105e-05, Gradient Norm: 0.8067851662635803)
Step... (16975 | Loss: 0.08737640082836151, Learning Rate: 6.6719192545861e-05, Gradient Norm: 0.7819761037826538)
Step... (17000 | Loss: 0.09550389647483826, Learning Rate: 6.666869012406096e-05, Gradient Norm: 0.9107184410095215)
Step... (17025 | Loss: 0.1434343159198761, Learning Rate: 6.66181804263033e-05, Gradient Norm: 0.7580530047416687)
Step... (17050 | Loss: 0.0658857449889183, Learning Rate: 6.656767800450325e-05, Gradient Norm: 0.7595797181129456)
Step... (17075 | Loss: 0.09440559893846512, Learning Rate: 6.65171755827032e-05, Gradient Norm: 0.6241885423660278)
Step... (17100 | Loss: 0.17207445204257965, Learning Rate: 6.646666588494554e-05, Gradient Norm: 1.1832321882247925)
Step... (17125 | Loss: 0.0924333930015564, Learning Rate: 6.64161634631455e-05, Gradient Norm: 0.5538710355758667)
Step... (17150 | Loss: 0.08677376806735992, Learning Rate: 6.636566104134545e-05, Gradient Norm: 1.196676254272461)
Step... (17175 | Loss: 0.09190016239881516, Learning Rate: 6.631515134358779e-05, Gradient Norm: 0.5704355835914612)
Step... (17200 | Loss: 0.0872301533818245, Learning Rate: 6.626464892178774e-05, Gradient Norm: 1.2181785106658936)
Step... (17225 | Loss: 0.07979118824005127, Learning Rate: 6.621413922403008e-05, Gradient Norm: 0.5874606966972351)
Step... (17250 | Loss: 0.05591726675629616, Learning Rate: 6.616363680223003e-05, Gradient Norm: 0.8126367330551147)
Step... (17275 | Loss: 0.09653396904468536, Learning Rate: 6.611312710447237e-05, Gradient Norm: 1.0559883117675781)
Step... (17300 | Loss: 0.10358932614326477, Learning Rate: 6.606262468267232e-05, Gradient Norm: 1.0108325481414795)
Step... (17325 | Loss: 0.204994797706604, Learning Rate: 6.601211498491466e-05, Gradient Norm: 0.9246283769607544)
Step... (17350 | Loss: 0.1839418113231659, Learning Rate: 6.596161256311461e-05, Gradient Norm: 1.5000907182693481)
Step... (17375 | Loss: 0.09487356245517731, Learning Rate: 6.591111014131457e-05, Gradient Norm: 0.5962923765182495)
Step... (17400 | Loss: 0.08272628486156464, Learning Rate: 6.58606004435569e-05, GradiTraining...:  68% 1770/2609 [1:42:07<55:26,  3.96s/it][A
Training...:  68% 1771/2609 [1:42:07<56:23,  4.04s/it][Aent Norm: 1.0193073749542236)

Training...:  68% 1772/2609 [1:42:11<54:57,  3.94s/it][A
Training...:  68% 1773/2609 [1:42:14<53:14,  3.82s/it][A
Training...:  68% 1774/2609 [1:42:18<51:08,  3.67s/it][A
Training...:  68% 1775/2609 [1:42:21<49:17,  3.55s/it][A
Training...:  68% 1776/2609 [1:42:24<47:29,  3.42s/it][A
Training...:  68% 1777/2609 [1:42:27<45:57,  3.31s/it][A
Training...:  68% 1778/2609 [1:42:30<44:34,  3.22s/it][A
Training...:  68% 1779/2609 [1:42:33<43:04,  3.11s/it][A
Training...:  68% 1780/2609 [1:42:36<41:54,  3.03s/it][A
Training...:  68% 1781/2609 [1:42:39<40:45,  2.95s/it][A
Training...:  68% 1782/2609 [1:42:41<39:25,  2.86s/it][A
Training...:  68% 1783/2609 [1:42:44<38:07,  2.77s/it][A
Training...:  68% 1784/2609 [1:42:46<36:49,  2.68s/it][A
Training...:  68% 1785/2609 [1:42:49<35:37,  2.59s/it][A
Training...:  68% 1786/2609 [1:42:51<34:17,  2.50s/it][A
Training...:  68% 1787/2609 [1:42:53<33:03,  2.41s/it][A
Training...:  69% 1788/2609 [1:42:55<31:53,  2.33s/it][A
Training...:  69% 1789/2609 [1:42:57<30:33,  2.24s/it][A
Training...:  69% 1790/2609 [1:42:59<29:20,  2.15s/it][A
Training...:  69% 1791/2609 [1:43:01<28:00,  2.05s/it][A
Training...:  69% 1792/2609 [1:43:03<26:47,  1.97s/it][A
Training...:  69% 1793/2609 [1:43:04<25:34,  1.88s/it][A
Training...:  69% 1794/2609 [1:43:06<24:17,  1.79s/it][A
Training...:  69% 1795/2609 [1:43:08<22:55,  1.69s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:14:29<36:02:29, 9267.83s/it]
Training...:  69% 1795/2609 [1:43:09<22:55,  1.69s/it][A
Training...:  69% 1796/2609 [1:43:09<22:51,  1.69s/it][A
Training...:  69% 1797/2609 [1:43:10<20:49,  1.54s/it][A
Training...:  69% 1798/2609 [1:43:11<18:45,  1.39s/it][A
Training...:  69% 1799/2609 [1:43:12<16:32,  1.23s/it][A
Training...:  69% 1800/2609 [1:43:13<13:58,  1.04s/it][A
Training...:  69% 1801/2609 [1:43:20<39:13,  2.91s/it][A
Training...:  69% 1802/2609 [1:43:27<56:38,  4.21s/it][A
Training...:  69% 1803/2609 [1:43:34<1:06:31,  4.95s/it][A
Training...:  69% 1804/2609 [1:43:41<1:12:24,  5.40s/it][A
Training...:  69% 1805/2609 [1:43:47<1:15:11,  5.61s/it][A
Training...:  69% 1806/2609 [1:43:52<1:15:50,  5.67s/it][A
Training...:  69% 1807/2609 [1:43:58<1:15:17,  5.63s/it][A
Training...:  69% 1808/2609 [1:44:03<1:14:05,  5.55s/it][A
Training...:  69% 1809/2609 [1:44:09<1:12:53,  5.47s/it][A
Training...:  69% 1810/2609 [1:44:14<1:11:28,  5.37s/it][A
Training...:  69% 1811/2609 [1:44:19<1:09:38,  5.24s/it][A
Training...:  69% 1812/2609 [1:44:23<1:07:02,  5.05s/it][A
Training...:  69% 1813/2609 [1:44:28<1:04:57,  4.90s/it][A
Training...:  70% 1814/2609 [1:44:32<1:02:42,  4.73s/it][A
Training...:  70% 1815/2609 [1:44:36<1:00:51,  4.60s/it][A
Training...:  70% 1816/2609 [1:44:41<58:48,  4.45s/it]  [A
Training...:  70% 1817/2609 [1:44:45<57:12,  4.33s/it][A
Training...:  70% 1818/2609 [1:44:49<55:30,  4.21s/it][A
Training...:  70% 1819/2609 [1:44:52<53:48,  4.09s/it][A
Training...:  70% 1820/2609 [1:44:56<52:21,  3.98s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:16:20<36:02:29, 9267.83s/it]
Training...:  70% 1820/2609 [1:45:00<52:21,  3.98s/it][A
Training...:  70% 1821/2609 [1:45:00<53:18,  4.06s/it][A
Training...:  70% 1822/2609 [1:45:04<51:10,  3.90s/it][A
Training...:  70% 1823/2609 [1:45:07<49:15,  3.76s/it][A
Training...:  70% 1824/2609 [1:45:11<47:35,  3.64s/it][A
Training...:  70% 1825/2609 [1:45:14<46:02,  3.52s/it][A
Training...:  70% 1826/2609 [1:45:17<44:31,  3.41s/it][A
Training...:  70% 1827/2609 [1:45:20<43:16,  3.32s/it][A
Training...:  70% 1828/2609 [1:45:23<41:57,  3.22s/it][A
Training...:  70% 1829/2609 [1:45:26<40:44,  3.13s/it][A
Training...:  70% 1830/2609 [1:45:29<39:33,  3.05s/it][A
Training...:  70% 1831/2609 [1:45:32<38:20,  2.96s/it][A
Training...:  70% 1832/2609 [1:45:34<37:08,  2.87s/it][A
Training...:  70% 1833/2609 [1:45:37<36:04,  2.79s/it][A
Training...:  70% 1834/2609 [1:45:39<34:51,  2.70s/it][A
Training...:  70% 1835/2609 [1:45:42<33:41,  2.61s/it][A
Training...:  70% 1836/2609 [1:45:44<32:32,  2.53s/it][A
Training...:  70% 1837/2609 [1:45:46<31:17,  2.43s/it][A
Training...:  70% 1838/2609 [1:45:49<30:06,  2.34s/it][A
Training...:  70% 1839/2609 [1:45:51<28:52,  2.25s/it][A
Training...:  71% 1840/2609 [1:45:52<27:30,  2.15s/it][A
Training...:  71% 1841/2609 [1:45:54<26:20,  2.06s/it][A
Training...:  71% 1842/2609 [1:45:56<25:04,  1.96s/it][A
Training...:  71% 1843/2609 [1:45:58<23:52,  1.87s/it][A
Training...:  71% 1844/2609 [1:45:59<22:45,  1.79s/it][A
Training...:  71% 1845/2609 [1:46:01<21:28,  1.69s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:17:22<36:02:29, 9267.83s/it]
Training...:  71% 1845/2609 [1:46:02<21:28,  1.69s/it][A
Training...:  71% 1846/2609 [1:46:02<21:18,  1.68s/it][A
Training...:  71% 1847/2609 [1:46:04<19:21,  1.52s/it][A
Training...:  71% 1848/2609 [1:46:05<17:17,  1.36s/it][A
Training...:  71% 1849/2609 [1:46:05<15:10,  1.20s/it][A
Training...:  71% 1850/2609 [1:46:06<12:43,  1.01s/it][A
Training...:  71% 1851/2609 [1:46:13<36:11,  2.86s/it][A
Training...:  71% 1852/2609 [1:46:20<52:30,  4.16s/it][A
Training...:  71% 1853/2609 [1:46:27<1:01:46,  4.90s/it][A
Training...:  71% 1854/2609 [1:46:33<1:07:05,  5.33s/it][A
Training...:  71% 1855/2609 [1:46:39<1:09:37,  5.54s/it][A
Training...:  71% 1856/2609 [1:46:45<1:10:52,  5.65s/it][A
Training...:  71% 1857/2609 [1:46:51<1:10:42,  5.64s/it][A
Training...:  71% 1858/2609 [1:46:56<1:09:47,  5.58s/it][A
Training...:  71% 1859/2609 [1:47:02<1:08:39,  5.49s/it][A
Training...:  71% 1860/2609 [1:47:07<1:06:56,  5.36s/it][A
Training...:  71% 1861/2609 [1:47:12<1:05:17,  5.24s/it][A
Training...:  71% 1862/2609 [1:47:16<1:03:10,  5.07s/it][A
Training...:  71% 1863/2609 [1:47:21<1:01:35,  4.95s/it][A
Training...:  71% 1864/2609 [1:47:25<59:22,  4.78s/it]  [A
Training...:  71% 1865/2609 [1:47:30<57:39,  4.65s/it][A
Training...:  72% 1866/2609 [1:47:34<55:58,  4.52s/it][A
Training...:  72% 1867/2609 [1:47:38<54:10,  4.38s/it][A
Training...:  72% 1868/2609 [1:47:42<52:41,  4.27s/it][A
Training...:  72% 1869/2609 [1:47:46<51:19,  4.16s/it][A
Training...:  72% 1870/2609 [1:47:50<49:43,  4.04s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:19:14<36:02:29, 9267.83s/it]
Training...:  72% 1870/2609 [1:47:54<49:43,  4.04s/it][A
Training...:  72% 1871/2609 [1:47:54<50:20,  4.09s/it][A
Training...:  72% 1872/2609 [1:47:57<48:27,  3.94s/it][A
Training...:  72% 1873/2609 [1:48:01<46:36,  3.80s/it][A
Training...:  72% 1874/2609 [1:48:04<45:01,  3.68s/it][A
Training...:  72% 1875/2609 [1:48:08<43:42,  3.57s/it][A
Training...:  72% 1876/2609 [1:48:11<42:03,  3.44s/it][A
Training...:  72% 1877/2609 [1:48:14<40:47,  3.34s/it][A
Training...:  72% 1878/2609 [1:48:17<39:21,  3.23s/it][A
Training...:  72% 1879/2609 [1:48:20<38:16,  3.15s/it][A
Training...:  72% 1880/2609 [1:48:23<37:07,  3.06s/it][A
Training...:  72% 1881/2609 [1:48:25<35:49,  2.95s/it][A
Training...:  72% 1882/2609 [1:48:28<34:36,  2.86s/it][A
Training...:  72% 1883/2609 [1:48:30<33:30,  2.77s/it][A
Training...:  72% 1884/2609 [1:48:33<32:27,  2.69s/it][A
Training...:  72% 1885/2609 [1:48:35<31:18,  2.59s/it][A
Training...:  72% 1886/2609 [1:48:38<30:07,  2.50s/it][A
Training...:  72% 1887/2609 [1:48:40<29:16,  2.43s/it][A
Training...:  72% 1888/2609 [1:48:42<28:05,  2.34s/it][A
Training...:  72% 1889/2609 [1:48:44<27:05,  2.26s/it][A
Training...:  72% 1890/2609 [1:48:46<26:02,  2.17s/it][A
Training...:  72% 1891/2609 [1:48:48<24:52,  2.08s/it][A
Training...:  73% 1892/2609 [1:48:50<23:40,  1.98s/it][A
Training...:  73% 1893/2609 [1:48:51<22:30,  1.89s/it][A
Training...:  73% 1894/2609 [1:48:53<21:16,  1.79s/it][A
Training...:  73% 1895/2609 [1:48:54<20:04,  1.69s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:20:16<36:02:29, 9267.83s/it]
Training...:  73% 1895/2609 [1:48:56<20:04,  1.69s/it][A
Training...:  73% 1896/2609 [1:48:56<19:55,  1.68s/it][A
Training...:  73% 1897/2609 [1:48:57<18:04,  1.52s/it][A
Training...:  73% 1898/2609 [1:48:58<16:19,  1.38s/it][A
Training...:  73% 1899/2609 [1:48:59<14:23,  1.22s/it][A
Training...:  73% 1900/2609 [1:49:00<12:01,  1.02s/it][A
Training...:  73% 1901/2609 [1:49:07<34:08,  2.89s/it][A
Training...:  73% 1902/2609 [1:49:14<49:02,  4.16s/it][A
Training...:  73% 1903/2609 [1:49:21<57:35,  4.89s/it][A
Training...:  73% 1904/2609 [1:49:27<1:02:09,  5.29s/it][A
Training...:  73% 1905/2609 [1:49:33<1:04:31,  5.50s/it][A
Training...:  73% 1906/2609 [1:49:38<1:04:54,  5.54s/it][A
Training...:  73% 1907/2609 [1:49:44<1:04:49,  5.54s/it][A
Training...:  73% 1908/2609 [1:49:49<1:03:39,  5.45s/it][A
Training...:  73% 1909/2609 [1:49:54<1:02:33,  5.36s/it][A
Training...:  73% 1910/2609 [1:49:59<1:00:56,  5.23s/it][A
Training...:  73% 1911/2609 [1:50:04<59:09,  5.09s/it]  [A
Training...:  73% 1912/2609 [1:50:09<57:05,  4.91s/it][A
Training...:  73% 1913/2609 [1:50:13<55:30,  4.79s/it][A
Training...:  73% 1914/2609 [1:50:17<53:50,  4.65s/it][A
Training...:  73% 1915/2609 [1:50:22<52:23,  4.53s/it][A
Training...:  73% 1916/2609 [1:50:26<50:44,  4.39s/it][A
Training...:  73% 1917/2609 [1:50:30<49:14,  4.27s/it][A
Training...:  74% 1918/2609 [1:50:33<47:34,  4.13s/it][A
Training...:  74% 1919/2609 [1:50:37<46:12,  4.02s/it][A
Training...:  74% 1920/2609 [1:50:41<45:02,  3.92s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:22:05<36:02:29, 9267.83s/it]
Training...:  74% 1920/2609 [1:50:45<45:02,  3.92s/it][A
Training...:  74% 1921/2609 [1:50:45<45:47,  3.99s/it][A
Training...:  74% 1922/2609 [1:50:49<43:57,  3.84s/it][A
Training...:  74% 1923/2609 [1:50:52<42:22,  3.71s/it][A
Training...:  74% 1924/2609 [1:50:55<41:03,  3.60s/it][A
Training...:  74% 1925/2609 [1:50:59<39:42,  3.48s/it][A
Training...:  74% 1926/2609 [1:51:02<38:24,  3.37s/it][A
Training...:  74% 1927/2609 [1:51:05<37:14,  3.28s/it][A
Training...:  74% 1928/2609 [1:51:08<36:01,  3.17s/it][A
Training...:  74% 1929/2609 [1:51:11<34:56,  3.08s/it][A
Training...:  74% 1930/2609 [1:51:13<33:55,  3.00s/it][A
Training...:  74% 1931/2609 [1:51:16<32:55,  2.91s/it][A
Training...:  74% 1932/2609 [1:51:19<32:02,  2.84s/it][A
Training...:  74% 1933/2609 [1:51:21<31:02,  2.75s/it][A
Training...:  74% 1934/2609 [1:51:24<29:47,  2.65s/it][A
Training...:  74% 1935/2609 [1:51:26<28:45,  2.56s/it][A
Training...:  74% 1936/2609 [1:51:28<27:47,  2.48s/it][A
Training...:  74% 1937/2609 [1:51:31<26:49,  2.40s/it][A
Training...:  74% 1938/2609 [1:51:33<25:58,  2.32s/it][A
Training...:  74% 1939/2609 [1:51:35<25:00,  2.24s/it][A
Training...:  74% 1940/2609 [1:51:37<23:58,  2.15s/it][A
Training...:  74% 1941/2609 [1:51:38<22:46,  2.05s/it][A
Training...:  74% 1942/2609 [1:51:40<21:34,  1.94s/it][A
Training...:  74% 1943/2609 [1:51:42<20:23,  1.84s/it][A
Training...:  75% 1944/2609 [1:51:43<19:09,  1.73s/it][A
Training...:  75% 1945/2609 [1:51:45<17:54,  1.62s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:23:06<36:02:29, 9267.83s/it]
Training...:  75% 1945/2609 [1:51:46<17:54,  1.62s/it][A
Training...:  75% 1946/2609 [1:51:46<17:48,  1.61s/it][A
Training...:  75% 1947/2609 [1:51:47<16:15,  1.47s/it][A
Training...:  75% 1948/2609 [1:51:48<14:37,  1.33s/it][A
Training...:  75% 1949/2609 [1:51:49<12:50,  1.17s/it][A
Training...:  75% 1950/2609 [1:51:50<10:48,  1.02it/s][A
Training...:  75% 1951/2609 [1:51:57<31:08,  2.84s/it][A
Training...:  75% 1952/2609 [1:52:04<44:43,  4.09s/it][A
Training...:  75% 1953/2609 [1:52:10<52:58,  4.84s/it][A
Training...:  75% 1954/2609 [1:52:17<57:31,  5.27s/it][A
Training...:  75% 1955/2609 [1:52:23<59:56,  5.50s/it][A
Training...:  75% 1956/2609 [1:52:28<1:00:39,  5.57s/it][A
Training...:  75% 1957/2609 [1:52:34<1:00:53,  5.60s/it][A
Training...:  75% 1958/2609 [1:52:39<59:48,  5.51s/it]  [A
Training...:  75% 1959/2609 [1:52:45<58:40,  5.42s/it][A
Training...:  75% 1960/2609 [1:52:50<57:17,  5.30s/it][A
Training...:  75% 1961/2609 [1:52:54<55:41,  5.16s/it][A
Training...:  75% 1962/2609 [1:52:59<54:09,  5.02s/it][A
Training...:  75% 1963/2609 [1:53:04<52:26,  4.87s/it][A
Training...:  75% 1964/2609 [1:53:08<50:37,  4.71s/it][A
Training...:  75% 1965/2609 [1:53:12<48:59,  4.56s/it][A
Training...:  75% 1966/2609 [1:53:16<47:26,  4.43s/it][A
Training...:  75% 1967/2609 [1:53:21<46:30,  4.35s/it][A
Training...:  75% 1968/2609 [1:53:25<45:17,  4.24s/it][A
Training...:  75% 1969/2609 [1:53:28<44:11,  4.14s/it][A
Training...:  76% 1970/2609 [1:53:32<42:45,  4.01s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:24:56<36:02:29, 9267.83s/it]
Training...:  76% 1970/2609 [1:53:36<42:45,  4.01s/it][A
Training...:  76% 1971/2609 [1:53:36<43:29,  4.09s/it][A
Training...:  76% 1972/2609 [1:53:40<41:40,  3.93s/it][A
Training...:  76% 1973/2609 [1:53:44<40:21,  3.81s/it][A
Training...:  76% 1974/2609 [1:53:47<39:03,  3.69s/it][A
Training...:  76% 1975/2609 [1:53:50<37:43,  3.57s/it][A
Training...:  76% 1976/2609 [1:53:53<36:25,  3.45s/it][A
Training...:  76% 1977/2609 [1:53:57<35:24,  3.36s/it][A
Training...:  76% 1978/2609 [1:54:00<34:17,  3.26s/it][A
Training...:  76% 1979/2609 [1:54:03<33:16,  3.17s/it][A
Training...:  76% 1980/2609 [1:54:05<32:25,  3.09s/it][A
Training...:  76% 1981/2609 [1:54:08<31:31,  3.01s/it][A
Training...:  76% 1982/2609 [1:54:11<30:21,  2.91s/it][A
Training...:  76% 1983/2609 [1:54:13<29:16,  2.81s/it][A
Training...:  76% 1984/2609 [1:54:16<28:14,  2.71s/it][A
Training...:  76% 1985/2609 [1:54:18<27:21,  2.63s/it][A
Training...:  76% 1986/2609 [1:54:21<26:41,  2.57s/it][A
Training...:  76% 1987/2609 [1:54:23<25:35,  2.47s/it][A
Training...:  76% 1988/2609 [1:54:25<24:25,  2.36s/it][A
Training...:  76% 1989/2609 [1:54:27<23:20,  2.26s/it][A
Training...:  76% 1990/2609 [1:54:29<22:15,  2.16s/it][A
Training...:  76% 1991/2609 [1:54:31<21:11,  2.06s/it][A
Training...:  76% 1992/2609 [1:54:33<20:11,  1.96s/it][A
Training...:  76% 1993/2609 [1:54:34<19:16,  1.88s/it][A
Training...:  76% 1994/2609 [1:54:36<18:07,  1.77s/it][A
Training...:  76% 1995/2609 [1:54:37<16:58,  1.66s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:25:59<36:02:29, 9267.83s/it]
Training...:  76% 1995/2609 [1:54:39<16:58,  1.66s/it][A
Training...:  77% 1996/2609 [1:54:39<16:45,  1.64s/it][A
Training...:  77% 1997/2609 [1:54:40<15:14,  1.49s/it][A
Training...:  77% 1998/2609 [1:54:41<13:35,  1.34s/it][A
Training...:  77% 1999/2609 [1:54:42<11:52,  1.17s/it][A
Training...:  77% 2000/2609 [1:54:42<09:58,  1.02it/s][A
Training...:  77% 2001/2609 [1:54:50<28:45,  2.84s/it][A
Training...:  77% 2002/2609 [1:54:56<41:01,  4.06s/it][A
Training...:  77% 2003/2609 [1:55:03<48:06,  4.76s/it][A
Training...:  77% 2004/2609 [1:55:09<51:57,  5.15s/it][A
Training...:  77% 2005/2609 [1:55:15<54:04,  5.37s/it][A
Training...:  77% 2006/2609 [1:55:20<54:53,  5.46s/it][A
Training...:  77% 2007/2609 [1:55:26<55:01,  5.48s/it][A
Training...:  77% 2008/2609 [1:55:31<53:52,  5.38s/it][A
Training...:  77% 2009/2609 [1:55:36<52:52,  5.29s/it][A
Training...:  77% 2010/2609 [1:55:41<51:28,  5.16s/it][A
Training...:  77% 2011/2609 [1:55:46<50:08,  5.03s/it][A
Training...:  77% 2012/2609 [1:55:50<48:56,  4.92s/it][A
Training...:  77% 2013/2609 [1:55:55<47:51,  4.82s/it][A
Training...:  77% 2014/2609 [1:55:59<46:24,  4.68s/it][A
Training...:  77% 2015/2609 [1:56:04<45:09,  4.56s/it][A
Training...:  77% 2016/2609 [1:56:08<44:00,  4.45s/it][A
Training...:  77% 2017/2609 [1:56:12<43:29,  4.41s/it][A
Training...:  77% 2018/2609 [1:56:16<41:57,  4.26s/it][A
Training...:  77% 2019/2609 [1:56:20<40:34,  4.13s/it][A
Training...:  77% 2020/2609 [1:56:24<39:24,  4.01s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:27:48<36:02:29, 9267.83s/it]
Training...:  77% 2020/2609 [1:56:28<39:24,  4.01s/it][A
Training...:  77% 2021/2609 [1:56:28<39:57,  4.08s/it][A
Training...:  78% 2022/2609 [1:56:31<38:13,  3.91s/it][A
Training...:  78% 2023/2609 [1:56:35<36:37,  3.75s/it][A
Training...:  78% 2024/2609 [1:56:38<35:23,  3.63s/it][A
Training...:  78% 2025/2609 [1:56:41<34:07,  3.51s/it][A
Training...:  78% 2026/2609 [1:56:44<32:58,  3.39s/it][A
Training...:  78% 2027/2609 [1:56:47<31:51,  3.28s/it][A
Training...:  78% 2028/2609 [1:56:50<30:47,  3.18s/it][A
Training...:  78% 2029/2609 [1:56:53<30:01,  3.11s/it][A
Training...:  78% 2030/2609 [1:56:56<29:02,  3.01s/it][A
Training...:  78% 2031/2609 [1:56:59<28:09,  2.92s/it][A
Training...:  78% 2032/2609 [1:57:01<27:17,  2.84s/it][A
Training...:  78% 2033/2609 [1:57:04<26:18,  2.74s/it][A
Training...:  78% 2034/2609 [1:57:06<25:19,  2.64s/it][A
Training...:  78% 2035/2609 [1:57:09<24:29,  2.56s/it][A
Training...:  78% 2036/2609 [1:57:11<23:37,  2.47s/it][A
Training...:  78% 2037/2609 [1:57:13<22:44,  2.38s/it][A
Training...:  78% 2038/2609 [1:57:15<21:47,  2.29s/it][A
Training...:  78% 2039/2609 [1:57:17<20:52,  2.20s/it][A
Training...:  78% 2040/2609 [1:57:19<20:00,  2.11s/it][A
Training...:  78% 2041/2609 [1:57:21<19:13,  2.03s/it][A
Training...:  78% 2042/2609 [1:57:23<18:17,  1.94s/it][A
Training...:  78% 2043/2609 [1:57:24<17:15,  1.83s/it][A
Training...:  78% 2044/2609 [1:57:26<16:11,  1.72s/it][A
Training...:  78% 2045/2609 [1:57:27<15:07,  1.61s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:28:49<36:02:29, 9267.83s/it]
Training...:  78% 2045/2609 [1:57:29<15:07,  1.61s/it][A
Training...:  78% 2046/2609 [1:57:29<15:05,  1.61s/it][A
Training...:  78% 2047/2609 [1:57:30<13:37,  1.45s/it][A
Training...:  78% 2048/2609 [1:57:31<12:08,  1.30s/it][A
Training...:  79% 2049/2609 [1:57:32<10:41,  1.15s/it][A
Training...:  79% 2050/2609 [1:57:32<08:58,  1.04it/s][A
Training...:  79% 2051/2609 [1:57:39<26:44,  2.88s/it][A
Training...:  79% 2052/2609 [1:57:47<38:31,  4.15s/it][A
Training...:  79% 2053/2609 [1:57:53<46:05,  4.97s/it][A
Training...:  79% 2054/2609 [1:58:00<50:03,  5.41s/it][A
Training...:  79% 2055/2609 [1:58:06<51:33,  5.58s/it][A
Training...:  79% 2056/2609 [1:58:12<51:48,  5.62s/it][A
Training...:  79% 2057/2609 [1:58:17<51:40,  5.62s/it][A
Training...:  79% 2058/2609 [1:58:23<50:53,  5.54s/it][A
Training...:  79% 2059/2609 [1:58:28<49:43,  5.43s/it][A
Training...:  79% 2060/2609 [1:58:33<48:09,  5.26s/it][A
Training...:  79% 2061/2609 [1:58:37<46:53,  5.13s/it][A
Training...:  79% 2062/2609 [1:58:42<45:20,  4.97s/it][A
Training...:  79% 2063/2609 [1:58:47<44:19,  4.87s/it][A
Training...:  79% 2064/2609 [1:58:51<42:57,  4.73s/it][A
Training...:  79% 2065/2609 [1:58:55<41:33,  4.58s/it][A
Training...:  79% 2066/2609 [1:58:59<40:16,  4.45s/it][A
Training...:  79% 2067/2609 [1:59:04<39:06,  4.33s/it][A
Training...:  79% 2068/2609 [1:59:07<37:52,  4.20s/it][A
Training...:  79% 2069/2609 [1:59:11<36:54,  4.10s/it][A
Training...:  79% 2070/2609 [1:59:15<35:45,  3.98s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:30:39<36:02:29, 9267.83s/it]
Training...:  79% 2070/2609 [1:59:19<35:45,  3.98s/it][A
Training...:  79% 2071/2609 [1:59:19<36:50,  4.11s/it][A
Training...:  79% 2072/2609 [1:59:23<35:32,  3.97s/it][A
Training...:  79% 2073/2609 [1:59:27<34:24,  3.85s/it][A
Training...:  79% 2074/2609 [1:59:30<32:52,  3.69s/it][A
Training...:  80% 2075/2609 [1:59:33<31:35,  3.55s/it][A
Training...:  80% 2076/2609 [1:59:36<30:18,  3.41s/it][A
Training...:  80% 2077/2609 [1:59:39<29:07,  3.28s/it][A
Training...:  80% 2078/2609 [1:59:42<28:10,  3.18s/it][A
Training...:  80% 2079/2609 [1:59:45<27:16,  3.09s/it][A
Training...:  80% 2080/2609 [1:59:48<26:34,  3.01s/it][A
Training...:  80% 2081/2609 [1:59:51<25:41,  2.92s/it][A
Training...:  80% 2082/2609 [1:59:53<24:54,  2.84s/it][A
Training...:  80% 2083/2609 [1:59:56<24:08,  2.75s/it][A
Training...:  80% 2084/2609 [1:59:58<23:15,  2.66s/it][A
Training...:  80% 2085/2609 [2:00:01<22:32,  2.58s/it][A
Training...:  80% 2086/2609 [2:00:03<21:45,  2.50s/it][A
Training...:  80% 2087/2609 [2:00:05<21:01,  2.42s/it][A
Training...:  80% 2088/2609 [2:00:07<20:12,  2.33s/it][A
Training...:  80% 2089/2609 [2:00:09<19:34,  2.26s/it][A
Training...:  80% 2090/2609 [2:00:11<18:42,  2.16s/it][A
Training...:  80% 2091/2609 [2:00:13<17:53,  2.07s/it][A
Training...:  80% 2092/2609 [2:00:15<17:08,  1.99s/it][A
Training...:  80% 2093/2609 [2:00:17<16:21,  1.90s/it][A
Training...:  80% 2094/2609 [2:00:18<15:29,  1.80s/it][A
Training...:  80% 2095/2609 [2:00:20<14:36,  1.70s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:31:41<36:02:29, 9267.83s/it]
Training...:  80% 2095/2609 [2:00:21<14:36,  1.70s/it][A
Training...:  80% 2096/2609 [2:00:21<14:27,  1.69s/it][A
Training...:  80% 2097/2609 [2:00:23<13:09,  1.54s/it][A
Training...:  80% 2098/2609 [2:00:24<11:48,  1.39s/it][A
Training...:  80% 2099/2609 [2:00:24<10:21,  1.22s/it][A
Training...:  80% 2100/2609 [2:00:25<08:44,  1.03s/it][A
Training...:  81% 2101/2609 [2:00:32<24:10,  2.86s/it][A
Training...:  81% 2102/2609 [2:00:39<34:44,  4.11s/it][A
Training...:  81% 2103/2609 [2:00:46<41:07,  4.88s/it][A
Training...:  81% 2104/2609 [2:00:52<44:12,  5.25s/it][A
Training...:  81% 2105/2609 [2:00:58<45:39,  5.44s/it][A
Training...:  81% 2106/2609 [2:01:03<46:05,  5.50s/it][A
Training...:  81% 2107/2609 [2:01:09<45:50,  5.48s/it][A
Training...:  81% 2108/2609 [2:01:14<44:52,  5.38s/it][A
Training...:  81% 2109/2609 [2:01:19<44:00,  5.28s/it][A
Training...:  81% 2110/2609 [2:01:24<42:56,  5.16s/it][A
Training...:  81% 2111/2609 [2:01:29<41:51,  5.04s/it][A
Training...:  81% 2112/2609 [2:01:33<40:48,  4.93s/it][A
Training...:  81% 2113/2609 [2:01:38<40:06,  4.85s/it][A
Training...:  81% 2114/2609 [2:01:42<38:43,  4.69s/it][A
Training...:  81% 2115/2609 [2:01:47<37:31,  4.56s/it][A
Training...:  81% 2116/2609 [2:01:51<36:26,  4.43s/it][A
Training...:  81% 2117/2609 [2:01:55<35:17,  4.30s/it][A
Training...:  81% 2118/2609 [2:01:59<33:59,  4.15s/it][A
Training...:  81% 2119/2609 [2:02:02<33:04,  4.05s/it][A
Training...:  81% 2120/2609 [2:02:06<31:58,  3.92s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:33:30<36:02:29, 9267.83s/it]
Training...:  81% 2120/2609 [2:02:10<31:58,  3.92s/it][A
Training...:  81% 2121/2609 [2:02:10<32:31,  4.00s/it][A
Training...:  81% 2122/2609 [2:02:14<31:18,  3.86s/it][A
Training...:  81% 2123/2609 [2:02:17<30:06,  3.72s/it][A
Training...:  81% 2124/2609 [2:02:20<29:05,  3.60s/it][A
Training...:  81% 2125/2609 [2:02:24<28:11,  3.49s/it][A
Training...:  81% 2126/2609 [2:02:27<27:14,  3.38s/it][A
Training...:  82% 2127/2609 [2:02:30<26:27,  3.29s/it][A
Training...:  82% 2128/2609 [2:02:33<25:43,  3.21s/it][A
Training...:  82% 2129/2609 [2:02:36<24:57,  3.12s/it][A
Training...:  82% 2130/2609 [2:02:39<24:08,  3.02s/it][A
Training...:  82% 2131/2609 [2:02:41<23:26,  2.94s/it][A
Training...:  82% 2132/2609 [2:02:44<22:44,  2.86s/it][A
Training...:  82% 2133/2609 [2:02:47<22:01,  2.78s/it][A
Training...:  82% 2134/2609 [2:02:49<21:18,  2.69s/it][A
Training...:  82% 2135/2609 [2:02:52<20:35,  2.61s/it][A
Training...:  82% 2136/2609 [2:02:54<19:56,  2.53s/it][A
Training...:  82% 2137/2609 [2:02:56<19:14,  2.45s/it][A
Training...:  82% 2138/2609 [2:02:58<18:34,  2.37s/it][A
Training...:  82% 2139/2609 [2:03:00<17:53,  2.28s/it][A
Training...:  82% 2140/2609 [2:03:02<17:08,  2.19s/it][A
Training...:  82% 2141/2609 [2:03:04<16:20,  2.10s/it][A
Training...:  82% 2142/2609 [2:03:06<15:35,  2.00s/it][A
Training...:  82% 2143/2609 [2:03:08<14:51,  1.91s/it][A
Training...:  82% 2144/2609 [2:03:09<14:02,  1.81s/it][A
Training...:  82% 2145/2609 [2:03:11<13:17,  1.72s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:34:32<36:02:29, 9267.83s/it]
Training...:  82% 2145/2609 [2:03:12<13:17,  1.72s/it][A
Training...:  82% 2146/2609 [2:03:12<13:11,  1.71s/it][A
Training...:  82% 2147/2609 [2:03:14<11:59,  1.56s/it][A
Training...:  82% 2148/2609 [2:03:15<10:46,  1.40s/it][A
Training...:  82% 2149/2609 [2:03:16<09:24,  1.23s/it][A
Training...:  82% 2150/2609 [2:03:16<07:49,  1.02s/it][A
Training...:  82% 2151/2609 [2:03:23<22:00,  2.88s/it][A
Training...:  82% 2152/2609 [2:03:31<32:18,  4.24s/it][A
Training...:  83% 2153/2609 [2:03:37<37:53,  4.99s/it][A
Training...:  83% 2154/2609 [2:03:44<40:51,  5.39s/it][A
Training...:  83% 2155/2609 [2:03:50<42:09,  5.57s/it][A
Training...:  83% 2156/2609 [2:03:55<42:11,  5.59s/it][A
Training...:  83% 2157/2609 [2:04:01<41:51,  5.56s/it][A
Training...:  83% 2158/2609 [2:04:06<40:58,  5.45s/it][A
Training...:  83% 2159/2609 [2:04:11<40:01,  5.34s/it][A
Training...:  83% 2160/2609 [2:04:16<39:03,  5.22s/it][A
Training...:  83% 2161/2609 [2:04:21<38:18,  5.13s/it][A
Training...:  83% 2162/2609 [2:04:26<37:08,  4.99s/it][A
Training...:  83% 2163/2609 [2:04:30<36:17,  4.88s/it][A
Training...:  83% 2164/2609 [2:04:35<35:08,  4.74s/it][A
Training...:  83% 2165/2609 [2:04:39<34:12,  4.62s/it][A
Training...:  83% 2166/2609 [2:04:43<33:13,  4.50s/it][A
Training...:  83% 2167/2609 [2:04:47<32:21,  4.39s/it][A
Training...:  83% 2168/2609 [2:04:51<31:19,  4.26s/it][A
Training...:  83% 2169/2609 [2:04:55<30:16,  4.13s/it][A
Training...:  83% 2170/2609 [2:04:59<29:20,  4.01s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:36:23<36:02:29, 9267.83s/it]
Training...:  83% 2170/2609 [2:05:03<29:20,  4.01s/it][A
Training...:  83% 2171/2609 [2:05:03<29:45,  4.08s/it][A
Training...:  83% 2172/2609 [2:05:07<28:28,  3.91s/it][A
Training...:  83% 2173/2609 [2:05:10<27:22,  3.77s/it][A
Training...:  83% 2174/2609 [2:05:13<26:20,  3.63s/it][A
Training...:  83% 2175/2609 [2:05:17<25:30,  3.53s/it][A
Training...:  83% 2176/2609 [2:05:20<24:44,  3.43s/it][A
Training...:  83% 2177/2609 [2:05:23<24:09,  3.36s/it][A
Training...:  83% 2178/2609 [2:05:26<23:13,  3.23s/it][A
Training...:  84% 2179/2609 [2:05:29<22:22,  3.12s/it][A
Training...:  84% 2180/2609 [2:05:32<21:35,  3.02s/it][A
Training...:  84% 2181/2609 [2:05:34<20:49,  2.92s/it][A
Training...:  84% 2182/2609 [2:05:37<20:04,  2.82s/it][A
Training...:  84% 2183/2609 [2:05:39<19:20,  2.72s/it][A
Training...:  84% 2184/2609 [2:05:42<18:33,  2.62s/it][A
Training...:  84% 2185/2609 [2:05:44<17:49,  2.52s/it][A
Training...:  84% 2186/2609 [2:05:46<17:10,  2.44s/it][A
Training...:  84% 2187/2609 [2:05:49<16:28,  2.34s/it][A
Training...:  84% 2188/2609 [2:05:51<15:48,  2.25s/it][A
Training...:  84% 2189/2609 [2:05:53<15:09,  2.17s/it][A
Training...:  84% 2190/2609 [2:05:54<14:29,  2.08s/it][A
Training...:  84% 2191/2609 [2:05:56<13:49,  1.98s/it][A
Training...:  84% 2192/2609 [2:05:58<13:09,  1.89s/it][A
Training...:  84% 2193/2609 [2:05:59<12:27,  1.80s/it][A
Training...:  84% 2194/2609 [2:06:01<11:44,  1.70s/it][A
Training...:  84% 2195/2609 [2:06:02<11:02,  1.60s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:37:24<36:02:29, 9267.83s/it]
Training...:  84% 2195/2609 [2:06:04<11:02,  1.60s/it][A
Training...:  84% 2196/2609 [2:06:04<11:02,  1.60s/it][A
Training...:  84% 2197/2609 [2:06:05<10:04,  1.47s/it][A
Training...:  84% 2198/2609 [2:06:06<09:04,  1.32s/it][A
Training...:  84% 2199/2609 [2:06:07<08:02,  1.18s/it][A
Training...:  84% 2200/2609 [2:06:07<06:49,  1.00s/it][A
Training...:  84% 2201/2609 [2:06:14<19:11,  2.82s/it][A
Training...:  84% 2202/2609 [2:06:22<28:06,  4.14s/it][A
Training...:  84% 2203/2609 [2:06:28<33:20,  4.93s/it][A
Training...:  84% 2204/2609 [2:06:35<36:01,  5.34s/it][A
Training...:  85% 2205/2609 [2:06:41<37:10,  5.52s/it][A
Training...:  85% 2206/2609 [2:06:46<37:32,  5.59s/it][A
Training...:  85% 2207/2609 [2:06:52<37:39,  5.62s/it][A
Training...:  85% 2208/2609 [2:06:58<37:02,  5.54s/it][A
Training...:  85% 2209/2609 [2:07:03<36:17,  5.44s/it][A
Training...:  85% 2210/2609 [2:07:08<35:23,  5.32s/it][A
Training...:  85% 2211/2609 [2:07:13<34:35,  5.22s/it][A
Training...:  85% 2212/2609 [2:07:18<33:43,  5.10s/it][A
Training...:  85% 2213/2609 [2:07:22<32:50,  4.98s/it][A
Training...:  85% 2214/2609 [2:07:27<31:43,  4.82s/it][A
Training...:  85% 2215/2609 [2:07:31<30:54,  4.71s/it][A
Training...:  85% 2216/2609 [2:07:35<29:48,  4.55s/it][A
Training...:  85% 2217/2609 [2:07:39<28:52,  4.42s/it][A
Training...:  85% 2218/2609 [2:07:43<27:54,  4.28s/it][A
Training...:  85% 2219/2609 [2:07:47<27:04,  4.16s/it][A
Training...:  85% 2220/2609 [2:07:51<26:15,  4.05s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:39:15<36:02:29, 9267.83s/it]
Training...:  85% 2220/2609 [2:07:55<26:15,  4.05s/it][A
Training...:  85% 2221/2609 [2:07:55<26:53,  4.16s/it][A
Training...:  85% 2222/2609 [2:07:59<25:48,  4.00s/it][A
Training...:  85% 2223/2609 [2:08:03<24:39,  3.83s/it][A
Training...:  85% 2224/2609 [2:08:06<23:36,  3.68s/it][A
Training...:  85% 2225/2609 [2:08:09<22:54,  3.58s/it][A
Training...:  85% 2226/2609 [2:08:12<22:09,  3.47s/it][A
Training...:  85% 2227/2609 [2:08:16<21:26,  3.37s/it][A
Training...:  85% 2228/2609 [2:08:19<20:42,  3.26s/it][A
Training...:  85% 2229/2609 [2:08:22<20:08,  3.18s/it][A
Training...:  85% 2230/2609 [2:08:24<19:29,  3.09s/it][A
Training...:  86% 2231/2609 [2:08:27<18:58,  3.01s/it][A
Training...:  86% 2232/2609 [2:08:30<18:18,  2.91s/it][A
Training...:  86% 2233/2609 [2:08:33<17:39,  2.82s/it][A
Training...:  86% 2234/2609 [2:08:35<16:59,  2.72s/it][A
Training...:  86% 2235/2609 [2:08:37<16:21,  2.62s/it][A
Training...:  86% 2236/2609 [2:08:40<15:45,  2.54s/it][A
Training...:  86% 2237/2609 [2:08:42<15:09,  2.45s/it][A
Training...:  86% 2238/2609 [2:08:44<14:34,  2.36s/it][A
Training...:  86% 2239/2609 [2:08:46<13:58,  2.27s/it][A
Training...:  86% 2240/2609 [2:08:48<13:20,  2.17s/it][A
Training...:  86% 2241/2609 [2:08:50<12:41,  2.07s/it][A
Training...:  86% 2242/2609 [2:08:52<12:05,  1.98s/it][A
Training...:  86% 2243/2609 [2:08:53<11:28,  1.88s/it][A
Training...:  86% 2244/2609 [2:08:55<10:47,  1.77s/it][A
Training...:  86% 2245/2609 [2:08:56<10:09,  1.68s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:40:18<36:02:29, 9267.83s/it]
Training...:  86% 2245/2609 [2:08:58<10:09,  1.68s/it][A
Training...:  86% 2246/2609 [2:08:58<10:06,  1.67s/it][A
Training...:  86% 2247/2609 [2:08:59<09:09,  1.52s/it][A
Training...:  86% 2248/2609 [2:09:00<08:13,  1.37s/it][A
Training...:  86% 2249/2609 [2:09:01<07:13,  1.21s/it][A
Training...:  86% 2250/2609 [2:09:02<06:04,  1.01s/it][A
Training...:  86% 2251/2609 [2:09:09<16:51,  2.83s/it][A
Training...:  86% 2252/2609 [2:09:16<24:12,  4.07s/it][A
Training...:  86% 2253/2609 [2:09:22<28:30,  4.80s/it][A
Training...:  86% 2254/2609 [2:09:28<30:51,  5.22s/it][A
Training...:  86% 2255/2609 [2:09:34<31:54,  5.41s/it][A
Training...:  86% 2256/2609 [2:09:40<32:10,  5.47s/it][A
Training...:  87% 2257/2609 [2:09:45<31:59,  5.45s/it][A
Training...:  87% 2258/2609 [2:09:50<31:29,  5.38s/it][A
Training...:  87% 2259/2609 [2:09:56<30:52,  5.29s/it][A
Training...:  87% 2260/2609 [2:10:00<29:57,  5.15s/it][A
Training...:  87% 2261/2609 [2:10:05<29:10,  5.03s/it][A
Training...:  87% 2262/2609 [2:10:10<28:25,  4.91s/it][A
Training...:  87% 2263/2609 [2:10:14<27:57,  4.85s/it][A
Training...:  87% 2264/2609 [2:10:19<26:55,  4.68s/it][A
Training...:  87% 2265/2609 [2:10:23<25:58,  4.53s/it][A
Training...:  87% 2266/2609 [2:10:27<25:08,  4.40s/it][A
Training...:  87% 2267/2609 [2:10:31<24:19,  4.27s/it][A
Training...:  87% 2268/2609 [2:10:35<23:37,  4.16s/it][A
Training...:  87% 2269/2609 [2:10:39<22:51,  4.03s/it][A
Training...:  87% 2270/2609 [2:10:42<22:02,  3.90s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:42:06<36:02:29, 9267.83s/it]
Training...:  87% 2270/2609 [2:10:46<22:02,  3.90s/it][A
Training...:  87% 2271/2609 [2:10:46<22:22,  3.97s/it][A
Training...:  87% 2272/2609 [2:10:50<21:20,  3.80s/it][A
Training...:  87% 2273/2609 [2:10:53<20:31,  3.66s/it][A
Training...:  87% 2274/2609 [2:10:56<19:43,  3.53s/it][A
Training...:  87% 2275/2609 [2:10:59<19:03,  3.43s/it][A
Training...:  87% 2276/2609 [2:11:03<18:23,  3.31s/it][A
Training...:  87% 2277/2609 [2:11:06<17:47,  3.21s/it][A
Training...:  87% 2278/2609 [2:11:08<17:16,  3.13s/it][A
Training...:  87% 2279/2609 [2:11:11<16:44,  3.04s/it][A
Training...:  87% 2280/2609 [2:11:14<16:15,  2.97s/it][A
Training...:  87% 2281/2609 [2:11:17<15:45,  2.88s/it][A
Training...:  87% 2282/2609 [2:11:19<15:16,  2.80s/it][A
Training...:  88% 2283/2609 [2:11:22<14:46,  2.72s/it][A
Training...:  88% 2284/2609 [2:11:24<14:19,  2.65s/it][A
Training...:  88% 2285/2609 [2:11:27<13:52,  2.57s/it][A
Training...:  88% 2286/2609 [2:11:29<13:24,  2.49s/it][A
Training...:  88% 2287/2609 [2:11:31<12:57,  2.41s/it][A
Training...:  88% 2288/2609 [2:11:33<12:27,  2.33s/it][A
Training...:  88% 2289/2609 [2:11:35<11:54,  2.23s/it][A
Training...:  88% 2290/2609 [2:11:37<11:23,  2.14s/it][A
Training...:  88% 2291/2609 [2:11:39<10:49,  2.04s/it][A
Training...:  88% 2292/2609 [2:11:41<10:17,  1.95s/it][A
Training...:  88% 2293/2609 [2:11:43<09:42,  1.84s/it][A
Training...:  88% 2294/2609 [2:11:44<09:06,  1.74s/it][A
Training...:  88% 2295/2609 [2:11:45<08:29,  1.62s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:43:07<36:02:29, 9267.83s/it]
Training...:  88% 2295/2609 [2:11:47<08:29,  1.62s/it][A
Training...:  88% 2296/2609 [2:11:47<08:24,  1.61s/it][A
Training...:  88% 2297/2609 [2:11:48<07:36,  1.46s/it][A
Training...:  88% 2298/2609 [2:11:49<06:43,  1.30s/it][A
Training...:  88% 2299/2609 [2:11:50<05:51,  1.13s/it][A
Training...:  88% 2300/2609 [2:11:50<04:52,  1.06it/s][A
Training...:  88% 2301/2609 [2:11:57<14:13,  2.77s/it][A
Training...:  88% 2302/2609 [2:12:04<20:47,  4.06s/it][A
Training...:  88% 2303/2609 [2:12:11<24:36,  4.83s/it][A
Training...:  88% 2304/2609 [2:12:17<26:48,  5.27s/it][A
Training...:  88% 2305/2609 [2:12:23<27:44,  5.47s/it][A
Training...:  88% 2306/2609 [2:12:29<28:02,  5.55s/it][A
Training...:  88% 2307/2609 [2:12:35<28:08,  5.59s/it][A
Training...:  88% 2308/2609 [2:12:40<27:36,  5.50s/it][A
Training...:  89% 2309/2609 [2:12:45<26:56,  5.39s/it][A
Training...:  89% 2310/2609 [2:12:50<26:07,  5.24s/it][A
Training...:  89% 2311/2609 [2:12:55<25:29,  5.13s/it][A
Training...:  89% 2312/2609 [2:12:59<24:42,  4.99s/it][A
Training...:  89% 2313/2609 [2:13:04<23:56,  4.85s/it][A
Training...:  89% 2314/2609 [2:13:08<22:59,  4.68s/it][A
Training...:  89% 2315/2609 [2:13:13<22:18,  4.55s/it][A
Training...:  89% 2316/2609 [2:13:17<21:35,  4.42s/it][A
Training...:  89% 2317/2609 [2:13:21<20:59,  4.31s/it][A
Training...:  89% 2318/2609 [2:13:25<20:17,  4.18s/it][A
Training...:  89% 2319/2609 [2:13:28<19:39,  4.07s/it][A
Training...:  89% 2320/2609 [2:13:32<19:03,  3.96s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:44:56<36:02:29, 9267.83s/it]
Training...:  89% 2320/2609 [2:13:36<19:03,  3.96s/it][A
Training...:  89% 2321/2609 [2:13:36<19:27,  4.05s/it][A
Training...:  89% 2322/2609 [2:13:40<18:38,  3.90s/it][A
Training...:  89% 2323/2609 [2:13:43<17:58,  3.77s/it][A
Training...:  89% 2324/2609 [2:13:47<17:18,  3.64s/it][A
Training...:  89% 2325/2609 [2:13:50<16:43,  3.53s/it][A
Training...:  89% 2326/2609 [2:13:53<16:04,  3.41s/it][A
Training...:  89% 2327/2609 [2:13:56<15:33,  3.31s/it][A
Training...:  89% 2328/2609 [2:13:59<15:05,  3.22s/it][A
Training...:  89% 2329/2609 [2:14:02<14:45,  3.16s/it][A
Training...:  89% 2330/2609 [2:14:05<14:12,  3.06s/it][A
Training...:  89% 2331/2609 [2:14:08<13:47,  2.97s/it][A
Training...:  89% 2332/2609 [2:14:11<13:18,  2.88s/it][A
Training...:  89% 2333/2609 [2:14:13<12:52,  2.80s/it][A
Training...:  89% 2334/2609 [2:14:16<12:25,  2.71s/it][A
Training...:  89% 2335/2609 [2:14:18<11:58,  2.62s/it][A
Training...:  90% 2336/2609 [2:14:20<11:29,  2.53s/it][A
Training...:  90% 2337/2609 [2:14:23<11:05,  2.45s/it][A
Training...:  90% 2338/2609 [2:14:25<10:39,  2.36s/it][A
Training...:  90% 2339/2609 [2:14:27<10:14,  2.28s/it][A
Training...:  90% 2340/2609 [2:14:29<09:43,  2.17s/it][A
Training...:  90% 2341/2609 [2:14:31<09:14,  2.07s/it][A
Training...:  90% 2342/2609 [2:14:32<08:46,  1.97s/it][A
Training...:  90% 2343/2609 [2:14:34<08:21,  1.88s/it][A
Training...:  90% 2344/2609 [2:14:36<07:53,  1.79s/it][A
Training...:  90% 2345/2609 [2:14:37<07:26,  1.69s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:45:59<36:02:29, 9267.83s/it]
Training...:  90% 2345/2609 [2:14:39<07:26,  1.69s/it][A
Training...:  90% 2346/2609 [2:14:39<07:22,  1.68s/it][A
Training...:  90% 2347/2609 [2:14:40<06:41,  1.53s/it][A
Training...:  90% 2348/2609 [2:14:41<06:00,  1.38s/it][A
Training...:  90% 2349/2609 [2:14:42<05:16,  1.22s/it][A
Training...:  90% 2350/2609 [2:14:42<04:25,  1.03s/it][A
Training...:  90% 2351/2609 [2:14:50<12:20,  2.87s/it][A
Training...:  90% 2352/2609 [2:14:57<17:47,  4.15s/it][A
Training...:  90% 2353/2609 [2:15:03<20:58,  4.92s/it][A
Training...:  90% 2354/2609 [2:15:10<22:45,  5.36s/it][A
Training...:  90% 2355/2609 [2:15:16<23:26,  5.54s/it][A
Training...:  90% 2356/2609 [2:15:22<23:47,  5.64s/it][A
Training...:  90% 2357/2609 [2:15:28<24:03,  5.73s/it][A
Training...:  90% 2358/2609 [2:15:33<23:29,  5.62s/it][A
Training...:  90% 2359/2609 [2:15:38<22:52,  5.49s/it][A
Training...:  90% 2360/2609 [2:15:43<22:04,  5.32s/it][A
Training...:  90% 2361/2609 [2:15:48<21:31,  5.21s/it][A
Training...:  91% 2362/2609 [2:15:53<20:44,  5.04s/it][A
Training...:  91% 2363/2609 [2:15:57<20:07,  4.91s/it][A
Training...:  91% 2364/2609 [2:16:02<19:29,  4.77s/it][A
Training...:  91% 2365/2609 [2:16:06<18:54,  4.65s/it][A
Training...:  91% 2366/2609 [2:16:10<18:13,  4.50s/it][A
Training...:  91% 2367/2609 [2:16:14<17:37,  4.37s/it][A
Training...:  91% 2368/2609 [2:16:18<17:07,  4.26s/it][A
Training...:  91% 2369/2609 [2:16:22<16:36,  4.15s/it][A
Training...:  91% 2370/2609 [2:16:26<16:02,  4.03s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:47:50<36:02:29, 9267.83s/it]
Training...:  91% 2370/2609 [2:16:30<16:02,  4.03s/it][A
Training...:  91% 2371/2609 [2:16:30<16:16,  4.10s/it][A
Training...:  91% 2372/2609 [2:16:34<15:35,  3.95s/it][A
Training...:  91% 2373/2609 [2:16:37<15:02,  3.82s/it][A
Training...:  91% 2374/2609 [2:16:41<14:25,  3.68s/it][A
Training...:  91% 2375/2609 [2:16:44<13:56,  3.57s/it][A
Training...:  91% 2376/2609 [2:16:47<13:28,  3.47s/it][A
Training...:  91% 2377/2609 [2:16:50<13:04,  3.38s/it][A
Training...:  91% 2378/2609 [2:16:53<12:37,  3.28s/it][A
Training...:  91% 2379/2609 [2:16:56<12:12,  3.19s/it][A
Training...:  91% 2380/2609 [2:16:59<11:46,  3.09s/it][A
Training...:  91% 2381/2609 [2:17:02<11:24,  3.00s/it][A
Training...:  91% 2382/2609 [2:17:05<10:59,  2.91s/it][A
Training...:  91% 2383/2609 [2:17:07<10:37,  2.82s/it][A
Training...:  91% 2384/2609 [2:17:10<10:18,  2.75s/it][A
Training...:  91% 2385/2609 [2:17:12<09:56,  2.66s/it][A
Training...:  91% 2386/2609 [2:17:15<09:38,  2.59s/it][A
Training...:  91% 2387/2609 [2:17:17<09:17,  2.51s/it][A
Training...:  92% 2388/2609 [2:17:19<08:53,  2.42s/it][A
Training...:  92% 2389/2609 [2:17:21<08:28,  2.31s/it][A
Training...:  92% 2390/2609 [2:17:23<08:03,  2.21s/it][A
Training...:  92% 2391/2609 [2:17:25<07:39,  2.11s/it][A
Training...:  92% 2392/2609 [2:17:27<07:15,  2.01s/it][A
Training...:  92% 2393/2609 [2:17:29<06:53,  1.91s/it][A
Training...:  92% 2394/2609 [2:17:30<06:30,  1.81s/it][A
Training...:  92% 2395/2609 [2:17:32<06:04,  1.70s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:48:53<36:02:29, 9267.83s/it]
Training...:  92% 2395/2609 [2:17:33<06:04,  1.70s/it][A
Training...:  92% 2396/2609 [2:17:33<05:58,  1.68s/it][A
Training...:  92% 2397/2609 [2:17:35<05:24,  1.53s/it][A
Training...:  92% 2398/2609 [2:17:36<04:49,  1.37s/it][A
Training...:  92% 2399/2609 [2:17:36<04:12,  1.20s/it][A
Training...:  92% 2400/2609 [2:17:37<03:31,  1.01s/it][A
Training...:  92% 2401/2609 [2:17:44<09:56,  2.87s/it][A
Training...:  92% 2402/2609 [2:17:51<14:16,  4.14s/it][A
Training...:  92% 2403/2609 [2:17:58<16:45,  4.88s/it][A
Training...:  92% 2404/2609 [2:18:04<18:09,  5.32s/it][A
Training...:  92% 2405/2609 [2:18:10<18:51,  5.55s/it][A
Training...:  92% 2406/2609 [2:18:16<19:00,  5.62s/it][A
Training...:  92% 2407/2609 [2:18:22<18:53,  5.61s/it][A
Training...:  92% 2408/2609 [2:18:27<18:30,  5.52s/it][A
Training...:  92% 2409/2609 [2:18:32<18:06,  5.43s/it][A
Training...:  92% 2410/2609 [2:18:37<17:32,  5.29s/it][A
Training...:  92% 2411/2609 [2:18:42<16:57,  5.14s/it][A
Training...:  92% 2412/2609 [2:18:46<16:20,  4.98s/it][A
Training...:  92% 2413/2609 [2:18:51<15:56,  4.88s/it][A
Training...:  93% 2414/2609 [2:18:56<15:24,  4.74s/it][A
Training...:  93% 2415/2609 [2:19:00<14:53,  4.61s/it][A
Training...:  93% 2416/2609 [2:19:04<14:22,  4.47s/it][A
Training...:  93% 2417/2609 [2:19:08<13:55,  4.35s/it][A
Training...:  93% 2418/2609 [2:19:12<13:21,  4.20s/it][A
Training...:  93% 2419/2609 [2:19:16<12:54,  4.08s/it][A
Training...:  93% 2420/2609 [2:19:19<12:26,  3.95s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:50:43<36:02:29, 9267.83s/it]
Training...:  93% 2420/2609 [2:19:24<12:26,  3.95s/it][A
Training...:  93% 2421/2609 [2:19:24<12:37,  4.03s/it][A
Training...:  93% 2422/2609 [2:19:27<12:05,  3.88s/it][A
Training...:  93% 2423/2609 [2:19:31<11:41,  3.77s/it][A
Training...:  93% 2424/2609 [2:19:34<11:11,  3.63s/it][A
Training...:  93% 2425/2609 [2:19:37<10:44,  3.51s/it][A
Training...:  93% 2426/2609 [2:19:40<10:20,  3.39s/it][A
Training...:  93% 2427/2609 [2:19:43<09:58,  3.29s/it][A
Training...:  93% 2428/2609 [2:19:46<09:34,  3.18s/it][A
Training...:  93% 2429/2609 [2:19:49<09:17,  3.10s/it][A
Training...:  93% 2430/2609 [2:19:52<08:58,  3.01s/it][A
Training...:  93% 2431/2609 [2:19:55<08:40,  2.92s/it][A
Training...:  93% 2432/2609 [2:19:57<08:21,  2.83s/it][A
Training...:  93% 2433/2609 [2:20:00<08:01,  2.74s/it][A
Training...:  93% 2434/2609 [2:20:02<07:44,  2.65s/it][A
Training...:  93% 2435/2609 [2:20:05<07:26,  2.56s/it][A
Training...:  93% 2436/2609 [2:20:07<07:07,  2.47s/it][A
Training...:  93% 2437/2609 [2:20:09<06:51,  2.39s/it][A
Training...:  93% 2438/2609 [2:20:11<06:31,  2.29s/it][A
Training...:  93% 2439/2609 [2:20:13<06:12,  2.19s/it][A
Training...:  94% 2440/2609 [2:20:15<05:53,  2.09s/it][A
Training...:  94% 2441/2609 [2:20:17<05:35,  2.00s/it][A
Training...:  94% 2442/2609 [2:20:18<05:17,  1.90s/it][A
Training...:  94% 2443/2609 [2:20:20<04:59,  1.80s/it][A
Training...:  94% 2444/2609 [2:20:21<04:39,  1.69s/it][A
Training...:  94% 2445/2609 [2:20:23<04:19,  1.58s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:51:44<36:02:29, 9267.83s/it]
Training...:  94% 2445/2609 [2:20:24<04:19,  1.58s/it][A
Training...:  94% 2446/2609 [2:20:24<04:17,  1.58s/it][A
Training...:  94% 2447/2609 [2:20:25<03:53,  1.44s/it][A
Training...:  94% 2448/2609 [2:20:26<03:27,  1.29s/it][A
Training...:  94% 2449/2609 [2:20:27<03:03,  1.14s/it][A
Training...:  94% 2450/2609 [2:20:28<02:34,  1.03it/s][A
Training...:  94% 2451/2609 [2:20:35<07:26,  2.82s/it][A
Training...:  94% 2452/2609 [2:20:42<10:41,  4.09s/it][A
Training...:  94% 2453/2609 [2:20:48<12:31,  4.82s/it][A
Training...:  94% 2454/2609 [2:20:55<13:32,  5.24s/it][A
Training...:  94% 2455/2609 [2:21:01<13:57,  5.44s/it][A
Training...:  94% 2456/2609 [2:21:06<13:59,  5.49s/it][A
Training...:  94% 2457/2609 [2:21:12<13:49,  5.46s/it][A
Training...:  94% 2458/2609 [2:21:17<13:30,  5.37s/it][A
Training...:  94% 2459/2609 [2:21:22<13:13,  5.29s/it][A
Training...:  94% 2460/2609 [2:21:27<12:52,  5.18s/it][A
Training...:  94% 2461/2609 [2:21:32<12:29,  5.07s/it][A
Training...:  94% 2462/2609 [2:21:36<12:07,  4.95s/it][A
Training...:  94% 2463/2609 [2:21:41<11:43,  4.82s/it][A
Training...:  94% 2464/2609 [2:21:45<11:18,  4.68s/it][A
Training...:  94% 2465/2609 [2:21:49<10:55,  4.55s/it][A
Training...:  95% 2466/2609 [2:21:53<10:30,  4.41s/it][A
Training...:  95% 2467/2609 [2:21:57<10:09,  4.30s/it][A
Training...:  95% 2468/2609 [2:22:01<09:49,  4.18s/it][A
Training...:  95% 2469/2609 [2:22:05<09:31,  4.08s/it][A
Training...:  95% 2470/2609 [2:22:09<09:09,  3.96s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:53:33<36:02:29, 9267.83s/it]
Training...:  95% 2470/2609 [2:22:13<09:09,  3.96s/it][A
Training...:  95% 2471/2609 [2:22:13<09:17,  4.04s/it][A
Training...:  95% 2472/2609 [2:22:17<08:54,  3.90s/it][A
Training...:  95% 2473/2609 [2:22:20<08:33,  3.77s/it][A
Training...:  95% 2474/2609 [2:22:24<08:11,  3.64s/it][A
Training...:  95% 2475/2609 [2:22:27<07:55,  3.55s/it][A
Training...:  95% 2476/2609 [2:22:30<07:37,  3.44s/it][A
Training...:  95% 2477/2609 [2:22:33<07:22,  3.35s/it][A
Training...:  95% 2478/2609 [2:22:36<07:03,  3.24s/it][A
Training...:  95% 2479/2609 [2:22:39<06:45,  3.12s/it][A
Training...:  95% 2480/2609 [2:22:42<06:31,  3.03s/it][A
Training...:  95% 2481/2609 [2:22:45<06:15,  2.93s/it][A
Training...:  95% 2482/2609 [2:22:47<05:59,  2.83s/it][A
Training...:  95% 2483/2609 [2:22:50<05:44,  2.74s/it][A
Training...:  95% 2484/2609 [2:22:52<05:29,  2.63s/it][A
Training...:  95% 2485/2609 [2:22:54<05:15,  2.54s/it][A
Training...:  95% 2486/2609 [2:22:57<05:03,  2.47s/it][A
Training...:  95% 2487/2609 [2:22:59<04:50,  2.38s/it][A
Training...:  95% 2488/2609 [2:23:01<04:36,  2.28s/it][A
Training...:  95% 2489/2609 [2:23:03<04:23,  2.20s/it][A
Training...:  95% 2490/2609 [2:23:05<04:09,  2.10s/it][A
Training...:  95% 2491/2609 [2:23:07<03:56,  2.00s/it][A
Training...:  96% 2492/2609 [2:23:08<03:43,  1.91s/it][A
Training...:  96% 2493/2609 [2:23:10<03:28,  1.80s/it][A
Training...:  96% 2494/2609 [2:23:11<03:15,  1.70s/it][A
Training...:  96% 2495/2609 [2:23:13<03:00,  1.59s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:54:34<36:02:29, 9267.83s/it]
Training...:  96% 2495/2609 [2:23:14<03:00,  1.59s/it][A
Training...:  96% 2496/2609 [2:23:14<02:58,  1.58s/it][A
Training...:  96% 2497/2609 [2:23:15<02:40,  1.44s/it][A
Training...:  96% 2498/2609 [2:23:16<02:22,  1.28s/it][A
Training...:  96% 2499/2609 [2:23:17<02:03,  1.12s/it][A
Training...:  96% 2500/2609 [2:23:17<01:43,  1.06it/s][A
Training...:  96% 2501/2609 [2:23:24<05:00,  2.79s/it][A
Training...:  96% 2502/2609 [2:23:31<07:13,  4.05s/it][A
Training...:  96% 2503/2609 [2:23:38<08:24,  4.76s/it][A
Training...:  96% 2504/2609 [2:23:44<09:03,  5.18s/it][A
Training...:  96% 2505/2609 [2:23:50<09:23,  5.42s/it][A
Training...:  96% 2506/2609 [2:23:56<09:25,  5.49s/it][A
Training...:  96% 2507/2609 [2:24:01<09:18,  5.47s/it][A
Training...:  96% 2508/2609 [2:24:06<09:05,  5.40s/it][A
Training...:  96% 2509/2609 [2:24:11<08:51,  5.31s/it][A
Training...:  96% 2510/2609 [2:24:16<08:32,  5.18s/it][A
Training...:  96% 2511/2609 [2:24:21<08:17,  5.08s/it][A
Training...:  96% 2512/2609 [2:24:26<08:01,  4.97s/it][A
Training...:  96% 2513/2609 [2:24:30<07:43,  4.83s/it][A
Training...:  96% 2514/2609 [2:24:35<07:27,  4.71s/it][A
Training...:  96% 2515/2609 [2:24:39<07:10,  4.58s/it][A
Training...:  96% 2516/2609 [2:24:43<06:53,  4.44s/it][A
Training...:  96% 2517/2609 [2:24:47<06:36,  4.31s/it][A
Training...:  97% 2518/2609 [2:24:51<06:21,  4.19s/it][A
Training...:  97% 2519/2609 [2:24:55<06:07,  4.08s/it][A
Training...:  97% 2520/2609 [2:24:59<05:51,  3.95s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:56:23<36:02:29, 9267.83s/it]
Training...:  97% 2520/2609 [2:25:03<05:51,  3.95s/it][A
Training...:  97% 2521/2609 [2:25:03<05:55,  4.04s/it][A
Training...:  97% 2522/2609 [2:25:06<05:37,  3.88s/it][A
Training...:  97% 2523/2609 [2:25:10<05:24,  3.77s/it][A
Training...:  97% 2524/2609 [2:25:13<05:07,  3.62s/it][A
Training...:  97% 2525/2609 [2:25:16<04:56,  3.53s/it][A
Training...:  97% 2526/2609 [2:25:20<04:43,  3.42s/it][A
Training...:  97% 2527/2609 [2:25:23<04:30,  3.30s/it][A
Training...:  97% 2528/2609 [2:25:26<04:17,  3.19s/it][A
Training...:  97% 2529/2609 [2:25:28<04:07,  3.09s/it][A
Training...:  97% 2530/2609 [2:25:31<03:56,  2.99s/it][A
Training...:  97% 2531/2609 [2:25:34<03:45,  2.89s/it][A
Training...:  97% 2532/2609 [2:25:36<03:35,  2.80s/it][A
Training...:  97% 2533/2609 [2:25:39<03:25,  2.71s/it][A
Training...:  97% 2534/2609 [2:25:41<03:16,  2.61s/it][A
Training...:  97% 2535/2609 [2:25:44<03:07,  2.54s/it][A
Training...:  97% 2536/2609 [2:25:46<02:59,  2.45s/it][A
Training...:  97% 2537/2609 [2:25:48<02:50,  2.37s/it][A
Training...:  97% 2538/2609 [2:25:50<02:42,  2.28s/it][A
Training...:  97% 2539/2609 [2:25:52<02:33,  2.19s/it][A
Training...:  97% 2540/2609 [2:25:54<02:24,  2.10s/it][A
Training...:  97% 2541/2609 [2:25:56<02:16,  2.01s/it][A
Training...:  97% 2542/2609 [2:25:58<02:08,  1.92s/it][A
Training...:  97% 2543/2609 [2:25:59<02:01,  1.84s/it][A
Training...:  98% 2544/2609 [2:26:01<01:53,  1.74s/it][A
Training...:  98% 2545/2609 [2:26:02<01:44,  1.64s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:57:24<36:02:29, 9267.83s/it]
Training...:  98% 2545/2609 [2:26:04<01:44,  1.64s/it][A
Training...:  98% 2546/2609 [2:26:04<01:43,  1.64s/it][A
Training...:  98% 2547/2609 [2:26:05<01:33,  1.50s/it][A
Training...:  98% 2548/2609 [2:26:06<01:22,  1.36s/it][A
Training...:  98% 2549/2609 [2:26:07<01:11,  1.20s/it][A
Training...:  98% 2550/2609 [2:26:07<00:59,  1.00s/it][A
Training...:  98% 2551/2609 [2:26:14<02:45,  2.85s/it][A
Training...:  98% 2552/2609 [2:26:22<03:56,  4.14s/it][A
Training...:  98% 2553/2609 [2:26:28<04:33,  4.88s/it][A
Training...:  98% 2554/2609 [2:26:35<04:52,  5.31s/it][A
Training...:  98% 2555/2609 [2:26:41<04:57,  5.51s/it][A
Training...:  98% 2556/2609 [2:26:46<04:55,  5.58s/it][A
Training...:  98% 2557/2609 [2:26:52<04:48,  5.55s/it][A
Training...:  98% 2558/2609 [2:26:57<04:37,  5.44s/it][A
Training...:  98% 2559/2609 [2:27:02<04:28,  5.37s/it][A
Training...:  98% 2560/2609 [2:27:07<04:15,  5.22s/it][A
Training...:  98% 2561/2609 [2:27:12<04:05,  5.11s/it][A
Training...:  98% 2562/2609 [2:27:17<03:53,  4.98s/it][A
Training...:  98% 2563/2609 [2:27:21<03:43,  4.85s/it][A
Training...:  98% 2564/2609 [2:27:26<03:34,  4.76s/it][A
Training...:  98% 2565/2609 [2:27:30<03:26,  4.70s/it][A
Training...:  98% 2566/2609 [2:27:34<03:14,  4.53s/it][A
Training...:  98% 2567/2609 [2:27:39<03:05,  4.41s/it][A
Training...:  98% 2568/2609 [2:27:42<02:55,  4.28s/it][A
Training...:  98% 2569/2609 [2:27:46<02:45,  4.15s/it][A
Training...:  99% 2570/2609 [2:27:50<02:36,  4.02s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [17:59:14<36:02:29, 9267.83s/it]
Training...:  99% 2570/2609 [2:27:54<02:36,  4.02s/it][A
Training...:  99% 2571/2609 [2:27:54<02:35,  4.09s/it][A
Training...:  99% 2572/2609 [2:27:58<02:25,  3.93s/it][A
Training...:  99% 2573/2609 [2:28:01<02:16,  3.80s/it][A
Training...:  99% 2574/2609 [2:28:05<02:07,  3.65s/it][A
Training...:  99% 2575/2609 [2:28:08<01:59,  3.52s/it][A
Training...:  99% 2576/2609 [2:28:11<01:52,  3.40s/it][A
Training...:  99% 2577/2609 [2:28:14<01:45,  3.29s/it][A
Training...:  99% 2578/2609 [2:28:17<01:38,  3.19s/it][A
Training...:  99% 2579/2609 [2:28:20<01:33,  3.11s/it][A
Training...:  99% 2580/2609 [2:28:23<01:27,  3.03s/it][A
Training...:  99% 2581/2609 [2:28:26<01:22,  2.95s/it][A
Training...:  99% 2582/2609 [2:28:28<01:17,  2.87s/it][A
Training...:  99% 2583/2609 [2:28:31<01:12,  2.79s/it][A
Training...:  99% 2584/2609 [2:28:33<01:07,  2.71s/it][A
Training...:  99% 2585/2609 [2:28:36<01:02,  2.62s/it][A
Training...:  99% 2586/2609 [2:28:38<00:58,  2.53s/it][A
Training...:  99% 2587/2609 [2:28:40<00:53,  2.45s/it][A
Training...:  99% 2588/2609 [2:28:42<00:49,  2.35s/it][A
Training...:  99% 2589/2609 [2:28:45<00:45,  2.27s/it][A
Training...:  99% 2590/2609 [2:28:46<00:41,  2.18s/it][A
Training...:  99% 2591/2609 [2:28:48<00:37,  2.09s/it][A
Training...:  99% 2592/2609 [2:28:50<00:34,  2.01s/it][A
Training...:  99% 2593/2609 [2:28:52<00:30,  1.91s/it][A
Training...:  99% 2594/2609 [2:28:53<00:27,  1.81s/it][A
Training...:  99% 2595/2609 [2:28:55<00:23,  1.70s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  30% 6/20 [18:00:16<36:02:29, 9267.83s/it]
Training...:  99% 2595/2609 [2:28:57<00:23,  1.70s/it][A
Training...: 100% 2596/2609 [2:28:57<00:22,  1.69s/it][A
Training...: 100% 2597/2609 [2:28:58<00:18,  1.55s/it][A
Training...: 100% 2598/2609 [2:28:59<00:15,  1.39s/it][A
Training...: 100% 2599/2609 [2:29:00<00:12,  1.22s/it][A
Training...: 100% 2600/2609 [2:29:00<00:09,  1.03s/it][A
Training...: 100% 2601/2609 [2:29:07<00:21,  2.67s/it][A
Training...: 100% 2602/2609 [2:29:12<00:24,  3.48s/it][A
Training...: 100% 2603/2609 [2:29:17<00:23,  3.85s/it][A
Training...: 100% 2604/2609 [2:29:21<00:19,  3.86s/it][A
Training...: 100% 2605/2609 [2:29:24<00:14,  3.72s/it][A
Training...: 100% 2606/2609 [2:29:27<00:10,  3.47s/it][A
Training...: 100% 2607/2609 [2:29:29<00:06,  3.17s/it][A
Training...: 100% 2608/2609 [2:29:32<00:02,  2.85s/it][A
Training...: 100% 2609/2609 [2:29:33<00:00,  2.48s/it][ATraining...: 100% 2609/2609 [2:29:33<00:00,  3.44s/it]
Step... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:00:53<33:07:15, 9171.96s/it]
Training...:   0% 0/2609 [00:00<?, ?it/s][AStep... (17425 | Loss: 0.082157202064991, Learning Rate: 6.581009802175686e-05, Gradient Norm: 0.5827890634536743)
Step... (17450 | Loss: 0.06606078147888184, Learning Rate: 6.575959559995681e-05, Gradient Norm: 0.7635244727134705)
Step... (17475 | Loss: 0.0699315145611763, Learning Rate: 6.570908590219915e-05, Gradient Norm: 0.6571177244186401)
Step... (17500 | Loss: 0.053812284022569656, Learning Rate: 6.56585834803991e-05, Gradient Norm: 0.845009982585907)
Step... (17525 | Loss: 0.11335816234350204, Learning Rate: 6.560808105859905e-05, Gradient Norm: 0.6265714168548584)
Step... (17550 | Loss: 0.05442691594362259, Learning Rate: 6.55575713608414e-05, Gradient Norm: 1.2894973754882812)
Step... (17575 | Loss: 0.08410755544900894, Learning Rate: 6.550706893904135e-05, Gradient Norm: 0.6805617213249207)
Step... (17600 | Loss: 0.11102918535470963, Learning Rate: 6.54565665172413e-05, Gradient Norm: 1.2173550128936768)
Step... (17625 | Loss: 0.07601024210453033, Learning Rate: 6.540605681948364e-05, Gradient Norm: 0.7205072641372681)
Step... (17650 | Loss: 0.10097814351320267, Learning Rate: 6.535555439768359e-05, Gradient Norm: 1.085559368133545)
Step... (17675 | Loss: 0.0867186039686203, Learning Rate: 6.530505197588354e-05, Gradient Norm: 0.5574226379394531)
Step... (17700 | Loss: 0.11940547823905945, Learning Rate: 6.525454227812588e-05, Gradient Norm: 1.1309778690338135)
Step... (17725 | Loss: 0.0896565318107605, Learning Rate: 6.520403258036822e-05, Gradient Norm: 0.5794897079467773)
Step... (17750 | Loss: 0.042581215500831604, Learning Rate: 6.515353743452579e-05, Gradient Norm: 0.6863101720809937)
Step... (17775 | Loss: 0.08553183823823929, Learning Rate: 6.510302773676813e-05, Gradient Norm: 0.5788097977638245)
Step... (17800 | Loss: 0.08532010763883591, Learning Rate: 6.505251803901047e-05, Gradient Norm: 0.9364663362503052)
Step... (17825 | Loss: 0.10230743885040283, Learning Rate: 6.500202289316803e-05, Gradient Norm: 0.6367488503456116)
Step... (17850 | Loss: 0.09350694715976715, Learning Rate: 6.495151319541037e-05, Gradient Norm: 1.2913023233413696)
Step... (17875 | Loss: 0.09759987145662308, Learning Rate: 6.490100349765271e-05, Gradient Norm: 0.5712614059448242)
Step... (17900 | Loss: 0.12196522206068039, Learning Rate: 6.485050835181028e-05, Gradient Norm: 1.0003879070281982)
Step... (17925 | Loss: 0.10146733373403549, Learning Rate: 6.479999865405262e-05, Gradient Norm: 0.6619447469711304)
Step... (17950 | Loss: 0.08598820120096207, Learning Rate: 6.474948895629495e-05, Gradient Norm: 0.8104643821716309)
Step... (17975 | Loss: 0.08429263532161713, Learning Rate: 6.469899381045252e-05, Gradient Norm: 0.5550745129585266)
Step... (18000 | Loss: 0.07737822085618973, Learning Rate: 6.464848411269486e-05, Gradient Norm: 0.8203198313713074)
Step... (18025 | Loss: 0.08033569157123566, Learning Rate: 6.45979744149372e-05, Gradient Norm: 0.5980789065361023)
Step... (18050 | Loss: 0.07780548185110092, Learning Rate: 6.454747926909477e-05, Gradient Norm: 0.9143427610397339)
Step... (18075 | Loss: 0.11643990129232407, Learning Rate: 6.44969695713371e-05, Gradient Norm: 0.6390702724456787)
Step... (18100 | Loss: 0.07164106518030167, Learning Rate: 6.444645987357944e-05, Gradient Norm: 0.8251144289970398)
Step... (18125 | Loss: 0.15090975165367126, Learning Rate: 6.439596472773701e-05, Gradient Norm: 0.6639332175254822)
Step... (18150 | Loss: 0.10851230472326279, Learning Rate: 6.434545502997935e-05, Gradient Norm: 1.0747357606887817)
Step... (18175 | Loss: 0.09764470905065536, Learning Rate: 6.429494533222169e-05, Gradient Norm: 0.5718535780906677)
Step... (18200 | Loss: 0.08529940992593765, Learning Rate: 6.424444291042164e-05, Gradient Norm: 1.0823959112167358)
Step... (18225 | Loss: 0.08469251543283463, Learning Rate: 6.419394048862159e-05, Gradient Norm: 0.54851233959198)
Step... (18250 | Loss: 0.07345794886350632, Learning Rate: 6.414343079086393e-05, Gradient Norm: 0.8479392528533936)

Training...:   0% 1/2609 [00:07<5:09:36,  7.12s/it][A
Training...:   0% 2/2609 [00:14<5:09:22,  7.12s/it][A
Training...:   0% 3/2609 [00:20<4:56:25,  6.82s/it][A
Training...:   0% 4/2609 [00:27<4:48:18,  6.64s/it][A
Training...:   0% 5/2609 [00:33<4:37:08,  6.39s/it][A
Training...:   0% 6/2609 [00:38<4:26:23,  6.14s/it][A
Training...:   0% 7/2609 [00:44<4:17:10,  5.93s/it][A
Training...:   0% 8/2609 [00:49<4:09:31,  5.76s/it][A
Training...:   0% 9/2609 [00:54<4:01:33,  5.57s/it][A
Training...:   0% 10/2609 [00:59<3:54:25,  5.41s/it][A
Training...:   0% 11/2609 [01:04<3:47:27,  5.25s/it][A                                                                                                                                                                   
                                                    [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:02:05<33:07:15, 9171.96s/it]
Training...:   0% 11/2609 [01:10<3:47:27,  5.25s/it][A
Training...:   0% 12/2609 [01:10<3:50:18,  5.32s/it][A
Training...:   0% 13/2609 [01:14<3:39:46,  5.08s/it][A
Training...:   1% 14/2609 [01:19<3:30:19,  4.86s/it][A
Training...:   1% 15/2609 [01:23<3:22:39,  4.69s/it][A
Training...:   1% 16/2609 [01:27<3:15:21,  4.52s/it][A
Training...:   1% 17/2609 [01:31<3:10:45,  4.42s/it][A
Training...:   1% 18/2609 [01:35<3:04:49,  4.28s/it][A
Training...:   1% 19/2609 [01:39<2:58:36,  4.14s/it][A
Training...:   1% 20/2609 [01:43<2:52:21,  3.99s/it][A
Training...:   1% 21/2609 [01:46<2:47:20,  3.88s/it][A
Training...:   1% 22/2609 [01:50<2:42:05,  3.76s/it][A
Training...:   1% 23/2609 [01:53<2:37:10,  3.65s/it][A
Training...:   1% 24/2609 [01:56<2:32:30,  3.54s/it][A
Training...:   1% 25/2609 [02:00<2:28:10,  3.44s/it][A
Training...:   1% 26/2609 [02:03<2:23:23,  3.33s/it][A
Training...:   1% 27/2609 [02:06<2:19:19,  3.24s/it][A
Training...:   1% 28/2609 [02:09<2:15:20,  3.15s/it][A
Training...:   1% 29/2609 [02:11<2:10:57,  3.05s/it][A
Training...:   1% 30/2609 [02:14<2:06:44,  2.95s/it][A
Training...:   1% 31/2609 [02:17<2:02:29,  2.85s/it][A
Training...:   1% 32/2609 [02:19<1:58:49,  2.77s/it][A
Training...:   1% 33/2609 [02:22<1:54:54,  2.68s/it][A
Training...:   1% 34/2609 [02:24<1:51:05,  2.59s/it][A
Training...:   1% 35/2609 [02:26<1:47:08,  2.50s/it][A
Training...:   1% 36/2609 [02:29<1:43:49,  2.42s/it][A                                                                                                                                                                   
                                                    [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:03:26<33:07:15, 9171.96s/it]
Training...:   1% 36/2609 [02:31<1:43:49,  2.42s/it][A
Training...:   1% 37/2609 [02:31<1:45:01,  2.45s/it][A
Training...:   1% 38/2609 [02:33<1:40:15,  2.34s/it][A
Training...:   1% 39/2609 [02:35<1:35:31,  2.23s/it][A
Training...:   2% 40/2609 [02:37<1:31:13,  2.13s/it][A
Training...:   2% 41/2609 [02:39<1:27:09,  2.04s/it][A
Training...:   2% 42/2609 [02:41<1:23:12,  1.94s/it][A
Training...:   2% 43/2609 [02:42<1:19:19,  1.85s/it][A
Training...:   2% 44/2609 [02:44<1:15:33,  1.77s/it][A
Training...:   2% 45/2609 [02:45<1:11:08,  1.66s/it][A
Training...:   2% 46/2609 [02:47<1:06:28,  1.56s/it][A
Training...:   2% 47/2609 [02:48<1:01:10,  1.43s/it][A
Training...:   2% 48/2609 [02:49<55:49,  1.31s/it]  [A
Training...:   2% 49/2609 [02:50<49:38,  1.16s/it][A
Training...:   2% 50/2609 [02:50<41:58,  1.02it/s][A
Training...:   2% 51/2609 [02:57<2:00:23,  2.82s/it][A
Training...:   2% 52/2609 [03:04<2:52:16,  4.04s/it][A
Training...:   2% 53/2609 [03:11<3:23:57,  4.79s/it][A
Training...:   2% 54/2609 [03:17<3:41:49,  5.21s/it][A
Training...:   2% 55/2609 [03:23<3:50:38,  5.42s/it][A
Training...:   2% 56/2609 [03:28<3:53:22,  5.48s/it][A
Training...:   2% 57/2609 [03:34<3:53:20,  5.49s/it][A
Training...:   2% 58/2609 [03:39<3:49:56,  5.41s/it][A
Training...:   2% 59/2609 [03:44<3:45:55,  5.32s/it][A
Training...:   2% 60/2609 [03:49<3:41:27,  5.21s/it][A
Training...:   2% 61/2609 [03:54<3:38:25,  5.14s/it][A                                                                                                                                                                   
                                                    [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:04:54<33:07:15, 9171.96s/it]
Training...:   2% 61/2609 [04:00<3:38:25,  5.14s/it][A
Training...:   2% 62/2609 [04:00<3:41:03,  5.21s/it][A
Training...:   2% 63/2609 [04:04<3:31:31,  4.98s/it][A
Training...:   2% 64/2609 [04:08<3:24:07,  4.81s/it][A
Training...:   2% 65/2609 [04:13<3:16:48,  4.64s/it][A
Training...:   3% 66/2609 [04:17<3:10:06,  4.49s/it][A
Training...:   3% 67/2609 [04:21<3:03:34,  4.33s/it][A
Training...:   3% 68/2609 [04:25<2:57:28,  4.19s/it][A
Training...:   3% 69/2609 [04:28<2:52:27,  4.07s/it][A
Training...:   3% 70/2609 [04:32<2:46:52,  3.94s/it][A
Training...:   3% 71/2609 [04:36<2:42:15,  3.84s/it][A
Training...:   3% 72/2609 [04:39<2:37:46,  3.73s/it][A
Training...:   3% 73/2609 [04:43<2:33:15,  3.63s/it][A
Training...:   3% 74/2609 [04:46<2:29:23,  3.54s/it][A
Training...:   3% 75/2609 [04:49<2:25:09,  3.44s/it][A
Training...:   3% 76/2609 [04:52<2:20:36,  3.33s/it][A
Training...:   3% 77/2609 [04:55<2:16:38,  3.24s/it][A
Training...:   3% 78/2609 [04:58<2:12:06,  3.13s/it][A
Training...:   3% 79/2609 [05:01<2:08:20,  3.04s/it][A
Training...:   3% 80/2609 [05:04<2:04:41,  2.96s/it][A
Training...:   3% 81/2609 [05:06<2:00:53,  2.87s/it][A
Training...:   3% 82/2609 [05:09<1:56:49,  2.77s/it][A
Training...:   3% 83/2609 [05:11<1:52:54,  2.68s/it][A
Training...:   3% 84/2609 [05:14<1:49:10,  2.59s/it][A
Training...:   3% 85/2609 [05:16<1:46:16,  2.53s/it][A
Training...:   3% 86/2609 [05:18<1:42:42,  2.44s/it][A                                                                                                                                                                   
                                                    [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:06:16<33:07:15, 9171.96s/it]
Training...:   3% 86/2609 [05:21<1:42:42,  2.44s/it][A
Training...:   3% 87/2609 [05:21<1:44:24,  2.48s/it][A
Training...:   3% 88/2609 [05:23<1:39:58,  2.38s/it][A
Training...:   3% 89/2609 [05:25<1:36:11,  2.29s/it][A
Training...:   3% 90/2609 [05:27<1:31:39,  2.18s/it][A
Training...:   3% 91/2609 [05:29<1:27:49,  2.09s/it][A
Training...:   4% 92/2609 [05:31<1:23:30,  1.99s/it][A
Training...:   4% 93/2609 [05:32<1:19:38,  1.90s/it][A
Training...:   4% 94/2609 [05:34<1:15:03,  1.79s/it][A
Training...:   4% 95/2609 [05:35<1:10:32,  1.68s/it][A
Training...:   4% 96/2609 [05:37<1:05:36,  1.57s/it][A
Training...:   4% 97/2609 [05:38<1:00:51,  1.45s/it][A
Training...:   4% 98/2609 [05:39<55:06,  1.32s/it]  [A
Training...:   4% 99/2609 [05:40<48:56,  1.17s/it][A
Training...:   4% 100/2609 [05:40<41:45,  1.00it/s][A
Training...:   4% 101/2609 [05:47<1:58:59,  2.85s/it][A
Training...:   4% 102/2609 [05:54<2:50:37,  4.08s/it][A
Training...:   4% 103/2609 [06:01<3:20:52,  4.81s/it][A
Training...:   4% 104/2609 [06:07<3:39:28,  5.26s/it][A
Training...:   4% 105/2609 [06:13<3:50:16,  5.52s/it][A
Training...:   4% 106/2609 [06:19<3:52:46,  5.58s/it][A
Training...:   4% 107/2609 [06:25<3:53:08,  5.59s/it][A
Training...:   4% 108/2609 [06:30<3:50:50,  5.54s/it][A
Training...:   4% 109/2609 [06:35<3:45:38,  5.42s/it][A
Training...:   4% 110/2609 [06:40<3:39:01,  5.26s/it][A
Training...:   4% 111/2609 [06:45<3:33:02,  5.12s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:07:45<33:07:15, 9171.96s/it]
Training...:   4% 111/2609 [06:50<3:33:02,  5.12s/it][A
Training...:   4% 112/2609 [06:50<3:36:11,  5.19s/it][A
Training...:   4% 113/2609 [06:55<3:27:45,  4.99s/it][A
Training...:   4% 114/2609 [06:59<3:19:24,  4.80s/it][A
Training...:   4% 115/2609 [07:03<3:12:40,  4.64s/it][A
Training...:   4% 116/2609 [07:07<3:06:08,  4.48s/it][A
Training...:   4% 117/2609 [07:12<3:01:15,  4.36s/it][A
Training...:   5% 118/2609 [07:16<2:55:36,  4.23s/it][A
Training...:   5% 119/2609 [07:19<2:50:20,  4.10s/it][A
Training...:   5% 120/2609 [07:23<2:45:33,  3.99s/it][A
Training...:   5% 121/2609 [07:27<2:42:09,  3.91s/it][A
Training...:   5% 122/2609 [07:30<2:37:24,  3.80s/it][A
Training...:   5% 123/2609 [07:34<2:33:12,  3.70s/it][A
Training...:   5% 124/2609 [07:37<2:29:02,  3.60s/it][A
Training...:   5% 125/2609 [07:40<2:25:00,  3.50s/it][A
Training...:   5% 126/2609 [07:44<2:21:05,  3.41s/it][A
Training...:   5% 127/2609 [07:47<2:17:22,  3.32s/it][A
Training...:   5% 128/2609 [07:50<2:13:30,  3.23s/it][A
Training...:   5% 129/2609 [07:53<2:10:06,  3.15s/it][A
Training...:   5% 130/2609 [07:56<2:06:07,  3.05s/it][A
Training...:   5% 131/2609 [07:58<2:02:16,  2.96s/it][A
Training...:   5% 132/2609 [08:01<1:58:16,  2.86s/it][A
Training...:   5% 133/2609 [08:04<1:54:55,  2.78s/it][A
Training...:   5% 134/2609 [08:06<1:51:05,  2.69s/it][A
Training...:   5% 135/2609 [08:08<1:48:13,  2.62s/it][A
Training...:   5% 136/2609 [08:11<1:44:57,  2.55s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:09:08<33:07:15, 9171.96s/it]
Training...:   5% 136/2609 [08:14<1:44:57,  2.55s/it][A
Training...:   5% 137/2609 [08:14<1:46:54,  2.59s/it][A
Training...:   5% 138/2609 [08:16<1:41:43,  2.47s/it][A
Training...:   5% 139/2609 [08:18<1:37:02,  2.36s/it][A
Training...:   5% 140/2609 [08:20<1:32:16,  2.24s/it][A
Training...:   5% 141/2609 [08:22<1:28:00,  2.14s/it][A
Training...:   5% 142/2609 [08:23<1:23:29,  2.03s/it][A
Training...:   5% 143/2609 [08:25<1:19:38,  1.94s/it][A
Training...:   6% 144/2609 [08:27<1:15:18,  1.83s/it][A
Training...:   6% 145/2609 [08:28<1:11:06,  1.73s/it][A
Training...:   6% 146/2609 [08:30<1:05:46,  1.60s/it][A
Training...:   6% 147/2609 [08:31<1:00:38,  1.48s/it][A
Training...:   6% 148/2609 [08:32<55:05,  1.34s/it]  [A
Training...:   6% 149/2609 [08:33<48:43,  1.19s/it][A
Training...:   6% 150/2609 [08:33<41:01,  1.00s/it][A
Training...:   6% 151/2609 [08:40<1:57:01,  2.86s/it][A
Training...:   6% 152/2609 [08:48<2:51:14,  4.18s/it][A
Training...:   6% 153/2609 [08:54<3:21:17,  4.92s/it][A
Training...:   6% 154/2609 [09:00<3:37:23,  5.31s/it][A
Training...:   6% 155/2609 [09:06<3:45:12,  5.51s/it][A
Training...:   6% 156/2609 [09:12<3:47:48,  5.57s/it][A
Training...:   6% 157/2609 [09:18<3:47:43,  5.57s/it][A
Training...:   6% 158/2609 [09:23<3:43:32,  5.47s/it][A
Training...:   6% 159/2609 [09:28<3:39:08,  5.37s/it][A
Training...:   6% 160/2609 [09:33<3:33:25,  5.23s/it][A
Training...:   6% 161/2609 [09:38<3:28:49,  5.12s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:10:38<33:07:15, 9171.96s/it]
Training...:   6% 161/2609 [09:43<3:28:49,  5.12s/it][A
Training...:   6% 162/2609 [09:43<3:32:59,  5.22s/it][A
Training...:   6% 163/2609 [09:48<3:24:54,  5.03s/it][A
Training...:   6% 164/2609 [09:52<3:16:38,  4.83s/it][A
Training...:   6% 165/2609 [09:57<3:10:42,  4.68s/it][A
Training...:   6% 166/2609 [10:01<3:04:20,  4.53s/it][A
Training...:   6% 167/2609 [10:05<2:58:25,  4.38s/it][A
Training...:   6% 168/2609 [10:09<2:52:30,  4.24s/it][A
Training...:   6% 169/2609 [10:13<2:47:43,  4.12s/it][A
Training...:   7% 170/2609 [10:16<2:42:58,  4.01s/it][A
Training...:   7% 171/2609 [10:20<2:38:41,  3.91s/it][A
Training...:   7% 172/2609 [10:23<2:33:40,  3.78s/it][A
Training...:   7% 173/2609 [10:27<2:29:09,  3.67s/it][A
Training...:   7% 174/2609 [10:30<2:24:40,  3.57s/it][A
Training...:   7% 175/2609 [10:34<2:21:53,  3.50s/it][A
Training...:   7% 176/2609 [10:37<2:17:35,  3.39s/it][A
Training...:   7% 177/2609 [10:40<2:13:55,  3.30s/it][A
Training...:   7% 178/2609 [10:43<2:10:09,  3.21s/it][A
Training...:   7% 179/2609 [10:46<2:06:45,  3.13s/it][A
Training...:   7% 180/2609 [10:49<2:03:17,  3.05s/it][A
Training...:   7% 181/2609 [10:51<1:59:39,  2.96s/it][A
Training...:   7% 182/2609 [10:54<1:55:43,  2.86s/it][A
Training...:   7% 183/2609 [10:57<1:52:01,  2.77s/it][A
Training...:   7% 184/2609 [10:59<1:48:24,  2.68s/it][A
Training...:   7% 185/2609 [11:01<1:45:21,  2.61s/it][A
Training...:   7% 186/2609 [11:04<1:41:55,  2.52s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:12:01<33:07:15, 9171.96s/it]
Training...:   7% 186/2609 [11:06<1:41:55,  2.52s/it][A
Training...:   7% 187/2609 [11:06<1:43:39,  2.57s/it][A
Training...:   7% 188/2609 [11:09<1:38:13,  2.43s/it][A
Training...:   7% 189/2609 [11:11<1:33:43,  2.32s/it][A
Training...:   7% 190/2609 [11:13<1:29:03,  2.21s/it][A
Training...:   7% 191/2609 [11:14<1:24:44,  2.10s/it][A
Training...:   7% 192/2609 [11:16<1:20:56,  2.01s/it][A
Training...:   7% 193/2609 [11:18<1:16:46,  1.91s/it][A
Training...:   7% 194/2609 [11:19<1:12:13,  1.79s/it][A
Training...:   7% 195/2609 [11:21<1:07:47,  1.68s/it][A
Training...:   8% 196/2609 [11:22<1:02:47,  1.56s/it][A
Training...:   8% 197/2609 [11:23<57:31,  1.43s/it]  [A
Training...:   8% 198/2609 [11:24<52:07,  1.30s/it][A
Training...:   8% 199/2609 [11:25<45:59,  1.14s/it][A
Training...:   8% 200/2609 [11:26<38:55,  1.03it/s][A
Training...:   8% 201/2609 [11:33<1:55:07,  2.87s/it][A
Training...:   8% 202/2609 [11:40<2:46:59,  4.16s/it][A
Training...:   8% 203/2609 [11:47<3:15:57,  4.89s/it][A
Training...:   8% 204/2609 [11:53<3:32:47,  5.31s/it][A
Training...:   8% 205/2609 [11:59<3:41:39,  5.53s/it][A
Training...:   8% 206/2609 [12:05<3:44:15,  5.60s/it][A
Training...:   8% 207/2609 [12:10<3:44:10,  5.60s/it][A
Training...:   8% 208/2609 [12:16<3:41:43,  5.54s/it][A
Training...:   8% 209/2609 [12:21<3:36:45,  5.42s/it][A
Training...:   8% 210/2609 [12:26<3:31:04,  5.28s/it][A
Training...:   8% 211/2609 [12:31<3:26:05,  5.16s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:13:31<33:07:15, 9171.96s/it]
Training...:   8% 211/2609 [12:36<3:26:05,  5.16s/it][A
Training...:   8% 212/2609 [12:36<3:29:53,  5.25s/it][A
Training...:   8% 213/2609 [12:41<3:21:57,  5.06s/it][A
Training...:   8% 214/2609 [12:45<3:13:40,  4.85s/it][A
Training...:   8% 215/2609 [12:49<3:06:49,  4.68s/it][A
Training...:   8% 216/2609 [12:54<3:00:15,  4.52s/it][A
Training...:   8% 217/2609 [12:58<2:54:26,  4.38s/it][A
Training...:   8% 218/2609 [13:02<2:48:40,  4.23s/it][A
Training...:   8% 219/2609 [13:05<2:43:17,  4.10s/it][A
Training...:   8% 220/2609 [13:09<2:39:00,  3.99s/it][A
Training...:   8% 221/2609 [13:13<2:34:00,  3.87s/it][A
Training...:   9% 222/2609 [13:16<2:30:05,  3.77s/it][A
Training...:   9% 223/2609 [13:20<2:26:18,  3.68s/it][A
Training...:   9% 224/2609 [13:23<2:21:25,  3.56s/it][A
Training...:   9% 225/2609 [13:26<2:17:10,  3.45s/it][A
Training...:   9% 226/2609 [13:29<2:12:55,  3.35s/it][A
Training...:   9% 227/2609 [13:32<2:08:56,  3.25s/it][A
Training...:   9% 228/2609 [13:35<2:05:04,  3.15s/it][A
Training...:   9% 229/2609 [13:38<2:01:26,  3.06s/it][A
Training...:   9% 230/2609 [13:41<1:58:14,  2.98s/it][A
Training...:   9% 231/2609 [13:44<1:54:40,  2.89s/it][A
Training...:   9% 232/2609 [13:46<1:51:28,  2.81s/it][A
Training...:   9% 233/2609 [13:49<1:48:56,  2.75s/it][A
Training...:   9% 234/2609 [13:51<1:45:53,  2.68s/it][A
Training...:   9% 235/2609 [13:54<1:42:51,  2.60s/it][A
Training...:   9% 236/2609 [13:56<1:39:14,  2.51s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:14:53<33:07:15, 9171.96s/it]
Training...:   9% 236/2609 [13:59<1:39:14,  2.51s/it][A
Training...:   9% 237/2609 [13:59<1:40:32,  2.54s/it][A
Training...:   9% 238/2609 [14:01<1:35:37,  2.42s/it][A
Training...:   9% 239/2609 [14:03<1:30:57,  2.30s/it][A
Training...:   9% 240/2609 [14:05<1:26:25,  2.19s/it][A
Training...:   9% 241/2609 [14:07<1:22:17,  2.09s/it][A
Training...:   9% 242/2609 [14:08<1:18:33,  1.99s/it][A
Training...:   9% 243/2609 [14:10<1:14:47,  1.90s/it][A
Training...:   9% 244/2609 [14:12<1:10:43,  1.79s/it][A
Training...:   9% 245/2609 [14:13<1:06:22,  1.68s/it][A
Training...:   9% 246/2609 [14:14<1:02:00,  1.57s/it][A
Training...:   9% 247/2609 [14:15<57:18,  1.46s/it]  [A
Training...:  10% 248/2609 [14:16<52:02,  1.32s/it][A
Training...:  10% 249/2609 [14:17<46:03,  1.17s/it][A
Training...:  10% 250/2609 [14:18<38:39,  1.02it/s][A
Training...:  10% 251/2609 [14:25<1:52:18,  2.86s/it][A
Training...:  10% 252/2609 [14:32<2:41:15,  4.11s/it][A
Training...:  10% 253/2609 [14:39<3:10:09,  4.84s/it][A
Training...:  10% 254/2609 [14:45<3:26:08,  5.25s/it][A
Training...:  10% 255/2609 [14:51<3:34:43,  5.47s/it][A
Training...:  10% 256/2609 [14:56<3:36:25,  5.52s/it][A
Training...:  10% 257/2609 [15:02<3:36:15,  5.52s/it][A
Training...:  10% 258/2609 [15:07<3:32:22,  5.42s/it][A
Training...:  10% 259/2609 [15:12<3:29:41,  5.35s/it][A
Training...:  10% 260/2609 [15:17<3:24:10,  5.22s/it][A
Training...:  10% 261/2609 [15:22<3:18:40,  5.08s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:16:22<33:07:15, 9171.96s/it]
Training...:  10% 261/2609 [15:27<3:18:40,  5.08s/it][A
Training...:  10% 262/2609 [15:27<3:21:35,  5.15s/it][A
Training...:  10% 263/2609 [15:32<3:13:31,  4.95s/it][A
Training...:  10% 264/2609 [15:36<3:06:25,  4.77s/it][A
Training...:  10% 265/2609 [15:40<2:59:33,  4.60s/it][A
Training...:  10% 266/2609 [15:44<2:53:10,  4.43s/it][A
Training...:  10% 267/2609 [15:48<2:47:47,  4.30s/it][A
Training...:  10% 268/2609 [15:52<2:42:50,  4.17s/it][A
Training...:  10% 269/2609 [15:56<2:38:18,  4.06s/it][A
Training...:  10% 270/2609 [16:00<2:33:58,  3.95s/it][A
Training...:  10% 271/2609 [16:03<2:30:29,  3.86s/it][A
Training...:  10% 272/2609 [16:07<2:26:24,  3.76s/it][A
Training...:  10% 273/2609 [16:10<2:22:56,  3.67s/it][A
Training...:  11% 274/2609 [16:14<2:18:30,  3.56s/it][A
Training...:  11% 275/2609 [16:17<2:14:30,  3.46s/it][A
Training...:  11% 276/2609 [16:20<2:10:45,  3.36s/it][A
Training...:  11% 277/2609 [16:23<2:07:04,  3.27s/it][A
Training...:  11% 278/2609 [16:26<2:03:17,  3.17s/it][A
Training...:  11% 279/2609 [16:29<2:00:03,  3.09s/it][A
Training...:  11% 280/2609 [16:32<1:57:01,  3.01s/it][A
Training...:  11% 281/2609 [16:34<1:53:22,  2.92s/it][A
Training...:  11% 282/2609 [16:37<1:49:45,  2.83s/it][A
Training...:  11% 283/2609 [16:40<1:46:05,  2.74s/it][A
Training...:  11% 284/2609 [16:42<1:42:33,  2.65s/it][A
Training...:  11% 285/2609 [16:44<1:39:23,  2.57s/it][A
Training...:  11% 286/2609 [16:47<1:35:52,  2.48s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:17:44<33:07:15, 9171.96s/it]
Training...:  11% 286/2609 [16:49<1:35:52,  2.48s/it][A
Training...:  11% 287/2609 [16:49<1:37:06,  2.51s/it][A
Training...:  11% 288/2609 [16:51<1:32:36,  2.39s/it][A
Training...:  11% 289/2609 [16:53<1:28:23,  2.29s/it][A
Training...:  11% 290/2609 [16:55<1:24:14,  2.18s/it][A
Training...:  11% 291/2609 [16:57<1:20:30,  2.08s/it][A
Training...:  11% 292/2609 [16:59<1:16:56,  1.99s/it][A
Training...:  11% 293/2609 [17:01<1:12:29,  1.88s/it][A
Training...:  11% 294/2609 [17:02<1:08:00,  1.76s/it][A
Training...:  11% 295/2609 [17:04<1:03:46,  1.65s/it][A
Training...:  11% 296/2609 [17:05<59:20,  1.54s/it]  [A
Training...:  11% 297/2609 [17:06<54:41,  1.42s/it][A
Training...:  11% 298/2609 [17:07<49:37,  1.29s/it][A
Training...:  11% 299/2609 [17:08<44:02,  1.14s/it][A
Training...:  11% 300/2609 [17:08<37:04,  1.04it/s][A
Training...:  12% 301/2609 [17:16<1:49:33,  2.85s/it][A
Training...:  12% 302/2609 [17:23<2:38:40,  4.13s/it][A
Training...:  12% 303/2609 [17:29<3:06:04,  4.84s/it][A
Training...:  12% 304/2609 [17:35<3:20:31,  5.22s/it][A
Training...:  12% 305/2609 [17:41<3:27:31,  5.40s/it][A
Training...:  12% 306/2609 [17:47<3:29:38,  5.46s/it][A
Training...:  12% 307/2609 [17:52<3:30:14,  5.48s/it][A
Training...:  12% 308/2609 [17:57<3:27:21,  5.41s/it][A
Training...:  12% 309/2609 [18:02<3:22:27,  5.28s/it][A
Training...:  12% 310/2609 [18:07<3:17:37,  5.16s/it][A
Training...:  12% 311/2609 [18:12<3:13:48,  5.06s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:19:12<33:07:15, 9171.96s/it]
Training...:  12% 311/2609 [18:18<3:13:48,  5.06s/it][A
Training...:  12% 312/2609 [18:18<3:18:09,  5.18s/it][A
Training...:  12% 313/2609 [18:22<3:11:12,  5.00s/it][A
Training...:  12% 314/2609 [18:26<3:03:39,  4.80s/it][A
Training...:  12% 315/2609 [18:31<2:57:14,  4.64s/it][A
Training...:  12% 316/2609 [18:35<2:51:12,  4.48s/it][A
Training...:  12% 317/2609 [18:39<2:46:18,  4.35s/it][A
Training...:  12% 318/2609 [18:43<2:41:19,  4.22s/it][A
Training...:  12% 319/2609 [18:47<2:37:07,  4.12s/it][A
Training...:  12% 320/2609 [18:50<2:33:19,  4.02s/it][A
Training...:  12% 321/2609 [18:54<2:29:11,  3.91s/it][A
Training...:  12% 322/2609 [18:58<2:24:47,  3.80s/it][A
Training...:  12% 323/2609 [19:01<2:21:03,  3.70s/it][A
Training...:  12% 324/2609 [19:05<2:17:14,  3.60s/it][A
Training...:  12% 325/2609 [19:08<2:14:03,  3.52s/it][A
Training...:  12% 326/2609 [19:11<2:10:32,  3.43s/it][A
Training...:  13% 327/2609 [19:14<2:06:07,  3.32s/it][A
Training...:  13% 328/2609 [19:17<2:02:17,  3.22s/it][A
Training...:  13% 329/2609 [19:20<1:58:38,  3.12s/it][A
Training...:  13% 330/2609 [19:23<1:54:58,  3.03s/it][A
Training...:  13% 331/2609 [19:26<1:51:34,  2.94s/it][A
Training...:  13% 332/2609 [19:28<1:47:51,  2.84s/it][A
Training...:  13% 333/2609 [19:31<1:44:14,  2.75s/it][A
Training...:  13% 334/2609 [19:33<1:40:57,  2.66s/it][A
Training...:  13% 335/2609 [19:36<1:37:57,  2.58s/it][A
Training...:  13% 336/2609 [19:38<1:34:44,  2.50s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:20:35<33:07:15, 9171.96s/it]
Training...:  13% 336/2609 [19:41<1:34:44,  2.50s/it][A
Training...:  13% 337/2609 [19:41<1:36:16,  2.54s/it][A
Training...:  13% 338/2609 [19:43<1:31:29,  2.42s/it][A
Training...:  13% 339/2609 [19:45<1:27:15,  2.31s/it][A
Training...:  13% 340/2609 [19:47<1:23:03,  2.20s/it][A
Training...:  13% 341/2609 [19:48<1:18:33,  2.08s/it][A
Training...:  13% 342/2609 [19:50<1:14:29,  1.97s/it][A
Training...:  13% 343/2609 [19:52<1:10:19,  1.86s/it][A
Training...:  13% 344/2609 [19:53<1:06:40,  1.77s/it][A
Training...:  13% 345/2609 [19:55<1:02:36,  1.66s/it][A
Training...:  13% 346/2609 [19:56<57:57,  1.54s/it]  [A
Training...:  13% 347/2609 [19:57<53:07,  1.41s/it][A
Training...:  13% 348/2609 [19:58<48:00,  1.27s/it][A
Training...:  13% 349/2609 [19:59<42:54,  1.14s/it][A
Training...:  13% 350/2609 [19:59<36:07,  1.04it/s][A
Training...:  13% 351/2609 [20:06<1:44:52,  2.79s/it][A
Training...:  13% 352/2609 [20:14<2:33:05,  4.07s/it][A
Training...:  14% 353/2609 [20:20<3:00:14,  4.79s/it][A
Training...:  14% 354/2609 [20:26<3:14:57,  5.19s/it][A
Training...:  14% 355/2609 [20:32<3:23:12,  5.41s/it][A
Training...:  14% 356/2609 [20:38<3:26:28,  5.50s/it][A
Training...:  14% 357/2609 [20:43<3:25:52,  5.49s/it][A
Training...:  14% 358/2609 [20:48<3:22:46,  5.40s/it][A
Training...:  14% 359/2609 [20:54<3:20:02,  5.33s/it][A
Training...:  14% 360/2609 [20:59<3:18:33,  5.30s/it][A
Training...:  14% 361/2609 [21:04<3:12:56,  5.15s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:22:04<33:07:15, 9171.96s/it]
Training...:  14% 361/2609 [21:09<3:12:56,  5.15s/it][A
Training...:  14% 362/2609 [21:09<3:15:37,  5.22s/it][A
Training...:  14% 363/2609 [21:14<3:07:28,  5.01s/it][A
Training...:  14% 364/2609 [21:18<3:00:06,  4.81s/it][A
Training...:  14% 365/2609 [21:22<2:53:38,  4.64s/it][A
Training...:  14% 366/2609 [21:26<2:47:06,  4.47s/it][A
Training...:  14% 367/2609 [21:30<2:42:18,  4.34s/it][A
Training...:  14% 368/2609 [21:34<2:36:34,  4.19s/it][A
Training...:  14% 369/2609 [21:38<2:32:08,  4.08s/it][A
Training...:  14% 370/2609 [21:42<2:27:15,  3.95s/it][A
Training...:  14% 371/2609 [21:45<2:23:40,  3.85s/it][A
Training...:  14% 372/2609 [21:49<2:19:35,  3.74s/it][A
Training...:  14% 373/2609 [21:52<2:15:41,  3.64s/it][A
Training...:  14% 374/2609 [21:55<2:11:31,  3.53s/it][A
Training...:  14% 375/2609 [21:59<2:08:06,  3.44s/it][A
Training...:  14% 376/2609 [22:02<2:04:46,  3.35s/it][A
Training...:  14% 377/2609 [22:05<2:00:34,  3.24s/it][A
Training...:  14% 378/2609 [22:08<1:56:57,  3.15s/it][A
Training...:  15% 379/2609 [22:10<1:53:56,  3.07s/it][A
Training...:  15% 380/2609 [22:13<1:50:59,  2.99s/it][A
Training...:  15% 381/2609 [22:16<1:47:58,  2.91s/it][A
Training...:  15% 382/2609 [22:19<1:44:29,  2.82s/it][A
Training...:  15% 383/2609 [22:21<1:41:05,  2.72s/it][A
Training...:  15% 384/2609 [22:24<1:37:46,  2.64s/it][A
Training...:  15% 385/2609 [22:26<1:34:00,  2.54s/it][A
Training...:  15% 386/2609 [22:28<1:30:16,  2.44s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:23:25<33:07:15, 9171.96s/it]
Training...:  15% 386/2609 [22:31<1:30:16,  2.44s/it][A
Training...:  15% 387/2609 [22:31<1:31:33,  2.47s/it][A
Training...:  15% 388/2609 [22:33<1:26:40,  2.34s/it][A
Training...:  15% 389/2609 [22:35<1:22:32,  2.23s/it][A
Training...:  15% 390/2609 [22:36<1:18:16,  2.12s/it][A
Training...:  15% 391/2609 [22:38<1:14:21,  2.01s/it][A
Training...:  15% 392/2609 [22:40<1:10:39,  1.91s/it][A
Training...:  15% 393/2609 [22:41<1:06:53,  1.81s/it][A
Training...:  15% 394/2609 [22:43<1:03:22,  1.72s/it][A
Training...:  15% 395/2609 [22:44<59:39,  1.62s/it]  [A
Training...:  15% 396/2609 [22:46<55:51,  1.51s/it][A
Training...:  15% 397/2609 [22:47<51:26,  1.40s/it][A
Training...:  15% 398/2609 [22:48<46:49,  1.27s/it][A
Training...:  15% 399/2609 [22:49<41:19,  1.12s/it][A
Training...:  15% 400/2609 [22:49<34:39,  1.06it/s][A
Training...:  15% 401/2609 [22:56<1:45:40,  2.87s/it][A
Training...:  15% 402/2609 [23:03<2:30:50,  4.10s/it][A
Training...:  15% 403/2609 [23:10<2:56:50,  4.81s/it][A
Training...:  15% 404/2609 [23:16<3:13:11,  5.26s/it][A
Training...:  16% 405/2609 [23:22<3:20:54,  5.47s/it][A
Training...:  16% 406/2609 [23:28<3:23:32,  5.54s/it][A
Training...:  16% 407/2609 [23:34<3:27:38,  5.66s/it][A
Training...:  16% 408/2609 [23:39<3:23:43,  5.55s/it][A
Training...:  16% 409/2609 [23:44<3:19:29,  5.44s/it][A
Training...:  16% 410/2609 [23:49<3:13:03,  5.27s/it][A
Training...:  16% 411/2609 [23:54<3:08:10,  5.14s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:24:54<33:07:15, 9171.96s/it]
Training...:  16% 411/2609 [23:59<3:08:10,  5.14s/it][A
Training...:  16% 412/2609 [23:59<3:11:47,  5.24s/it][A
Training...:  16% 413/2609 [24:04<3:04:04,  5.03s/it][A
Training...:  16% 414/2609 [24:08<2:56:09,  4.82s/it][A
Training...:  16% 415/2609 [24:12<2:49:31,  4.64s/it][A
Training...:  16% 416/2609 [24:17<2:43:29,  4.47s/it][A
Training...:  16% 417/2609 [24:21<2:37:54,  4.32s/it][A
Training...:  16% 418/2609 [24:24<2:33:05,  4.19s/it][A
Training...:  16% 419/2609 [24:28<2:28:23,  4.07s/it][A
Training...:  16% 420/2609 [24:32<2:24:16,  3.95s/it][A
Training...:  16% 421/2609 [24:35<2:20:00,  3.84s/it][A
Training...:  16% 422/2609 [24:39<2:16:11,  3.74s/it][A
Training...:  16% 423/2609 [24:42<2:12:15,  3.63s/it][A
Training...:  16% 424/2609 [24:46<2:08:14,  3.52s/it][A
Training...:  16% 425/2609 [24:49<2:04:32,  3.42s/it][A
Training...:  16% 426/2609 [24:52<2:00:53,  3.32s/it][A
Training...:  16% 427/2609 [24:55<1:58:11,  3.25s/it][A
Training...:  16% 428/2609 [24:58<1:55:11,  3.17s/it][A
Training...:  16% 429/2609 [25:01<1:52:13,  3.09s/it][A
Training...:  16% 430/2609 [25:04<1:48:41,  2.99s/it][A
Training...:  17% 431/2609 [25:06<1:45:18,  2.90s/it][A
Training...:  17% 432/2609 [25:09<1:41:18,  2.79s/it][A
Training...:  17% 433/2609 [25:11<1:37:49,  2.70s/it][A
Training...:  17% 434/2609 [25:14<1:34:40,  2.61s/it][A
Training...:  17% 435/2609 [25:16<1:31:52,  2.54s/it][A
Training...:  17% 436/2609 [25:18<1:28:42,  2.45s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:26:16<33:07:15, 9171.96s/it]
Training...:  17% 436/2609 [25:21<1:28:42,  2.45s/it][A
Training...:  17% 437/2609 [25:21<1:30:44,  2.51s/it][A
Training...:  17% 438/2609 [25:23<1:26:11,  2.38s/it][A
Training...:  17% 439/2609 [25:25<1:22:26,  2.28s/it][A
Training...:  17% 440/2609 [25:27<1:18:33,  2.17s/it][A
Training...:  17% 441/2609 [25:29<1:14:41,  2.07s/it][A
Training...:  17% 442/2609 [25:31<1:10:38,  1.96s/it][A
Training...:  17% 443/2609 [25:32<1:07:17,  1.86s/it][A
Training...:  17% 444/2609 [25:34<1:03:14,  1.75s/it][A
Training...:  17% 445/2609 [25:35<59:28,  1.65s/it]  [A
Training...:  17% 446/2609 [25:36<55:15,  1.53s/it][A
Training...:  17% 447/2609 [25:37<50:51,  1.41s/it][A
Training...:  17% 448/2609 [25:38<46:06,  1.28s/it][A
Training...:  17% 449/2609 [25:39<40:53,  1.14s/it][A
Training...:  17% 450/2609 [25:40<34:35,  1.04it/s][A
Training...:  17% 451/2609 [25:47<1:41:35,  2.82s/it][A
Training...:  17% 452/2609 [25:54<2:28:28,  4.13s/it][A
Training...:  17% 453/2609 [26:01<2:56:00,  4.90s/it][A
Training...:  17% 454/2609 [26:07<3:11:32,  5.33s/it][A
Training...:  17% 455/2609 [26:13<3:19:39,  5.56s/it][A
Training...:  17% 456/2609 [26:19<3:22:52,  5.65s/it][A
Training...:  18% 457/2609 [26:25<3:23:30,  5.67s/it][A
Training...:  18% 458/2609 [26:30<3:19:12,  5.56s/it][A
Training...:  18% 459/2609 [26:35<3:15:12,  5.45s/it][A
Training...:  18% 460/2609 [26:40<3:09:41,  5.30s/it][A
Training...:  18% 461/2609 [26:45<3:06:54,  5.22s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:27:46<33:07:15, 9171.96s/it]
Training...:  18% 461/2609 [26:51<3:06:54,  5.22s/it][A
Training...:  18% 462/2609 [26:51<3:10:32,  5.32s/it][A
Training...:  18% 463/2609 [26:56<3:02:33,  5.10s/it][A
Training...:  18% 464/2609 [27:00<2:54:12,  4.87s/it][A
Training...:  18% 465/2609 [27:04<2:47:54,  4.70s/it][A
Training...:  18% 466/2609 [27:08<2:41:06,  4.51s/it][A
Training...:  18% 467/2609 [27:12<2:36:20,  4.38s/it][A
Training...:  18% 468/2609 [27:16<2:31:04,  4.23s/it][A
Training...:  18% 469/2609 [27:20<2:26:52,  4.12s/it][A
Training...:  18% 470/2609 [27:24<2:22:18,  3.99s/it][A
Training...:  18% 471/2609 [27:27<2:18:22,  3.88s/it][A
Training...:  18% 472/2609 [27:31<2:14:26,  3.77s/it][A
Training...:  18% 473/2609 [27:34<2:11:27,  3.69s/it][A
Training...:  18% 474/2609 [27:38<2:07:55,  3.60s/it][A
Training...:  18% 475/2609 [27:41<2:04:42,  3.51s/it][A
Training...:  18% 476/2609 [27:44<2:00:59,  3.40s/it][A
Training...:  18% 477/2609 [27:47<1:57:39,  3.31s/it][A
Training...:  18% 478/2609 [27:50<1:53:47,  3.20s/it][A
Training...:  18% 479/2609 [27:53<1:50:30,  3.11s/it][A
Training...:  18% 480/2609 [27:56<1:47:21,  3.03s/it][A
Training...:  18% 481/2609 [27:59<1:44:38,  2.95s/it][A
Training...:  18% 482/2609 [28:01<1:41:02,  2.85s/it][A
Training...:  19% 483/2609 [28:04<1:38:30,  2.78s/it][A
Training...:  19% 484/2609 [28:06<1:35:34,  2.70s/it][A
Training...:  19% 485/2609 [28:09<1:32:25,  2.61s/it][A
Training...:  19% 486/2609 [28:11<1:29:25,  2.53s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:29:09<33:07:15, 9171.96s/it]
Training...:  19% 486/2609 [28:14<1:29:25,  2.53s/it][A
Training...:  19% 487/2609 [28:14<1:30:47,  2.57s/it][A
Training...:  19% 488/2609 [28:16<1:26:17,  2.44s/it][A
Training...:  19% 489/2609 [28:18<1:22:02,  2.32s/it][A
Training...:  19% 490/2609 [28:20<1:17:39,  2.20s/it][A
Training...:  19% 491/2609 [28:22<1:13:39,  2.09s/it][A
Training...:  19% 492/2609 [28:24<1:09:44,  1.98s/it][A
Training...:  19% 493/2609 [28:25<1:06:30,  1.89s/it][A
Training...:  19% 494/2609 [28:27<1:03:07,  1.79s/it][A
Training...:  19% 495/2609 [28:28<1:00:05,  1.71s/it][A
Training...:  19% 496/2609 [28:30<56:29,  1.60s/it]  [A
Training...:  19% 497/2609 [28:31<52:27,  1.49s/it][A
Training...:  19% 498/2609 [28:32<47:50,  1.36s/it][A
Training...:  19% 499/2609 [28:33<42:24,  1.21s/it][A
Training...:  19% 500/2609 [28:33<36:05,  1.03s/it][A
Training...:  19% 501/2609 [28:41<1:43:29,  2.95s/it][A
Training...:  19% 502/2609 [28:48<2:27:42,  4.21s/it][A
Training...:  19% 503/2609 [28:55<2:54:50,  4.98s/it][A
Training...:  19% 504/2609 [29:01<3:09:58,  5.41s/it][A
Training...:  19% 505/2609 [29:07<3:16:59,  5.62s/it][A
Training...:  19% 506/2609 [29:13<3:19:56,  5.70s/it][A
Training...:  19% 507/2609 [29:19<3:21:18,  5.75s/it][A
Training...:  19% 508/2609 [29:24<3:18:11,  5.66s/it][A
Training...:  20% 509/2609 [29:30<3:14:10,  5.55s/it][A
Training...:  20% 510/2609 [29:35<3:09:01,  5.40s/it][A
Training...:  20% 511/2609 [29:40<3:03:42,  5.25s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:30:40<33:07:15, 9171.96s/it]
Training...:  20% 511/2609 [29:45<3:03:42,  5.25s/it][A
Training...:  20% 512/2609 [29:45<3:05:52,  5.32s/it][A
Training...:  20% 513/2609 [29:50<2:57:07,  5.07s/it][A
Training...:  20% 514/2609 [29:54<2:48:55,  4.84s/it][A
Training...:  20% 515/2609 [29:58<2:42:23,  4.65s/it][A
Training...:  20% 516/2609 [30:02<2:36:15,  4.48s/it][A
Training...:  20% 517/2609 [30:06<2:31:31,  4.35s/it][A
Training...:  20% 518/2609 [30:10<2:25:52,  4.19s/it][A
Training...:  20% 519/2609 [30:14<2:21:27,  4.06s/it][A
Training...:  20% 520/2609 [30:18<2:17:39,  3.95s/it][A
Training...:  20% 521/2609 [30:21<2:14:02,  3.85s/it][A
Training...:  20% 522/2609 [30:25<2:10:17,  3.75s/it][A
Training...:  20% 523/2609 [30:28<2:06:47,  3.65s/it][A
Training...:  20% 524/2609 [30:31<2:03:20,  3.55s/it][A
Training...:  20% 525/2609 [30:35<2:00:36,  3.47s/it][A
Training...:  20% 526/2609 [30:38<1:56:59,  3.37s/it][A
Training...:  20% 527/2609 [30:41<1:54:01,  3.29s/it][A
Training...:  20% 528/2609 [30:44<1:50:37,  3.19s/it][A
Training...:  20% 529/2609 [30:47<1:47:03,  3.09s/it][A
Training...:  20% 530/2609 [30:50<1:43:41,  2.99s/it][A
Training...:  20% 531/2609 [30:52<1:40:49,  2.91s/it][A
Training...:  20% 532/2609 [30:55<1:37:20,  2.81s/it][A
Training...:  20% 533/2609 [30:57<1:34:19,  2.73s/it][A
Training...:  20% 534/2609 [31:00<1:30:53,  2.63s/it][A
Training...:  21% 535/2609 [31:02<1:28:00,  2.55s/it][A
Training...:  21% 536/2609 [31:04<1:25:10,  2.47s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:32:02<33:07:15, 9171.96s/it]
Training...:  21% 536/2609 [31:07<1:25:10,  2.47s/it][A
Training...:  21% 537/2609 [31:07<1:26:32,  2.51s/it][A
Training...:  21% 538/2609 [31:09<1:22:14,  2.38s/it][A
Training...:  21% 539/2609 [31:11<1:19:02,  2.29s/it][A
Training...:  21% 540/2609 [31:13<1:15:30,  2.19s/it][A
Training...:  21% 541/2609 [31:15<1:12:26,  2.10s/it][A
Training...:  21% 542/2609 [31:17<1:09:18,  2.01s/it][A
Training...:  21% 543/2609 [31:18<1:05:13,  1.89s/it][A
Training...:  21% 544/2609 [31:20<1:01:24,  1.78s/it][A
Training...:  21% 545/2609 [31:21<57:45,  1.68s/it]  [A
Training...:  21% 546/2609 [31:23<53:45,  1.56s/it][A
Training...:  21% 547/2609 [31:24<49:33,  1.44s/it][A
Training...:  21% 548/2609 [31:25<44:56,  1.31s/it][A
Training...:  21% 549/2609 [31:26<39:53,  1.16s/it][A
Training...:  21% 550/2609 [31:26<33:35,  1.02it/s][A
Training...:  21% 551/2609 [31:33<1:37:58,  2.86s/it][A
Training...:  21% 552/2609 [31:41<2:22:06,  4.15s/it][A
Training...:  21% 553/2609 [31:47<2:45:40,  4.83s/it][A
Training...:  21% 554/2609 [31:53<2:58:46,  5.22s/it][A
Training...:  21% 555/2609 [31:59<3:05:14,  5.41s/it][A
Training...:  21% 556/2609 [32:05<3:06:30,  5.45s/it][A
Training...:  21% 557/2609 [32:10<3:05:01,  5.41s/it][A
Training...:  21% 558/2609 [32:15<3:02:33,  5.34s/it][A
Training...:  21% 559/2609 [32:20<2:59:27,  5.25s/it][A
Training...:  21% 560/2609 [32:25<2:54:35,  5.11s/it][A
Training...:  22% 561/2609 [32:30<2:50:57,  5.01s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:33:30<33:07:15, 9171.96s/it]
Training...:  22% 561/2609 [32:35<2:50:57,  5.01s/it][A
Training...:  22% 562/2609 [32:35<2:53:35,  5.09s/it][A
Training...:  22% 563/2609 [32:39<2:46:25,  4.88s/it][A
Training...:  22% 564/2609 [32:44<2:39:24,  4.68s/it][A
Training...:  22% 565/2609 [32:48<2:33:46,  4.51s/it][A
Training...:  22% 566/2609 [32:52<2:28:38,  4.37s/it][A
Training...:  22% 567/2609 [32:56<2:24:12,  4.24s/it][A
Training...:  22% 568/2609 [32:59<2:19:43,  4.11s/it][A
Training...:  22% 569/2609 [33:03<2:17:18,  4.04s/it][A
Training...:  22% 570/2609 [33:07<2:14:42,  3.96s/it][A
Training...:  22% 571/2609 [33:11<2:10:31,  3.84s/it][A
Training...:  22% 572/2609 [33:14<2:06:04,  3.71s/it][A
Training...:  22% 573/2609 [33:17<2:02:05,  3.60s/it][A
Training...:  22% 574/2609 [33:21<1:58:38,  3.50s/it][A
Training...:  22% 575/2609 [33:24<1:55:08,  3.40s/it][A
Training...:  22% 576/2609 [33:27<1:52:03,  3.31s/it][A
Training...:  22% 577/2609 [33:30<1:48:52,  3.21s/it][A
Training...:  22% 578/2609 [33:33<1:45:48,  3.13s/it][A
Training...:  22% 579/2609 [33:36<1:43:04,  3.05s/it][A
Training...:  22% 580/2609 [33:38<1:40:03,  2.96s/it][A
Training...:  22% 581/2609 [33:41<1:36:59,  2.87s/it][A
Training...:  22% 582/2609 [33:44<1:34:09,  2.79s/it][A
Training...:  22% 583/2609 [33:46<1:31:23,  2.71s/it][A
Training...:  22% 584/2609 [33:49<1:28:42,  2.63s/it][A
Training...:  22% 585/2609 [33:51<1:25:46,  2.54s/it][A
Training...:  22% 586/2609 [33:53<1:22:54,  2.46s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:34:51<33:07:15, 9171.96s/it]
Training...:  22% 586/2609 [33:56<1:22:54,  2.46s/it][A
Training...:  22% 587/2609 [33:56<1:24:22,  2.50s/it][A
Training...:  23% 588/2609 [33:58<1:19:37,  2.36s/it][A
Training...:  23% 589/2609 [34:00<1:16:05,  2.26s/it][A
Training...:  23% 590/2609 [34:02<1:12:21,  2.15s/it][A
Training...:  23% 591/2609 [34:04<1:08:54,  2.05s/it][A
Training...:  23% 592/2609 [34:05<1:06:00,  1.96s/it][A
Training...:  23% 593/2609 [34:07<1:02:37,  1.86s/it][A
Training...:  23% 594/2609 [34:09<59:06,  1.76s/it]  [A
Training...:  23% 595/2609 [34:10<55:46,  1.66s/it][A
Training...:  23% 596/2609 [34:11<51:47,  1.54s/it][A
Training...:  23% 597/2609 [34:12<47:46,  1.42s/it][A
Training...:  23% 598/2609 [34:13<43:00,  1.28s/it][A
Training...:  23% 599/2609 [34:14<38:05,  1.14s/it][A
Training...:  23% 600/2609 [34:15<32:19,  1.04it/s][A
Training...:  23% 601/2609 [34:22<1:33:55,  2.81s/it][A
Training...:  23% 602/2609 [34:29<2:17:18,  4.10s/it][A
Training...:  23% 603/2609 [34:36<2:43:40,  4.90s/it][A
Training...:  23% 604/2609 [34:42<2:57:24,  5.31s/it][A
Training...:  23% 605/2609 [34:48<3:05:57,  5.57s/it][A
Training...:  23% 606/2609 [34:54<3:08:11,  5.64s/it][A
Training...:  23% 607/2609 [34:59<3:06:41,  5.60s/it][A
Training...:  23% 608/2609 [35:05<3:03:08,  5.49s/it][A
Training...:  23% 609/2609 [35:10<2:59:21,  5.38s/it][A
Training...:  23% 610/2609 [35:15<2:55:05,  5.26s/it][A
Training...:  23% 611/2609 [35:20<2:50:35,  5.12s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:36:20<33:07:15, 9171.96s/it]
Training...:  23% 611/2609 [35:25<2:50:35,  5.12s/it][A
Training...:  23% 612/2609 [35:25<2:53:08,  5.20s/it][A
Training...:  23% 613/2609 [35:30<2:46:36,  5.01s/it][A
Training...:  24% 614/2609 [35:34<2:40:04,  4.81s/it][A
Training...:  24% 615/2609 [35:38<2:34:14,  4.64s/it][A
Training...:  24% 616/2609 [35:42<2:29:07,  4.49s/it][A
Training...:  24% 617/2609 [35:46<2:24:40,  4.36s/it][A
Training...:  24% 618/2609 [35:50<2:20:02,  4.22s/it][A
Training...:  24% 619/2609 [35:54<2:16:20,  4.11s/it][A
Training...:  24% 620/2609 [35:58<2:11:30,  3.97s/it][A
Training...:  24% 621/2609 [36:01<2:07:55,  3.86s/it][A
Training...:  24% 622/2609 [36:05<2:04:52,  3.77s/it][A
Training...:  24% 623/2609 [36:08<2:01:50,  3.68s/it][A
Training...:  24% 624/2609 [36:12<1:58:36,  3.59s/it][A
Training...:  24% 625/2609 [36:15<1:55:29,  3.49s/it][A
Training...:  24% 626/2609 [36:18<1:51:47,  3.38s/it][A
Training...:  24% 627/2609 [36:21<1:48:24,  3.28s/it][A
Training...:  24% 628/2609 [36:24<1:45:21,  3.19s/it][A
Training...:  24% 629/2609 [36:27<1:43:13,  3.13s/it][A
Training...:  24% 630/2609 [36:30<1:40:14,  3.04s/it][A
Training...:  24% 631/2609 [36:33<1:37:10,  2.95s/it][A
Training...:  24% 632/2609 [36:35<1:33:44,  2.84s/it][A
Training...:  24% 633/2609 [36:38<1:30:45,  2.76s/it][A
Training...:  24% 634/2609 [36:40<1:27:25,  2.66s/it][A
Training...:  24% 635/2609 [36:43<1:24:32,  2.57s/it][A
Training...:  24% 636/2609 [36:45<1:21:44,  2.49s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:37:42<33:07:15, 9171.96s/it]
Training...:  24% 636/2609 [36:48<1:21:44,  2.49s/it][A
Training...:  24% 637/2609 [36:48<1:23:13,  2.53s/it][A
Training...:  24% 638/2609 [36:50<1:19:14,  2.41s/it][A
Training...:  24% 639/2609 [36:52<1:15:32,  2.30s/it][A
Training...:  25% 640/2609 [36:54<1:11:55,  2.19s/it][A
Training...:  25% 641/2609 [36:56<1:09:22,  2.11s/it][A
Training...:  25% 642/2609 [36:57<1:05:43,  2.00s/it][A
Training...:  25% 643/2609 [36:59<1:02:05,  1.89s/it][A
Training...:  25% 644/2609 [37:01<58:23,  1.78s/it]  [A
Training...:  25% 645/2609 [37:02<54:31,  1.67s/it][A
Training...:  25% 646/2609 [37:03<50:37,  1.55s/it][A
Training...:  25% 647/2609 [37:04<46:34,  1.42s/it][A
Training...:  25% 648/2609 [37:05<42:06,  1.29s/it][A
Training...:  25% 649/2609 [37:06<37:18,  1.14s/it][A
Training...:  25% 650/2609 [37:07<31:36,  1.03it/s][A
Training...:  25% 651/2609 [37:14<1:31:53,  2.82s/it][A
Training...:  25% 652/2609 [37:21<2:13:43,  4.10s/it][A
Training...:  25% 653/2609 [37:28<2:38:19,  4.86s/it][A
Training...:  25% 654/2609 [37:34<2:52:14,  5.29s/it][A
Training...:  25% 655/2609 [37:40<2:59:36,  5.51s/it][A
Training...:  25% 656/2609 [37:46<3:01:21,  5.57s/it][A
Training...:  25% 657/2609 [37:51<3:00:51,  5.56s/it][A
Training...:  25% 658/2609 [37:56<2:58:33,  5.49s/it][A
Training...:  25% 659/2609 [38:02<2:56:13,  5.42s/it][A
Training...:  25% 660/2609 [38:07<2:52:52,  5.32s/it][A
Training...:  25% 661/2609 [38:12<2:48:46,  5.20s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:39:12<33:07:15, 9171.96s/it]
Training...:  25% 661/2609 [38:17<2:48:46,  5.20s/it][A
Training...:  25% 662/2609 [38:17<2:50:43,  5.26s/it][A
Training...:  25% 663/2609 [38:22<2:44:31,  5.07s/it][A
Training...:  25% 664/2609 [38:26<2:38:13,  4.88s/it][A
Training...:  25% 665/2609 [38:31<2:32:52,  4.72s/it][A
Training...:  26% 666/2609 [38:35<2:27:30,  4.56s/it][A
Training...:  26% 667/2609 [38:39<2:22:07,  4.39s/it][A
Training...:  26% 668/2609 [38:43<2:17:17,  4.24s/it][A
Training...:  26% 669/2609 [38:46<2:13:31,  4.13s/it][A
Training...:  26% 670/2609 [38:50<2:09:48,  4.02s/it][A
Training...:  26% 671/2609 [38:54<2:06:27,  3.91s/it][A
Training...:  26% 672/2609 [38:57<2:03:16,  3.82s/it][A
Training...:  26% 673/2609 [39:01<2:00:02,  3.72s/it][A
Training...:  26% 674/2609 [39:04<1:56:22,  3.61s/it][A
Training...:  26% 675/2609 [39:08<1:53:35,  3.52s/it][A
Training...:  26% 676/2609 [39:11<1:49:56,  3.41s/it][A
Training...:  26% 677/2609 [39:14<1:46:44,  3.31s/it][A
Training...:  26% 678/2609 [39:17<1:43:42,  3.22s/it][A
Training...:  26% 679/2609 [39:20<1:41:06,  3.14s/it][A
Training...:  26% 680/2609 [39:23<1:37:51,  3.04s/it][A
Training...:  26% 681/2609 [39:25<1:35:14,  2.96s/it][A
Training...:  26% 682/2609 [39:28<1:32:00,  2.86s/it][A
Training...:  26% 683/2609 [39:31<1:29:08,  2.78s/it][A
Training...:  26% 684/2609 [39:33<1:26:18,  2.69s/it][A
Training...:  26% 685/2609 [39:36<1:23:34,  2.61s/it][A
Training...:  26% 686/2609 [39:38<1:21:01,  2.53s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:40:35<33:07:15, 9171.96s/it]
Training...:  26% 686/2609 [39:41<1:21:01,  2.53s/it][A
Training...:  26% 687/2609 [39:41<1:22:09,  2.56s/it][A
Training...:  26% 688/2609 [39:43<1:17:45,  2.43s/it][A
Training...:  26% 689/2609 [39:45<1:14:14,  2.32s/it][A
Training...:  26% 690/2609 [39:47<1:10:44,  2.21s/it][A
Training...:  26% 691/2609 [39:49<1:07:51,  2.12s/it][A
Training...:  27% 692/2609 [39:50<1:05:24,  2.05s/it][A
Training...:  27% 693/2609 [39:52<1:02:03,  1.94s/it][A
Training...:  27% 694/2609 [39:54<58:35,  1.84s/it]  [A
Training...:  27% 695/2609 [39:55<54:50,  1.72s/it][A
Training...:  27% 696/2609 [39:56<50:40,  1.59s/it][A
Training...:  27% 697/2609 [39:58<46:41,  1.47s/it][A
Training...:  27% 698/2609 [39:59<42:19,  1.33s/it][A
Training...:  27% 699/2609 [39:59<37:19,  1.17s/it][A
Training...:  27% 700/2609 [40:00<31:30,  1.01it/s][A
Training...:  27% 701/2609 [40:07<1:29:16,  2.81s/it][A
Training...:  27% 702/2609 [40:14<2:11:56,  4.15s/it][A
Training...:  27% 703/2609 [40:21<2:37:20,  4.95s/it][A
Training...:  27% 704/2609 [40:27<2:49:57,  5.35s/it][A
Training...:  27% 705/2609 [40:33<2:55:45,  5.54s/it][A
Training...:  27% 706/2609 [40:39<2:57:05,  5.58s/it][A
Training...:  27% 707/2609 [40:45<2:56:46,  5.58s/it][A
Training...:  27% 708/2609 [40:50<2:54:12,  5.50s/it][A
Training...:  27% 709/2609 [40:55<2:51:53,  5.43s/it][A
Training...:  27% 710/2609 [41:00<2:47:17,  5.29s/it][A
Training...:  27% 711/2609 [41:05<2:42:55,  5.15s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:42:05<33:07:15, 9171.96s/it]
Training...:  27% 711/2609 [41:10<2:42:55,  5.15s/it][A
Training...:  27% 712/2609 [41:10<2:45:06,  5.22s/it][A
Training...:  27% 713/2609 [41:15<2:39:43,  5.05s/it][A
Training...:  27% 714/2609 [41:20<2:33:56,  4.87s/it][A
Training...:  27% 715/2609 [41:24<2:28:59,  4.72s/it][A
Training...:  27% 716/2609 [41:28<2:23:18,  4.54s/it][A
Training...:  27% 717/2609 [41:32<2:19:09,  4.41s/it][A
Training...:  28% 718/2609 [41:36<2:14:51,  4.28s/it][A
Training...:  28% 719/2609 [41:40<2:10:56,  4.16s/it][A
Training...:  28% 720/2609 [41:44<2:06:38,  4.02s/it][A
Training...:  28% 721/2609 [41:47<2:03:06,  3.91s/it][A
Training...:  28% 722/2609 [41:51<1:59:07,  3.79s/it][A
Training...:  28% 723/2609 [41:54<1:55:40,  3.68s/it][A
Training...:  28% 724/2609 [41:58<1:52:21,  3.58s/it][A
Training...:  28% 725/2609 [42:01<1:49:21,  3.48s/it][A
Training...:  28% 726/2609 [42:04<1:45:58,  3.38s/it][A
Training...:  28% 727/2609 [42:07<1:43:18,  3.29s/it][A
Training...:  28% 728/2609 [42:10<1:40:02,  3.19s/it][A
Training...:  28% 729/2609 [42:13<1:37:03,  3.10s/it][A
Training...:  28% 730/2609 [42:16<1:34:11,  3.01s/it][A
Training...:  28% 731/2609 [42:18<1:31:29,  2.92s/it][A
Training...:  28% 732/2609 [42:21<1:28:38,  2.83s/it][A
Training...:  28% 733/2609 [42:24<1:26:31,  2.77s/it][A
Training...:  28% 734/2609 [42:26<1:23:29,  2.67s/it][A
Training...:  28% 735/2609 [42:29<1:21:14,  2.60s/it][A
Training...:  28% 736/2609 [42:31<1:19:06,  2.53s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:43:29<33:07:15, 9171.96s/it]
Training...:  28% 736/2609 [42:34<1:19:06,  2.53s/it][A
Training...:  28% 737/2609 [42:34<1:20:43,  2.59s/it][A
Training...:  28% 738/2609 [42:36<1:16:42,  2.46s/it][A
Training...:  28% 739/2609 [42:38<1:13:01,  2.34s/it][A
Training...:  28% 740/2609 [42:40<1:09:20,  2.23s/it][A
Training...:  28% 741/2609 [42:42<1:05:43,  2.11s/it][A
Training...:  28% 742/2609 [42:43<1:01:59,  1.99s/it][A
Training...:  28% 743/2609 [42:45<58:42,  1.89s/it]  [A
Training...:  29% 744/2609 [42:47<55:08,  1.77s/it][A
Training...:  29% 745/2609 [42:48<51:27,  1.66s/it][A
Training...:  29% 746/2609 [42:49<47:22,  1.53s/it][A
Training...:  29% 747/2609 [42:50<43:26,  1.40s/it][A
Training...:  29% 748/2609 [42:51<38:46,  1.25s/it][A
Training...:  29% 749/2609 [42:52<34:06,  1.10s/it][A
Training...:  29% 750/2609 [42:52<28:45,  1.08it/s][A
Training...:  29% 751/2609 [43:00<1:26:12,  2.78s/it][A
Training...:  29% 752/2609 [43:07<2:06:55,  4.10s/it][A
Training...:  29% 753/2609 [43:13<2:30:13,  4.86s/it][A
Training...:  29% 754/2609 [43:20<2:43:50,  5.30s/it][A
Training...:  29% 755/2609 [43:26<2:50:43,  5.52s/it][A
Training...:  29% 756/2609 [43:31<2:52:00,  5.57s/it][A
Training...:  29% 757/2609 [43:37<2:52:06,  5.58s/it][A
Training...:  29% 758/2609 [43:42<2:49:27,  5.49s/it][A
Training...:  29% 759/2609 [43:48<2:46:32,  5.40s/it][A
Training...:  29% 760/2609 [43:53<2:42:39,  5.28s/it][A
Training...:  29% 761/2609 [43:57<2:39:34,  5.18s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:44:58<33:07:15, 9171.96s/it]
Training...:  29% 761/2609 [44:03<2:39:34,  5.18s/it][A
Training...:  29% 762/2609 [44:03<2:41:04,  5.23s/it][A
Training...:  29% 763/2609 [44:07<2:34:50,  5.03s/it][A
Training...:  29% 764/2609 [44:12<2:29:06,  4.85s/it][A
Training...:  29% 765/2609 [44:16<2:24:28,  4.70s/it][A
Training...:  29% 766/2609 [44:20<2:19:50,  4.55s/it][A
Training...:  29% 767/2609 [44:24<2:15:28,  4.41s/it][A
Training...:  29% 768/2609 [44:28<2:10:48,  4.26s/it][A
Training...:  29% 769/2609 [44:32<2:07:03,  4.14s/it][A
Training...:  30% 770/2609 [44:36<2:02:46,  4.01s/it][A
Training...:  30% 771/2609 [44:40<1:59:21,  3.90s/it][A
Training...:  30% 772/2609 [44:43<1:55:50,  3.78s/it][A
Training...:  30% 773/2609 [44:47<1:52:56,  3.69s/it][A
Training...:  30% 774/2609 [44:50<1:49:08,  3.57s/it][A
Training...:  30% 775/2609 [44:53<1:45:40,  3.46s/it][A
Training...:  30% 776/2609 [44:56<1:42:39,  3.36s/it][A
Training...:  30% 777/2609 [44:59<1:39:43,  3.27s/it][A
Training...:  30% 778/2609 [45:02<1:36:30,  3.16s/it][A
Training...:  30% 779/2609 [45:05<1:33:40,  3.07s/it][A
Training...:  30% 780/2609 [45:08<1:30:59,  2.98s/it][A
Training...:  30% 781/2609 [45:10<1:28:26,  2.90s/it][A
Training...:  30% 782/2609 [45:13<1:26:03,  2.83s/it][A
Training...:  30% 783/2609 [45:16<1:23:36,  2.75s/it][A
Training...:  30% 784/2609 [45:18<1:20:59,  2.66s/it][A
Training...:  30% 785/2609 [45:21<1:18:30,  2.58s/it][A
Training...:  30% 786/2609 [45:23<1:15:57,  2.50s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:46:20<33:07:15, 9171.96s/it]
Training...:  30% 786/2609 [45:26<1:15:57,  2.50s/it][A
Training...:  30% 787/2609 [45:26<1:17:15,  2.54s/it][A
Training...:  30% 788/2609 [45:28<1:13:30,  2.42s/it][A
Training...:  30% 789/2609 [45:30<1:10:22,  2.32s/it][A
Training...:  30% 790/2609 [45:32<1:06:46,  2.20s/it][A
Training...:  30% 791/2609 [45:33<1:03:18,  2.09s/it][A
Training...:  30% 792/2609 [45:35<1:00:41,  2.00s/it][A
Training...:  30% 793/2609 [45:37<57:12,  1.89s/it]  [A
Training...:  30% 794/2609 [45:38<54:10,  1.79s/it][A
Training...:  30% 795/2609 [45:40<50:58,  1.69s/it][A
Training...:  31% 796/2609 [45:41<47:26,  1.57s/it][A
Training...:  31% 797/2609 [45:42<43:25,  1.44s/it][A
Training...:  31% 798/2609 [45:43<39:23,  1.31s/it][A
Training...:  31% 799/2609 [45:44<34:41,  1.15s/it][A
Training...:  31% 800/2609 [45:45<29:14,  1.03it/s][A
Training...:  31% 801/2609 [45:52<1:25:55,  2.85s/it][A
Training...:  31% 802/2609 [45:59<2:04:21,  4.13s/it][A
Training...:  31% 803/2609 [46:06<2:26:51,  4.88s/it][A
Training...:  31% 804/2609 [46:12<2:39:07,  5.29s/it][A
Training...:  31% 805/2609 [46:18<2:44:18,  5.46s/it][A
Training...:  31% 806/2609 [46:23<2:45:34,  5.51s/it][A
Training...:  31% 807/2609 [46:29<2:45:32,  5.51s/it][A
Training...:  31% 808/2609 [46:34<2:43:06,  5.43s/it][A
Training...:  31% 809/2609 [46:39<2:39:21,  5.31s/it][A
Training...:  31% 810/2609 [46:44<2:35:22,  5.18s/it][A
Training...:  31% 811/2609 [46:49<2:31:54,  5.07s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:47:49<33:07:15, 9171.96s/it]
Training...:  31% 811/2609 [46:54<2:31:54,  5.07s/it][A
Training...:  31% 812/2609 [46:54<2:33:54,  5.14s/it][A
Training...:  31% 813/2609 [46:59<2:27:58,  4.94s/it][A
Training...:  31% 814/2609 [47:03<2:21:40,  4.74s/it][A
Training...:  31% 815/2609 [47:07<2:16:54,  4.58s/it][A
Training...:  31% 816/2609 [47:11<2:12:16,  4.43s/it][A
Training...:  31% 817/2609 [47:15<2:08:13,  4.29s/it][A
Training...:  31% 818/2609 [47:19<2:04:33,  4.17s/it][A
Training...:  31% 819/2609 [47:23<2:01:04,  4.06s/it][A
Training...:  31% 820/2609 [47:26<1:57:07,  3.93s/it][A
Training...:  31% 821/2609 [47:30<1:54:22,  3.84s/it][A
Training...:  32% 822/2609 [47:34<1:51:16,  3.74s/it][A
Training...:  32% 823/2609 [47:37<1:48:12,  3.64s/it][A
Training...:  32% 824/2609 [47:40<1:45:13,  3.54s/it][A
Training...:  32% 825/2609 [47:44<1:42:28,  3.45s/it][A
Training...:  32% 826/2609 [47:47<1:39:41,  3.35s/it][A
Training...:  32% 827/2609 [47:50<1:37:24,  3.28s/it][A
Training...:  32% 828/2609 [47:53<1:35:01,  3.20s/it][A
Training...:  32% 829/2609 [47:56<1:33:09,  3.14s/it][A
Training...:  32% 830/2609 [47:59<1:30:23,  3.05s/it][A
Training...:  32% 831/2609 [48:01<1:27:37,  2.96s/it][A
Training...:  32% 832/2609 [48:04<1:24:36,  2.86s/it][A
Training...:  32% 833/2609 [48:07<1:21:52,  2.77s/it][A
Training...:  32% 834/2609 [48:09<1:19:07,  2.67s/it][A
Training...:  32% 835/2609 [48:11<1:16:34,  2.59s/it][A
Training...:  32% 836/2609 [48:14<1:13:59,  2.50s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:49:11<33:07:15, 9171.96s/it]
Training...:  32% 836/2609 [48:16<1:13:59,  2.50s/it][A
Training...:  32% 837/2609 [48:16<1:15:04,  2.54s/it][A
Training...:  32% 838/2609 [48:19<1:11:33,  2.42s/it][A
Training...:  32% 839/2609 [48:21<1:07:58,  2.30s/it][A
Training...:  32% 840/2609 [48:22<1:04:29,  2.19s/it][A
Training...:  32% 841/2609 [48:24<1:01:13,  2.08s/it][A
Training...:  32% 842/2609 [48:26<58:01,  1.97s/it]  [A
Training...:  32% 843/2609 [48:28<54:56,  1.87s/it][A
Training...:  32% 844/2609 [48:29<52:01,  1.77s/it][A
Training...:  32% 845/2609 [48:31<48:47,  1.66s/it][A
Training...:  32% 846/2609 [48:32<45:05,  1.53s/it][A
Training...:  32% 847/2609 [48:33<41:21,  1.41s/it][A
Training...:  33% 848/2609 [48:34<37:13,  1.27s/it][A
Training...:  33% 849/2609 [48:35<32:58,  1.12s/it][A
Training...:  33% 850/2609 [48:35<27:46,  1.06it/s][A
Training...:  33% 851/2609 [48:42<1:23:20,  2.84s/it][A
Training...:  33% 852/2609 [48:50<2:01:13,  4.14s/it][A
Training...:  33% 853/2609 [48:56<2:23:03,  4.89s/it][A
Training...:  33% 854/2609 [49:03<2:35:17,  5.31s/it][A
Training...:  33% 855/2609 [49:09<2:41:15,  5.52s/it][A
Training...:  33% 856/2609 [49:14<2:43:15,  5.59s/it][A
Training...:  33% 857/2609 [49:20<2:42:28,  5.56s/it][A
Training...:  33% 858/2609 [49:25<2:39:07,  5.45s/it][A
Training...:  33% 859/2609 [49:30<2:35:51,  5.34s/it][A
Training...:  33% 860/2609 [49:35<2:31:58,  5.21s/it][A
Training...:  33% 861/2609 [49:40<2:28:07,  5.08s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:50:40<33:07:15, 9171.96s/it]
Training...:  33% 861/2609 [49:45<2:28:07,  5.08s/it][A
Training...:  33% 862/2609 [49:45<2:29:50,  5.15s/it][A
Training...:  33% 863/2609 [49:50<2:24:01,  4.95s/it][A
Training...:  33% 864/2609 [49:54<2:18:49,  4.77s/it][A
Training...:  33% 865/2609 [49:58<2:14:22,  4.62s/it][A
Training...:  33% 866/2609 [50:02<2:09:32,  4.46s/it][A
Training...:  33% 867/2609 [50:06<2:05:43,  4.33s/it][A
Training...:  33% 868/2609 [50:10<2:01:15,  4.18s/it][A
Training...:  33% 869/2609 [50:14<1:57:39,  4.06s/it][A
Training...:  33% 870/2609 [50:17<1:53:29,  3.92s/it][A
Training...:  33% 871/2609 [50:21<1:50:21,  3.81s/it][A
Training...:  33% 872/2609 [50:25<1:47:36,  3.72s/it][A
Training...:  33% 873/2609 [50:28<1:44:25,  3.61s/it][A
Training...:  33% 874/2609 [50:31<1:41:46,  3.52s/it][A
Training...:  34% 875/2609 [50:34<1:38:55,  3.42s/it][A
Training...:  34% 876/2609 [50:38<1:36:14,  3.33s/it][A
Training...:  34% 877/2609 [50:41<1:33:14,  3.23s/it][A
Training...:  34% 878/2609 [50:43<1:29:57,  3.12s/it][A
Training...:  34% 879/2609 [50:46<1:27:00,  3.02s/it][A
Training...:  34% 880/2609 [50:49<1:23:58,  2.91s/it][A
Training...:  34% 881/2609 [50:51<1:21:20,  2.82s/it][A
Training...:  34% 882/2609 [50:54<1:18:48,  2.74s/it][A
Training...:  34% 883/2609 [50:56<1:16:13,  2.65s/it][A
Training...:  34% 884/2609 [50:59<1:13:51,  2.57s/it][A
Training...:  34% 885/2609 [51:01<1:11:35,  2.49s/it][A
Training...:  34% 886/2609 [51:03<1:09:05,  2.41s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:52:01<33:07:15, 9171.96s/it]
Training...:  34% 886/2609 [51:06<1:09:05,  2.41s/it][A
Training...:  34% 887/2609 [51:06<1:10:18,  2.45s/it][A
Training...:  34% 888/2609 [51:08<1:06:39,  2.32s/it][A
Training...:  34% 889/2609 [51:10<1:03:38,  2.22s/it][A
Training...:  34% 890/2609 [51:12<1:00:29,  2.11s/it][A
Training...:  34% 891/2609 [51:14<57:24,  2.01s/it]  [A
Training...:  34% 892/2609 [51:15<54:07,  1.89s/it][A
Training...:  34% 893/2609 [51:17<50:58,  1.78s/it][A
Training...:  34% 894/2609 [51:18<47:48,  1.67s/it][A
Training...:  34% 895/2609 [51:19<44:30,  1.56s/it][A
Training...:  34% 896/2609 [51:21<41:07,  1.44s/it][A
Training...:  34% 897/2609 [51:22<37:52,  1.33s/it][A
Training...:  34% 898/2609 [51:23<34:18,  1.20s/it][A
Training...:  34% 899/2609 [51:23<30:31,  1.07s/it][A
Training...:  34% 900/2609 [51:24<25:52,  1.10it/s][A
Training...:  35% 901/2609 [51:31<1:19:19,  2.79s/it][A
Training...:  35% 902/2609 [51:38<1:55:49,  4.07s/it][A
Training...:  35% 903/2609 [51:45<2:16:19,  4.79s/it][A
Training...:  35% 904/2609 [51:51<2:28:04,  5.21s/it][A
Training...:  35% 905/2609 [51:57<2:34:07,  5.43s/it][A
Training...:  35% 906/2609 [52:02<2:36:26,  5.51s/it][A
Training...:  35% 907/2609 [52:08<2:36:26,  5.52s/it][A
Training...:  35% 908/2609 [52:13<2:34:22,  5.45s/it][A
Training...:  35% 909/2609 [52:18<2:31:55,  5.36s/it][A
Training...:  35% 910/2609 [52:23<2:28:18,  5.24s/it][A
Training...:  35% 911/2609 [52:28<2:24:55,  5.12s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:53:28<33:07:15, 9171.96s/it]
Training...:  35% 911/2609 [52:34<2:24:55,  5.12s/it][A
Training...:  35% 912/2609 [52:34<2:27:10,  5.20s/it][A
Training...:  35% 913/2609 [52:38<2:21:51,  5.02s/it][A
Training...:  35% 914/2609 [52:43<2:17:08,  4.85s/it][A
Training...:  35% 915/2609 [52:47<2:13:42,  4.74s/it][A
Training...:  35% 916/2609 [52:51<2:09:02,  4.57s/it][A
Training...:  35% 917/2609 [52:55<2:04:30,  4.42s/it][A
Training...:  35% 918/2609 [52:59<2:00:18,  4.27s/it][A
Training...:  35% 919/2609 [53:03<1:56:56,  4.15s/it][A
Training...:  35% 920/2609 [53:07<1:53:37,  4.04s/it][A
Training...:  35% 921/2609 [53:10<1:50:19,  3.92s/it][A
Training...:  35% 922/2609 [53:14<1:46:57,  3.80s/it][A
Training...:  35% 923/2609 [53:18<1:44:18,  3.71s/it][A
Training...:  35% 924/2609 [53:21<1:41:16,  3.61s/it][A
Training...:  35% 925/2609 [53:24<1:38:41,  3.52s/it][A
Training...:  35% 926/2609 [53:27<1:35:25,  3.40s/it][A
Training...:  36% 927/2609 [53:30<1:32:35,  3.30s/it][A
Training...:  36% 928/2609 [53:33<1:29:44,  3.20s/it][A
Training...:  36% 929/2609 [53:36<1:27:10,  3.11s/it][A
Training...:  36% 930/2609 [53:39<1:24:33,  3.02s/it][A
Training...:  36% 931/2609 [53:42<1:22:00,  2.93s/it][A
Training...:  36% 932/2609 [53:44<1:19:10,  2.83s/it][A
Training...:  36% 933/2609 [53:47<1:16:33,  2.74s/it][A
Training...:  36% 934/2609 [53:49<1:13:49,  2.64s/it][A
Training...:  36% 935/2609 [53:52<1:11:15,  2.55s/it][A
Training...:  36% 936/2609 [53:54<1:08:45,  2.47s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:54:51<33:07:15, 9171.96s/it]
Training...:  36% 936/2609 [53:57<1:08:45,  2.47s/it][A
Training...:  36% 937/2609 [53:57<1:09:41,  2.50s/it][A
Training...:  36% 938/2609 [53:59<1:06:04,  2.37s/it][A
Training...:  36% 939/2609 [54:01<1:03:07,  2.27s/it][A
Training...:  36% 940/2609 [54:03<1:00:12,  2.16s/it][A
Training...:  36% 941/2609 [54:04<58:10,  2.09s/it]  [A
Training...:  36% 942/2609 [54:06<55:19,  1.99s/it][A
Training...:  36% 943/2609 [54:08<52:50,  1.90s/it][A
Training...:  36% 944/2609 [54:09<49:40,  1.79s/it][A
Training...:  36% 945/2609 [54:11<46:32,  1.68s/it][A
Training...:  36% 946/2609 [54:12<43:25,  1.57s/it][A
Training...:  36% 947/2609 [54:13<40:01,  1.44s/it][A
Training...:  36% 948/2609 [54:14<36:33,  1.32s/it][A
Training...:  36% 949/2609 [54:15<32:31,  1.18s/it][A
Training...:  36% 950/2609 [54:16<27:34,  1.00it/s][A
Training...:  36% 951/2609 [54:23<1:18:01,  2.82s/it][A
Training...:  36% 952/2609 [54:30<1:52:34,  4.08s/it][A
Training...:  37% 953/2609 [54:37<2:15:31,  4.91s/it][A
Training...:  37% 954/2609 [54:43<2:26:40,  5.32s/it][A
Training...:  37% 955/2609 [54:49<2:31:10,  5.48s/it][A
Training...:  37% 956/2609 [54:54<2:32:04,  5.52s/it][A
Training...:  37% 957/2609 [55:00<2:31:34,  5.51s/it][A
Training...:  37% 958/2609 [55:05<2:29:00,  5.42s/it][A
Training...:  37% 959/2609 [55:10<2:26:23,  5.32s/it][A
Training...:  37% 960/2609 [55:15<2:22:32,  5.19s/it][A
Training...:  37% 961/2609 [55:20<2:18:57,  5.06s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:56:20<33:07:15, 9171.96s/it]
Training...:  37% 961/2609 [55:25<2:18:57,  5.06s/it][A
Training...:  37% 962/2609 [55:25<2:20:56,  5.13s/it][A
Training...:  37% 963/2609 [55:30<2:15:13,  4.93s/it][A
Training...:  37% 964/2609 [55:34<2:09:58,  4.74s/it][A
Training...:  37% 965/2609 [55:38<2:05:30,  4.58s/it][A
Training...:  37% 966/2609 [55:42<2:01:22,  4.43s/it][A
Training...:  37% 967/2609 [55:46<1:57:40,  4.30s/it][A
Training...:  37% 968/2609 [55:50<1:53:32,  4.15s/it][A
Training...:  37% 969/2609 [55:54<1:50:24,  4.04s/it][A
Training...:  37% 970/2609 [55:58<1:47:31,  3.94s/it][A
Training...:  37% 971/2609 [56:01<1:44:58,  3.84s/it][A
Training...:  37% 972/2609 [56:05<1:42:27,  3.76s/it][A
Training...:  37% 973/2609 [56:08<1:39:41,  3.66s/it][A
Training...:  37% 974/2609 [56:11<1:37:08,  3.56s/it][A
Training...:  37% 975/2609 [56:15<1:34:21,  3.46s/it][A
Training...:  37% 976/2609 [56:18<1:31:30,  3.36s/it][A
Training...:  37% 977/2609 [56:21<1:28:55,  3.27s/it][A
Training...:  37% 978/2609 [56:24<1:26:20,  3.18s/it][A
Training...:  38% 979/2609 [56:27<1:24:10,  3.10s/it][A
Training...:  38% 980/2609 [56:30<1:21:39,  3.01s/it][A
Training...:  38% 981/2609 [56:32<1:19:34,  2.93s/it][A
Training...:  38% 982/2609 [56:35<1:16:45,  2.83s/it][A
Training...:  38% 983/2609 [56:37<1:14:34,  2.75s/it][A
Training...:  38% 984/2609 [56:40<1:12:39,  2.68s/it][A
Training...:  38% 985/2609 [56:42<1:10:43,  2.61s/it][A
Training...:  38% 986/2609 [56:45<1:08:16,  2.52s/it][A                                                                                                                                                                   
                                                     [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:57:42<33:07:15, 9171.96s/it]
Training...:  38% 986/2609 [56:47<1:08:16,  2.52s/it][A
Training...:  38% 987/2609 [56:47<1:09:00,  2.55s/it][A
Training...:  38% 988/2609 [56:49<1:05:14,  2.42s/it][A
Training...:  38% 989/2609 [56:51<1:02:00,  2.30s/it][A
Training...:  38% 990/2609 [56:53<59:09,  2.19s/it]  [A
Training...:  38% 991/2609 [56:55<56:26,  2.09s/it][A
Training...:  38% 992/2609 [56:57<54:00,  2.00s/it][A
Training...:  38% 993/2609 [56:59<50:54,  1.89s/it][A
Training...:  38% 994/2609 [57:00<47:47,  1.78s/it][A
Training...:  38% 995/2609 [57:02<44:42,  1.66s/it][A
Training...:  38% 996/2609 [57:03<41:37,  1.55s/it][A
Training...:  38% 997/2609 [57:04<38:31,  1.43s/it][A
Training...:  38% 998/2609 [57:05<35:00,  1.30s/it][A
Training...:  38% 999/2609 [57:06<31:05,  1.16s/it][A
Training...:  38% 1000/2609 [57:06<26:17,  1.02it/s][A
Training...:  38% 1001/2609 [57:14<1:15:16,  2.81s/it][A
Training...:  38% 1002/2609 [57:21<1:49:33,  4.09s/it][A
Training...:  38% 1003/2609 [57:27<2:09:34,  4.84s/it][A
Training...:  38% 1004/2609 [57:33<2:20:25,  5.25s/it][A
Training...:  39% 1005/2609 [57:39<2:25:49,  5.45s/it][A
Training...:  39% 1006/2609 [57:45<2:27:40,  5.53s/it][A
Training...:  39% 1007/2609 [57:51<2:27:09,  5.51s/it][A
Training...:  39% 1008/2609 [57:56<2:25:21,  5.45s/it][A
Training...:  39% 1009/2609 [58:01<2:22:36,  5.35s/it][A
Training...:  39% 1010/2609 [58:06<2:18:56,  5.21s/it][A
Training...:  39% 1011/2609 [58:11<2:15:53,  5.10s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [18:59:11<33:07:15, 9171.96s/it]
Training...:  39% 1011/2609 [58:16<2:15:53,  5.10s/it][A
Training...:  39% 1012/2609 [58:16<2:17:45,  5.18s/it][A
Training...:  39% 1013/2609 [58:21<2:13:17,  5.01s/it][A
Training...:  39% 1014/2609 [58:25<2:08:33,  4.84s/it][A
Training...:  39% 1015/2609 [58:29<2:03:57,  4.67s/it][A
Training...:  39% 1016/2609 [58:33<1:59:28,  4.50s/it][A
Training...:  39% 1017/2609 [58:38<1:55:54,  4.37s/it][A
Training...:  39% 1018/2609 [58:41<1:52:00,  4.22s/it][A
Training...:  39% 1019/2609 [58:45<1:49:10,  4.12s/it][A
Training...:  39% 1020/2609 [58:49<1:45:47,  3.99s/it][A
Training...:  39% 1021/2609 [58:53<1:42:39,  3.88s/it][A
Training...:  39% 1022/2609 [58:56<1:40:11,  3.79s/it][A
Training...:  39% 1023/2609 [59:00<1:37:43,  3.70s/it][A
Training...:  39% 1024/2609 [59:03<1:35:46,  3.63s/it][A
Training...:  39% 1025/2609 [59:06<1:32:47,  3.51s/it][A
Training...:  39% 1026/2609 [59:10<1:29:46,  3.40s/it][A
Training...:  39% 1027/2609 [59:13<1:27:25,  3.32s/it][A
Training...:  39% 1028/2609 [59:16<1:24:59,  3.23s/it][A
Training...:  39% 1029/2609 [59:19<1:22:23,  3.13s/it][A
Training...:  39% 1030/2609 [59:21<1:19:44,  3.03s/it][A
Training...:  40% 1031/2609 [59:24<1:17:35,  2.95s/it][A
Training...:  40% 1032/2609 [59:27<1:15:03,  2.86s/it][A
Training...:  40% 1033/2609 [59:29<1:12:29,  2.76s/it][A
Training...:  40% 1034/2609 [59:32<1:10:17,  2.68s/it][A
Training...:  40% 1035/2609 [59:34<1:07:49,  2.59s/it][A
Training...:  40% 1036/2609 [59:36<1:05:24,  2.49s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:00:34<33:07:15, 9171.96s/it]
Training...:  40% 1036/2609 [59:39<1:05:24,  2.49s/it][A
Training...:  40% 1037/2609 [59:39<1:06:47,  2.55s/it][A
Training...:  40% 1038/2609 [59:41<1:03:20,  2.42s/it][A
Training...:  40% 1039/2609 [59:43<1:00:20,  2.31s/it][A
Training...:  40% 1040/2609 [59:45<57:22,  2.19s/it]  [A
Training...:  40% 1041/2609 [59:47<54:39,  2.09s/it][A
Training...:  40% 1042/2609 [59:49<52:30,  2.01s/it][A
Training...:  40% 1043/2609 [59:51<50:24,  1.93s/it][A
Training...:  40% 1044/2609 [59:52<47:52,  1.84s/it][A
Training...:  40% 1045/2609 [59:54<45:07,  1.73s/it][A
Training...:  40% 1046/2609 [59:55<41:58,  1.61s/it][A
Training...:  40% 1047/2609 [59:56<38:48,  1.49s/it][A
Training...:  40% 1048/2609 [59:57<35:08,  1.35s/it][A
Training...:  40% 1049/2609 [59:58<30:52,  1.19s/it][A
Training...:  40% 1050/2609 [59:59<25:45,  1.01it/s][A
Training...:  40% 1051/2609 [1:00:06<1:13:19,  2.82s/it][A
Training...:  40% 1052/2609 [1:00:13<1:46:04,  4.09s/it][A
Training...:  40% 1053/2609 [1:00:19<2:05:21,  4.83s/it][A
Training...:  40% 1054/2609 [1:00:26<2:16:12,  5.26s/it][A
Training...:  40% 1055/2609 [1:00:32<2:21:46,  5.47s/it][A
Training...:  40% 1056/2609 [1:00:37<2:23:04,  5.53s/it][A
Training...:  41% 1057/2609 [1:00:43<2:22:56,  5.53s/it][A
Training...:  41% 1058/2609 [1:00:48<2:20:38,  5.44s/it][A
Training...:  41% 1059/2609 [1:00:53<2:18:04,  5.34s/it][A
Training...:  41% 1060/2609 [1:00:58<2:14:34,  5.21s/it][A
Training...:  41% 1061/2609 [1:01:03<2:11:10,  5.08s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:02:03<33:07:15, 9171.96s/it]
Training...:  41% 1061/2609 [1:01:08<2:11:10,  5.08s/it][A
Training...:  41% 1062/2609 [1:01:08<2:13:18,  5.17s/it][A
Training...:  41% 1063/2609 [1:01:13<2:07:52,  4.96s/it][A
Training...:  41% 1064/2609 [1:01:17<2:02:29,  4.76s/it][A
Training...:  41% 1065/2609 [1:01:21<1:58:48,  4.62s/it][A
Training...:  41% 1066/2609 [1:01:25<1:55:28,  4.49s/it][A
Training...:  41% 1067/2609 [1:01:30<1:52:31,  4.38s/it][A
Training...:  41% 1068/2609 [1:01:33<1:49:13,  4.25s/it][A
Training...:  41% 1069/2609 [1:01:37<1:45:51,  4.12s/it][A
Training...:  41% 1070/2609 [1:01:41<1:42:48,  4.01s/it][A
Training...:  41% 1071/2609 [1:01:45<1:39:50,  3.89s/it][A
Training...:  41% 1072/2609 [1:01:48<1:37:16,  3.80s/it][A
Training...:  41% 1073/2609 [1:01:52<1:34:25,  3.69s/it][A
Training...:  41% 1074/2609 [1:01:55<1:31:42,  3.58s/it][A
Training...:  41% 1075/2609 [1:01:58<1:29:19,  3.49s/it][A
Training...:  41% 1076/2609 [1:02:01<1:26:11,  3.37s/it][A
Training...:  41% 1077/2609 [1:02:04<1:23:42,  3.28s/it][A
Training...:  41% 1078/2609 [1:02:07<1:21:27,  3.19s/it][A
Training...:  41% 1079/2609 [1:02:10<1:19:26,  3.12s/it][A
Training...:  41% 1080/2609 [1:02:13<1:17:52,  3.06s/it][A
Training...:  41% 1081/2609 [1:02:16<1:15:23,  2.96s/it][A
Training...:  41% 1082/2609 [1:02:19<1:12:58,  2.87s/it][A
Training...:  42% 1083/2609 [1:02:21<1:10:27,  2.77s/it][A
Training...:  42% 1084/2609 [1:02:24<1:07:42,  2.66s/it][A
Training...:  42% 1085/2609 [1:02:26<1:05:13,  2.57s/it][A
Training...:  42% 1086/2609 [1:02:28<1:02:43,  2.47s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:03:26<33:07:15, 9171.96s/it]
Training...:  42% 1086/2609 [1:02:31<1:02:43,  2.47s/it][A
Training...:  42% 1087/2609 [1:02:31<1:03:27,  2.50s/it][A
Training...:  42% 1088/2609 [1:02:33<1:00:28,  2.39s/it][A
Training...:  42% 1089/2609 [1:02:35<57:52,  2.28s/it]  [A
Training...:  42% 1090/2609 [1:02:37<54:54,  2.17s/it][A
Training...:  42% 1091/2609 [1:02:39<52:23,  2.07s/it][A
Training...:  42% 1092/2609 [1:02:41<50:26,  2.00s/it][A
Training...:  42% 1093/2609 [1:02:42<48:20,  1.91s/it][A
Training...:  42% 1094/2609 [1:02:44<45:56,  1.82s/it][A
Training...:  42% 1095/2609 [1:02:45<43:04,  1.71s/it][A
Training...:  42% 1096/2609 [1:02:47<40:01,  1.59s/it][A
Training...:  42% 1097/2609 [1:02:48<36:43,  1.46s/it][A
Training...:  42% 1098/2609 [1:02:49<33:16,  1.32s/it][A
Training...:  42% 1099/2609 [1:02:50<29:36,  1.18s/it][A
Training...:  42% 1100/2609 [1:02:50<24:58,  1.01it/s][A
Training...:  42% 1101/2609 [1:02:57<1:11:13,  2.83s/it][A
Training...:  42% 1102/2609 [1:03:04<1:42:42,  4.09s/it][A
Training...:  42% 1103/2609 [1:03:11<2:01:13,  4.83s/it][A
Training...:  42% 1104/2609 [1:03:17<2:11:37,  5.25s/it][A
Training...:  42% 1105/2609 [1:03:23<2:17:26,  5.48s/it][A
Training...:  42% 1106/2609 [1:03:29<2:18:56,  5.55s/it][A
Training...:  42% 1107/2609 [1:03:34<2:18:42,  5.54s/it][A
Training...:  42% 1108/2609 [1:03:40<2:16:06,  5.44s/it][A
Training...:  43% 1109/2609 [1:03:45<2:14:02,  5.36s/it][A
Training...:  43% 1110/2609 [1:03:50<2:09:51,  5.20s/it][A
Training...:  43% 1111/2609 [1:03:54<2:06:23,  5.06s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:04:54<33:07:15, 9171.96s/it]
Training...:  43% 1111/2609 [1:04:00<2:06:23,  5.06s/it][A
Training...:  43% 1112/2609 [1:04:00<2:08:29,  5.15s/it][A
Training...:  43% 1113/2609 [1:04:04<2:04:24,  4.99s/it][A
Training...:  43% 1114/2609 [1:04:09<1:59:51,  4.81s/it][A
Training...:  43% 1115/2609 [1:04:13<1:55:58,  4.66s/it][A
Training...:  43% 1116/2609 [1:04:17<1:51:54,  4.50s/it][A
Training...:  43% 1117/2609 [1:04:21<1:48:47,  4.38s/it][A
Training...:  43% 1118/2609 [1:04:25<1:45:41,  4.25s/it][A
Training...:  43% 1119/2609 [1:04:29<1:42:36,  4.13s/it][A
Training...:  43% 1120/2609 [1:04:33<1:39:59,  4.03s/it][A
Training...:  43% 1121/2609 [1:04:36<1:37:14,  3.92s/it][A
Training...:  43% 1122/2609 [1:04:40<1:34:10,  3.80s/it][A
Training...:  43% 1123/2609 [1:04:43<1:31:37,  3.70s/it][A
Training...:  43% 1124/2609 [1:04:47<1:28:33,  3.58s/it][A
Training...:  43% 1125/2609 [1:04:50<1:26:17,  3.49s/it][A
Training...:  43% 1126/2609 [1:04:53<1:23:35,  3.38s/it][A
Training...:  43% 1127/2609 [1:04:56<1:21:33,  3.30s/it][A
Training...:  43% 1128/2609 [1:04:59<1:19:29,  3.22s/it][A
Training...:  43% 1129/2609 [1:05:02<1:17:29,  3.14s/it][A
Training...:  43% 1130/2609 [1:05:05<1:15:05,  3.05s/it][A
Training...:  43% 1131/2609 [1:05:08<1:12:45,  2.95s/it][A
Training...:  43% 1132/2609 [1:05:10<1:10:15,  2.85s/it][A
Training...:  43% 1133/2609 [1:05:13<1:07:55,  2.76s/it][A
Training...:  43% 1134/2609 [1:05:15<1:05:32,  2.67s/it][A
Training...:  44% 1135/2609 [1:05:18<1:03:14,  2.57s/it][A
Training...:  44% 1136/2609 [1:05:20<1:01:12,  2.49s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:06:18<33:07:15, 9171.96s/it]
Training...:  44% 1136/2609 [1:05:23<1:01:12,  2.49s/it][A
Training...:  44% 1137/2609 [1:05:23<1:02:21,  2.54s/it][A
Training...:  44% 1138/2609 [1:05:25<59:32,  2.43s/it]  [A
Training...:  44% 1139/2609 [1:05:27<57:00,  2.33s/it][A
Training...:  44% 1140/2609 [1:05:29<54:08,  2.21s/it][A
Training...:  44% 1141/2609 [1:05:31<51:29,  2.10s/it][A
Training...:  44% 1142/2609 [1:05:33<49:10,  2.01s/it][A
Training...:  44% 1143/2609 [1:05:34<46:39,  1.91s/it][A
Training...:  44% 1144/2609 [1:05:36<43:48,  1.79s/it][A
Training...:  44% 1145/2609 [1:05:37<41:01,  1.68s/it][A
Training...:  44% 1146/2609 [1:05:38<38:11,  1.57s/it][A
Training...:  44% 1147/2609 [1:05:40<35:33,  1.46s/it][A
Training...:  44% 1148/2609 [1:05:41<32:19,  1.33s/it][A
Training...:  44% 1149/2609 [1:05:42<28:47,  1.18s/it][A
Training...:  44% 1150/2609 [1:05:42<24:32,  1.01s/it][A
Training...:  44% 1151/2609 [1:05:49<1:09:34,  2.86s/it][A
Training...:  44% 1152/2609 [1:05:56<1:40:06,  4.12s/it][A
Training...:  44% 1153/2609 [1:06:03<1:58:04,  4.87s/it][A
Training...:  44% 1154/2609 [1:06:09<2:08:24,  5.30s/it][A
Training...:  44% 1155/2609 [1:06:15<2:13:23,  5.50s/it][A
Training...:  44% 1156/2609 [1:06:21<2:14:59,  5.57s/it][A
Training...:  44% 1157/2609 [1:06:27<2:14:31,  5.56s/it][A
Training...:  44% 1158/2609 [1:06:32<2:12:40,  5.49s/it][A
Training...:  44% 1159/2609 [1:06:37<2:10:05,  5.38s/it][A
Training...:  44% 1160/2609 [1:06:42<2:06:48,  5.25s/it][A
Training...:  44% 1161/2609 [1:06:47<2:04:09,  5.14s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:07:47<33:07:15, 9171.96s/it]
Training...:  44% 1161/2609 [1:06:52<2:04:09,  5.14s/it][A
Training...:  45% 1162/2609 [1:06:52<2:06:24,  5.24s/it][A
Training...:  45% 1163/2609 [1:06:57<2:01:34,  5.04s/it][A
Training...:  45% 1164/2609 [1:07:01<1:57:08,  4.86s/it][A
Training...:  45% 1165/2609 [1:07:06<1:52:48,  4.69s/it][A
Training...:  45% 1166/2609 [1:07:10<1:48:56,  4.53s/it][A
Training...:  45% 1167/2609 [1:07:14<1:45:46,  4.40s/it][A
Training...:  45% 1168/2609 [1:07:18<1:41:55,  4.24s/it][A
Training...:  45% 1169/2609 [1:07:22<1:39:17,  4.14s/it][A
Training...:  45% 1170/2609 [1:07:25<1:36:57,  4.04s/it][A
Training...:  45% 1171/2609 [1:07:29<1:34:15,  3.93s/it][A
Training...:  45% 1172/2609 [1:07:33<1:31:19,  3.81s/it][A
Training...:  45% 1173/2609 [1:07:36<1:28:44,  3.71s/it][A
Training...:  45% 1174/2609 [1:07:39<1:26:04,  3.60s/it][A
Training...:  45% 1175/2609 [1:07:43<1:23:49,  3.51s/it][A
Training...:  45% 1176/2609 [1:07:46<1:21:09,  3.40s/it][A
Training...:  45% 1177/2609 [1:07:49<1:18:43,  3.30s/it][A
Training...:  45% 1178/2609 [1:07:52<1:16:10,  3.19s/it][A
Training...:  45% 1179/2609 [1:07:55<1:14:08,  3.11s/it][A
Training...:  45% 1180/2609 [1:07:58<1:11:39,  3.01s/it][A
Training...:  45% 1181/2609 [1:08:00<1:09:53,  2.94s/it][A
Training...:  45% 1182/2609 [1:08:03<1:07:43,  2.85s/it][A
Training...:  45% 1183/2609 [1:08:06<1:05:45,  2.77s/it][A
Training...:  45% 1184/2609 [1:08:08<1:03:43,  2.68s/it][A
Training...:  45% 1185/2609 [1:08:10<1:01:29,  2.59s/it][A
Training...:  45% 1186/2609 [1:08:13<59:13,  2.50s/it]  [A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:09:10<33:07:15, 9171.96s/it]
Training...:  45% 1186/2609 [1:08:15<59:13,  2.50s/it][A
Training...:  45% 1187/2609 [1:08:15<59:59,  2.53s/it][A
Training...:  46% 1188/2609 [1:08:17<56:49,  2.40s/it][A
Training...:  46% 1189/2609 [1:08:19<54:03,  2.28s/it][A
Training...:  46% 1190/2609 [1:08:21<51:15,  2.17s/it][A
Training...:  46% 1191/2609 [1:08:23<48:52,  2.07s/it][A
Training...:  46% 1192/2609 [1:08:25<46:28,  1.97s/it][A
Training...:  46% 1193/2609 [1:08:27<44:01,  1.87s/it][A
Training...:  46% 1194/2609 [1:08:28<41:20,  1.75s/it][A
Training...:  46% 1195/2609 [1:08:29<38:41,  1.64s/it][A
Training...:  46% 1196/2609 [1:08:31<35:52,  1.52s/it][A
Training...:  46% 1197/2609 [1:08:32<33:23,  1.42s/it][A
Training...:  46% 1198/2609 [1:08:33<30:20,  1.29s/it][A
Training...:  46% 1199/2609 [1:08:34<26:53,  1.14s/it][A
Training...:  46% 1200/2609 [1:08:34<22:37,  1.04it/s][A
Training...:  46% 1201/2609 [1:08:41<1:06:07,  2.82s/it][A
Training...:  46% 1202/2609 [1:08:48<1:35:35,  4.08s/it][A
Training...:  46% 1203/2609 [1:08:55<1:53:26,  4.84s/it][A
Training...:  46% 1204/2609 [1:09:01<2:03:27,  5.27s/it][A
Training...:  46% 1205/2609 [1:09:07<2:08:47,  5.50s/it][A
Training...:  46% 1206/2609 [1:09:13<2:11:17,  5.61s/it][A
Training...:  46% 1207/2609 [1:09:19<2:11:44,  5.64s/it][A
Training...:  46% 1208/2609 [1:09:24<2:09:13,  5.53s/it][A
Training...:  46% 1209/2609 [1:09:29<2:06:26,  5.42s/it][A
Training...:  46% 1210/2609 [1:09:34<2:02:55,  5.27s/it][A
Training...:  46% 1211/2609 [1:09:39<1:59:30,  5.13s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:10:39<33:07:15, 9171.96s/it]
Training...:  46% 1211/2609 [1:09:44<1:59:30,  5.13s/it][A
Training...:  46% 1212/2609 [1:09:44<2:00:35,  5.18s/it][A
Training...:  46% 1213/2609 [1:09:49<1:55:25,  4.96s/it][A
Training...:  47% 1214/2609 [1:09:53<1:50:25,  4.75s/it][A
Training...:  47% 1215/2609 [1:09:57<1:46:46,  4.60s/it][A
Training...:  47% 1216/2609 [1:10:01<1:43:05,  4.44s/it][A
Training...:  47% 1217/2609 [1:10:05<1:40:01,  4.31s/it][A
Training...:  47% 1218/2609 [1:10:09<1:36:34,  4.17s/it][A
Training...:  47% 1219/2609 [1:10:13<1:33:25,  4.03s/it][A
Training...:  47% 1220/2609 [1:10:17<1:30:23,  3.90s/it][A
Training...:  47% 1221/2609 [1:10:20<1:27:23,  3.78s/it][A
Training...:  47% 1222/2609 [1:10:23<1:24:50,  3.67s/it][A
Training...:  47% 1223/2609 [1:10:27<1:22:40,  3.58s/it][A
Training...:  47% 1224/2609 [1:10:30<1:20:10,  3.47s/it][A
Training...:  47% 1225/2609 [1:10:33<1:17:52,  3.38s/it][A
Training...:  47% 1226/2609 [1:10:36<1:15:47,  3.29s/it][A
Training...:  47% 1227/2609 [1:10:39<1:13:42,  3.20s/it][A
Training...:  47% 1228/2609 [1:10:42<1:11:34,  3.11s/it][A
Training...:  47% 1229/2609 [1:10:45<1:09:39,  3.03s/it][A
Training...:  47% 1230/2609 [1:10:48<1:08:01,  2.96s/it][A
Training...:  47% 1231/2609 [1:10:50<1:06:17,  2.89s/it][A
Training...:  47% 1232/2609 [1:10:53<1:04:13,  2.80s/it][A
Training...:  47% 1233/2609 [1:10:56<1:02:36,  2.73s/it][A
Training...:  47% 1234/2609 [1:10:58<1:00:27,  2.64s/it][A
Training...:  47% 1235/2609 [1:11:00<58:52,  2.57s/it]  [A
Training...:  47% 1236/2609 [1:11:03<57:12,  2.50s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:12:00<33:07:15, 9171.96s/it]
Training...:  47% 1236/2609 [1:11:05<57:12,  2.50s/it][A
Training...:  47% 1237/2609 [1:11:05<57:49,  2.53s/it][A
Training...:  47% 1238/2609 [1:11:08<54:50,  2.40s/it][A
Training...:  47% 1239/2609 [1:11:10<52:30,  2.30s/it][A
Training...:  48% 1240/2609 [1:11:12<49:59,  2.19s/it][A
Training...:  48% 1241/2609 [1:11:13<48:08,  2.11s/it][A
Training...:  48% 1242/2609 [1:11:15<45:41,  2.01s/it][A
Training...:  48% 1243/2609 [1:11:17<43:17,  1.90s/it][A
Training...:  48% 1244/2609 [1:11:18<40:47,  1.79s/it][A
Training...:  48% 1245/2609 [1:11:20<38:21,  1.69s/it][A
Training...:  48% 1246/2609 [1:11:21<35:35,  1.57s/it][A
Training...:  48% 1247/2609 [1:11:22<32:47,  1.44s/it][A
Training...:  48% 1248/2609 [1:11:23<29:28,  1.30s/it][A
Training...:  48% 1249/2609 [1:11:24<25:47,  1.14s/it][A
Training...:  48% 1250/2609 [1:11:25<21:41,  1.04it/s][A
Training...:  48% 1251/2609 [1:11:32<1:04:15,  2.84s/it][A
Training...:  48% 1252/2609 [1:11:39<1:32:16,  4.08s/it][A
Training...:  48% 1253/2609 [1:11:45<1:49:06,  4.83s/it][A
Training...:  48% 1254/2609 [1:11:52<1:58:32,  5.25s/it][A
Training...:  48% 1255/2609 [1:11:58<2:04:10,  5.50s/it][A
Training...:  48% 1256/2609 [1:12:03<2:05:51,  5.58s/it][A
Training...:  48% 1257/2609 [1:12:09<2:05:48,  5.58s/it][A
Training...:  48% 1258/2609 [1:12:14<2:04:39,  5.54s/it][A
Training...:  48% 1259/2609 [1:12:20<2:02:17,  5.44s/it][A
Training...:  48% 1260/2609 [1:12:25<1:59:18,  5.31s/it][A
Training...:  48% 1261/2609 [1:12:30<1:56:42,  5.19s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:13:30<33:07:15, 9171.96s/it]
Training...:  48% 1261/2609 [1:12:35<1:56:42,  5.19s/it][A
Training...:  48% 1262/2609 [1:12:35<1:58:37,  5.28s/it][A
Training...:  48% 1263/2609 [1:12:40<1:54:19,  5.10s/it][A
Training...:  48% 1264/2609 [1:12:44<1:49:50,  4.90s/it][A
Training...:  48% 1265/2609 [1:12:49<1:46:54,  4.77s/it][A
Training...:  49% 1266/2609 [1:12:53<1:43:02,  4.60s/it][A
Training...:  49% 1267/2609 [1:12:57<1:40:04,  4.47s/it][A
Training...:  49% 1268/2609 [1:13:01<1:36:32,  4.32s/it][A
Training...:  49% 1269/2609 [1:13:05<1:33:35,  4.19s/it][A
Training...:  49% 1270/2609 [1:13:09<1:30:25,  4.05s/it][A
Training...:  49% 1271/2609 [1:13:12<1:28:14,  3.96s/it][A
Training...:  49% 1272/2609 [1:13:16<1:26:23,  3.88s/it][A
Training...:  49% 1273/2609 [1:13:20<1:24:16,  3.79s/it][A
Training...:  49% 1274/2609 [1:13:23<1:21:12,  3.65s/it][A
Training...:  49% 1275/2609 [1:13:26<1:18:59,  3.55s/it][A
Training...:  49% 1276/2609 [1:13:29<1:16:48,  3.46s/it][A
Training...:  49% 1277/2609 [1:13:33<1:14:41,  3.36s/it][A
Training...:  49% 1278/2609 [1:13:36<1:12:31,  3.27s/it][A
Training...:  49% 1279/2609 [1:13:39<1:10:16,  3.17s/it][A
Training...:  49% 1280/2609 [1:13:41<1:08:12,  3.08s/it][A
Training...:  49% 1281/2609 [1:13:44<1:06:28,  3.00s/it][A
Training...:  49% 1282/2609 [1:13:47<1:04:08,  2.90s/it][A
Training...:  49% 1283/2609 [1:13:50<1:02:12,  2.81s/it][A
Training...:  49% 1284/2609 [1:13:52<1:00:07,  2.72s/it][A
Training...:  49% 1285/2609 [1:13:55<58:00,  2.63s/it]  [A
Training...:  49% 1286/2609 [1:13:57<55:47,  2.53s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:14:54<33:07:15, 9171.96s/it]
Training...:  49% 1286/2609 [1:13:59<55:47,  2.53s/it][A
Training...:  49% 1287/2609 [1:13:59<56:21,  2.56s/it][A
Training...:  49% 1288/2609 [1:14:02<53:26,  2.43s/it][A
Training...:  49% 1289/2609 [1:14:04<50:58,  2.32s/it][A
Training...:  49% 1290/2609 [1:14:06<48:31,  2.21s/it][A
Training...:  49% 1291/2609 [1:14:07<46:27,  2.12s/it][A
Training...:  50% 1292/2609 [1:14:09<44:17,  2.02s/it][A
Training...:  50% 1293/2609 [1:14:11<42:06,  1.92s/it][A
Training...:  50% 1294/2609 [1:14:13<39:50,  1.82s/it][A
Training...:  50% 1295/2609 [1:14:14<37:35,  1.72s/it][A
Training...:  50% 1296/2609 [1:14:15<34:35,  1.58s/it][A
Training...:  50% 1297/2609 [1:14:16<31:32,  1.44s/it][A
Training...:  50% 1298/2609 [1:14:17<28:17,  1.29s/it][A
Training...:  50% 1299/2609 [1:14:18<24:49,  1.14s/it][A
Training...:  50% 1300/2609 [1:14:19<20:57,  1.04it/s][A
Training...:  50% 1301/2609 [1:14:26<1:00:26,  2.77s/it][A
Training...:  50% 1302/2609 [1:14:33<1:28:08,  4.05s/it][A
Training...:  50% 1303/2609 [1:14:39<1:44:42,  4.81s/it][A
Training...:  50% 1304/2609 [1:14:46<1:54:01,  5.24s/it][A
Training...:  50% 1305/2609 [1:14:51<1:58:37,  5.46s/it][A
Training...:  50% 1306/2609 [1:14:57<2:00:23,  5.54s/it][A
Training...:  50% 1307/2609 [1:15:03<1:59:41,  5.52s/it][A
Training...:  50% 1308/2609 [1:15:08<1:58:08,  5.45s/it][A
Training...:  50% 1309/2609 [1:15:13<1:56:03,  5.36s/it][A
Training...:  50% 1310/2609 [1:15:18<1:53:01,  5.22s/it][A
Training...:  50% 1311/2609 [1:15:23<1:50:13,  5.10s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:16:23<33:07:15, 9171.96s/it]
Training...:  50% 1311/2609 [1:15:28<1:50:13,  5.10s/it][A
Training...:  50% 1312/2609 [1:15:28<1:51:51,  5.17s/it][A
Training...:  50% 1313/2609 [1:15:33<1:48:03,  5.00s/it][A
Training...:  50% 1314/2609 [1:15:37<1:43:56,  4.82s/it][A
Training...:  50% 1315/2609 [1:15:41<1:40:33,  4.66s/it][A
Training...:  50% 1316/2609 [1:15:46<1:36:36,  4.48s/it][A
Training...:  50% 1317/2609 [1:15:50<1:33:28,  4.34s/it][A
Training...:  51% 1318/2609 [1:15:53<1:30:41,  4.21s/it][A
Training...:  51% 1319/2609 [1:15:57<1:28:21,  4.11s/it][A
Training...:  51% 1320/2609 [1:16:01<1:25:41,  3.99s/it][A
Training...:  51% 1321/2609 [1:16:05<1:23:52,  3.91s/it][A
Training...:  51% 1322/2609 [1:16:08<1:21:18,  3.79s/it][A
Training...:  51% 1323/2609 [1:16:12<1:19:51,  3.73s/it][A
Training...:  51% 1324/2609 [1:16:15<1:17:50,  3.63s/it][A
Training...:  51% 1325/2609 [1:16:19<1:15:53,  3.55s/it][A
Training...:  51% 1326/2609 [1:16:22<1:13:24,  3.43s/it][A
Training...:  51% 1327/2609 [1:16:25<1:11:11,  3.33s/it][A
Training...:  51% 1328/2609 [1:16:28<1:08:59,  3.23s/it][A
Training...:  51% 1329/2609 [1:16:31<1:07:02,  3.14s/it][A
Training...:  51% 1330/2609 [1:16:34<1:04:54,  3.05s/it][A
Training...:  51% 1331/2609 [1:16:36<1:03:19,  2.97s/it][A
Training...:  51% 1332/2609 [1:16:39<1:01:20,  2.88s/it][A
Training...:  51% 1333/2609 [1:16:42<59:37,  2.80s/it]  [A
Training...:  51% 1334/2609 [1:16:44<57:41,  2.71s/it][A
Training...:  51% 1335/2609 [1:16:47<55:47,  2.63s/it][A
Training...:  51% 1336/2609 [1:16:49<53:29,  2.52s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:17:46<33:07:15, 9171.96s/it]
Training...:  51% 1336/2609 [1:16:52<53:29,  2.52s/it][A
Training...:  51% 1337/2609 [1:16:52<53:58,  2.55s/it][A
Training...:  51% 1338/2609 [1:16:54<51:16,  2.42s/it][A
Training...:  51% 1339/2609 [1:16:56<48:52,  2.31s/it][A
Training...:  51% 1340/2609 [1:16:58<46:23,  2.19s/it][A
Training...:  51% 1341/2609 [1:16:59<44:02,  2.08s/it][A
Training...:  51% 1342/2609 [1:17:01<42:12,  2.00s/it][A
Training...:  51% 1343/2609 [1:17:03<40:18,  1.91s/it][A
Training...:  52% 1344/2609 [1:17:04<37:41,  1.79s/it][A
Training...:  52% 1345/2609 [1:17:06<35:15,  1.67s/it][A
Training...:  52% 1346/2609 [1:17:07<32:36,  1.55s/it][A
Training...:  52% 1347/2609 [1:17:08<29:59,  1.43s/it][A
Training...:  52% 1348/2609 [1:17:09<27:06,  1.29s/it][A
Training...:  52% 1349/2609 [1:17:10<23:59,  1.14s/it][A
Training...:  52% 1350/2609 [1:17:11<20:21,  1.03it/s][A
Training...:  52% 1351/2609 [1:17:18<58:46,  2.80s/it][A
Training...:  52% 1352/2609 [1:17:25<1:25:55,  4.10s/it][A
Training...:  52% 1353/2609 [1:17:31<1:41:19,  4.84s/it][A
Training...:  52% 1354/2609 [1:17:38<1:50:18,  5.27s/it][A
Training...:  52% 1355/2609 [1:17:44<1:53:55,  5.45s/it][A
Training...:  52% 1356/2609 [1:17:49<1:54:44,  5.49s/it][A
Training...:  52% 1357/2609 [1:17:55<1:54:05,  5.47s/it][A
Training...:  52% 1358/2609 [1:18:00<1:52:04,  5.38s/it][A
Training...:  52% 1359/2609 [1:18:05<1:49:57,  5.28s/it][A
Training...:  52% 1360/2609 [1:18:10<1:47:05,  5.14s/it][A
Training...:  52% 1361/2609 [1:18:14<1:44:10,  5.01s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:19:14<33:07:15, 9171.96s/it]
Training...:  52% 1361/2609 [1:18:20<1:44:10,  5.01s/it][A
Training...:  52% 1362/2609 [1:18:20<1:45:57,  5.10s/it][A
Training...:  52% 1363/2609 [1:18:24<1:42:17,  4.93s/it][A
Training...:  52% 1364/2609 [1:18:28<1:38:18,  4.74s/it][A
Training...:  52% 1365/2609 [1:18:33<1:34:49,  4.57s/it][A
Training...:  52% 1366/2609 [1:18:37<1:31:43,  4.43s/it][A
Training...:  52% 1367/2609 [1:18:41<1:28:42,  4.29s/it][A
Training...:  52% 1368/2609 [1:18:44<1:25:48,  4.15s/it][A
Training...:  52% 1369/2609 [1:18:48<1:23:02,  4.02s/it][A
Training...:  53% 1370/2609 [1:18:52<1:20:25,  3.89s/it][A
Training...:  53% 1371/2609 [1:18:55<1:18:16,  3.79s/it][A
Training...:  53% 1372/2609 [1:18:59<1:15:59,  3.69s/it][A
Training...:  53% 1373/2609 [1:19:02<1:13:34,  3.57s/it][A
Training...:  53% 1374/2609 [1:19:05<1:11:12,  3.46s/it][A
Training...:  53% 1375/2609 [1:19:08<1:09:12,  3.36s/it][A
Training...:  53% 1376/2609 [1:19:11<1:07:21,  3.28s/it][A
Training...:  53% 1377/2609 [1:19:14<1:05:40,  3.20s/it][A
Training...:  53% 1378/2609 [1:19:17<1:03:49,  3.11s/it][A
Training...:  53% 1379/2609 [1:19:20<1:02:29,  3.05s/it][A
Training...:  53% 1380/2609 [1:19:23<1:00:34,  2.96s/it][A
Training...:  53% 1381/2609 [1:19:26<58:47,  2.87s/it]  [A
Training...:  53% 1382/2609 [1:19:28<56:58,  2.79s/it][A
Training...:  53% 1383/2609 [1:19:31<55:10,  2.70s/it][A
Training...:  53% 1384/2609 [1:19:33<53:35,  2.63s/it][A
Training...:  53% 1385/2609 [1:19:36<51:55,  2.55s/it][A
Training...:  53% 1386/2609 [1:19:38<50:19,  2.47s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:20:35<33:07:15, 9171.96s/it]
Training...:  53% 1386/2609 [1:19:41<50:19,  2.47s/it][A
Training...:  53% 1387/2609 [1:19:41<51:09,  2.51s/it][A
Training...:  53% 1388/2609 [1:19:43<48:34,  2.39s/it][A
Training...:  53% 1389/2609 [1:19:45<46:10,  2.27s/it][A
Training...:  53% 1390/2609 [1:19:46<43:42,  2.15s/it][A
Training...:  53% 1391/2609 [1:19:48<41:40,  2.05s/it][A
Training...:  53% 1392/2609 [1:19:50<39:47,  1.96s/it][A
Training...:  53% 1393/2609 [1:19:52<37:38,  1.86s/it][A
Training...:  53% 1394/2609 [1:19:53<35:11,  1.74s/it][A
Training...:  53% 1395/2609 [1:19:54<32:53,  1.63s/it][A
Training...:  54% 1396/2609 [1:19:56<30:27,  1.51s/it][A
Training...:  54% 1397/2609 [1:19:57<28:08,  1.39s/it][A
Training...:  54% 1398/2609 [1:19:58<25:33,  1.27s/it][A
Training...:  54% 1399/2609 [1:19:59<22:40,  1.12s/it][A
Training...:  54% 1400/2609 [1:19:59<19:05,  1.06it/s][A
Training...:  54% 1401/2609 [1:20:06<56:01,  2.78s/it][A
Training...:  54% 1402/2609 [1:20:13<1:21:25,  4.05s/it][A
Training...:  54% 1403/2609 [1:20:20<1:35:52,  4.77s/it][A
Training...:  54% 1404/2609 [1:20:26<1:44:00,  5.18s/it][A
Training...:  54% 1405/2609 [1:20:32<1:48:10,  5.39s/it][A
Training...:  54% 1406/2609 [1:20:37<1:49:05,  5.44s/it][A
Training...:  54% 1407/2609 [1:20:43<1:48:59,  5.44s/it][A
Training...:  54% 1408/2609 [1:20:48<1:47:21,  5.36s/it][A
Training...:  54% 1409/2609 [1:20:53<1:45:34,  5.28s/it][A
Training...:  54% 1410/2609 [1:20:58<1:42:48,  5.14s/it][A
Training...:  54% 1411/2609 [1:21:03<1:40:31,  5.04s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:22:03<33:07:15, 9171.96s/it]
Training...:  54% 1411/2609 [1:21:08<1:40:31,  5.04s/it][A
Training...:  54% 1412/2609 [1:21:08<1:42:05,  5.12s/it][A
Training...:  54% 1413/2609 [1:21:12<1:38:11,  4.93s/it][A
Training...:  54% 1414/2609 [1:21:17<1:34:23,  4.74s/it][A
Training...:  54% 1415/2609 [1:21:21<1:31:35,  4.60s/it][A
Training...:  54% 1416/2609 [1:21:25<1:28:27,  4.45s/it][A
Training...:  54% 1417/2609 [1:21:29<1:25:46,  4.32s/it][A
Training...:  54% 1418/2609 [1:21:33<1:23:33,  4.21s/it][A
Training...:  54% 1419/2609 [1:21:37<1:21:16,  4.10s/it][A
Training...:  54% 1420/2609 [1:21:41<1:19:48,  4.03s/it][A
Training...:  54% 1421/2609 [1:21:44<1:17:55,  3.94s/it][A
Training...:  55% 1422/2609 [1:21:48<1:15:21,  3.81s/it][A
Training...:  55% 1423/2609 [1:21:51<1:12:46,  3.68s/it][A
Training...:  55% 1424/2609 [1:21:55<1:10:24,  3.56s/it][A
Training...:  55% 1425/2609 [1:21:58<1:08:07,  3.45s/it][A
Training...:  55% 1426/2609 [1:22:01<1:05:44,  3.33s/it][A
Training...:  55% 1427/2609 [1:22:04<1:03:57,  3.25s/it][A
Training...:  55% 1428/2609 [1:22:07<1:02:06,  3.16s/it][A
Training...:  55% 1429/2609 [1:22:10<1:00:19,  3.07s/it][A
Training...:  55% 1430/2609 [1:22:13<58:42,  2.99s/it]  [A
Training...:  55% 1431/2609 [1:22:15<57:08,  2.91s/it][A
Training...:  55% 1432/2609 [1:22:18<55:21,  2.82s/it][A
Training...:  55% 1433/2609 [1:22:20<53:46,  2.74s/it][A
Training...:  55% 1434/2609 [1:22:23<51:48,  2.65s/it][A
Training...:  55% 1435/2609 [1:22:25<49:57,  2.55s/it][A
Training...:  55% 1436/2609 [1:22:27<48:06,  2.46s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:23:25<33:07:15, 9171.96s/it]
Training...:  55% 1436/2609 [1:22:30<48:06,  2.46s/it][A
Training...:  55% 1437/2609 [1:22:30<48:51,  2.50s/it][A
Training...:  55% 1438/2609 [1:22:32<46:30,  2.38s/it][A
Training...:  55% 1439/2609 [1:22:34<44:32,  2.28s/it][A
Training...:  55% 1440/2609 [1:22:36<42:20,  2.17s/it][A
Training...:  55% 1441/2609 [1:22:38<40:24,  2.08s/it][A
Training...:  55% 1442/2609 [1:22:40<38:36,  1.98s/it][A
Training...:  55% 1443/2609 [1:22:41<36:14,  1.87s/it][A
Training...:  55% 1444/2609 [1:22:43<34:00,  1.75s/it][A
Training...:  55% 1445/2609 [1:22:44<31:59,  1.65s/it][A
Training...:  55% 1446/2609 [1:22:45<29:41,  1.53s/it][A
Training...:  55% 1447/2609 [1:22:47<27:25,  1.42s/it][A
Training...:  56% 1448/2609 [1:22:48<24:55,  1.29s/it][A
Training...:  56% 1449/2609 [1:22:48<22:10,  1.15s/it][A
Training...:  56% 1450/2609 [1:22:49<18:42,  1.03it/s][A
Training...:  56% 1451/2609 [1:22:56<54:38,  2.83s/it][A
Training...:  56% 1452/2609 [1:23:03<1:19:23,  4.12s/it][A
Training...:  56% 1453/2609 [1:23:10<1:33:18,  4.84s/it][A
Training...:  56% 1454/2609 [1:23:16<1:41:38,  5.28s/it][A
Training...:  56% 1455/2609 [1:23:22<1:46:06,  5.52s/it][A
Training...:  56% 1456/2609 [1:23:28<1:47:16,  5.58s/it][A
Training...:  56% 1457/2609 [1:23:33<1:47:16,  5.59s/it][A
Training...:  56% 1458/2609 [1:23:39<1:45:11,  5.48s/it][A
Training...:  56% 1459/2609 [1:23:44<1:43:41,  5.41s/it][A
Training...:  56% 1460/2609 [1:23:49<1:41:32,  5.30s/it][A
Training...:  56% 1461/2609 [1:23:54<1:38:49,  5.16s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:24:54<33:07:15, 9171.96s/it]
Training...:  56% 1461/2609 [1:23:59<1:38:49,  5.16s/it][A
Training...:  56% 1462/2609 [1:23:59<1:40:05,  5.24s/it][A
Training...:  56% 1463/2609 [1:24:04<1:36:34,  5.06s/it][A
Training...:  56% 1464/2609 [1:24:08<1:33:14,  4.89s/it][A
Training...:  56% 1465/2609 [1:24:13<1:30:17,  4.74s/it][A
Training...:  56% 1466/2609 [1:24:17<1:27:51,  4.61s/it][A
Training...:  56% 1467/2609 [1:24:21<1:25:03,  4.47s/it][A
Training...:  56% 1468/2609 [1:24:25<1:22:16,  4.33s/it][A
Training...:  56% 1469/2609 [1:24:29<1:19:31,  4.19s/it][A
Training...:  56% 1470/2609 [1:24:33<1:16:56,  4.05s/it][A
Training...:  56% 1471/2609 [1:24:37<1:14:42,  3.94s/it][A
Training...:  56% 1472/2609 [1:24:40<1:12:15,  3.81s/it][A
Training...:  56% 1473/2609 [1:24:43<1:10:00,  3.70s/it][A
Training...:  56% 1474/2609 [1:24:47<1:08:10,  3.60s/it][A
Training...:  57% 1475/2609 [1:24:50<1:06:03,  3.50s/it][A
Training...:  57% 1476/2609 [1:24:53<1:04:00,  3.39s/it][A
Training...:  57% 1477/2609 [1:24:56<1:02:26,  3.31s/it][A
Training...:  57% 1478/2609 [1:24:59<1:00:25,  3.21s/it][A
Training...:  57% 1479/2609 [1:25:02<58:59,  3.13s/it]  [A
Training...:  57% 1480/2609 [1:25:05<57:01,  3.03s/it][A
Training...:  57% 1481/2609 [1:25:08<55:25,  2.95s/it][A
Training...:  57% 1482/2609 [1:25:10<53:37,  2.85s/it][A
Training...:  57% 1483/2609 [1:25:13<52:00,  2.77s/it][A
Training...:  57% 1484/2609 [1:25:15<50:10,  2.68s/it][A
Training...:  57% 1485/2609 [1:25:18<48:35,  2.59s/it][A
Training...:  57% 1486/2609 [1:25:20<46:54,  2.51s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:26:18<33:07:15, 9171.96s/it]
Training...:  57% 1486/2609 [1:25:23<46:54,  2.51s/it][A
Training...:  57% 1487/2609 [1:25:23<47:41,  2.55s/it][A
Training...:  57% 1488/2609 [1:25:25<45:20,  2.43s/it][A
Training...:  57% 1489/2609 [1:25:27<43:06,  2.31s/it][A
Training...:  57% 1490/2609 [1:25:29<41:03,  2.20s/it][A
Training...:  57% 1491/2609 [1:25:31<39:25,  2.12s/it][A
Training...:  57% 1492/2609 [1:25:33<37:37,  2.02s/it][A
Training...:  57% 1493/2609 [1:25:34<35:55,  1.93s/it][A
Training...:  57% 1494/2609 [1:25:36<33:52,  1.82s/it][A
Training...:  57% 1495/2609 [1:25:37<31:27,  1.69s/it][A
Training...:  57% 1496/2609 [1:25:39<29:09,  1.57s/it][A
Training...:  57% 1497/2609 [1:25:40<26:57,  1.45s/it][A
Training...:  57% 1498/2609 [1:25:41<24:25,  1.32s/it][A
Training...:  57% 1499/2609 [1:25:42<21:43,  1.17s/it][A
Training...:  57% 1500/2609 [1:25:42<18:30,  1.00s/it][A
Training...:  58% 1501/2609 [1:25:49<51:29,  2.79s/it][A
Training...:  58% 1502/2609 [1:25:56<1:14:03,  4.01s/it][A
Training...:  58% 1503/2609 [1:26:03<1:27:40,  4.76s/it][A
Training...:  58% 1504/2609 [1:26:09<1:35:11,  5.17s/it][A
Training...:  58% 1505/2609 [1:26:15<1:38:57,  5.38s/it][A
Training...:  58% 1506/2609 [1:26:20<1:40:00,  5.44s/it][A
Training...:  58% 1507/2609 [1:26:26<1:39:50,  5.44s/it][A
Training...:  58% 1508/2609 [1:26:31<1:38:55,  5.39s/it][A
Training...:  58% 1509/2609 [1:26:36<1:37:26,  5.32s/it][A
Training...:  58% 1510/2609 [1:26:41<1:34:59,  5.19s/it][A
Training...:  58% 1511/2609 [1:26:46<1:32:30,  5.05s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:27:46<33:07:15, 9171.96s/it]
Training...:  58% 1511/2609 [1:26:51<1:32:30,  5.05s/it][A
Training...:  58% 1512/2609 [1:26:51<1:33:46,  5.13s/it][A
Training...:  58% 1513/2609 [1:26:55<1:30:18,  4.94s/it][A
Training...:  58% 1514/2609 [1:27:00<1:26:53,  4.76s/it][A
Training...:  58% 1515/2609 [1:27:04<1:24:08,  4.61s/it][A
Training...:  58% 1516/2609 [1:27:08<1:21:23,  4.47s/it][A
Training...:  58% 1517/2609 [1:27:12<1:18:57,  4.34s/it][A
Training...:  58% 1518/2609 [1:27:16<1:16:14,  4.19s/it][A
Training...:  58% 1519/2609 [1:27:20<1:13:56,  4.07s/it][A
Training...:  58% 1520/2609 [1:27:24<1:11:43,  3.95s/it][A
Training...:  58% 1521/2609 [1:27:27<1:09:35,  3.84s/it][A
Training...:  58% 1522/2609 [1:27:31<1:07:13,  3.71s/it][A
Training...:  58% 1523/2609 [1:27:34<1:05:13,  3.60s/it][A
Training...:  58% 1524/2609 [1:27:37<1:03:15,  3.50s/it][A
Training...:  58% 1525/2609 [1:27:40<1:01:27,  3.40s/it][A
Training...:  58% 1526/2609 [1:27:43<59:32,  3.30s/it]  [A
Training...:  59% 1527/2609 [1:27:46<57:47,  3.20s/it][A
Training...:  59% 1528/2609 [1:27:49<56:06,  3.11s/it][A
Training...:  59% 1529/2609 [1:27:52<54:31,  3.03s/it][A
Training...:  59% 1530/2609 [1:27:55<53:06,  2.95s/it][A
Training...:  59% 1531/2609 [1:27:58<51:47,  2.88s/it][A
Training...:  59% 1532/2609 [1:28:00<50:01,  2.79s/it][A
Training...:  59% 1533/2609 [1:28:03<48:33,  2.71s/it][A
Training...:  59% 1534/2609 [1:28:05<46:59,  2.62s/it][A
Training...:  59% 1535/2609 [1:28:07<45:30,  2.54s/it][A
Training...:  59% 1536/2609 [1:28:10<43:48,  2.45s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:29:07<33:07:15, 9171.96s/it]
Training...:  59% 1536/2609 [1:28:12<43:48,  2.45s/it][A
Training...:  59% 1537/2609 [1:28:12<44:27,  2.49s/it][A
Training...:  59% 1538/2609 [1:28:14<42:14,  2.37s/it][A
Training...:  59% 1539/2609 [1:28:16<40:31,  2.27s/it][A
Training...:  59% 1540/2609 [1:28:18<38:40,  2.17s/it][A
Training...:  59% 1541/2609 [1:28:20<37:17,  2.10s/it][A
Training...:  59% 1542/2609 [1:28:22<35:39,  2.00s/it][A
Training...:  59% 1543/2609 [1:28:24<33:26,  1.88s/it][A
Training...:  59% 1544/2609 [1:28:25<31:14,  1.76s/it][A
Training...:  59% 1545/2609 [1:28:26<29:06,  1.64s/it][A
Training...:  59% 1546/2609 [1:28:28<26:52,  1.52s/it][A
Training...:  59% 1547/2609 [1:28:29<24:38,  1.39s/it][A
Training...:  59% 1548/2609 [1:28:30<22:16,  1.26s/it][A
Training...:  59% 1549/2609 [1:28:31<19:49,  1.12s/it][A
Training...:  59% 1550/2609 [1:28:31<16:44,  1.05it/s][A
Training...:  59% 1551/2609 [1:28:38<50:04,  2.84s/it][A
Training...:  59% 1552/2609 [1:28:46<1:13:11,  4.15s/it][A
Training...:  60% 1553/2609 [1:28:52<1:25:42,  4.87s/it][A
Training...:  60% 1554/2609 [1:28:59<1:33:36,  5.32s/it][A
Training...:  60% 1555/2609 [1:29:04<1:36:52,  5.51s/it][A
Training...:  60% 1556/2609 [1:29:10<1:37:35,  5.56s/it][A
Training...:  60% 1557/2609 [1:29:16<1:37:16,  5.55s/it][A
Training...:  60% 1558/2609 [1:29:21<1:35:53,  5.47s/it][A
Training...:  60% 1559/2609 [1:29:26<1:34:15,  5.39s/it][A
Training...:  60% 1560/2609 [1:29:31<1:31:41,  5.24s/it][A
Training...:  60% 1561/2609 [1:29:36<1:29:17,  5.11s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:30:36<33:07:15, 9171.96s/it]
Training...:  60% 1561/2609 [1:29:41<1:29:17,  5.11s/it][A
Training...:  60% 1562/2609 [1:29:41<1:30:27,  5.18s/it][A
Training...:  60% 1563/2609 [1:29:46<1:27:15,  5.01s/it][A
Training...:  60% 1564/2609 [1:29:50<1:23:43,  4.81s/it][A
Training...:  60% 1565/2609 [1:29:54<1:20:59,  4.65s/it][A
Training...:  60% 1566/2609 [1:29:59<1:18:08,  4.50s/it][A
Training...:  60% 1567/2609 [1:30:03<1:15:50,  4.37s/it][A
Training...:  60% 1568/2609 [1:30:06<1:13:10,  4.22s/it][A
Training...:  60% 1569/2609 [1:30:10<1:11:12,  4.11s/it][A
Training...:  60% 1570/2609 [1:30:14<1:08:44,  3.97s/it][A
Training...:  60% 1571/2609 [1:30:18<1:06:51,  3.86s/it][A
Training...:  60% 1572/2609 [1:30:21<1:05:04,  3.76s/it][A
Training...:  60% 1573/2609 [1:30:25<1:03:25,  3.67s/it][A
Training...:  60% 1574/2609 [1:30:28<1:01:40,  3.58s/it][A
Training...:  60% 1575/2609 [1:30:31<1:00:03,  3.49s/it][A
Training...:  60% 1576/2609 [1:30:34<58:17,  3.39s/it]  [A
Training...:  60% 1577/2609 [1:30:37<56:39,  3.29s/it][A
Training...:  60% 1578/2609 [1:30:40<54:53,  3.19s/it][A
Training...:  61% 1579/2609 [1:30:43<53:29,  3.12s/it][A
Training...:  61% 1580/2609 [1:30:46<51:55,  3.03s/it][A
Training...:  61% 1581/2609 [1:30:49<50:18,  2.94s/it][A
Training...:  61% 1582/2609 [1:30:52<48:47,  2.85s/it][A
Training...:  61% 1583/2609 [1:30:54<47:29,  2.78s/it][A
Training...:  61% 1584/2609 [1:30:57<46:09,  2.70s/it][A
Training...:  61% 1585/2609 [1:30:59<45:01,  2.64s/it][A
Training...:  61% 1586/2609 [1:31:02<43:22,  2.54s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:31:59<33:07:15, 9171.96s/it]
Training...:  61% 1586/2609 [1:31:04<43:22,  2.54s/it][A
Training...:  61% 1587/2609 [1:31:04<43:46,  2.57s/it][A
Training...:  61% 1588/2609 [1:31:06<41:28,  2.44s/it][A
Training...:  61% 1589/2609 [1:31:08<39:19,  2.31s/it][A
Training...:  61% 1590/2609 [1:31:10<37:06,  2.18s/it][A
Training...:  61% 1591/2609 [1:31:12<35:04,  2.07s/it][A
Training...:  61% 1592/2609 [1:31:14<33:26,  1.97s/it][A
Training...:  61% 1593/2609 [1:31:15<31:56,  1.89s/it][A
Training...:  61% 1594/2609 [1:31:17<30:12,  1.79s/it][A
Training...:  61% 1595/2609 [1:31:18<28:32,  1.69s/it][A
Training...:  61% 1596/2609 [1:31:20<26:22,  1.56s/it][A
Training...:  61% 1597/2609 [1:31:21<24:09,  1.43s/it][A
Training...:  61% 1598/2609 [1:31:22<21:45,  1.29s/it][A
Training...:  61% 1599/2609 [1:31:23<19:14,  1.14s/it][A
Training...:  61% 1600/2609 [1:31:23<16:11,  1.04it/s][A
Training...:  61% 1601/2609 [1:31:30<47:21,  2.82s/it][A
Training...:  61% 1602/2609 [1:31:37<1:08:19,  4.07s/it][A
Training...:  61% 1603/2609 [1:31:44<1:20:21,  4.79s/it][A
Training...:  61% 1604/2609 [1:31:50<1:27:39,  5.23s/it][A
Training...:  62% 1605/2609 [1:31:56<1:31:45,  5.48s/it][A
Training...:  62% 1606/2609 [1:32:02<1:32:27,  5.53s/it][A
Training...:  62% 1607/2609 [1:32:07<1:31:47,  5.50s/it][A
Training...:  62% 1608/2609 [1:32:12<1:30:22,  5.42s/it][A
Training...:  62% 1609/2609 [1:32:17<1:28:57,  5.34s/it][A
Training...:  62% 1610/2609 [1:32:22<1:26:55,  5.22s/it][A
Training...:  62% 1611/2609 [1:32:27<1:24:52,  5.10s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:33:27<33:07:15, 9171.96s/it]
Training...:  62% 1611/2609 [1:32:33<1:24:52,  5.10s/it][A
Training...:  62% 1612/2609 [1:32:33<1:25:50,  5.17s/it][A
Training...:  62% 1613/2609 [1:32:37<1:22:33,  4.97s/it][A
Training...:  62% 1614/2609 [1:32:41<1:19:33,  4.80s/it][A
Training...:  62% 1615/2609 [1:32:46<1:16:24,  4.61s/it][A
Training...:  62% 1616/2609 [1:32:50<1:13:47,  4.46s/it][A
Training...:  62% 1617/2609 [1:32:54<1:11:41,  4.34s/it][A
Training...:  62% 1618/2609 [1:32:58<1:09:12,  4.19s/it][A
Training...:  62% 1619/2609 [1:33:02<1:07:24,  4.09s/it][A
Training...:  62% 1620/2609 [1:33:05<1:05:34,  3.98s/it][A
Training...:  62% 1621/2609 [1:33:09<1:03:56,  3.88s/it][A
Training...:  62% 1622/2609 [1:33:12<1:02:04,  3.77s/it][A
Training...:  62% 1623/2609 [1:33:16<1:00:32,  3.68s/it][A
Training...:  62% 1624/2609 [1:33:19<58:45,  3.58s/it]  [A
Training...:  62% 1625/2609 [1:33:23<57:20,  3.50s/it][A
Training...:  62% 1626/2609 [1:33:26<56:07,  3.43s/it][A
Training...:  62% 1627/2609 [1:33:29<54:49,  3.35s/it][A
Training...:  62% 1628/2609 [1:33:32<52:48,  3.23s/it][A
Training...:  62% 1629/2609 [1:33:35<51:17,  3.14s/it][A
Training...:  62% 1630/2609 [1:33:38<49:44,  3.05s/it][A
Training...:  63% 1631/2609 [1:33:40<48:23,  2.97s/it][A
Training...:  63% 1632/2609 [1:33:43<46:42,  2.87s/it][A
Training...:  63% 1633/2609 [1:33:46<45:15,  2.78s/it][A
Training...:  63% 1634/2609 [1:33:48<43:44,  2.69s/it][A
Training...:  63% 1635/2609 [1:33:51<42:29,  2.62s/it][A
Training...:  63% 1636/2609 [1:33:53<40:49,  2.52s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:34:50<33:07:15, 9171.96s/it]
Training...:  63% 1636/2609 [1:33:56<40:49,  2.52s/it][A
Training...:  63% 1637/2609 [1:33:56<41:30,  2.56s/it][A
Training...:  63% 1638/2609 [1:33:58<39:20,  2.43s/it][A
Training...:  63% 1639/2609 [1:34:00<37:30,  2.32s/it][A
Training...:  63% 1640/2609 [1:34:02<35:43,  2.21s/it][A
Training...:  63% 1641/2609 [1:34:04<34:11,  2.12s/it][A
Training...:  63% 1642/2609 [1:34:05<32:32,  2.02s/it][A
Training...:  63% 1643/2609 [1:34:07<31:03,  1.93s/it][A
Training...:  63% 1644/2609 [1:34:09<29:20,  1.82s/it][A
Training...:  63% 1645/2609 [1:34:10<27:19,  1.70s/it][A
Training...:  63% 1646/2609 [1:34:11<25:12,  1.57s/it][A
Training...:  63% 1647/2609 [1:34:13<23:06,  1.44s/it][A
Training...:  63% 1648/2609 [1:34:13<20:46,  1.30s/it][A
Training...:  63% 1649/2609 [1:34:14<18:19,  1.15s/it][A
Training...:  63% 1650/2609 [1:34:15<15:24,  1.04it/s][A
Training...:  63% 1651/2609 [1:34:22<45:01,  2.82s/it][A
Training...:  63% 1652/2609 [1:34:29<1:05:36,  4.11s/it][A
Training...:  63% 1653/2609 [1:34:36<1:17:03,  4.84s/it][A
Training...:  63% 1654/2609 [1:34:42<1:23:36,  5.25s/it][A
Training...:  63% 1655/2609 [1:34:48<1:26:30,  5.44s/it][A
Training...:  63% 1656/2609 [1:34:53<1:27:26,  5.51s/it][A
Training...:  64% 1657/2609 [1:34:59<1:27:10,  5.49s/it][A
Training...:  64% 1658/2609 [1:35:04<1:25:59,  5.43s/it][A
Training...:  64% 1659/2609 [1:35:09<1:24:47,  5.36s/it][A
Training...:  64% 1660/2609 [1:35:14<1:22:31,  5.22s/it][A
Training...:  64% 1661/2609 [1:35:19<1:20:47,  5.11s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:36:19<33:07:15, 9171.96s/it]
Training...:  64% 1661/2609 [1:35:24<1:20:47,  5.11s/it][A
Training...:  64% 1662/2609 [1:35:24<1:21:38,  5.17s/it][A
Training...:  64% 1663/2609 [1:35:29<1:18:27,  4.98s/it][A
Training...:  64% 1664/2609 [1:35:33<1:15:12,  4.78s/it][A
Training...:  64% 1665/2609 [1:35:38<1:12:54,  4.63s/it][A
Training...:  64% 1666/2609 [1:35:42<1:10:24,  4.48s/it][A
Training...:  64% 1667/2609 [1:35:46<1:08:36,  4.37s/it][A
Training...:  64% 1668/2609 [1:35:50<1:06:30,  4.24s/it][A
Training...:  64% 1669/2609 [1:35:54<1:04:40,  4.13s/it][A
Training...:  64% 1670/2609 [1:35:57<1:02:36,  4.00s/it][A
Training...:  64% 1671/2609 [1:36:01<1:00:49,  3.89s/it][A
Training...:  64% 1672/2609 [1:36:04<59:05,  3.78s/it]  [A
Training...:  64% 1673/2609 [1:36:08<57:28,  3.68s/it][A
Training...:  64% 1674/2609 [1:36:11<56:02,  3.60s/it][A
Training...:  64% 1675/2609 [1:36:15<54:55,  3.53s/it][A
Training...:  64% 1676/2609 [1:36:18<53:36,  3.45s/it][A
Training...:  64% 1677/2609 [1:36:21<51:59,  3.35s/it][A
Training...:  64% 1678/2609 [1:36:24<50:25,  3.25s/it][A
Training...:  64% 1679/2609 [1:36:27<49:01,  3.16s/it][A
Training...:  64% 1680/2609 [1:36:30<47:35,  3.07s/it][A
Training...:  64% 1681/2609 [1:36:33<46:23,  3.00s/it][A
Training...:  64% 1682/2609 [1:36:35<44:58,  2.91s/it][A
Training...:  65% 1683/2609 [1:36:38<43:39,  2.83s/it][A
Training...:  65% 1684/2609 [1:36:41<42:11,  2.74s/it][A
Training...:  65% 1685/2609 [1:36:43<40:41,  2.64s/it][A
Training...:  65% 1686/2609 [1:36:45<39:12,  2.55s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:37:43<33:07:15, 9171.96s/it]
Training...:  65% 1686/2609 [1:36:48<39:12,  2.55s/it][A
Training...:  65% 1687/2609 [1:36:48<39:58,  2.60s/it][A
Training...:  65% 1688/2609 [1:36:50<37:57,  2.47s/it][A
Training...:  65% 1689/2609 [1:36:52<36:15,  2.36s/it][A
Training...:  65% 1690/2609 [1:36:54<34:23,  2.24s/it][A
Training...:  65% 1691/2609 [1:36:56<32:39,  2.14s/it][A
Training...:  65% 1692/2609 [1:36:58<31:01,  2.03s/it][A
Training...:  65% 1693/2609 [1:37:00<29:22,  1.92s/it][A
Training...:  65% 1694/2609 [1:37:01<27:37,  1.81s/it][A
Training...:  65% 1695/2609 [1:37:03<25:45,  1.69s/it][A
Training...:  65% 1696/2609 [1:37:04<23:50,  1.57s/it][A
Training...:  65% 1697/2609 [1:37:05<21:56,  1.44s/it][A
Training...:  65% 1698/2609 [1:37:06<19:52,  1.31s/it][A
Training...:  65% 1699/2609 [1:37:07<17:37,  1.16s/it][A
Training...:  65% 1700/2609 [1:37:07<14:51,  1.02it/s][A
Training...:  65% 1701/2609 [1:37:15<42:46,  2.83s/it][A
Training...:  65% 1702/2609 [1:37:21<1:01:27,  4.07s/it][A
Training...:  65% 1703/2609 [1:37:28<1:12:33,  4.81s/it][A
Training...:  65% 1704/2609 [1:37:34<1:18:34,  5.21s/it][A
Training...:  65% 1705/2609 [1:37:40<1:22:01,  5.44s/it][A
Training...:  65% 1706/2609 [1:37:46<1:22:52,  5.51s/it][A
Training...:  65% 1707/2609 [1:37:51<1:23:00,  5.52s/it][A
Training...:  65% 1708/2609 [1:37:57<1:21:26,  5.42s/it][A
Training...:  66% 1709/2609 [1:38:02<1:20:21,  5.36s/it][A
Training...:  66% 1710/2609 [1:38:07<1:18:18,  5.23s/it][A
Training...:  66% 1711/2609 [1:38:12<1:16:38,  5.12s/it][A                                                                                                                                                                   
                                                        [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:39:12<33:07:15, 9171.96s/it]
Training...:  66% 1711/2609 [1:38:17<1:16:38,  5.12s/it][A
Training...:  66% 1712/2609 [1:38:17<1:17:44,  5.20s/it][A
Training...:  66% 1713/2609 [1:38:22<1:14:54,  5.02s/it][A
Training...:  66% 1714/2609 [1:38:26<1:12:08,  4.84s/it][A
Training...:  66% 1715/2609 [1:38:30<1:09:43,  4.68s/it][A
Training...:  66% 1716/2609 [1:38:34<1:07:25,  4.53s/it][A
Training...:  66% 1717/2609 [1:38:38<1:05:09,  4.38s/it][A
Training...:  66% 1718/2609 [1:38:42<1:02:55,  4.24s/it][A
Training...:  66% 1719/2609 [1:38:46<1:00:58,  4.11s/it][A
Training...:  66% 1720/2609 [1:38:50<59:02,  3.99s/it]  [A
Training...:  66% 1721/2609 [1:38:54<57:31,  3.89s/it][A
Training...:  66% 1722/2609 [1:38:57<55:42,  3.77s/it][A
Training...:  66% 1723/2609 [1:39:00<54:12,  3.67s/it][A
Training...:  66% 1724/2609 [1:39:04<52:40,  3.57s/it][A
Training...:  66% 1725/2609 [1:39:07<51:14,  3.48s/it][A
Training...:  66% 1726/2609 [1:39:10<49:48,  3.38s/it][A
Training...:  66% 1727/2609 [1:39:13<48:18,  3.29s/it][A
Training...:  66% 1728/2609 [1:39:16<46:40,  3.18s/it][A
Training...:  66% 1729/2609 [1:39:19<47:04,  3.21s/it][A
Training...:  66% 1730/2609 [1:39:22<45:48,  3.13s/it][A
Training...:  66% 1731/2609 [1:39:25<44:03,  3.01s/it][A
Training...:  66% 1732/2609 [1:39:28<42:19,  2.90s/it][A
Training...:  66% 1733/2609 [1:39:30<40:43,  2.79s/it][A
Training...:  66% 1734/2609 [1:39:33<39:11,  2.69s/it][A
Training...:  67% 1735/2609 [1:39:35<38:16,  2.63s/it][A
Training...:  67% 1736/2609 [1:39:38<36:44,  2.53s/it][A                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:40:35<33:07:15, 9171.96s/it]
Training...:  67% 1736/2609 [1:39:40<36:44,  2.53s/it][A

Evaluating ...:   0% 0/220 [00:00<?, ?it/s][A[AStep... (18275 | Loss: 0.09106902033090591, Learning Rate: 6.409292836906388e-05, Gradient Norm: 0.5579356551170349)
Step... (18300 | Loss: 0.04649599641561508, Learning Rate: 6.404242594726384e-05, Gradient Norm: 0.6212508082389832)
Step... (18325 | Loss: 0.0680995061993599, Learning Rate: 6.399191624950618e-05, Gradient Norm: 0.5002415180206299)
Step... (18350 | Loss: 0.050089623779058456, Learning Rate: 6.394141382770613e-05, Gradient Norm: 0.71451336145401)
Step... (18375 | Loss: 0.09068500250577927, Learning Rate: 6.389091140590608e-05, Gradient Norm: 0.6447124481201172)
Step... (18400 | Loss: 0.05658832564949989, Learning Rate: 6.384040170814842e-05, Gradient Norm: 0.6937550902366638)
Step... (18425 | Loss: 0.06673258543014526, Learning Rate: 6.378989928634837e-05, Gradient Norm: 0.5086930394172668)
Step... (18450 | Loss: 0.060240238904953, Learning Rate: 6.373939686454833e-05, Gradient Norm: 0.596332848072052)
Step... (18475 | Loss: 0.06542734056711197, Learning Rate: 6.368888716679066e-05, Gradient Norm: 0.4809943735599518)
Step... (18500 | Loss: 0.09349855780601501, Learning Rate: 6.363838474499062e-05, Gradient Norm: 0.8945148587226868)
Step... (18525 | Loss: 0.0729914978146553, Learning Rate: 6.358787504723296e-05, Gradient Norm: 0.5209829807281494)
Step... (18550 | Loss: 0.05931754410266876, Learning Rate: 6.353737262543291e-05, Gradient Norm: 0.6327403783798218)
Step... (18575 | Loss: 0.10875857621431351, Learning Rate: 6.348686292767525e-05, Gradient Norm: 0.7783880233764648)
Step... (18600 | Loss: 0.03696485608816147, Learning Rate: 6.34363605058752e-05, Gradient Norm: 0.6425867080688477)
Step... (18625 | Loss: 0.07981129735708237, Learning Rate: 6.338585808407515e-05, Gradient Norm: 0.5946406126022339)
Step... (18650 | Loss: 0.07449641823768616, Learning Rate: 6.333534838631749e-05, Gradient Norm: 0.7288579940795898)
Step... (18675 | Loss: 0.09517557919025421, Learning Rate: 6.328484596451744e-05, Gradient Norm: 0.674114465713501)
Step... (18700 | Loss: 0.038658738136291504, Learning Rate: 6.323433626675978e-05, Gradient Norm: 0.5548874735832214)
Step... (18725 | Loss: 0.066364586353302, Learning Rate: 6.318383384495974e-05, Gradient Norm: 0.5493488907814026)
Step... (18750 | Loss: 0.0582432895898819, Learning Rate: 6.313333142315969e-05, Gradient Norm: 0.6405165195465088)
Step... (18775 | Loss: 0.12365858256816864, Learning Rate: 6.308282172540203e-05, Gradient Norm: 0.6816275715827942)
Step... (18800 | Loss: 0.06367938220500946, Learning Rate: 6.303231930360198e-05, Gradient Norm: 0.6968798041343689)
Step... (18825 | Loss: 0.08653575927019119, Learning Rate: 6.298181688180193e-05, Gradient Norm: 0.6678224802017212)
Step... (18850 | Loss: 0.062329571694135666, Learning Rate: 6.293130718404427e-05, Gradient Norm: 0.7101724147796631)
Step... (18875 | Loss: 0.08697739243507385, Learning Rate: 6.288080476224422e-05, Gradient Norm: 0.6216633915901184)
Step... (18900 | Loss: 0.04684263467788696, Learning Rate: 6.283030234044418e-05, Gradient Norm: 0.6757768988609314)
Step... (18925 | Loss: 0.08144190907478333, Learning Rate: 6.277979264268652e-05, Gradient Norm: 0.5388592481613159)
Step... (18950 | Loss: 0.03033137507736683, Learning Rate: 6.272929022088647e-05, Gradient Norm: 0.48579028248786926)
Step... (18975 | Loss: 0.09690375626087189, Learning Rate: 6.267878779908642e-05, Gradient Norm: 0.5943573117256165)
Step... (19000 | Loss: 0.08651987463235855, Learning Rate: 6.262827810132876e-05, Gradient Norm: 0.7149717807769775)
Step... (19025 | Loss: 0.10709076374769211, Learning Rate: 6.257777567952871e-05, Gradient Norm: 0.638183057308197)
Step... (19050 | Loss: 0.059622954577207565, Learning Rate: 6.252727325772867e-05, Gradient Norm: 0.7411635518074036)
Step... (19075 | Loss: 0.07731378823518753, Learning Rate: 6.2476763559971e-05, Gradient Norm: 0.5857918858528137)
Step... (19100 | Loss: 0.03431382775306702, Learning Rate: 6.242626113817096e-05, Gradient Norm: 0.4591049253940582)
Step... (19125 | Loss: 0.10006216913461685, Learning Rate: 6.237575871637091e-05, Gradient Norm: 0.761159360408783)
Step... (19150 | Loss: 0.043481212109327316, Learning Rate: 6.232524901861325e-05, Gradient Norm: 0.6953299045562744)
Step... (19175 | Loss: 0.09372052550315857, Learning Rate: 6.22747465968132e-05, Gradient Norm: 0.6489033102989197)
Step... (19200 | Loss: 0.03918774053454399, Learning Rate: 6.222424417501315e-05, Gradient Norm: 0.5695458650588989)
Step... (19225 | Loss: 0.08928192406892776, Learning Rate: 6.21737344772555e-05, Gradient Norm: 0.5596765875816345)
Step... (19250 | Loss: 0.052160970866680145, Learning Rate: 6.212323205545545e-05, Gradient Norm: 0.48877641558647156)
Step... (19275 | Loss: 0.08096542209386826, Learning Rate: 6.20727296336554e-05, Gradient Norm: 0.550545334815979)
Step... (19300 | Loss: 0.06225874274969101, Learning Rate: 6.202221993589774e-05, Gradient Norm: 0.6635934114456177)
Step... (19325 | Loss: 0.12130377441644669, Learning Rate: 6.197171751409769e-05, Gradient Norm: 0.7757548689842224)
Step... (19350 | Loss: 0.032880980521440506, Learning Rate: 6.192121509229764e-05, Gradient Norm: 0.4238901138305664)
Step... (19375 | Loss: 0.07476503401994705, Learning Rate: 6.187070539453998e-05, Gradient Norm: 0.5251710414886475)
Step... (19400 | Loss: 0.08619321137666702, Learning Rate: 6.182020297273993e-05, Gradient Norm: 1.0609415769577026)
Step... (19425 | Loss: 0.09744973480701447, Learning Rate: 6.176970055093989e-05, Gradient Norm: 0.7960066795349121)
Step... (19450 | Loss: 0.055437516421079636, Learning Rate: 6.171919085318223e-05, Gradient Norm: 0.7512080073356628)
Step... (19475 | Loss: 0.06490304321050644, Learning Rate: 6.166868843138218e-05, Gradient Norm: 0.5477152466773987)
Step... (19500 | Loss: 0.04812753573060036, Learning Rate: 6.161818600958213e-05, Gradient Norm: 0.6488967537879944)
Step... (19525 | Loss: 0.07922086119651794, Learning Rate: 6.156767631182447e-05, Gradient Norm: 0.5855781435966492)
Step... (19550 | Loss: 0.0579657256603241, Learning Rate: 6.151717389002442e-05, Gradient Norm: 0.8717287182807922)
Step... (19575 | Loss: 0.08542659133672714, Learning Rate: 6.146667146822438e-05, Gradient Norm: 0.8105377554893494)
Step... (19600 | Loss: 0.03228865563869476, Learning Rate: 6.141616177046672e-05, Gradient Norm: 0.4283660650253296)
Step... (19625 | Loss: 0.08242300897836685, Learning Rate: 6.136565934866667e-05, Gradient Norm: 0.6219142079353333)
Step... (19650 | Loss: 0.06246966868638992, Learning Rate: 6.131515692686662e-05, Gradient Norm: 0.9082188606262207)
Step... (19675 | Loss: 0.09964647889137268, Learning Rate: 6.126464722910896e-05, Gradient Norm: 0.6625014543533325)
Step... (19700 | Loss: 0.05967332050204277, Learning Rate: 6.121414480730891e-05, Gradient Norm: 0.6674204468727112)
Step... (19725 | Loss: 0.08212454617023468, Learning Rate: 6.116363510955125e-05, Gradient Norm: 0.7305352091789246)
Step... (19750 | Loss: 0.07360183447599411, Learning Rate: 6.11131326877512e-05, Gradient Norm: 0.8355838656425476)
Step... (19775 | Loss: 0.08676160871982574, Learning Rate: 6.106262298999354e-05, Gradient Norm: 0.7190941572189331)
Step... (19800 | Loss: 0.054165326058864594, Learning Rate: 6.10121242061723e-05, Gradient Norm: 0.5855178236961365)
Step... (19825 | Loss: 0.0814870297908783, Learning Rate: 6.096161450841464e-05, Gradient Norm: 0.9812423586845398)
Step... (19850 | Loss: 0.03881460055708885, Learning Rate: 6.091110481065698e-05, Gradient Norm: 0.4730271100997925)
Step... (19875 | Loss: 0.07380514591932297, Learning Rate: 6.086060966481455e-05, Gradient Norm: 0.5457675457000732)
Step... (19900 | Loss: 0.061569616198539734, Learning Rate: 6.0810099967056885e-05, Gradient Norm: 0.5996072888374329)
Step... (19925 | Loss: 0.06049468740820885, Learning Rate: 6.0759590269299224e-05, Gradient Norm: 0.6219120025634766)
Step... (19950 | Loss: 0.06493262946605682, Learning Rate: 6.070909512345679e-05, Gradient Norm: 0.8093432784080505)
Step... (19975 | Loss: 0.09475437551736832, Learning Rate: 6.065858542569913e-05, Gradient Norm: 0.7449460625648499)
Step... (20000 | Loss: 0.0515134260058403, Learning Rate: 6.060807572794147e-05, Gradient Norm: 0.7394297122955322)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   0% 1/220 [00:04<14:45,  4.04s/it][A[A

Evaluating ...:   1% 2/220 [00:06<12:20,  3.40s/it][A[A

Evaluating ...:   1% 3/220 [00:09<11:11,  3.09s/it][A[A

Evaluating ...:   2% 4/220 [00:12<10:32,  2.93s/it][A[A

Evaluating ...:   2% 5/220 [00:14<09:54,  2.76s/it][A[A

Evaluating ...:   3% 6/220 [00:16<09:02,  2.54s/it][A[A

Evaluating ...:   3% 7/220 [00:19<08:36,  2.42s/it][A[A

Evaluating ...:   4% 8/220 [00:21<08:16,  2.34s/it][A[A

Evaluating ...:   4% 9/220 [00:23<07:57,  2.26s/it][A[A

Evaluating ...:   5% 10/220 [00:25<08:01,  2.29s/it][A[A

Evaluating ...:   5% 11/220 [00:27<07:37,  2.19s/it][A[A

Evaluating ...:   5% 12/220 [00:29<07:21,  2.12s/it][A[A

Evaluating ...:   6% 13/220 [00:31<06:59,  2.03s/it][A[A

Evaluating ...:   6% 14/220 [00:33<06:41,  1.95s/it][A[A

Evaluating ...:   7% 15/220 [00:35<06:33,  1.92s/it][A[A

Evaluating ...:   7% 16/220 [00:37<06:32,  1.92s/it][A[A

Evaluating ...:   8% 17/220 [00:38<06:28,  1.91s/it][A[A

Evaluating ...:   8% 18/220 [00:41<07:03,  2.10s/it][A[A

Evaluating ...:   9% 19/220 [00:43<07:03,  2.11s/it][A[A

Evaluating ...:   9% 20/220 [00:45<06:53,  2.07s/it][A[A

Evaluating ...:  10% 21/220 [00:47<06:40,  2.01s/it][A[A

Evaluating ...:  10% 22/220 [00:49<06:36,  2.00s/it][A[A

Evaluating ...:  10% 23/220 [00:51<06:19,  1.92s/it][A[A

Evaluating ...:  11% 24/220 [00:52<06:09,  1.89s/it][A[A

Evaluating ...:  11% 25/220 [00:55<06:20,  1.95s/it][A[A

Evaluating ...:  12% 26/220 [00:56<06:10,  1.91s/it][A[A

Evaluating ...:  12% 27/220 [00:58<06:00,  1.87s/it][A[A

Evaluating ...:  13% 28/220 [01:00<06:18,  1.97s/it][A[A

Evaluating ...:  13% 29/220 [01:03<06:25,  2.02s/it][A[A

Evaluating ...:  14% 30/220 [01:05<06:40,  2.11s/it][A[A

Evaluating ...:  14% 31/220 [01:07<06:34,  2.09s/it][A[A

Evaluating ...:  15% 32/220 [01:09<06:25,  2.05s/it][A[A

Evaluating ...:  15% 33/220 [01:12<07:00,  2.25s/it][A[A

Evaluating ...:  15% 34/220 [01:14<07:24,  2.39s/it][A[A

Evaluating ...:  16% 35/220 [01:17<07:30,  2.44s/it][A[A

Evaluating ...:  16% 36/220 [01:19<07:27,  2.43s/it][A[A

Evaluating ...:  17% 37/220 [01:21<06:58,  2.29s/it][A[A

Evaluating ...:  17% 38/220 [01:23<06:48,  2.24s/it][A[A

Evaluating ...:  18% 39/220 [01:25<06:23,  2.12s/it][A[A

Evaluating ...:  18% 40/220 [01:27<06:25,  2.14s/it][A[A

Evaluating ...:  19% 41/220 [01:30<06:52,  2.31s/it][A[A

Evaluating ...:  19% 42/220 [01:33<07:17,  2.46s/it][A[A

Evaluating ...:  20% 43/220 [01:35<07:18,  2.48s/it][A[A

Evaluating ...:  20% 44/220 [01:38<07:08,  2.43s/it][A[A

Evaluating ...:  20% 45/220 [01:41<07:37,  2.62s/it][A[A

Evaluating ...:  21% 46/220 [01:44<07:56,  2.74s/it][A[A

Evaluating ...:  21% 47/220 [01:47<08:05,  2.81s/it][A[A

Evaluating ...:  22% 48/220 [01:50<08:10,  2.85s/it][A[A

Evaluating ...:  22% 49/220 [01:53<08:11,  2.88s/it][A[A

Evaluating ...:  23% 50/220 [01:55<08:08,  2.87s/it][A[A

Evaluating ...:  23% 51/220 [01:59<08:39,  3.07s/it][A[A

Evaluating ...:  24% 52/220 [02:02<08:26,  3.02s/it][A[A

Evaluating ...:  24% 53/220 [02:05<08:04,  2.90s/it][A[A

Evaluating ...:  25% 54/220 [02:07<07:57,  2.88s/it][A[A

Evaluating ...:  25% 55/220 [02:10<07:26,  2.71s/it][A[A

Evaluating ...:  25% 56/220 [02:13<07:52,  2.88s/it][A[A

Evaluating ...:  26% 57/220 [02:15<07:16,  2.68s/it][A[A

Evaluating ...:  26% 58/220 [02:17<06:45,  2.50s/it][A[A

Evaluating ...:  27% 59/220 [02:19<06:20,  2.36s/it][A[A

Evaluating ...:  27% 60/220 [02:21<05:50,  2.19s/it][A[A

Evaluating ...:  28% 61/220 [02:23<05:33,  2.10s/it][A[A

Evaluating ...:  28% 62/220 [02:25<05:21,  2.03s/it][A[A

Evaluating ...:  29% 63/220 [02:27<05:07,  1.96s/it][A[A

Evaluating ...:  29% 64/220 [02:28<04:55,  1.89s/it][A[A

Evaluating ...:  30% 65/220 [02:30<04:59,  1.93s/it][A[A

Evaluating ...:  30% 66/220 [02:32<04:56,  1.93s/it][A[A

Evaluating ...:  30% 67/220 [02:35<05:24,  2.12s/it][A[A

Evaluating ...:  31% 68/220 [02:37<05:16,  2.08s/it][A[A

Evaluating ...:  31% 69/220 [02:39<05:15,  2.09s/it][A[A

Evaluating ...:  32% 70/220 [02:41<04:55,  1.97s/it][A[A

Evaluating ...:  32% 71/220 [02:43<05:00,  2.01s/it][A[A

Evaluating ...:  33% 72/220 [02:45<04:56,  2.00s/it][A[A

Evaluating ...:  33% 73/220 [02:46<04:42,  1.92s/it][A[A

Evaluating ...:  34% 74/220 [02:48<04:41,  1.93s/it][A[A

Evaluating ...:  34% 75/220 [02:51<04:45,  1.97s/it][A[A

Evaluating ...:  35% 76/220 [02:52<04:43,  1.97s/it][A[A

Evaluating ...:  35% 77/220 [02:55<04:56,  2.08s/it][A[A

Evaluating ...:  35% 78/220 [02:56<04:38,  1.96s/it][A[A

Evaluating ...:  36% 79/220 [02:59<04:39,  1.99s/it][A[A

Evaluating ...:  36% 80/220 [03:02<05:20,  2.29s/it][A[A

Evaluating ...:  37% 81/220 [03:04<05:18,  2.29s/it][A[A

Evaluating ...:  37% 82/220 [03:06<04:58,  2.16s/it][A[A

Evaluating ...:  38% 83/220 [03:08<04:41,  2.06s/it][A[A

Evaluating ...:  38% 84/220 [03:09<04:36,  2.04s/it][A[A

Evaluating ...:  39% 85/220 [03:11<04:28,  1.99s/it][A[A

Evaluating ...:  39% 86/220 [03:13<04:18,  1.93s/it][A[A

Evaluating ...:  40% 87/220 [03:16<04:40,  2.11s/it][A[A

Evaluating ...:  40% 88/220 [03:18<04:32,  2.07s/it][A[A

Evaluating ...:  40% 89/220 [03:20<04:59,  2.28s/it][A[A

Evaluating ...:  41% 90/220 [03:23<05:19,  2.45s/it][A[A

Evaluating ...:  41% 91/220 [03:25<05:04,  2.36s/it][A[A

Evaluating ...:  42% 92/220 [03:28<04:52,  2.28s/it][A[A

Evaluating ...:  42% 93/220 [03:30<05:09,  2.44s/it][A[A

Evaluating ...:  43% 94/220 [03:32<04:51,  2.31s/it][A[A

Evaluating ...:  43% 95/220 [03:35<05:14,  2.52s/it][A[A

Evaluating ...:  44% 96/220 [03:38<05:22,  2.60s/it][A[A

Evaluating ...:  44% 97/220 [03:41<05:34,  2.72s/it][A[A

Evaluating ...:  45% 98/220 [03:44<05:38,  2.77s/it][A[A

Evaluating ...:  45% 99/220 [03:47<05:41,  2.82s/it][A[A

Evaluating ...:  45% 100/220 [03:50<05:41,  2.85s/it][A[A

Evaluating ...:  46% 101/220 [03:54<06:07,  3.09s/it][A[A

Evaluating ...:  46% 102/220 [03:56<05:45,  2.93s/it][A[A

Evaluating ...:  47% 103/220 [03:59<05:32,  2.84s/it][A[A

Evaluating ...:  47% 104/220 [04:01<05:22,  2.78s/it][A[A

Evaluating ...:  48% 105/220 [04:04<05:14,  2.74s/it][A[A

Evaluating ...:  48% 106/220 [04:06<05:00,  2.64s/it][A[A

Evaluating ...:  49% 107/220 [04:09<04:42,  2.50s/it][A[A

Evaluating ...:  49% 108/220 [04:11<04:27,  2.39s/it][A[A

Evaluating ...:  50% 109/220 [04:13<04:15,  2.30s/it][A[A

Evaluating ...:  50% 110/220 [04:15<04:07,  2.25s/it][A[A

Evaluating ...:  50% 111/220 [04:17<03:58,  2.19s/it][A[A

Evaluating ...:  51% 112/220 [04:19<03:49,  2.12s/it][A[A

Evaluating ...:  51% 113/220 [04:21<03:44,  2.10s/it][A[A

Evaluating ...:  52% 114/220 [04:23<03:35,  2.03s/it][A[A

Evaluating ...:  52% 115/220 [04:25<03:26,  1.96s/it][A[A

Evaluating ...:  53% 116/220 [04:27<03:35,  2.07s/it][A[A

Evaluating ...:  53% 117/220 [04:29<03:33,  2.07s/it][A[A

Evaluating ...:  54% 118/220 [04:31<03:38,  2.14s/it][A[A

Evaluating ...:  54% 119/220 [04:33<03:26,  2.04s/it][A[A

Evaluating ...:  55% 120/220 [04:35<03:29,  2.10s/it][A[A

Evaluating ...:  55% 121/220 [04:37<03:16,  1.99s/it][A[A

Evaluating ...:  55% 122/220 [04:39<03:07,  1.92s/it][A[A

Evaluating ...:  56% 123/220 [04:41<03:01,  1.87s/it][A[A

Evaluating ...:  56% 124/220 [04:43<03:04,  1.92s/it][A[A

Evaluating ...:  57% 125/220 [04:45<03:01,  1.91s/it][A[A

Evaluating ...:  57% 126/220 [04:46<02:51,  1.83s/it][A[A

Evaluating ...:  58% 127/220 [04:48<02:47,  1.80s/it][A[A

Evaluating ...:  58% 128/220 [04:50<02:49,  1.84s/it][A[A

Evaluating ...:  59% 129/220 [04:52<03:02,  2.00s/it][A[A

Evaluating ...:  59% 130/220 [04:54<03:02,  2.03s/it][A[A

Evaluating ...:  60% 131/220 [04:57<03:06,  2.10s/it][A[A

Evaluating ...:  60% 132/220 [04:59<03:13,  2.20s/it][A[A

Evaluating ...:  60% 133/220 [05:01<03:00,  2.07s/it][A[A

Evaluating ...:  61% 134/220 [05:03<03:03,  2.13s/it][A[A

Evaluating ...:  61% 135/220 [05:05<02:51,  2.02s/it][A[A

Evaluating ...:  62% 136/220 [05:08<03:17,  2.35s/it][A[A

Evaluating ...:  62% 137/220 [05:10<03:11,  2.30s/it][A[A

Evaluating ...:  63% 138/220 [05:12<03:02,  2.22s/it][A[A

Evaluating ...:  63% 139/220 [05:14<02:54,  2.15s/it][A[A

Evaluating ...:  64% 140/220 [05:17<03:15,  2.44s/it][A[A

Evaluating ...:  64% 141/220 [05:20<03:10,  2.42s/it][A[A

Evaluating ...:  65% 142/220 [05:22<03:14,  2.49s/it][A[A

Evaluating ...:  65% 143/220 [05:25<03:10,  2.48s/it][A[A

Evaluating ...:  65% 144/220 [05:28<03:18,  2.61s/it][A[A

Evaluating ...:  66% 145/220 [05:31<03:24,  2.72s/it][A[A

Evaluating ...:  66% 146/220 [05:33<03:17,  2.67s/it][A[A

Evaluating ...:  67% 147/220 [05:36<03:21,  2.76s/it][A[A

Evaluating ...:  67% 148/220 [05:39<03:22,  2.82s/it][A[A

Evaluating ...:  68% 149/220 [05:42<03:18,  2.80s/it][A[A

Evaluating ...:  68% 150/220 [05:45<03:17,  2.82s/it][A[A

Evaluating ...:  69% 151/220 [05:48<03:30,  3.05s/it][A[A

Evaluating ...:  69% 152/220 [05:51<03:21,  2.96s/it][A[A

Evaluating ...:  70% 153/220 [05:54<03:14,  2.90s/it][A[A

Evaluating ...:  70% 154/220 [05:56<03:05,  2.81s/it][A[A

Evaluating ...:  70% 155/220 [05:59<02:57,  2.73s/it][A[A

Evaluating ...:  71% 156/220 [06:02<02:51,  2.68s/it][A[A

Evaluating ...:  71% 157/220 [06:04<02:41,  2.56s/it][A[A

Evaluating ...:  72% 158/220 [06:06<02:31,  2.44s/it][A[A

Evaluating ...:  72% 159/220 [06:08<02:20,  2.30s/it][A[A

Evaluating ...:  73% 160/220 [06:10<02:13,  2.23s/it][A[A

Evaluating ...:  73% 161/220 [06:12<02:09,  2.20s/it][A[A

Evaluating ...:  74% 162/220 [06:14<02:01,  2.09s/it][A[A

Evaluating ...:  74% 163/220 [06:16<01:56,  2.05s/it][A[A

Evaluating ...:  75% 164/220 [06:18<01:50,  1.97s/it][A[A

Evaluating ...:  75% 165/220 [06:21<02:10,  2.37s/it][A[A

Evaluating ...:  75% 166/220 [06:23<02:02,  2.26s/it][A[A

Evaluating ...:  76% 167/220 [06:26<02:07,  2.40s/it][A[A

Evaluating ...:  76% 168/220 [06:28<02:00,  2.32s/it][A[A

Evaluating ...:  77% 169/220 [06:30<01:57,  2.31s/it][A[A

Evaluating ...:  77% 170/220 [06:32<01:53,  2.27s/it][A[A

Evaluating ...:  78% 171/220 [06:34<01:42,  2.09s/it][A[A

Evaluating ...:  78% 172/220 [06:36<01:39,  2.07s/it][A[A

Evaluating ...:  79% 173/220 [06:38<01:36,  2.06s/it][A[A

Evaluating ...:  79% 174/220 [06:40<01:34,  2.05s/it][A[A

Evaluating ...:  80% 175/220 [06:42<01:32,  2.05s/it][A[A

Evaluating ...:  80% 176/220 [06:44<01:29,  2.02s/it][A[A

Evaluating ...:  80% 177/220 [06:46<01:28,  2.06s/it][A[A

Evaluating ...:  81% 178/220 [06:48<01:25,  2.05s/it][A[A

Evaluating ...:  81% 179/220 [06:51<01:25,  2.09s/it][A[A

Evaluating ...:  82% 180/220 [06:52<01:19,  2.00s/it][A[A

Evaluating ...:  82% 181/220 [06:55<01:24,  2.16s/it][A[A

Evaluating ...:  83% 182/220 [06:57<01:20,  2.12s/it][A[A

Evaluating ...:  83% 183/220 [06:59<01:23,  2.26s/it][A[A

Evaluating ...:  84% 184/220 [07:03<01:30,  2.51s/it][A[A

Evaluating ...:  84% 185/220 [07:05<01:24,  2.40s/it][A[A

Evaluating ...:  85% 186/220 [07:07<01:22,  2.42s/it][A[A

Evaluating ...:  85% 187/220 [07:09<01:18,  2.36s/it][A[A

Evaluating ...:  85% 188/220 [07:12<01:19,  2.49s/it][A[A

Evaluating ...:  86% 189/220 [07:14<01:14,  2.42s/it][A[A

Evaluating ...:  86% 190/220 [07:17<01:12,  2.43s/it][A[A

Evaluating ...:  87% 191/220 [07:19<01:08,  2.36s/it][A[A

Evaluating ...:  87% 192/220 [07:22<01:08,  2.43s/it][A[A

Evaluating ...:  88% 193/220 [07:25<01:10,  2.62s/it][A[A

Evaluating ...:  88% 194/220 [07:27<01:04,  2.48s/it][A[A

Evaluating ...:  89% 195/220 [07:30<01:05,  2.64s/it][A[A

Evaluating ...:  89% 196/220 [07:33<01:05,  2.75s/it][A[A

Evaluating ...:  90% 197/220 [07:36<01:04,  2.81s/it][A[A

Evaluating ...:  90% 198/220 [07:39<01:02,  2.84s/it][A[A

Evaluating ...:  90% 199/220 [07:42<01:00,  2.87s/it][A[A

Evaluating ...:  91% 200/220 [07:45<00:57,  2.86s/it][A[A

Evaluating ...:  91% 201/220 [07:48<00:56,  2.99s/it][A[A

Evaluating ...:  92% 202/220 [07:51<00:52,  2.90s/it][A[A

Evaluating ...:  92% 203/220 [07:53<00:46,  2.71s/it][A[A

Evaluating ...:  93% 204/220 [07:55<00:40,  2.56s/it][A[A

Evaluating ...:  93% 205/220 [07:57<00:38,  2.54s/it][A[A

Evaluating ...:  94% 206/220 [07:59<00:32,  2.34s/it][A[A

Evaluating ...:  94% 207/220 [08:01<00:28,  2.17s/it][A[A

Evaluating ...:  95% 208/220 [08:04<00:28,  2.34s/it][A[A

Evaluating ...:  95% 209/220 [08:06<00:25,  2.31s/it][A[A

Evaluating ...:  95% 210/220 [08:08<00:22,  2.23s/it][A[A

Evaluating ...:  96% 211/220 [08:11<00:22,  2.53s/it][A[A

Evaluating ...:  96% 212/220 [08:13<00:19,  2.39s/it][A[A

Evaluating ...:  97% 213/220 [08:16<00:16,  2.32s/it][A[A

Evaluating ...:  97% 214/220 [08:18<00:14,  2.44s/it][A[A

Evaluating ...:  98% 215/220 [08:21<00:12,  2.51s/it][A[A

Evaluating ...:  98% 216/220 [08:24<00:10,  2.58s/it][A[A

Evaluating ...:  99% 217/220 [08:27<00:07,  2.65s/it][A[A

Evaluating ...:  99% 218/220 [08:30<00:05,  2.75s/it][A[A

Evaluating ...: 100% 219/220 [08:32<00:02,  2.76s/it][A[A

Evaluating ...: 100% 220/220 [08:35<00:00,  2.81s/it][A[AEvaluating ...: 100% 220/220 [08:35<00:00,  2.34s/it]
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:51: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  device_metrics = jax.tree_map(lambda x: x[0], device_metrics)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:45: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(stack_args, *forest)
run_flax_speech_recognition_seq2seq.py:1392: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  eval_metrics = jax.tree_map(jnp.mean, eval_metrics)
                                                                                                                                                                   
                                                      [AStep... (10000/50000 | Eval Loss: 0.5328050851821899 | Eval wer: 0.13046429541134943 | Eval cer: 0.08774570499922613 |):  35% 7/20 [19:49:12<33:07:15, 9171.96s/it]
Training...:  67% 1736/2609 [1:48:17<36:44,  2.53s/it][Arun_flax_speech_recognition_seq2seq.py:1425: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  params = jax.device_get(jax.tree_map(lambda x: x[0], state.params))
Configuration saved in /home/sanchitgandhi/train-flax-wav2vec2-2-bart-large-voxpopuli-black-box/flax-wav2vec2-2-bart-large-voxpopuli-black-box/config.json
tcmalloc: large alloc 2586787840 bytes == 0x3d8668000 @  0x7f0edf2a6680 0x7f0edf2c6bdd 0x7f0da608226f 0x7f0da6091290 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da608cd74 0x7f0da608d52e 0x505166 0x56bbfa 0x569dba 0x5f6eb3 0x56cc1f 0x569dba 0x5f6eb3 0x56cc1f 0x5f6cd6 0x56bacd 0x569dba 0x50bca0 0x56cc1f 0x569dba 0x5f6eb3 0x56bacd 0x569dba 0x5f6eb3
tcmalloc: large alloc 2353618944 bytes == 0x47295c000 @  0x7f0edf2a6680 0x7f0edf2c7824 0x5fb391 0x7f0da608ce19 0x7f0da608d52e 0x505166 0x56bbfa 0x569dba 0x5f6eb3 0x56cc1f 0x569dba 0x5f6eb3 0x56cc1f 0x5f6cd6 0x56bacd 0x569dba 0x50bca0 0x56cc1f 0x569dba 0x5f6eb3 0x56bacd 0x569dba 0x5f6eb3 0x56bacd 0x569dba 0x6902a7 0x67f951 0x67f9cf 0x67fa71 0x681b97 0x6b9d32
Model weights saved in /home/sanchitgandhi/train-flax-wav2vec2-2-bart-large-voxpopuli-black-box/flax-wav2vec2-2-bart-large-voxpopuli-black-box/flax_model.msgpack
tokenizer config file saved in ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/tokenizer_config.json
Special tokens file saved in ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/special_tokens_map.json

Training...:  67% 1737/2609 [1:50:22<47:14:33, 195.04s/it][A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:25: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(

Training...:  67% 1738/2609 [1:50:24<33:12:39, 137.27s/it][A
Training...:  67% 1739/2609 [1:50:26<23:22:23, 96.72s/it] [A
Training...:  67% 1740/2609 [1:50:28<16:29:11, 68.30s/it][A
Training...:  67% 1741/2609 [1:50:30<11:39:54, 48.38s/it][A
Training...:  67% 1742/2609 [1:50:32<8:17:11, 34.41s/it] [A
Training...:  67% 1743/2609 [1:50:34<5:55:04, 24.60s/it][A
Training...:  67% 1744/2609 [1:50:35<4:14:58, 17.69s/it][A
Training...:  67% 1745/2609 [1:50:37<3:04:44, 12.83s/it][A
Training...:  67% 1746/2609 [1:50:38<2:14:57,  9.38s/it][A
Training...:  67% 1747/2609 [1:50:39<1:39:31,  6.93s/it][A
Training...:  67% 1748/2609 [1:50:40<1:14:08,  5.17s/it][A
Training...:  67% 1749/2609 [1:50:41<55:39,  3.88s/it]  [A
Training...:  67% 1750/2609 [1:50:42<41:27,  2.90s/it][A
Training...:  67% 1751/2609 [1:50:49<1:01:12,  4.28s/it][A
Training...:  67% 1752/2609 [1:50:57<1:13:59,  5.18s/it][A
Training...:  67% 1753/2609 [1:51:03<1:20:24,  5.64s/it][A
Training...:  67% 1754/2609 [1:51:10<1:23:16,  5.84s/it][A
Training...:  67% 1755/2609 [1:51:16<1:24:19,  5.92s/it][A
Training...:  67% 1756/2609 [1:51:22<1:23:45,  5.89s/it][A
Training...:  67% 1757/2609 [1:51:27<1:23:02,  5.85s/it][A
Training...:  67% 1758/2609 [1:51:33<1:21:17,  5.73s/it][A
Training...:  67% 1759/2609 [1:51:38<1:19:38,  5.62s/it][A
Training...:  67% 1760/2609 [1:51:43<1:17:25,  5.47s/it][A
Training...:  67% 1761/2609 [1:51:48<1:15:27,  5.34s/it][A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:61: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x[0], tree)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [19:52:49<33:07:15, 9171.96s/it]
Training...:  67% 1761/2609 [1:51:54<1:15:27,  5.34s/it][A
Training...:  68% 1762/2609 [1:51:54<1:16:03,  5.39s/it][A
Training...:  68% 1763/2609 [1:51:59<1:13:36,  5.22s/it][A
Training...:  68% 1764/2609 [1:52:03<1:10:08,  4.98s/it][A
Training...:  68% 1765/2609 [1:52:07<1:07:20,  4.79s/it][A
Training...:  68% 1766/2609 [1:52:12<1:04:36,  4.60s/it][A
Training...:  68% 1767/2609 [1:52:16<1:02:10,  4.43s/it][A
Training...:  68% 1768/2609 [1:52:20<1:00:02,  4.28s/it][A
Training...:  68% 1769/2609 [1:52:23<58:06,  4.15s/it]  [A
Training...:  68% 1770/2609 [1:52:27<56:28,  4.04s/it][A
Training...:  68% 1771/2609 [1:52:31<54:49,  3.93s/it][A
Training...:  68% 1772/2609 [1:52:34<53:13,  3.82s/it][A
Training...:  68% 1773/2609 [1:52:38<51:52,  3.72s/it][A
Training...:  68% 1774/2609 [1:52:41<50:10,  3.61s/it][A
Training...:  68% 1775/2609 [1:52:45<48:34,  3.49s/it][A
Training...:  68% 1776/2609 [1:52:48<47:05,  3.39s/it][A
Training...:  68% 1777/2609 [1:52:51<45:44,  3.30s/it][A
Training...:  68% 1778/2609 [1:52:54<44:25,  3.21s/it][A
Training...:  68% 1779/2609 [1:52:57<43:11,  3.12s/it][A
Training...:  68% 1780/2609 [1:53:00<41:58,  3.04s/it][A
Training...:  68% 1781/2609 [1:53:02<40:46,  2.95s/it][A
Training...:  68% 1782/2609 [1:53:05<39:20,  2.85s/it][A
Training...:  68% 1783/2609 [1:53:07<38:14,  2.78s/it][A
Training...:  68% 1784/2609 [1:53:10<37:04,  2.70s/it][A
Training...:  68% 1785/2609 [1:53:12<35:48,  2.61s/it][A
Training...:  68% 1786/2609 [1:53:15<34:28,  2.51s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [19:54:12<33:07:15, 9171.96s/it]
Training...:  68% 1786/2609 [1:53:17<34:28,  2.51s/it][A
Training...:  68% 1787/2609 [1:53:17<35:07,  2.56s/it][A
Training...:  69% 1788/2609 [1:53:20<33:39,  2.46s/it][A
Training...:  69% 1789/2609 [1:53:22<32:06,  2.35s/it][A
Training...:  69% 1790/2609 [1:53:24<30:35,  2.24s/it][A
Training...:  69% 1791/2609 [1:53:26<29:07,  2.14s/it][A
Training...:  69% 1792/2609 [1:53:27<27:29,  2.02s/it][A
Training...:  69% 1793/2609 [1:53:29<26:02,  1.92s/it][A
Training...:  69% 1794/2609 [1:53:31<24:30,  1.80s/it][A
Training...:  69% 1795/2609 [1:53:32<23:07,  1.70s/it][A
Training...:  69% 1796/2609 [1:53:33<21:33,  1.59s/it][A
Training...:  69% 1797/2609 [1:53:35<20:00,  1.48s/it][A
Training...:  69% 1798/2609 [1:53:36<18:09,  1.34s/it][A
Training...:  69% 1799/2609 [1:53:36<16:04,  1.19s/it][A
Training...:  69% 1800/2609 [1:53:37<13:30,  1.00s/it][A
Training...:  69% 1801/2609 [1:53:44<38:38,  2.87s/it][A
Training...:  69% 1802/2609 [1:53:51<55:32,  4.13s/it][A
Training...:  69% 1803/2609 [1:53:58<1:05:57,  4.91s/it][A
Training...:  69% 1804/2609 [1:54:04<1:11:28,  5.33s/it][A
Training...:  69% 1805/2609 [1:54:10<1:14:11,  5.54s/it][A
Training...:  69% 1806/2609 [1:54:16<1:14:47,  5.59s/it][A
Training...:  69% 1807/2609 [1:54:22<1:14:19,  5.56s/it][A
Training...:  69% 1808/2609 [1:54:27<1:13:14,  5.49s/it][A
Training...:  69% 1809/2609 [1:54:32<1:11:51,  5.39s/it][A
Training...:  69% 1810/2609 [1:54:37<1:10:16,  5.28s/it][A
Training...:  69% 1811/2609 [1:54:42<1:08:30,  5.15s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [19:55:42<33:07:15, 9171.96s/it]
Training...:  69% 1811/2609 [1:54:47<1:08:30,  5.15s/it][A
Training...:  69% 1812/2609 [1:54:47<1:09:31,  5.23s/it][A
Training...:  69% 1813/2609 [1:54:52<1:06:50,  5.04s/it][A
Training...:  70% 1814/2609 [1:54:56<1:04:11,  4.84s/it][A
Training...:  70% 1815/2609 [1:55:01<1:02:04,  4.69s/it][A
Training...:  70% 1816/2609 [1:55:05<59:47,  4.52s/it]  [A
Training...:  70% 1817/2609 [1:55:09<58:01,  4.40s/it][A
Training...:  70% 1818/2609 [1:55:13<55:54,  4.24s/it][A
Training...:  70% 1819/2609 [1:55:17<54:12,  4.12s/it][A
Training...:  70% 1820/2609 [1:55:20<52:39,  4.00s/it][A
Training...:  70% 1821/2609 [1:55:24<51:11,  3.90s/it][A
Training...:  70% 1822/2609 [1:55:27<49:50,  3.80s/it][A
Training...:  70% 1823/2609 [1:55:31<48:29,  3.70s/it][A
Training...:  70% 1824/2609 [1:55:34<47:04,  3.60s/it][A
Training...:  70% 1825/2609 [1:55:38<45:52,  3.51s/it][A
Training...:  70% 1826/2609 [1:55:41<44:26,  3.41s/it][A
Training...:  70% 1827/2609 [1:55:44<43:11,  3.31s/it][A
Training...:  70% 1828/2609 [1:55:47<42:02,  3.23s/it][A
Training...:  70% 1829/2609 [1:55:50<41:00,  3.15s/it][A
Training...:  70% 1830/2609 [1:55:53<40:02,  3.08s/it][A
Training...:  70% 1831/2609 [1:55:56<39:16,  3.03s/it][A
Training...:  70% 1832/2609 [1:55:58<37:45,  2.92s/it][A
Training...:  70% 1833/2609 [1:56:01<36:25,  2.82s/it][A
Training...:  70% 1834/2609 [1:56:03<35:07,  2.72s/it][A
Training...:  70% 1835/2609 [1:56:06<33:56,  2.63s/it][A
Training...:  70% 1836/2609 [1:56:08<32:38,  2.53s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [19:57:06<33:07:15, 9171.96s/it]
Training...:  70% 1836/2609 [1:56:11<32:38,  2.53s/it][A
Training...:  70% 1837/2609 [1:56:11<33:04,  2.57s/it][A
Training...:  70% 1838/2609 [1:56:13<31:22,  2.44s/it][A
Training...:  70% 1839/2609 [1:56:15<29:48,  2.32s/it][A
Training...:  71% 1840/2609 [1:56:17<28:15,  2.20s/it][A
Training...:  71% 1841/2609 [1:56:19<26:48,  2.09s/it][A
Training...:  71% 1842/2609 [1:56:21<25:25,  1.99s/it][A
Training...:  71% 1843/2609 [1:56:22<24:02,  1.88s/it][A
Training...:  71% 1844/2609 [1:56:24<22:41,  1.78s/it][A
Training...:  71% 1845/2609 [1:56:25<21:07,  1.66s/it][A
Training...:  71% 1846/2609 [1:56:26<19:36,  1.54s/it][A
Training...:  71% 1847/2609 [1:56:27<18:02,  1.42s/it][A
Training...:  71% 1848/2609 [1:56:28<16:21,  1.29s/it][A
Training...:  71% 1849/2609 [1:56:29<14:37,  1.16s/it][A
Training...:  71% 1850/2609 [1:56:30<12:25,  1.02it/s][A
Training...:  71% 1851/2609 [1:56:37<36:01,  2.85s/it][A
Training...:  71% 1852/2609 [1:56:44<52:02,  4.13s/it][A
Training...:  71% 1853/2609 [1:56:51<1:01:07,  4.85s/it][A
Training...:  71% 1854/2609 [1:56:57<1:06:29,  5.28s/it][A
Training...:  71% 1855/2609 [1:57:03<1:08:53,  5.48s/it][A
Training...:  71% 1856/2609 [1:57:09<1:09:12,  5.51s/it][A
Training...:  71% 1857/2609 [1:57:14<1:08:45,  5.49s/it][A
Training...:  71% 1858/2609 [1:57:19<1:07:15,  5.37s/it][A
Training...:  71% 1859/2609 [1:57:24<1:05:45,  5.26s/it][A
Training...:  71% 1860/2609 [1:57:29<1:03:56,  5.12s/it][A
Training...:  71% 1861/2609 [1:57:34<1:02:13,  4.99s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [19:58:34<33:07:15, 9171.96s/it]
Training...:  71% 1861/2609 [1:57:39<1:02:13,  4.99s/it][A
Training...:  71% 1862/2609 [1:57:39<1:03:15,  5.08s/it][A
Training...:  71% 1863/2609 [1:57:43<1:00:57,  4.90s/it][A
Training...:  71% 1864/2609 [1:57:48<58:27,  4.71s/it]  [A
Training...:  71% 1865/2609 [1:57:52<56:44,  4.58s/it][A
Training...:  72% 1866/2609 [1:57:56<54:59,  4.44s/it][A
Training...:  72% 1867/2609 [1:58:00<53:20,  4.31s/it][A
Training...:  72% 1868/2609 [1:58:04<51:45,  4.19s/it][A
Training...:  72% 1869/2609 [1:58:08<50:05,  4.06s/it][A
Training...:  72% 1870/2609 [1:58:11<48:25,  3.93s/it][A
Training...:  72% 1871/2609 [1:58:15<47:05,  3.83s/it][A
Training...:  72% 1872/2609 [1:58:18<45:57,  3.74s/it][A
Training...:  72% 1873/2609 [1:58:22<44:42,  3.64s/it][A
Training...:  72% 1874/2609 [1:58:25<43:36,  3.56s/it][A
Training...:  72% 1875/2609 [1:58:29<42:40,  3.49s/it][A
Training...:  72% 1876/2609 [1:58:32<41:23,  3.39s/it][A
Training...:  72% 1877/2609 [1:58:35<40:13,  3.30s/it][A
Training...:  72% 1878/2609 [1:58:38<38:58,  3.20s/it][A
Training...:  72% 1879/2609 [1:58:41<37:57,  3.12s/it][A
Training...:  72% 1880/2609 [1:58:43<36:41,  3.02s/it][A
Training...:  72% 1881/2609 [1:58:46<35:34,  2.93s/it][A
Training...:  72% 1882/2609 [1:58:49<34:22,  2.84s/it][A
Training...:  72% 1883/2609 [1:58:51<33:12,  2.74s/it][A
Training...:  72% 1884/2609 [1:58:54<32:01,  2.65s/it][A
Training...:  72% 1885/2609 [1:58:56<31:03,  2.57s/it][A
Training...:  72% 1886/2609 [1:58:58<30:03,  2.49s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [19:59:56<33:07:15, 9171.96s/it]
Training...:  72% 1886/2609 [1:59:01<30:03,  2.49s/it][A
Training...:  72% 1887/2609 [1:59:01<30:33,  2.54s/it][A
Training...:  72% 1888/2609 [1:59:03<29:04,  2.42s/it][A
Training...:  72% 1889/2609 [1:59:05<27:42,  2.31s/it][A
Training...:  72% 1890/2609 [1:59:07<26:09,  2.18s/it][A
Training...:  72% 1891/2609 [1:59:09<24:50,  2.08s/it][A
Training...:  73% 1892/2609 [1:59:11<23:39,  1.98s/it][A
Training...:  73% 1893/2609 [1:59:12<22:30,  1.89s/it][A
Training...:  73% 1894/2609 [1:59:14<21:13,  1.78s/it][A
Training...:  73% 1895/2609 [1:59:15<19:50,  1.67s/it][A
Training...:  73% 1896/2609 [1:59:17<18:22,  1.55s/it][A
Training...:  73% 1897/2609 [1:59:18<16:58,  1.43s/it][A
Training...:  73% 1898/2609 [1:59:19<15:19,  1.29s/it][A
Training...:  73% 1899/2609 [1:59:20<13:34,  1.15s/it][A
Training...:  73% 1900/2609 [1:59:20<11:30,  1.03it/s][A
Training...:  73% 1901/2609 [1:59:27<33:53,  2.87s/it][A
Training...:  73% 1902/2609 [1:59:35<48:52,  4.15s/it][A
Training...:  73% 1903/2609 [1:59:41<57:03,  4.85s/it][A
Training...:  73% 1904/2609 [1:59:47<1:01:32,  5.24s/it][A
Training...:  73% 1905/2609 [1:59:53<1:04:00,  5.46s/it][A
Training...:  73% 1906/2609 [1:59:59<1:04:42,  5.52s/it][A
Training...:  73% 1907/2609 [2:00:04<1:04:24,  5.50s/it][A
Training...:  73% 1908/2609 [2:00:10<1:03:13,  5.41s/it][A
Training...:  73% 1909/2609 [2:00:15<1:02:02,  5.32s/it][A
Training...:  73% 1910/2609 [2:00:19<1:00:17,  5.17s/it][A
Training...:  73% 1911/2609 [2:00:24<58:52,  5.06s/it]  [A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:01:24<33:07:15, 9171.96s/it]
Training...:  73% 1911/2609 [2:00:30<58:52,  5.06s/it][A
Training...:  73% 1912/2609 [2:00:30<59:47,  5.15s/it][A
Training...:  73% 1913/2609 [2:00:34<57:53,  4.99s/it][A
Training...:  73% 1914/2609 [2:00:39<55:35,  4.80s/it][A
Training...:  73% 1915/2609 [2:00:43<53:47,  4.65s/it][A
Training...:  73% 1916/2609 [2:00:47<51:55,  4.50s/it][A
Training...:  73% 1917/2609 [2:00:51<50:12,  4.35s/it][A
Training...:  74% 1918/2609 [2:00:55<48:33,  4.22s/it][A
Training...:  74% 1919/2609 [2:00:59<47:06,  4.10s/it][A
Training...:  74% 1920/2609 [2:01:03<45:51,  3.99s/it][A
Training...:  74% 1921/2609 [2:01:06<44:26,  3.88s/it][A
Training...:  74% 1922/2609 [2:01:10<43:08,  3.77s/it][A
Training...:  74% 1923/2609 [2:01:13<41:54,  3.66s/it][A
Training...:  74% 1924/2609 [2:01:16<40:38,  3.56s/it][A
Training...:  74% 1925/2609 [2:01:20<39:30,  3.47s/it][A
Training...:  74% 1926/2609 [2:01:23<38:16,  3.36s/it][A
Training...:  74% 1927/2609 [2:01:26<37:17,  3.28s/it][A
Training...:  74% 1928/2609 [2:01:29<36:09,  3.19s/it][A
Training...:  74% 1929/2609 [2:01:32<35:19,  3.12s/it][A
Training...:  74% 1930/2609 [2:01:35<34:25,  3.04s/it][A
Training...:  74% 1931/2609 [2:01:37<33:22,  2.95s/it][A
Training...:  74% 1932/2609 [2:01:40<32:07,  2.85s/it][A
Training...:  74% 1933/2609 [2:01:43<31:01,  2.75s/it][A
Training...:  74% 1934/2609 [2:01:45<29:55,  2.66s/it][A
Training...:  74% 1935/2609 [2:01:47<28:55,  2.57s/it][A
Training...:  74% 1936/2609 [2:01:50<27:52,  2.49s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:02:47<33:07:15, 9171.96s/it]
Training...:  74% 1936/2609 [2:01:52<27:52,  2.49s/it][A
Training...:  74% 1937/2609 [2:01:52<28:17,  2.53s/it][A
Training...:  74% 1938/2609 [2:01:54<26:51,  2.40s/it][A
Training...:  74% 1939/2609 [2:01:56<25:30,  2.28s/it][A
Training...:  74% 1940/2609 [2:01:58<24:19,  2.18s/it][A
Training...:  74% 1941/2609 [2:02:00<23:08,  2.08s/it][A
Training...:  74% 1942/2609 [2:02:02<21:52,  1.97s/it][A
Training...:  74% 1943/2609 [2:02:03<20:35,  1.86s/it][A
Training...:  75% 1944/2609 [2:02:05<19:21,  1.75s/it][A
Training...:  75% 1945/2609 [2:02:06<18:09,  1.64s/it][A
Training...:  75% 1946/2609 [2:02:08<16:43,  1.51s/it][A
Training...:  75% 1947/2609 [2:02:09<15:20,  1.39s/it][A
Training...:  75% 1948/2609 [2:02:10<13:48,  1.25s/it][A
Training...:  75% 1949/2609 [2:02:10<12:06,  1.10s/it][A
Training...:  75% 1950/2609 [2:02:11<10:07,  1.09it/s][A
Training...:  75% 1951/2609 [2:02:18<30:31,  2.78s/it][A
Training...:  75% 1952/2609 [2:02:25<44:27,  4.06s/it][A
Training...:  75% 1953/2609 [2:02:32<52:38,  4.81s/it][A
Training...:  75% 1954/2609 [2:02:38<57:20,  5.25s/it][A
Training...:  75% 1955/2609 [2:02:44<59:26,  5.45s/it][A
Training...:  75% 1956/2609 [2:02:49<59:51,  5.50s/it][A
Training...:  75% 1957/2609 [2:02:55<59:45,  5.50s/it][A
Training...:  75% 1958/2609 [2:03:00<58:56,  5.43s/it][A
Training...:  75% 1959/2609 [2:03:05<57:45,  5.33s/it][A
Training...:  75% 1960/2609 [2:03:10<56:14,  5.20s/it][A
Training...:  75% 1961/2609 [2:03:15<54:47,  5.07s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:04:15<33:07:15, 9171.96s/it]
Training...:  75% 1961/2609 [2:03:20<54:47,  5.07s/it][A
Training...:  75% 1962/2609 [2:03:20<55:39,  5.16s/it][A
Training...:  75% 1963/2609 [2:03:25<53:41,  4.99s/it][A
Training...:  75% 1964/2609 [2:03:29<51:39,  4.80s/it][A
Training...:  75% 1965/2609 [2:03:33<49:48,  4.64s/it][A
Training...:  75% 1966/2609 [2:03:38<48:12,  4.50s/it][A
Training...:  75% 1967/2609 [2:03:42<46:31,  4.35s/it][A
Training...:  75% 1968/2609 [2:03:45<44:46,  4.19s/it][A
Training...:  75% 1969/2609 [2:03:49<43:21,  4.06s/it][A
Training...:  76% 1970/2609 [2:03:53<42:02,  3.95s/it][A
Training...:  76% 1971/2609 [2:03:57<41:01,  3.86s/it][A
Training...:  76% 1972/2609 [2:04:00<40:05,  3.78s/it][A
Training...:  76% 1973/2609 [2:04:04<39:04,  3.69s/it][A
Training...:  76% 1974/2609 [2:04:07<37:49,  3.57s/it][A
Training...:  76% 1975/2609 [2:04:10<36:38,  3.47s/it][A
Training...:  76% 1976/2609 [2:04:13<35:31,  3.37s/it][A
Training...:  76% 1977/2609 [2:04:16<34:23,  3.27s/it][A
Training...:  76% 1978/2609 [2:04:19<33:18,  3.17s/it][A
Training...:  76% 1979/2609 [2:04:22<32:21,  3.08s/it][A
Training...:  76% 1980/2609 [2:04:25<31:24,  3.00s/it][A
Training...:  76% 1981/2609 [2:04:28<30:24,  2.91s/it][A
Training...:  76% 1982/2609 [2:04:30<29:24,  2.81s/it][A
Training...:  76% 1983/2609 [2:04:33<28:32,  2.74s/it][A
Training...:  76% 1984/2609 [2:04:35<27:28,  2.64s/it][A
Training...:  76% 1985/2609 [2:04:38<26:39,  2.56s/it][A
Training...:  76% 1986/2609 [2:04:40<25:44,  2.48s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:05:37<33:07:15, 9171.96s/it]
Training...:  76% 1986/2609 [2:04:42<25:44,  2.48s/it][A
Training...:  76% 1987/2609 [2:04:42<26:07,  2.52s/it][A
Training...:  76% 1988/2609 [2:04:45<24:53,  2.41s/it][A
Training...:  76% 1989/2609 [2:04:47<23:43,  2.30s/it][A
Training...:  76% 1990/2609 [2:04:49<22:30,  2.18s/it][A
Training...:  76% 1991/2609 [2:04:50<21:16,  2.07s/it][A
Training...:  76% 1992/2609 [2:04:52<20:11,  1.96s/it][A
Training...:  76% 1993/2609 [2:04:54<18:58,  1.85s/it][A
Training...:  76% 1994/2609 [2:04:55<17:48,  1.74s/it][A
Training...:  76% 1995/2609 [2:04:57<16:43,  1.63s/it][A
Training...:  77% 1996/2609 [2:04:58<15:35,  1.53s/it][A
Training...:  77% 1997/2609 [2:04:59<14:24,  1.41s/it][A
Training...:  77% 1998/2609 [2:05:00<13:06,  1.29s/it][A
Training...:  77% 1999/2609 [2:05:01<11:42,  1.15s/it][A
Training...:  77% 2000/2609 [2:05:01<09:54,  1.02it/s][A
Training...:  77% 2001/2609 [2:05:08<28:27,  2.81s/it][A
Training...:  77% 2002/2609 [2:05:16<41:33,  4.11s/it][A
Training...:  77% 2003/2609 [2:05:22<48:42,  4.82s/it][A
Training...:  77% 2004/2609 [2:05:28<52:49,  5.24s/it][A
Training...:  77% 2005/2609 [2:05:34<54:53,  5.45s/it][A
Training...:  77% 2006/2609 [2:05:40<55:20,  5.51s/it][A
Training...:  77% 2007/2609 [2:05:45<55:02,  5.49s/it][A
Training...:  77% 2008/2609 [2:05:51<54:04,  5.40s/it][A
Training...:  77% 2009/2609 [2:05:56<53:01,  5.30s/it][A
Training...:  77% 2010/2609 [2:06:01<51:51,  5.20s/it][A
Training...:  77% 2011/2609 [2:06:05<50:38,  5.08s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:07:06<33:07:15, 9171.96s/it]
Training...:  77% 2011/2609 [2:06:11<50:38,  5.08s/it][A
Training...:  77% 2012/2609 [2:06:11<51:20,  5.16s/it][A
Training...:  77% 2013/2609 [2:06:15<49:20,  4.97s/it][A
Training...:  77% 2014/2609 [2:06:20<47:14,  4.76s/it][A
Training...:  77% 2015/2609 [2:06:24<45:46,  4.62s/it][A
Training...:  77% 2016/2609 [2:06:28<44:06,  4.46s/it][A
Training...:  77% 2017/2609 [2:06:32<42:35,  4.32s/it][A
Training...:  77% 2018/2609 [2:06:36<41:15,  4.19s/it][A
Training...:  77% 2019/2609 [2:06:40<39:52,  4.06s/it][A
Training...:  77% 2020/2609 [2:06:43<38:26,  3.92s/it][A
Training...:  77% 2021/2609 [2:06:47<37:12,  3.80s/it][A
Training...:  78% 2022/2609 [2:06:50<36:12,  3.70s/it][A
Training...:  78% 2023/2609 [2:06:53<35:13,  3.61s/it][A
Training...:  78% 2024/2609 [2:06:57<34:12,  3.51s/it][A
Training...:  78% 2025/2609 [2:07:00<33:17,  3.42s/it][A
Training...:  78% 2026/2609 [2:07:03<32:08,  3.31s/it][A
Training...:  78% 2027/2609 [2:07:06<31:02,  3.20s/it][A
Training...:  78% 2028/2609 [2:07:09<30:07,  3.11s/it][A
Training...:  78% 2029/2609 [2:07:12<29:11,  3.02s/it][A
Training...:  78% 2030/2609 [2:07:14<28:25,  2.95s/it][A
Training...:  78% 2031/2609 [2:07:17<27:29,  2.85s/it][A
Training...:  78% 2032/2609 [2:07:20<26:40,  2.77s/it][A
Training...:  78% 2033/2609 [2:07:22<25:57,  2.70s/it][A
Training...:  78% 2034/2609 [2:07:25<25:11,  2.63s/it][A
Training...:  78% 2035/2609 [2:07:27<24:24,  2.55s/it][A
Training...:  78% 2036/2609 [2:07:29<23:33,  2.47s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:08:27<33:07:15, 9171.96s/it]
Training...:  78% 2036/2609 [2:07:32<23:33,  2.47s/it][A
Training...:  78% 2037/2609 [2:07:32<24:00,  2.52s/it][A
Training...:  78% 2038/2609 [2:07:34<22:44,  2.39s/it][A
Training...:  78% 2039/2609 [2:07:36<21:37,  2.28s/it][A
Training...:  78% 2040/2609 [2:07:38<20:32,  2.17s/it][A
Training...:  78% 2041/2609 [2:07:40<19:37,  2.07s/it][A
Training...:  78% 2042/2609 [2:07:42<18:37,  1.97s/it][A
Training...:  78% 2043/2609 [2:07:43<17:37,  1.87s/it][A
Training...:  78% 2044/2609 [2:07:45<16:29,  1.75s/it][A
Training...:  78% 2045/2609 [2:07:46<15:26,  1.64s/it][A
Training...:  78% 2046/2609 [2:07:47<14:21,  1.53s/it][A
Training...:  78% 2047/2609 [2:07:48<13:21,  1.43s/it][A
Training...:  78% 2048/2609 [2:07:49<12:05,  1.29s/it][A
Training...:  79% 2049/2609 [2:07:50<10:42,  1.15s/it][A
Training...:  79% 2050/2609 [2:07:51<08:57,  1.04it/s][A
Training...:  79% 2051/2609 [2:07:58<26:15,  2.82s/it][A
Training...:  79% 2052/2609 [2:08:05<38:17,  4.12s/it][A
Training...:  79% 2053/2609 [2:08:12<44:46,  4.83s/it][A
Training...:  79% 2054/2609 [2:08:18<48:19,  5.23s/it][A
Training...:  79% 2055/2609 [2:08:24<50:20,  5.45s/it][A
Training...:  79% 2056/2609 [2:08:29<50:44,  5.51s/it][A
Training...:  79% 2057/2609 [2:08:35<50:26,  5.48s/it][A
Training...:  79% 2058/2609 [2:08:40<49:45,  5.42s/it][A
Training...:  79% 2059/2609 [2:08:45<49:08,  5.36s/it][A
Training...:  79% 2060/2609 [2:08:50<47:43,  5.22s/it][A
Training...:  79% 2061/2609 [2:08:55<46:31,  5.09s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:09:55<33:07:15, 9171.96s/it]
Training...:  79% 2061/2609 [2:09:00<46:31,  5.09s/it][A
Training...:  79% 2062/2609 [2:09:00<47:10,  5.18s/it][A
Training...:  79% 2063/2609 [2:09:05<45:51,  5.04s/it][A
Training...:  79% 2064/2609 [2:09:10<44:17,  4.88s/it][A
Training...:  79% 2065/2609 [2:09:14<42:36,  4.70s/it][A
Training...:  79% 2066/2609 [2:09:18<40:56,  4.52s/it][A
Training...:  79% 2067/2609 [2:09:22<39:35,  4.38s/it][A
Training...:  79% 2068/2609 [2:09:26<38:18,  4.25s/it][A
Training...:  79% 2069/2609 [2:09:30<37:06,  4.12s/it][A
Training...:  79% 2070/2609 [2:09:34<36:00,  4.01s/it][A
Training...:  79% 2071/2609 [2:09:37<34:51,  3.89s/it][A
Training...:  79% 2072/2609 [2:09:41<33:51,  3.78s/it][A
Training...:  79% 2073/2609 [2:09:44<33:01,  3.70s/it][A
Training...:  79% 2074/2609 [2:09:48<32:01,  3.59s/it][A
Training...:  80% 2075/2609 [2:09:51<31:12,  3.51s/it][A
Training...:  80% 2076/2609 [2:09:54<30:21,  3.42s/it][A
Training...:  80% 2077/2609 [2:09:57<29:34,  3.34s/it][A
Training...:  80% 2078/2609 [2:10:00<28:45,  3.25s/it][A
Training...:  80% 2079/2609 [2:10:03<27:59,  3.17s/it][A
Training...:  80% 2080/2609 [2:10:06<27:12,  3.09s/it][A
Training...:  80% 2081/2609 [2:10:09<26:26,  3.01s/it][A
Training...:  80% 2082/2609 [2:10:12<25:30,  2.90s/it][A
Training...:  80% 2083/2609 [2:10:14<24:38,  2.81s/it][A
Training...:  80% 2084/2609 [2:10:17<23:47,  2.72s/it][A
Training...:  80% 2085/2609 [2:10:19<22:58,  2.63s/it][A
Training...:  80% 2086/2609 [2:10:21<22:04,  2.53s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:11:19<33:07:15, 9171.96s/it]
Training...:  80% 2086/2609 [2:10:24<22:04,  2.53s/it][A
Training...:  80% 2087/2609 [2:10:24<22:24,  2.58s/it][A
Training...:  80% 2088/2609 [2:10:26<21:13,  2.44s/it][A
Training...:  80% 2089/2609 [2:10:28<20:07,  2.32s/it][A
Training...:  80% 2090/2609 [2:10:30<19:06,  2.21s/it][A
Training...:  80% 2091/2609 [2:10:32<18:06,  2.10s/it][A
Training...:  80% 2092/2609 [2:10:34<17:06,  1.98s/it][A
Training...:  80% 2093/2609 [2:10:35<16:13,  1.89s/it][A
Training...:  80% 2094/2609 [2:10:37<15:11,  1.77s/it][A
Training...:  80% 2095/2609 [2:10:38<14:11,  1.66s/it][A
Training...:  80% 2096/2609 [2:10:40<13:13,  1.55s/it][A
Training...:  80% 2097/2609 [2:10:41<12:12,  1.43s/it][A
Training...:  80% 2098/2609 [2:10:42<11:03,  1.30s/it][A
Training...:  80% 2099/2609 [2:10:43<09:50,  1.16s/it][A
Training...:  80% 2100/2609 [2:10:43<08:18,  1.02it/s][A
Training...:  81% 2101/2609 [2:10:50<23:59,  2.83s/it][A
Training...:  81% 2102/2609 [2:10:57<34:48,  4.12s/it][A
Training...:  81% 2103/2609 [2:11:04<40:49,  4.84s/it][A
Training...:  81% 2104/2609 [2:11:10<44:42,  5.31s/it][A
Training...:  81% 2105/2609 [2:11:17<46:55,  5.59s/it][A
Training...:  81% 2106/2609 [2:11:22<47:23,  5.65s/it][A
Training...:  81% 2107/2609 [2:11:28<47:18,  5.65s/it][A
Training...:  81% 2108/2609 [2:11:33<46:15,  5.54s/it][A
Training...:  81% 2109/2609 [2:11:38<45:10,  5.42s/it][A
Training...:  81% 2110/2609 [2:11:43<43:58,  5.29s/it][A
Training...:  81% 2111/2609 [2:11:48<42:46,  5.15s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:12:49<33:07:15, 9171.96s/it]
Training...:  81% 2111/2609 [2:11:54<42:46,  5.15s/it][A
Training...:  81% 2112/2609 [2:11:54<43:18,  5.23s/it][A
Training...:  81% 2113/2609 [2:11:58<41:47,  5.06s/it][A
Training...:  81% 2114/2609 [2:12:03<40:00,  4.85s/it][A
Training...:  81% 2115/2609 [2:12:07<38:47,  4.71s/it][A
Training...:  81% 2116/2609 [2:12:11<37:15,  4.53s/it][A
Training...:  81% 2117/2609 [2:12:15<36:06,  4.40s/it][A
Training...:  81% 2118/2609 [2:12:19<34:59,  4.28s/it][A
Training...:  81% 2119/2609 [2:12:23<34:07,  4.18s/it][A
Training...:  81% 2120/2609 [2:12:27<33:09,  4.07s/it][A
Training...:  81% 2121/2609 [2:12:31<32:21,  3.98s/it][A
Training...:  81% 2122/2609 [2:12:34<31:18,  3.86s/it][A
Training...:  81% 2123/2609 [2:12:38<30:25,  3.76s/it][A
Training...:  81% 2124/2609 [2:12:41<29:31,  3.65s/it][A
Training...:  81% 2125/2609 [2:12:45<29:01,  3.60s/it][A
Training...:  81% 2126/2609 [2:12:48<28:10,  3.50s/it][A
Training...:  82% 2127/2609 [2:12:51<27:18,  3.40s/it][A
Training...:  82% 2128/2609 [2:12:54<26:22,  3.29s/it][A
Training...:  82% 2129/2609 [2:12:57<25:30,  3.19s/it][A
Training...:  82% 2130/2609 [2:13:00<24:35,  3.08s/it][A
Training...:  82% 2131/2609 [2:13:03<23:50,  2.99s/it][A
Training...:  82% 2132/2609 [2:13:06<23:05,  2.90s/it][A
Training...:  82% 2133/2609 [2:13:08<22:17,  2.81s/it][A
Training...:  82% 2134/2609 [2:13:11<21:34,  2.72s/it][A
Training...:  82% 2135/2609 [2:13:13<20:42,  2.62s/it][A
Training...:  82% 2136/2609 [2:13:15<19:52,  2.52s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:14:13<33:07:15, 9171.96s/it]
Training...:  82% 2136/2609 [2:13:18<19:52,  2.52s/it][A
Training...:  82% 2137/2609 [2:13:18<20:05,  2.55s/it][A
Training...:  82% 2138/2609 [2:13:20<19:02,  2.43s/it][A
Training...:  82% 2139/2609 [2:13:22<17:59,  2.30s/it][A
Training...:  82% 2140/2609 [2:13:24<17:03,  2.18s/it][A
Training...:  82% 2141/2609 [2:13:26<16:08,  2.07s/it][A
Training...:  82% 2142/2609 [2:13:28<15:17,  1.97s/it][A
Training...:  82% 2143/2609 [2:13:29<14:24,  1.86s/it][A
Training...:  82% 2144/2609 [2:13:31<13:29,  1.74s/it][A
Training...:  82% 2145/2609 [2:13:32<12:36,  1.63s/it][A
Training...:  82% 2146/2609 [2:13:33<11:45,  1.52s/it][A
Training...:  82% 2147/2609 [2:13:34<10:49,  1.41s/it][A
Training...:  82% 2148/2609 [2:13:35<09:47,  1.28s/it][A
Training...:  82% 2149/2609 [2:13:36<08:38,  1.13s/it][A
Training...:  82% 2150/2609 [2:13:37<07:15,  1.05it/s][A
Training...:  82% 2151/2609 [2:13:44<21:21,  2.80s/it][A
Training...:  82% 2152/2609 [2:13:51<31:11,  4.10s/it][A
Training...:  83% 2153/2609 [2:13:58<36:49,  4.85s/it][A
Training...:  83% 2154/2609 [2:14:04<39:45,  5.24s/it][A
Training...:  83% 2155/2609 [2:14:10<41:20,  5.46s/it][A
Training...:  83% 2156/2609 [2:14:15<41:42,  5.52s/it][A
Training...:  83% 2157/2609 [2:14:21<41:29,  5.51s/it][A
Training...:  83% 2158/2609 [2:14:26<40:36,  5.40s/it][A
Training...:  83% 2159/2609 [2:14:31<39:56,  5.32s/it][A
Training...:  83% 2160/2609 [2:14:36<39:11,  5.24s/it][A
Training...:  83% 2161/2609 [2:14:41<38:12,  5.12s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:15:41<33:07:15, 9171.96s/it]
Training...:  83% 2161/2609 [2:14:46<38:12,  5.12s/it][A
Training...:  83% 2162/2609 [2:14:46<38:34,  5.18s/it][A
Training...:  83% 2163/2609 [2:14:51<37:03,  4.98s/it][A
Training...:  83% 2164/2609 [2:14:55<35:17,  4.76s/it][A
Training...:  83% 2165/2609 [2:14:59<33:59,  4.59s/it][A
Training...:  83% 2166/2609 [2:15:03<32:44,  4.43s/it][A
Training...:  83% 2167/2609 [2:15:07<31:38,  4.29s/it][A
Training...:  83% 2168/2609 [2:15:11<30:32,  4.16s/it][A
Training...:  83% 2169/2609 [2:15:15<29:39,  4.05s/it][A
Training...:  83% 2170/2609 [2:15:19<28:41,  3.92s/it][A
Training...:  83% 2171/2609 [2:15:22<27:50,  3.81s/it][A
Training...:  83% 2172/2609 [2:15:26<27:00,  3.71s/it][A
Training...:  83% 2173/2609 [2:15:29<26:20,  3.62s/it][A
Training...:  83% 2174/2609 [2:15:32<25:34,  3.53s/it][A
Training...:  83% 2175/2609 [2:15:36<24:51,  3.44s/it][A
Training...:  83% 2176/2609 [2:15:39<23:59,  3.32s/it][A
Training...:  83% 2177/2609 [2:15:42<23:13,  3.22s/it][A
Training...:  83% 2178/2609 [2:15:44<22:25,  3.12s/it][A
Training...:  84% 2179/2609 [2:15:47<21:46,  3.04s/it][A
Training...:  84% 2180/2609 [2:15:50<21:02,  2.94s/it][A
Training...:  84% 2181/2609 [2:15:53<20:23,  2.86s/it][A
Training...:  84% 2182/2609 [2:15:55<19:45,  2.78s/it][A
Training...:  84% 2183/2609 [2:15:58<19:11,  2.70s/it][A
Training...:  84% 2184/2609 [2:16:00<18:32,  2.62s/it][A
Training...:  84% 2185/2609 [2:16:03<17:55,  2.54s/it][A
Training...:  84% 2186/2609 [2:16:05<17:15,  2.45s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:17:02<33:07:15, 9171.96s/it]
Training...:  84% 2186/2609 [2:16:07<17:15,  2.45s/it][A
Training...:  84% 2187/2609 [2:16:07<17:34,  2.50s/it][A
Training...:  84% 2188/2609 [2:16:10<16:43,  2.38s/it][A
Training...:  84% 2189/2609 [2:16:12<15:56,  2.28s/it][A
Training...:  84% 2190/2609 [2:16:13<15:07,  2.17s/it][A
Training...:  84% 2191/2609 [2:16:15<14:21,  2.06s/it][A
Training...:  84% 2192/2609 [2:16:17<13:42,  1.97s/it][A
Training...:  84% 2193/2609 [2:16:19<13:03,  1.88s/it][A
Training...:  84% 2194/2609 [2:16:20<12:18,  1.78s/it][A
Training...:  84% 2195/2609 [2:16:22<11:33,  1.67s/it][A
Training...:  84% 2196/2609 [2:16:23<10:46,  1.57s/it][A
Training...:  84% 2197/2609 [2:16:24<09:58,  1.45s/it][A
Training...:  84% 2198/2609 [2:16:25<09:01,  1.32s/it][A
Training...:  84% 2199/2609 [2:16:26<07:52,  1.15s/it][A
Training...:  84% 2200/2609 [2:16:27<06:40,  1.02it/s][A
Training...:  84% 2201/2609 [2:16:34<19:20,  2.85s/it][A
Training...:  84% 2202/2609 [2:16:41<27:54,  4.11s/it][A
Training...:  84% 2203/2609 [2:16:47<32:45,  4.84s/it][A
Training...:  84% 2204/2609 [2:16:54<35:33,  5.27s/it][A
Training...:  85% 2205/2609 [2:17:00<37:13,  5.53s/it][A
Training...:  85% 2206/2609 [2:17:06<38:04,  5.67s/it][A
Training...:  85% 2207/2609 [2:17:11<37:57,  5.67s/it][A
Training...:  85% 2208/2609 [2:17:17<37:17,  5.58s/it][A
Training...:  85% 2209/2609 [2:17:22<36:26,  5.47s/it][A
Training...:  85% 2210/2609 [2:17:27<35:16,  5.31s/it][A
Training...:  85% 2211/2609 [2:17:32<34:18,  5.17s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:18:32<33:07:15, 9171.96s/it]
Training...:  85% 2211/2609 [2:17:37<34:18,  5.17s/it][A
Training...:  85% 2212/2609 [2:17:37<34:41,  5.24s/it][A
Training...:  85% 2213/2609 [2:17:42<33:30,  5.08s/it][A
Training...:  85% 2214/2609 [2:17:46<32:12,  4.89s/it][A
Training...:  85% 2215/2609 [2:17:51<30:52,  4.70s/it][A
Training...:  85% 2216/2609 [2:17:55<29:42,  4.54s/it][A
Training...:  85% 2217/2609 [2:17:59<28:43,  4.40s/it][A
Training...:  85% 2218/2609 [2:18:03<27:40,  4.25s/it][A
Training...:  85% 2219/2609 [2:18:07<26:59,  4.15s/it][A
Training...:  85% 2220/2609 [2:18:10<26:05,  4.02s/it][A
Training...:  85% 2221/2609 [2:18:14<25:21,  3.92s/it][A
Training...:  85% 2222/2609 [2:18:18<24:30,  3.80s/it][A
Training...:  85% 2223/2609 [2:18:21<23:44,  3.69s/it][A
Training...:  85% 2224/2609 [2:18:24<23:04,  3.60s/it][A
Training...:  85% 2225/2609 [2:18:28<22:22,  3.50s/it][A
Training...:  85% 2226/2609 [2:18:31<21:34,  3.38s/it][A
Training...:  85% 2227/2609 [2:18:34<20:52,  3.28s/it][A
Training...:  85% 2228/2609 [2:18:37<20:13,  3.19s/it][A
Training...:  85% 2229/2609 [2:18:40<19:38,  3.10s/it][A
Training...:  85% 2230/2609 [2:18:42<19:01,  3.01s/it][A
Training...:  86% 2231/2609 [2:18:45<18:27,  2.93s/it][A
Training...:  86% 2232/2609 [2:18:48<17:50,  2.84s/it][A
Training...:  86% 2233/2609 [2:18:50<17:19,  2.77s/it][A
Training...:  86% 2234/2609 [2:18:53<16:50,  2.69s/it][A
Training...:  86% 2235/2609 [2:18:55<16:06,  2.59s/it][A
Training...:  86% 2236/2609 [2:18:58<15:30,  2.49s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:19:55<33:07:15, 9171.96s/it]
Training...:  86% 2236/2609 [2:19:00<15:30,  2.49s/it][A
Training...:  86% 2237/2609 [2:19:00<15:39,  2.53s/it][A
Training...:  86% 2238/2609 [2:19:02<14:49,  2.40s/it][A
Training...:  86% 2239/2609 [2:19:04<14:01,  2.28s/it][A
Training...:  86% 2240/2609 [2:19:06<13:18,  2.16s/it][A
Training...:  86% 2241/2609 [2:19:08<12:41,  2.07s/it][A
Training...:  86% 2242/2609 [2:19:10<11:58,  1.96s/it][A
Training...:  86% 2243/2609 [2:19:11<11:20,  1.86s/it][A
Training...:  86% 2244/2609 [2:19:13<10:39,  1.75s/it][A
Training...:  86% 2245/2609 [2:19:14<09:57,  1.64s/it][A
Training...:  86% 2246/2609 [2:19:15<09:11,  1.52s/it][A
Training...:  86% 2247/2609 [2:19:17<08:26,  1.40s/it][A
Training...:  86% 2248/2609 [2:19:18<07:37,  1.27s/it][A
Training...:  86% 2249/2609 [2:19:18<06:44,  1.12s/it][A
Training...:  86% 2250/2609 [2:19:19<05:39,  1.06it/s][A
Training...:  86% 2251/2609 [2:19:26<16:44,  2.81s/it][A
Training...:  86% 2252/2609 [2:19:33<24:20,  4.09s/it][A
Training...:  86% 2253/2609 [2:19:40<28:39,  4.83s/it][A
Training...:  86% 2254/2609 [2:19:46<30:55,  5.23s/it][A
Training...:  86% 2255/2609 [2:19:52<32:09,  5.45s/it][A
Training...:  86% 2256/2609 [2:19:57<32:35,  5.54s/it][A
Training...:  87% 2257/2609 [2:20:03<32:29,  5.54s/it][A
Training...:  87% 2258/2609 [2:20:08<31:54,  5.45s/it][A
Training...:  87% 2259/2609 [2:20:13<31:13,  5.35s/it][A
Training...:  87% 2260/2609 [2:20:18<30:28,  5.24s/it][A
Training...:  87% 2261/2609 [2:20:23<29:41,  5.12s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:21:23<33:07:15, 9171.96s/it]
Training...:  87% 2261/2609 [2:20:29<29:41,  5.12s/it][A
Training...:  87% 2262/2609 [2:20:29<30:06,  5.21s/it][A
Training...:  87% 2263/2609 [2:20:33<29:04,  5.04s/it][A
Training...:  87% 2264/2609 [2:20:38<27:53,  4.85s/it][A
Training...:  87% 2265/2609 [2:20:42<26:51,  4.68s/it][A
Training...:  87% 2266/2609 [2:20:46<25:45,  4.51s/it][A
Training...:  87% 2267/2609 [2:20:50<24:55,  4.37s/it][A
Training...:  87% 2268/2609 [2:20:54<24:00,  4.23s/it][A
Training...:  87% 2269/2609 [2:20:58<23:21,  4.12s/it][A
Training...:  87% 2270/2609 [2:21:02<22:40,  4.01s/it][A
Training...:  87% 2271/2609 [2:21:05<22:13,  3.95s/it][A
Training...:  87% 2272/2609 [2:21:09<21:29,  3.83s/it][A
Training...:  87% 2273/2609 [2:21:12<20:41,  3.69s/it][A
Training...:  87% 2274/2609 [2:21:16<20:01,  3.59s/it][A
Training...:  87% 2275/2609 [2:21:19<19:19,  3.47s/it][A
Training...:  87% 2276/2609 [2:21:22<18:37,  3.36s/it][A
Training...:  87% 2277/2609 [2:21:25<18:01,  3.26s/it][A
Training...:  87% 2278/2609 [2:21:28<17:28,  3.17s/it][A
Training...:  87% 2279/2609 [2:21:31<16:52,  3.07s/it][A
Training...:  87% 2280/2609 [2:21:34<16:18,  2.98s/it][A
Training...:  87% 2281/2609 [2:21:36<15:44,  2.88s/it][A
Training...:  87% 2282/2609 [2:21:39<15:13,  2.79s/it][A
Training...:  88% 2283/2609 [2:21:41<14:42,  2.71s/it][A
Training...:  88% 2284/2609 [2:21:44<14:07,  2.61s/it][A
Training...:  88% 2285/2609 [2:21:46<13:35,  2.52s/it][A
Training...:  88% 2286/2609 [2:21:48<13:03,  2.42s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:22:46<33:07:15, 9171.96s/it]
Training...:  88% 2286/2609 [2:21:51<13:03,  2.42s/it][A
Training...:  88% 2287/2609 [2:21:51<13:11,  2.46s/it][A
Training...:  88% 2288/2609 [2:21:53<12:29,  2.34s/it][A
Training...:  88% 2289/2609 [2:21:55<11:51,  2.22s/it][A
Training...:  88% 2290/2609 [2:21:57<11:16,  2.12s/it][A
Training...:  88% 2291/2609 [2:21:58<10:43,  2.02s/it][A
Training...:  88% 2292/2609 [2:22:00<10:08,  1.92s/it][A
Training...:  88% 2293/2609 [2:22:02<09:31,  1.81s/it][A
Training...:  88% 2294/2609 [2:22:03<08:56,  1.70s/it][A
Training...:  88% 2295/2609 [2:22:04<08:21,  1.60s/it][A
Training...:  88% 2296/2609 [2:22:06<07:44,  1.48s/it][A
Training...:  88% 2297/2609 [2:22:07<07:06,  1.37s/it][A
Training...:  88% 2298/2609 [2:22:08<06:22,  1.23s/it][A
Training...:  88% 2299/2609 [2:22:08<05:37,  1.09s/it][A
Training...:  88% 2300/2609 [2:22:09<04:43,  1.09it/s][A
Training...:  88% 2301/2609 [2:22:16<14:19,  2.79s/it][A
Training...:  88% 2302/2609 [2:22:23<20:49,  4.07s/it][A
Training...:  88% 2303/2609 [2:22:30<24:31,  4.81s/it][A
Training...:  88% 2304/2609 [2:22:36<26:30,  5.21s/it][A
Training...:  88% 2305/2609 [2:22:42<27:29,  5.43s/it][A
Training...:  88% 2306/2609 [2:22:47<27:43,  5.49s/it][A
Training...:  88% 2307/2609 [2:22:53<27:34,  5.48s/it][A
Training...:  88% 2308/2609 [2:22:58<27:05,  5.40s/it][A
Training...:  89% 2309/2609 [2:23:03<26:35,  5.32s/it][A
Training...:  89% 2310/2609 [2:23:08<25:54,  5.20s/it][A
Training...:  89% 2311/2609 [2:23:13<25:12,  5.07s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:24:13<33:07:15, 9171.96s/it]
Training...:  89% 2311/2609 [2:23:18<25:12,  5.07s/it][A
Training...:  89% 2312/2609 [2:23:18<25:29,  5.15s/it][A
Training...:  89% 2313/2609 [2:23:23<24:38,  4.99s/it][A
Training...:  89% 2314/2609 [2:23:27<23:37,  4.81s/it][A
Training...:  89% 2315/2609 [2:23:32<22:49,  4.66s/it][A
Training...:  89% 2316/2609 [2:23:36<22:05,  4.52s/it][A
Training...:  89% 2317/2609 [2:23:40<21:32,  4.43s/it][A
Training...:  89% 2318/2609 [2:23:44<20:41,  4.27s/it][A
Training...:  89% 2319/2609 [2:23:48<19:58,  4.13s/it][A
Training...:  89% 2320/2609 [2:23:51<19:13,  3.99s/it][A
Training...:  89% 2321/2609 [2:23:55<18:34,  3.87s/it][A
Training...:  89% 2322/2609 [2:23:58<17:58,  3.76s/it][A
Training...:  89% 2323/2609 [2:24:02<17:26,  3.66s/it][A
Training...:  89% 2324/2609 [2:24:05<16:52,  3.55s/it][A
Training...:  89% 2325/2609 [2:24:08<16:20,  3.45s/it][A
Training...:  89% 2326/2609 [2:24:12<15:46,  3.34s/it][A
Training...:  89% 2327/2609 [2:24:15<15:17,  3.25s/it][A
Training...:  89% 2328/2609 [2:24:17<14:46,  3.15s/it][A
Training...:  89% 2329/2609 [2:24:20<14:19,  3.07s/it][A
Training...:  89% 2330/2609 [2:24:23<13:48,  2.97s/it][A
Training...:  89% 2331/2609 [2:24:26<13:28,  2.91s/it][A
Training...:  89% 2332/2609 [2:24:28<12:59,  2.81s/it][A
Training...:  89% 2333/2609 [2:24:31<12:35,  2.74s/it][A
Training...:  89% 2334/2609 [2:24:33<12:10,  2.65s/it][A
Training...:  89% 2335/2609 [2:24:36<11:42,  2.56s/it][A
Training...:  90% 2336/2609 [2:24:38<11:26,  2.51s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:25:36<33:07:15, 9171.96s/it]
Training...:  90% 2336/2609 [2:24:41<11:26,  2.51s/it][A
Training...:  90% 2337/2609 [2:24:41<11:34,  2.55s/it][A
Training...:  90% 2338/2609 [2:24:43<10:55,  2.42s/it][A
Training...:  90% 2339/2609 [2:24:45<10:20,  2.30s/it][A
Training...:  90% 2340/2609 [2:24:47<09:47,  2.18s/it][A
Training...:  90% 2341/2609 [2:24:49<09:15,  2.07s/it][A
Training...:  90% 2342/2609 [2:24:50<08:45,  1.97s/it][A
Training...:  90% 2343/2609 [2:24:52<08:18,  1.87s/it][A
Training...:  90% 2344/2609 [2:24:54<07:51,  1.78s/it][A
Training...:  90% 2345/2609 [2:24:55<07:19,  1.66s/it][A
Training...:  90% 2346/2609 [2:24:56<06:47,  1.55s/it][A
Training...:  90% 2347/2609 [2:24:57<06:15,  1.43s/it][A
Training...:  90% 2348/2609 [2:24:58<05:39,  1.30s/it][A
Training...:  90% 2349/2609 [2:24:59<04:58,  1.15s/it][A
Training...:  90% 2350/2609 [2:25:00<04:09,  1.04it/s][A
Training...:  90% 2351/2609 [2:25:07<12:04,  2.81s/it][A
Training...:  90% 2352/2609 [2:25:14<17:29,  4.08s/it][A
Training...:  90% 2353/2609 [2:25:21<20:41,  4.85s/it][A
Training...:  90% 2354/2609 [2:25:27<22:38,  5.33s/it][A
Training...:  90% 2355/2609 [2:25:33<23:26,  5.54s/it][A
Training...:  90% 2356/2609 [2:25:39<23:39,  5.61s/it][A
Training...:  90% 2357/2609 [2:25:44<23:32,  5.61s/it][A
Training...:  90% 2358/2609 [2:25:50<23:01,  5.50s/it][A
Training...:  90% 2359/2609 [2:25:55<22:33,  5.41s/it][A
Training...:  90% 2360/2609 [2:26:00<22:11,  5.35s/it][A
Training...:  90% 2361/2609 [2:26:05<21:38,  5.23s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:27:05<33:07:15, 9171.96s/it]
Training...:  90% 2361/2609 [2:26:10<21:38,  5.23s/it][A
Training...:  91% 2362/2609 [2:26:10<21:46,  5.29s/it][A
Training...:  91% 2363/2609 [2:26:15<20:53,  5.10s/it][A
Training...:  91% 2364/2609 [2:26:20<20:00,  4.90s/it][A
Training...:  91% 2365/2609 [2:26:24<19:10,  4.72s/it][A
Training...:  91% 2366/2609 [2:26:28<18:20,  4.53s/it][A
Training...:  91% 2367/2609 [2:26:32<17:37,  4.37s/it][A
Training...:  91% 2368/2609 [2:26:36<16:57,  4.22s/it][A
Training...:  91% 2369/2609 [2:26:40<16:26,  4.11s/it][A
Training...:  91% 2370/2609 [2:26:43<15:51,  3.98s/it][A
Training...:  91% 2371/2609 [2:26:47<15:20,  3.87s/it][A
Training...:  91% 2372/2609 [2:26:50<14:45,  3.74s/it][A
Training...:  91% 2373/2609 [2:26:54<14:16,  3.63s/it][A
Training...:  91% 2374/2609 [2:26:57<13:49,  3.53s/it][A
Training...:  91% 2375/2609 [2:27:00<13:28,  3.45s/it][A
Training...:  91% 2376/2609 [2:27:03<13:02,  3.36s/it][A
Training...:  91% 2377/2609 [2:27:07<12:37,  3.27s/it][A
Training...:  91% 2378/2609 [2:27:10<12:15,  3.19s/it][A
Training...:  91% 2379/2609 [2:27:12<11:54,  3.11s/it][A
Training...:  91% 2380/2609 [2:27:15<11:32,  3.03s/it][A
Training...:  91% 2381/2609 [2:27:18<11:11,  2.95s/it][A
Training...:  91% 2382/2609 [2:27:21<10:46,  2.85s/it][A
Training...:  91% 2383/2609 [2:27:23<10:25,  2.77s/it][A
Training...:  91% 2384/2609 [2:27:26<10:01,  2.67s/it][A
Training...:  91% 2385/2609 [2:27:28<09:41,  2.59s/it][A
Training...:  91% 2386/2609 [2:27:30<09:17,  2.50s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:28:28<33:07:15, 9171.96s/it]
Training...:  91% 2386/2609 [2:27:33<09:17,  2.50s/it][A
Training...:  91% 2387/2609 [2:27:33<09:23,  2.54s/it][A
Training...:  92% 2388/2609 [2:27:35<08:56,  2.43s/it][A
Training...:  92% 2389/2609 [2:27:37<08:30,  2.32s/it][A
Training...:  92% 2390/2609 [2:27:39<08:02,  2.20s/it][A
Training...:  92% 2391/2609 [2:27:41<07:38,  2.10s/it][A
Training...:  92% 2392/2609 [2:27:43<07:11,  1.99s/it][A
Training...:  92% 2393/2609 [2:27:44<06:46,  1.88s/it][A
Training...:  92% 2394/2609 [2:27:46<06:19,  1.77s/it][A
Training...:  92% 2395/2609 [2:27:47<05:54,  1.65s/it][A
Training...:  92% 2396/2609 [2:27:49<05:26,  1.53s/it][A
Training...:  92% 2397/2609 [2:27:50<04:57,  1.40s/it][A
Training...:  92% 2398/2609 [2:27:51<04:27,  1.27s/it][A
Training...:  92% 2399/2609 [2:27:51<03:56,  1.12s/it][A
Training...:  92% 2400/2609 [2:27:52<03:21,  1.04it/s][A
Training...:  92% 2401/2609 [2:27:59<09:50,  2.84s/it][A
Training...:  92% 2402/2609 [2:28:06<14:13,  4.12s/it][A
Training...:  92% 2403/2609 [2:28:13<16:44,  4.88s/it][A
Training...:  92% 2404/2609 [2:28:19<18:06,  5.30s/it][A
Training...:  92% 2405/2609 [2:28:25<18:42,  5.50s/it][A
Training...:  92% 2406/2609 [2:28:31<18:50,  5.57s/it][A
Training...:  92% 2407/2609 [2:28:37<18:44,  5.57s/it][A
Training...:  92% 2408/2609 [2:28:42<18:19,  5.47s/it][A
Training...:  92% 2409/2609 [2:28:47<18:09,  5.45s/it][A
Training...:  92% 2410/2609 [2:28:52<17:47,  5.36s/it][A
Training...:  92% 2411/2609 [2:28:57<17:18,  5.25s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:29:58<33:07:15, 9171.96s/it]
Training...:  92% 2411/2609 [2:29:03<17:18,  5.25s/it][A
Training...:  92% 2412/2609 [2:29:03<17:31,  5.34s/it][A
Training...:  92% 2413/2609 [2:29:08<16:50,  5.15s/it][A
Training...:  93% 2414/2609 [2:29:12<16:01,  4.93s/it][A
Training...:  93% 2415/2609 [2:29:16<15:24,  4.76s/it][A
Training...:  93% 2416/2609 [2:29:21<14:47,  4.60s/it][A
Training...:  93% 2417/2609 [2:29:25<14:16,  4.46s/it][A
Training...:  93% 2418/2609 [2:29:29<13:46,  4.33s/it][A
Training...:  93% 2419/2609 [2:29:33<13:19,  4.21s/it][A
Training...:  93% 2420/2609 [2:29:36<12:51,  4.08s/it][A
Training...:  93% 2421/2609 [2:29:40<12:22,  3.95s/it][A
Training...:  93% 2422/2609 [2:29:44<11:56,  3.83s/it][A
Training...:  93% 2423/2609 [2:29:47<11:32,  3.72s/it][A
Training...:  93% 2424/2609 [2:29:50<11:08,  3.61s/it][A
Training...:  93% 2425/2609 [2:29:54<10:47,  3.52s/it][A
Training...:  93% 2426/2609 [2:29:57<10:26,  3.42s/it][A
Training...:  93% 2427/2609 [2:30:00<10:04,  3.32s/it][A
Training...:  93% 2428/2609 [2:30:03<09:45,  3.23s/it][A
Training...:  93% 2429/2609 [2:30:06<09:26,  3.15s/it][A
Training...:  93% 2430/2609 [2:30:09<09:07,  3.06s/it][A
Training...:  93% 2431/2609 [2:30:12<08:50,  2.98s/it][A
Training...:  93% 2432/2609 [2:30:14<08:30,  2.88s/it][A
Training...:  93% 2433/2609 [2:30:17<08:11,  2.79s/it][A
Training...:  93% 2434/2609 [2:30:19<07:54,  2.71s/it][A
Training...:  93% 2435/2609 [2:30:22<07:36,  2.63s/it][A
Training...:  93% 2436/2609 [2:30:24<07:21,  2.55s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:31:22<33:07:15, 9171.96s/it]
Training...:  93% 2436/2609 [2:30:27<07:21,  2.55s/it][A
Training...:  93% 2437/2609 [2:30:27<07:26,  2.60s/it][A
Training...:  93% 2438/2609 [2:30:29<07:00,  2.46s/it][A
Training...:  93% 2439/2609 [2:30:31<06:35,  2.33s/it][A
Training...:  94% 2440/2609 [2:30:33<06:13,  2.21s/it][A
Training...:  94% 2441/2609 [2:30:35<05:52,  2.10s/it][A
Training...:  94% 2442/2609 [2:30:37<05:34,  2.01s/it][A
Training...:  94% 2443/2609 [2:30:38<05:16,  1.91s/it][A
Training...:  94% 2444/2609 [2:30:40<04:59,  1.81s/it][A
Training...:  94% 2445/2609 [2:30:41<04:40,  1.71s/it][A
Training...:  94% 2446/2609 [2:30:43<04:20,  1.60s/it][A
Training...:  94% 2447/2609 [2:30:44<04:00,  1.48s/it][A
Training...:  94% 2448/2609 [2:30:45<03:38,  1.36s/it][A
Training...:  94% 2449/2609 [2:30:46<03:11,  1.20s/it][A
Training...:  94% 2450/2609 [2:30:46<02:40,  1.01s/it][A
Training...:  94% 2451/2609 [2:30:54<07:36,  2.89s/it][A
Training...:  94% 2452/2609 [2:31:01<10:54,  4.17s/it][A
Training...:  94% 2453/2609 [2:31:07<12:40,  4.87s/it][A
Training...:  94% 2454/2609 [2:31:14<13:37,  5.28s/it][A
Training...:  94% 2455/2609 [2:31:19<14:00,  5.46s/it][A
Training...:  94% 2456/2609 [2:31:25<14:04,  5.52s/it][A
Training...:  94% 2457/2609 [2:31:31<13:54,  5.49s/it][A
Training...:  94% 2458/2609 [2:31:36<13:33,  5.39s/it][A
Training...:  94% 2459/2609 [2:31:41<13:14,  5.29s/it][A
Training...:  94% 2460/2609 [2:31:46<12:47,  5.15s/it][A
Training...:  94% 2461/2609 [2:31:50<12:26,  5.04s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:32:51<33:07:15, 9171.96s/it]
Training...:  94% 2461/2609 [2:31:56<12:26,  5.04s/it][A
Training...:  94% 2462/2609 [2:31:56<12:37,  5.15s/it][A
Training...:  94% 2463/2609 [2:32:00<12:10,  5.00s/it][A
Training...:  94% 2464/2609 [2:32:05<11:39,  4.82s/it][A
Training...:  94% 2465/2609 [2:32:09<11:12,  4.67s/it][A
Training...:  95% 2466/2609 [2:32:13<10:46,  4.52s/it][A
Training...:  95% 2467/2609 [2:32:17<10:23,  4.39s/it][A
Training...:  95% 2468/2609 [2:32:21<10:00,  4.26s/it][A
Training...:  95% 2469/2609 [2:32:25<09:44,  4.18s/it][A
Training...:  95% 2470/2609 [2:32:29<09:27,  4.08s/it][A
Training...:  95% 2471/2609 [2:32:33<09:04,  3.95s/it][A
Training...:  95% 2472/2609 [2:32:36<08:44,  3.83s/it][A
Training...:  95% 2473/2609 [2:32:40<08:26,  3.73s/it][A
Training...:  95% 2474/2609 [2:32:43<08:08,  3.62s/it][A
Training...:  95% 2475/2609 [2:32:46<07:47,  3.49s/it][A
Training...:  95% 2476/2609 [2:32:50<07:29,  3.38s/it][A
Training...:  95% 2477/2609 [2:32:53<07:11,  3.27s/it][A
Training...:  95% 2478/2609 [2:32:55<06:55,  3.17s/it][A
Training...:  95% 2479/2609 [2:32:58<06:41,  3.09s/it][A
Training...:  95% 2480/2609 [2:33:01<06:26,  3.00s/it][A
Training...:  95% 2481/2609 [2:33:04<06:11,  2.90s/it][A
Training...:  95% 2482/2609 [2:33:06<05:57,  2.82s/it][A
Training...:  95% 2483/2609 [2:33:09<05:43,  2.72s/it][A
Training...:  95% 2484/2609 [2:33:11<05:28,  2.63s/it][A
Training...:  95% 2485/2609 [2:33:14<05:15,  2.54s/it][A
Training...:  95% 2486/2609 [2:33:16<05:03,  2.46s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:34:13<33:07:15, 9171.96s/it]
Training...:  95% 2486/2609 [2:33:19<05:03,  2.46s/it][A
Training...:  95% 2487/2609 [2:33:19<05:05,  2.50s/it][A
Training...:  95% 2488/2609 [2:33:21<04:47,  2.38s/it][A
Training...:  95% 2489/2609 [2:33:23<04:31,  2.27s/it][A
Training...:  95% 2490/2609 [2:33:25<04:17,  2.17s/it][A
Training...:  95% 2491/2609 [2:33:26<04:04,  2.08s/it][A
Training...:  96% 2492/2609 [2:33:28<03:50,  1.97s/it][A
Training...:  96% 2493/2609 [2:33:30<03:38,  1.88s/it][A
Training...:  96% 2494/2609 [2:33:31<03:25,  1.79s/it][A
Training...:  96% 2495/2609 [2:33:33<03:11,  1.68s/it][A
Training...:  96% 2496/2609 [2:33:34<02:57,  1.57s/it][A
Training...:  96% 2497/2609 [2:33:35<02:41,  1.45s/it][A
Training...:  96% 2498/2609 [2:33:36<02:26,  1.32s/it][A
Training...:  96% 2499/2609 [2:33:37<02:09,  1.18s/it][A
Training...:  96% 2500/2609 [2:33:38<01:47,  1.01it/s][A
Training...:  96% 2501/2609 [2:33:45<05:04,  2.82s/it][A
Training...:  96% 2502/2609 [2:33:52<07:19,  4.11s/it][A
Training...:  96% 2503/2609 [2:33:59<08:32,  4.83s/it][A
Training...:  96% 2504/2609 [2:34:05<09:13,  5.27s/it][A
Training...:  96% 2505/2609 [2:34:11<09:33,  5.51s/it][A
Training...:  96% 2506/2609 [2:34:17<09:33,  5.57s/it][A
Training...:  96% 2507/2609 [2:34:22<09:33,  5.62s/it][A
Training...:  96% 2508/2609 [2:34:28<09:22,  5.57s/it][A
Training...:  96% 2509/2609 [2:34:33<09:06,  5.47s/it][A
Training...:  96% 2510/2609 [2:34:38<08:44,  5.29s/it][A
Training...:  96% 2511/2609 [2:34:43<08:25,  5.16s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:35:43<33:07:15, 9171.96s/it]
Training...:  96% 2511/2609 [2:34:48<08:25,  5.16s/it][A
Training...:  96% 2512/2609 [2:34:48<08:24,  5.20s/it][A
Training...:  96% 2513/2609 [2:34:53<08:01,  5.02s/it][A
Training...:  96% 2514/2609 [2:34:57<07:38,  4.83s/it][A
Training...:  96% 2515/2609 [2:35:01<07:19,  4.67s/it][A
Training...:  96% 2516/2609 [2:35:05<07:00,  4.52s/it][A
Training...:  96% 2517/2609 [2:35:10<06:43,  4.38s/it][A
Training...:  97% 2518/2609 [2:35:14<06:27,  4.26s/it][A
Training...:  97% 2519/2609 [2:35:17<06:13,  4.14s/it][A
Training...:  97% 2520/2609 [2:35:21<05:58,  4.03s/it][A
Training...:  97% 2521/2609 [2:35:25<05:45,  3.93s/it][A
Training...:  97% 2522/2609 [2:35:28<05:32,  3.82s/it][A
Training...:  97% 2523/2609 [2:35:32<05:20,  3.72s/it][A
Training...:  97% 2524/2609 [2:35:35<05:07,  3.62s/it][A
Training...:  97% 2525/2609 [2:35:39<04:57,  3.54s/it][A
Training...:  97% 2526/2609 [2:35:42<04:47,  3.46s/it][A
Training...:  97% 2527/2609 [2:35:45<04:36,  3.37s/it][A
Training...:  97% 2528/2609 [2:35:48<04:24,  3.27s/it][A
Training...:  97% 2529/2609 [2:35:51<04:15,  3.19s/it][A
Training...:  97% 2530/2609 [2:35:54<04:04,  3.10s/it][A
Training...:  97% 2531/2609 [2:35:57<03:54,  3.01s/it][A
Training...:  97% 2532/2609 [2:36:00<03:45,  2.92s/it][A
Training...:  97% 2533/2609 [2:36:02<03:34,  2.83s/it][A
Training...:  97% 2534/2609 [2:36:05<03:24,  2.73s/it][A
Training...:  97% 2535/2609 [2:36:07<03:15,  2.65s/it][A
Training...:  97% 2536/2609 [2:36:09<03:06,  2.55s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:37:07<33:07:15, 9171.96s/it]
Training...:  97% 2536/2609 [2:36:12<03:06,  2.55s/it][A
Training...:  97% 2537/2609 [2:36:12<03:06,  2.59s/it][A
Training...:  97% 2538/2609 [2:36:14<02:53,  2.45s/it][A
Training...:  97% 2539/2609 [2:36:16<02:42,  2.33s/it][A
Training...:  97% 2540/2609 [2:36:18<02:32,  2.21s/it][A
Training...:  97% 2541/2609 [2:36:20<02:22,  2.09s/it][A
Training...:  97% 2542/2609 [2:36:22<02:13,  1.99s/it][A
Training...:  97% 2543/2609 [2:36:23<02:05,  1.90s/it][A
Training...:  98% 2544/2609 [2:36:25<01:56,  1.78s/it][A
Training...:  98% 2545/2609 [2:36:26<01:47,  1.68s/it][A
Training...:  98% 2546/2609 [2:36:28<01:38,  1.56s/it][A
Training...:  98% 2547/2609 [2:36:29<01:29,  1.44s/it][A
Training...:  98% 2548/2609 [2:36:30<01:19,  1.30s/it][A
Training...:  98% 2549/2609 [2:36:31<01:08,  1.15s/it][A
Training...:  98% 2550/2609 [2:36:31<00:57,  1.03it/s][A
Training...:  98% 2551/2609 [2:36:39<02:49,  2.92s/it][A
Training...:  98% 2552/2609 [2:36:46<03:59,  4.20s/it][A
Training...:  98% 2553/2609 [2:36:52<04:36,  4.93s/it][A
Training...:  98% 2554/2609 [2:36:59<04:56,  5.39s/it][A
Training...:  98% 2555/2609 [2:37:05<05:03,  5.62s/it][A
Training...:  98% 2556/2609 [2:37:11<04:59,  5.66s/it][A
Training...:  98% 2557/2609 [2:37:16<04:53,  5.65s/it][A
Training...:  98% 2558/2609 [2:37:22<04:42,  5.54s/it][A
Training...:  98% 2559/2609 [2:37:27<04:32,  5.45s/it][A
Training...:  98% 2560/2609 [2:37:32<04:19,  5.30s/it][A
Training...:  98% 2561/2609 [2:37:37<04:08,  5.17s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:38:37<33:07:15, 9171.96s/it]
Training...:  98% 2561/2609 [2:37:42<04:08,  5.17s/it][A
Training...:  98% 2562/2609 [2:37:42<04:06,  5.25s/it][A
Training...:  98% 2563/2609 [2:37:47<03:53,  5.08s/it][A
Training...:  98% 2564/2609 [2:37:51<03:38,  4.86s/it][A
Training...:  98% 2565/2609 [2:37:56<03:26,  4.68s/it][A
Training...:  98% 2566/2609 [2:38:00<03:14,  4.51s/it][A
Training...:  98% 2567/2609 [2:38:04<03:03,  4.37s/it][A
Training...:  98% 2568/2609 [2:38:08<02:53,  4.24s/it][A
Training...:  98% 2569/2609 [2:38:11<02:44,  4.11s/it][A
Training...:  99% 2570/2609 [2:38:15<02:35,  3.98s/it][A
Training...:  99% 2571/2609 [2:38:19<02:27,  3.87s/it][A
Training...:  99% 2572/2609 [2:38:22<02:19,  3.76s/it][A
Training...:  99% 2573/2609 [2:38:26<02:12,  3.68s/it][A
Training...:  99% 2574/2609 [2:38:29<02:07,  3.63s/it][A
Training...:  99% 2575/2609 [2:38:33<02:00,  3.54s/it][A
Training...:  99% 2576/2609 [2:38:36<01:53,  3.43s/it][A
Training...:  99% 2577/2609 [2:38:39<01:46,  3.33s/it][A
Training...:  99% 2578/2609 [2:38:42<01:39,  3.22s/it][A
Training...:  99% 2579/2609 [2:38:45<01:33,  3.13s/it][A
Training...:  99% 2580/2609 [2:38:48<01:28,  3.05s/it][A
Training...:  99% 2581/2609 [2:38:50<01:23,  2.97s/it][A
Training...:  99% 2582/2609 [2:38:53<01:17,  2.86s/it][A
Training...:  99% 2583/2609 [2:38:56<01:12,  2.78s/it][A
Training...:  99% 2584/2609 [2:38:58<01:06,  2.68s/it][A
Training...:  99% 2585/2609 [2:39:00<01:02,  2.60s/it][A
Training...:  99% 2586/2609 [2:39:03<00:57,  2.51s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  35% 7/20 [20:40:00<33:07:15, 9171.96s/it]
Training...:  99% 2586/2609 [2:39:05<00:57,  2.51s/it][A
Training...:  99% 2587/2609 [2:39:05<00:56,  2.55s/it][A
Training...:  99% 2588/2609 [2:39:08<00:51,  2.45s/it][A
Training...:  99% 2589/2609 [2:39:10<00:46,  2.34s/it][A
Training...:  99% 2590/2609 [2:39:12<00:42,  2.23s/it][A
Training...:  99% 2591/2609 [2:39:13<00:38,  2.12s/it][A
Training...:  99% 2592/2609 [2:39:15<00:34,  2.02s/it][A
Training...:  99% 2593/2609 [2:39:17<00:30,  1.93s/it][A
Training...:  99% 2594/2609 [2:39:19<00:27,  1.83s/it][A
Training...:  99% 2595/2609 [2:39:20<00:24,  1.72s/it][A
Training...: 100% 2596/2609 [2:39:21<00:20,  1.61s/it][A
Training...: 100% 2597/2609 [2:39:23<00:18,  1.53s/it][A
Training...: 100% 2598/2609 [2:39:24<00:15,  1.38s/it][A
Training...: 100% 2599/2609 [2:39:25<00:12,  1.23s/it][A
Training...: 100% 2600/2609 [2:39:25<00:09,  1.04s/it][A
Training...: 100% 2601/2609 [2:39:32<00:21,  2.66s/it][A
Training...: 100% 2602/2609 [2:39:37<00:24,  3.52s/it][A
Training...: 100% 2603/2609 [2:39:42<00:23,  3.92s/it][A
Training...: 100% 2604/2609 [2:39:46<00:19,  3.96s/it][A
Training...: 100% 2605/2609 [2:39:50<00:15,  3.83s/it][A
Training...: 100% 2606/2609 [2:39:53<00:10,  3.59s/it][A
Training...: 100% 2607/2609 [2:39:55<00:06,  3.27s/it][A
Training...: 100% 2608/2609 [2:39:57<00:02,  2.91s/it][A
Training...: 100% 2609/2609 [2:39:59<00:00,  2.52s/it][ATraining...: 100% 2609/2609 [2:39:59<00:00,  3.68s/it]
Step... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [20:40:54<31:01:41, 9308.44s/it]
Training...:   0% 0/2609 [00:00<?, ?it/s][AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |)
Step... (20025 | Loss: 0.09149631857872009, Learning Rate: 6.055757694412023e-05, Gradient Norm: 0.7384137511253357)
Step... (20050 | Loss: 0.08978195488452911, Learning Rate: 6.0507070884341374e-05, Gradient Norm: 1.9343560934066772)
Step... (20075 | Loss: 0.09561243653297424, Learning Rate: 6.045656118658371e-05, Gradient Norm: 0.7390120625495911)
Step... (20100 | Loss: 0.03605031594634056, Learning Rate: 6.040606240276247e-05, Gradient Norm: 0.710425615310669)
Step... (20125 | Loss: 0.08503847569227219, Learning Rate: 6.035555270500481e-05, Gradient Norm: 0.5884129405021667)
Step... (20150 | Loss: 0.048879750072956085, Learning Rate: 6.030504664522596e-05, Gradient Norm: 0.6115161180496216)
Step... (20175 | Loss: 0.08863285928964615, Learning Rate: 6.025454786140472e-05, Gradient Norm: 0.6054977178573608)
Step... (20200 | Loss: 0.056122977286577225, Learning Rate: 6.0204038163647056e-05, Gradient Norm: 0.6645819544792175)
Step... (20225 | Loss: 0.0912477895617485, Learning Rate: 6.01535321038682e-05, Gradient Norm: 0.5958459973335266)
Step... (20250 | Loss: 0.05208130180835724, Learning Rate: 6.010303332004696e-05, Gradient Norm: 0.5309245586395264)
Step... (20275 | Loss: 0.07005990296602249, Learning Rate: 6.00525236222893e-05, Gradient Norm: 0.507560670375824)
Step... (20300 | Loss: 0.059703364968299866, Learning Rate: 6.000201392453164e-05, Gradient Norm: 0.5787741541862488)
Step... (20325 | Loss: 0.0749104917049408, Learning Rate: 5.995151150273159e-05, Gradient Norm: 0.5960483551025391)
Step... (20350 | Loss: 0.05213150754570961, Learning Rate: 5.9901009080931544e-05, Gradient Norm: 0.7831963300704956)
Step... (20375 | Loss: 0.07849294692277908, Learning Rate: 5.985049938317388e-05, Gradient Norm: 0.6459991931915283)
Step... (20400 | Loss: 0.03710385784506798, Learning Rate: 5.9799996961373836e-05, Gradient Norm: 0.641556978225708)
Step... (20425 | Loss: 0.10929609090089798, Learning Rate: 5.974949453957379e-05, Gradient Norm: 0.8831893801689148)
Step... (20450 | Loss: 0.056935206055641174, Learning Rate: 5.969898484181613e-05, Gradient Norm: 0.588900089263916)
Step... (20475 | Loss: 0.10225586593151093, Learning Rate: 5.964848242001608e-05, Gradient Norm: 0.5922262072563171)
Step... (20500 | Loss: 0.033970028162002563, Learning Rate: 5.959797999821603e-05, Gradient Norm: 0.5680065155029297)
Step... (20525 | Loss: 0.08721073716878891, Learning Rate: 5.954747030045837e-05, Gradient Norm: 0.6871005296707153)
Step... (20550 | Loss: 0.06091572716832161, Learning Rate: 5.9496967878658324e-05, Gradient Norm: 0.7371277809143066)
Step... (20575 | Loss: 0.10164675116539001, Learning Rate: 5.944646545685828e-05, Gradient Norm: 0.6178098320960999)
Step... (20600 | Loss: 0.06875435262918472, Learning Rate: 5.9395955759100616e-05, Gradient Norm: 0.8679134249687195)
Step... (20625 | Loss: 0.09900149703025818, Learning Rate: 5.934545333730057e-05, Gradient Norm: 0.6892054677009583)
Step... (20650 | Loss: 0.0569828636944294, Learning Rate: 5.929495091550052e-05, Gradient Norm: 0.5693532824516296)
Step... (20675 | Loss: 0.06829430907964706, Learning Rate: 5.924444121774286e-05, Gradient Norm: 0.5553508996963501)
Step... (20700 | Loss: 0.05468185991048813, Learning Rate: 5.919393879594281e-05, Gradient Norm: 1.2051022052764893)
Step... (20725 | Loss: 0.11011999845504761, Learning Rate: 5.914343273616396e-05, Gradient Norm: 0.705954372882843)
Step... (20750 | Loss: 0.030964700505137444, Learning Rate: 5.9092926676385105e-05, Gradient Norm: 0.5507358312606812)
Step... (20775 | Loss: 0.07703623175621033, Learning Rate: 5.904242425458506e-05, Gradient Norm: 0.6400203108787537)
Step... (20800 | Loss: 0.05032528191804886, Learning Rate: 5.89919181948062e-05, Gradient Norm: 0.8771442174911499)
Step... (20825 | Loss: 0.10210924595594406, Learning Rate: 5.894141213502735e-05, Gradient Norm: 0.6047016382217407)
Step... (20850 | Loss: 0.043624717742204666, Learning Rate: 5.8890906075248495e-05, Gradient Norm: 0.5551105737686157)

Training...:   0% 1/2609 [00:07<5:10:07,  7.13s/it][A
Training...:   0% 2/2609 [00:14<5:04:26,  7.01s/it][A                                                                                                                                                                  
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [20:41:17<31:01:41, 9308.44s/it]
Training...:   0% 2/2609 [00:21<5:04:26,  7.01s/it][A
Training...:   0% 3/2609 [00:21<5:16:06,  7.28s/it][A
Training...:   0% 4/2609 [00:27<4:57:04,  6.84s/it][A
Training...:   0% 5/2609 [00:33<4:41:19,  6.48s/it][A
Training...:   0% 6/2609 [00:39<4:27:03,  6.16s/it][A
Training...:   0% 7/2609 [00:44<4:15:07,  5.88s/it][A
Training...:   0% 8/2609 [00:49<4:04:55,  5.65s/it][A
Training...:   0% 9/2609 [00:54<3:56:03,  5.45s/it][A
Training...:   0% 10/2609 [00:59<3:47:04,  5.24s/it][A
Training...:   0% 11/2609 [01:04<3:41:35,  5.12s/it][A
Training...:   0% 12/2609 [01:08<3:35:10,  4.97s/it][A
Training...:   0% 13/2609 [01:13<3:28:23,  4.82s/it][A
Training...:   1% 14/2609 [01:17<3:22:07,  4.67s/it][A
Training...:   1% 15/2609 [01:22<3:16:51,  4.55s/it][A
Training...:   1% 16/2609 [01:26<3:10:06,  4.40s/it][A
Training...:   1% 17/2609 [01:30<3:05:01,  4.28s/it][A
Training...:   1% 18/2609 [01:33<2:59:16,  4.15s/it][A
Training...:   1% 19/2609 [01:37<2:54:55,  4.05s/it][A
Training...:   1% 20/2609 [01:41<2:49:38,  3.93s/it][A
Training...:   1% 21/2609 [01:44<2:44:49,  3.82s/it][A
Training...:   1% 22/2609 [01:48<2:40:22,  3.72s/it][A
Training...:   1% 23/2609 [01:51<2:36:30,  3.63s/it][A
Training...:   1% 24/2609 [01:55<2:32:51,  3.55s/it][A
Training...:   1% 25/2609 [01:58<2:29:16,  3.47s/it][A
Training...:   1% 26/2609 [02:01<2:25:37,  3.38s/it][A
Training...:   1% 27/2609 [02:04<2:21:11,  3.28s/it][A                                                                                                                                                                  
                                                    [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [20:43:03<31:01:41, 9308.44s/it]
Training...:   1% 27/2609 [02:08<2:21:11,  3.28s/it][A
Training...:   1% 28/2609 [02:08<2:23:42,  3.34s/it][A
Training...:   1% 29/2609 [02:11<2:18:17,  3.22s/it][A
Training...:   1% 30/2609 [02:13<2:13:17,  3.10s/it][A
Training...:   1% 31/2609 [02:16<2:08:06,  2.98s/it][A
Training...:   1% 32/2609 [02:19<2:03:04,  2.87s/it][A
Training...:   1% 33/2609 [02:21<1:58:41,  2.76s/it][A
Training...:   1% 34/2609 [02:24<1:54:58,  2.68s/it][A
Training...:   1% 35/2609 [02:26<1:51:19,  2.60s/it][A
Training...:   1% 36/2609 [02:28<1:47:23,  2.50s/it][A
Training...:   1% 37/2609 [02:31<1:44:18,  2.43s/it][A
Training...:   1% 38/2609 [02:33<1:39:59,  2.33s/it][A
Training...:   1% 39/2609 [02:35<1:36:21,  2.25s/it][A
Training...:   2% 40/2609 [02:37<1:32:24,  2.16s/it][A
Training...:   2% 41/2609 [02:39<1:28:39,  2.07s/it][A
Training...:   2% 42/2609 [02:40<1:24:44,  1.98s/it][A
Training...:   2% 43/2609 [02:42<1:20:55,  1.89s/it][A
Training...:   2% 44/2609 [02:44<1:16:50,  1.80s/it][A
Training...:   2% 45/2609 [02:45<1:12:13,  1.69s/it][A
Training...:   2% 46/2609 [02:46<1:07:22,  1.58s/it][A
Training...:   2% 47/2609 [02:48<1:02:13,  1.46s/it][A
Training...:   2% 48/2609 [02:49<56:47,  1.33s/it]  [A
Training...:   2% 49/2609 [02:49<50:20,  1.18s/it][A
Training...:   2% 50/2609 [02:50<42:46,  1.00s/it][A
Training...:   2% 51/2609 [02:57<2:04:28,  2.92s/it][A
Training...:   2% 52/2609 [03:05<2:57:57,  4.18s/it][A                                                                                                                                                                  
                                                    [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [20:44:08<31:01:41, 9308.44s/it]
Training...:   2% 52/2609 [03:12<2:57:57,  4.18s/it][A
Training...:   2% 53/2609 [03:12<3:42:12,  5.22s/it][A
Training...:   2% 54/2609 [03:19<3:56:35,  5.56s/it][A
Training...:   2% 55/2609 [03:25<4:02:51,  5.71s/it][A
Training...:   2% 56/2609 [03:30<4:03:31,  5.72s/it][A
Training...:   2% 57/2609 [03:36<4:03:38,  5.73s/it][A
Training...:   2% 58/2609 [03:42<4:00:11,  5.65s/it][A
Training...:   2% 59/2609 [03:47<3:55:08,  5.53s/it][A
Training...:   2% 60/2609 [03:52<3:48:23,  5.38s/it][A
Training...:   2% 61/2609 [03:57<3:42:27,  5.24s/it][A
Training...:   2% 62/2609 [04:02<3:35:58,  5.09s/it][A
Training...:   2% 63/2609 [04:06<3:30:14,  4.95s/it][A
Training...:   2% 64/2609 [04:11<3:23:56,  4.81s/it][A
Training...:   2% 65/2609 [04:15<3:18:07,  4.67s/it][A
Training...:   3% 66/2609 [04:19<3:11:50,  4.53s/it][A
Training...:   3% 67/2609 [04:23<3:06:37,  4.40s/it][A
Training...:   3% 68/2609 [04:27<3:02:07,  4.30s/it][A
Training...:   3% 69/2609 [04:31<2:57:08,  4.18s/it][A
Training...:   3% 70/2609 [04:35<2:52:14,  4.07s/it][A
Training...:   3% 71/2609 [04:39<2:47:49,  3.97s/it][A
Training...:   3% 72/2609 [04:42<2:42:39,  3.85s/it][A
Training...:   3% 73/2609 [04:46<2:38:11,  3.74s/it][A
Training...:   3% 74/2609 [04:49<2:35:05,  3.67s/it][A
Training...:   3% 75/2609 [04:53<2:32:17,  3.61s/it][A
Training...:   3% 76/2609 [04:56<2:27:06,  3.48s/it][A
Training...:   3% 77/2609 [04:59<2:22:07,  3.37s/it][A                                                                                                                                                                  
                                                    [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [20:45:58<31:01:41, 9308.44s/it]
Training...:   3% 77/2609 [05:03<2:22:07,  3.37s/it][A
Training...:   3% 78/2609 [05:03<2:24:12,  3.42s/it][A
Training...:   3% 79/2609 [05:06<2:18:05,  3.27s/it][A
Training...:   3% 80/2609 [05:09<2:13:52,  3.18s/it][A
Training...:   3% 81/2609 [05:11<2:09:24,  3.07s/it][A
Training...:   3% 82/2609 [05:14<2:04:45,  2.96s/it][A
Training...:   3% 83/2609 [05:17<2:00:17,  2.86s/it][A
Training...:   3% 84/2609 [05:19<1:55:30,  2.74s/it][A
Training...:   3% 85/2609 [05:22<1:51:20,  2.65s/it][A
Training...:   3% 86/2609 [05:24<1:47:12,  2.55s/it][A
Training...:   3% 87/2609 [05:26<1:44:14,  2.48s/it][A
Training...:   3% 88/2609 [05:28<1:39:55,  2.38s/it][A
Training...:   3% 89/2609 [05:30<1:35:58,  2.29s/it][A
Training...:   3% 90/2609 [05:32<1:32:09,  2.20s/it][A
Training...:   3% 91/2609 [05:34<1:28:04,  2.10s/it][A
Training...:   4% 92/2609 [05:36<1:23:52,  2.00s/it][A
Training...:   4% 93/2609 [05:38<1:19:36,  1.90s/it][A
Training...:   4% 94/2609 [05:39<1:15:10,  1.79s/it][A
Training...:   4% 95/2609 [05:41<1:10:26,  1.68s/it][A
Training...:   4% 96/2609 [05:42<1:05:27,  1.56s/it][A
Training...:   4% 97/2609 [05:43<1:00:46,  1.45s/it][A
Training...:   4% 98/2609 [05:44<55:09,  1.32s/it]  [A
Training...:   4% 99/2609 [05:45<49:06,  1.17s/it][A
Training...:   4% 100/2609 [05:46<41:44,  1.00it/s][A
Training...:   4% 101/2609 [05:53<1:58:47,  2.84s/it][A
Training...:   4% 102/2609 [06:00<2:54:24,  4.17s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [20:47:03<31:01:41, 9308.44s/it]
Training...:   4% 102/2609 [06:08<2:54:24,  4.17s/it][A
Training...:   4% 103/2609 [06:08<3:38:04,  5.22s/it][A
Training...:   4% 104/2609 [06:14<3:49:58,  5.51s/it][A
Training...:   4% 105/2609 [06:20<3:56:26,  5.67s/it][A
Training...:   4% 106/2609 [06:26<3:56:42,  5.67s/it][A
Training...:   4% 107/2609 [06:31<3:54:38,  5.63s/it][A
Training...:   4% 108/2609 [06:36<3:50:31,  5.53s/it][A
Training...:   4% 109/2609 [06:42<3:44:54,  5.40s/it][A
Training...:   4% 110/2609 [06:46<3:38:51,  5.25s/it][A
Training...:   4% 111/2609 [06:51<3:33:28,  5.13s/it][A
Training...:   4% 112/2609 [06:56<3:27:58,  5.00s/it][A
Training...:   4% 113/2609 [07:01<3:22:29,  4.87s/it][A
Training...:   4% 114/2609 [07:05<3:16:31,  4.73s/it][A
Training...:   4% 115/2609 [07:09<3:11:05,  4.60s/it][A
Training...:   4% 116/2609 [07:13<3:04:48,  4.45s/it][A
Training...:   4% 117/2609 [07:17<2:59:36,  4.32s/it][A
Training...:   5% 118/2609 [07:21<2:54:33,  4.20s/it][A
Training...:   5% 119/2609 [07:25<2:50:40,  4.11s/it][A
Training...:   5% 120/2609 [07:29<2:47:30,  4.04s/it][A
Training...:   5% 121/2609 [07:33<2:42:24,  3.92s/it][A
Training...:   5% 122/2609 [07:36<2:36:48,  3.78s/it][A
Training...:   5% 123/2609 [07:40<2:32:00,  3.67s/it][A
Training...:   5% 124/2609 [07:43<2:26:46,  3.54s/it][A
Training...:   5% 125/2609 [07:46<2:22:28,  3.44s/it][A
Training...:   5% 126/2609 [07:49<2:18:30,  3.35s/it][A
Training...:   5% 127/2609 [07:52<2:14:31,  3.25s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [20:48:51<31:01:41, 9308.44s/it]
Training...:   5% 127/2609 [07:56<2:14:31,  3.25s/it][A
Training...:   5% 128/2609 [07:56<2:16:55,  3.31s/it][A
Training...:   5% 129/2609 [07:58<2:11:07,  3.17s/it][A
Training...:   5% 130/2609 [08:01<2:05:56,  3.05s/it][A
Training...:   5% 131/2609 [08:04<2:01:09,  2.93s/it][A
Training...:   5% 132/2609 [08:06<1:56:25,  2.82s/it][A
Training...:   5% 133/2609 [08:09<1:52:18,  2.72s/it][A
Training...:   5% 134/2609 [08:11<1:48:20,  2.63s/it][A
Training...:   5% 135/2609 [08:14<1:44:44,  2.54s/it][A
Training...:   5% 136/2609 [08:16<1:41:10,  2.45s/it][A
Training...:   5% 137/2609 [08:18<1:37:41,  2.37s/it][A
Training...:   5% 138/2609 [08:20<1:34:13,  2.29s/it][A
Training...:   5% 139/2609 [08:22<1:30:34,  2.20s/it][A
Training...:   5% 140/2609 [08:24<1:26:49,  2.11s/it][A
Training...:   5% 141/2609 [08:26<1:23:02,  2.02s/it][A
Training...:   5% 142/2609 [08:28<1:19:16,  1.93s/it][A
Training...:   5% 143/2609 [08:29<1:15:43,  1.84s/it][A
Training...:   6% 144/2609 [08:31<1:11:29,  1.74s/it][A
Training...:   6% 145/2609 [08:32<1:07:01,  1.63s/it][A
Training...:   6% 146/2609 [08:33<1:02:23,  1.52s/it][A
Training...:   6% 147/2609 [08:35<57:29,  1.40s/it]  [A
Training...:   6% 148/2609 [08:35<52:14,  1.27s/it][A
Training...:   6% 149/2609 [08:36<46:10,  1.13s/it][A
Training...:   6% 150/2609 [08:37<38:51,  1.05it/s][A
Training...:   6% 151/2609 [08:44<1:53:52,  2.78s/it][A
Training...:   6% 152/2609 [08:51<2:45:48,  4.05s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [20:49:54<31:01:41, 9308.44s/it]
Training...:   6% 152/2609 [08:59<2:45:48,  4.05s/it][A
Training...:   6% 153/2609 [08:59<3:29:46,  5.12s/it][A
Training...:   6% 154/2609 [09:05<3:43:59,  5.47s/it][A
Training...:   6% 155/2609 [09:11<3:49:55,  5.62s/it][A
Training...:   6% 156/2609 [09:16<3:50:38,  5.64s/it][A
Training...:   6% 157/2609 [09:22<3:48:29,  5.59s/it][A
Training...:   6% 158/2609 [09:27<3:43:36,  5.47s/it][A
Training...:   6% 159/2609 [09:32<3:39:10,  5.37s/it][A
Training...:   6% 160/2609 [09:37<3:32:41,  5.21s/it][A
Training...:   6% 161/2609 [09:42<3:27:00,  5.07s/it][A
Training...:   6% 162/2609 [09:46<3:20:35,  4.92s/it][A
Training...:   6% 163/2609 [09:51<3:15:20,  4.79s/it][A
Training...:   6% 164/2609 [09:55<3:08:43,  4.63s/it][A
Training...:   6% 165/2609 [09:59<3:03:15,  4.50s/it][A
Training...:   6% 166/2609 [10:03<2:57:54,  4.37s/it][A
Training...:   6% 167/2609 [10:07<2:52:58,  4.25s/it][A
Training...:   6% 168/2609 [10:11<2:47:55,  4.13s/it][A
Training...:   6% 169/2609 [10:15<2:43:18,  4.02s/it][A
Training...:   7% 170/2609 [10:19<2:40:09,  3.94s/it][A
Training...:   7% 171/2609 [10:22<2:36:47,  3.86s/it][A
Training...:   7% 172/2609 [10:26<2:32:09,  3.75s/it][A
Training...:   7% 173/2609 [10:29<2:28:15,  3.65s/it][A
Training...:   7% 174/2609 [10:33<2:23:58,  3.55s/it][A
Training...:   7% 175/2609 [10:36<2:19:20,  3.43s/it][A
Training...:   7% 176/2609 [10:39<2:14:38,  3.32s/it][A
Training...:   7% 177/2609 [10:42<2:11:06,  3.23s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [20:51:41<31:01:41, 9308.44s/it]
Training...:   7% 177/2609 [10:45<2:11:06,  3.23s/it][A
Training...:   7% 178/2609 [10:45<2:13:54,  3.30s/it][A
Training...:   7% 179/2609 [10:48<2:08:30,  3.17s/it][A
Training...:   7% 180/2609 [10:51<2:04:14,  3.07s/it][A
Training...:   7% 181/2609 [10:54<1:59:17,  2.95s/it][A
Training...:   7% 182/2609 [10:56<1:54:53,  2.84s/it][A
Training...:   7% 183/2609 [10:59<1:50:48,  2.74s/it][A
Training...:   7% 184/2609 [11:01<1:47:01,  2.65s/it][A
Training...:   7% 185/2609 [11:04<1:43:37,  2.57s/it][A
Training...:   7% 186/2609 [11:06<1:40:22,  2.49s/it][A
Training...:   7% 187/2609 [11:08<1:37:00,  2.40s/it][A
Training...:   7% 188/2609 [11:10<1:33:18,  2.31s/it][A
Training...:   7% 189/2609 [11:12<1:29:34,  2.22s/it][A
Training...:   7% 190/2609 [11:14<1:25:55,  2.13s/it][A
Training...:   7% 191/2609 [11:16<1:22:31,  2.05s/it][A
Training...:   7% 192/2609 [11:18<1:18:51,  1.96s/it][A
Training...:   7% 193/2609 [11:19<1:15:18,  1.87s/it][A
Training...:   7% 194/2609 [11:21<1:11:52,  1.79s/it][A
Training...:   7% 195/2609 [11:22<1:07:49,  1.69s/it][A
Training...:   8% 196/2609 [11:24<1:03:24,  1.58s/it][A
Training...:   8% 197/2609 [11:25<58:42,  1.46s/it]  [A
Training...:   8% 198/2609 [11:26<53:43,  1.34s/it][A
Training...:   8% 199/2609 [11:27<47:40,  1.19s/it][A
Training...:   8% 200/2609 [11:27<40:30,  1.01s/it][A
Training...:   8% 201/2609 [11:35<1:53:58,  2.84s/it][A
Training...:   8% 202/2609 [11:42<2:43:50,  4.08s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [20:52:45<31:01:41, 9308.44s/it]
Training...:   8% 202/2609 [11:49<2:43:50,  4.08s/it][A
Training...:   8% 203/2609 [11:49<3:24:11,  5.09s/it][A
Training...:   8% 204/2609 [11:55<3:35:13,  5.37s/it][A
Training...:   8% 205/2609 [12:01<3:41:29,  5.53s/it][A
Training...:   8% 206/2609 [12:07<3:43:21,  5.58s/it][A
Training...:   8% 207/2609 [12:12<3:42:11,  5.55s/it][A
Training...:   8% 208/2609 [12:17<3:38:47,  5.47s/it][A
Training...:   8% 209/2609 [12:23<3:35:43,  5.39s/it][A
Training...:   8% 210/2609 [12:27<3:29:25,  5.24s/it][A
Training...:   8% 211/2609 [12:32<3:24:49,  5.13s/it][A
Training...:   8% 212/2609 [12:37<3:21:20,  5.04s/it][A
Training...:   8% 213/2609 [12:42<3:16:08,  4.91s/it][A
Training...:   8% 214/2609 [12:46<3:09:18,  4.74s/it][A
Training...:   8% 215/2609 [12:50<3:02:56,  4.59s/it][A
Training...:   8% 216/2609 [12:54<2:57:11,  4.44s/it][A
Training...:   8% 217/2609 [12:59<2:52:43,  4.33s/it][A
Training...:   8% 218/2609 [13:02<2:47:32,  4.20s/it][A
Training...:   8% 219/2609 [13:06<2:43:18,  4.10s/it][A
Training...:   8% 220/2609 [13:10<2:38:49,  3.99s/it][A
Training...:   8% 221/2609 [13:14<2:34:52,  3.89s/it][A
Training...:   9% 222/2609 [13:17<2:30:25,  3.78s/it][A
Training...:   9% 223/2609 [13:21<2:26:49,  3.69s/it][A
Training...:   9% 224/2609 [13:24<2:21:58,  3.57s/it][A
Training...:   9% 225/2609 [13:27<2:18:35,  3.49s/it][A
Training...:   9% 226/2609 [13:30<2:14:51,  3.40s/it][A
Training...:   9% 227/2609 [13:34<2:12:01,  3.33s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [20:54:33<31:01:41, 9308.44s/it]
Training...:   9% 227/2609 [13:37<2:12:01,  3.33s/it][A
Training...:   9% 228/2609 [13:37<2:14:29,  3.39s/it][A
Training...:   9% 229/2609 [13:40<2:09:28,  3.26s/it][A
Training...:   9% 230/2609 [13:43<2:04:19,  3.14s/it][A
Training...:   9% 231/2609 [13:46<1:59:40,  3.02s/it][A
Training...:   9% 232/2609 [13:48<1:55:11,  2.91s/it][A
Training...:   9% 233/2609 [13:51<1:51:35,  2.82s/it][A
Training...:   9% 234/2609 [13:53<1:47:33,  2.72s/it][A
Training...:   9% 235/2609 [13:56<1:43:53,  2.63s/it][A
Training...:   9% 236/2609 [13:58<1:40:01,  2.53s/it][A
Training...:   9% 237/2609 [14:00<1:36:34,  2.44s/it][A
Training...:   9% 238/2609 [14:03<1:32:55,  2.35s/it][A
Training...:   9% 239/2609 [14:05<1:29:27,  2.26s/it][A
Training...:   9% 240/2609 [14:07<1:25:43,  2.17s/it][A
Training...:   9% 241/2609 [14:08<1:22:05,  2.08s/it][A
Training...:   9% 242/2609 [14:10<1:17:55,  1.98s/it][A
Training...:   9% 243/2609 [14:12<1:14:09,  1.88s/it][A
Training...:   9% 244/2609 [14:13<1:09:31,  1.76s/it][A
Training...:   9% 245/2609 [14:15<1:05:11,  1.65s/it][A
Training...:   9% 246/2609 [14:16<1:01:03,  1.55s/it][A
Training...:   9% 247/2609 [14:17<56:03,  1.42s/it]  [A
Training...:  10% 248/2609 [14:18<50:48,  1.29s/it][A
Training...:  10% 249/2609 [14:19<44:58,  1.14s/it][A
Training...:  10% 250/2609 [14:19<37:44,  1.04it/s][A
Training...:  10% 251/2609 [14:27<1:51:23,  2.83s/it][A
Training...:  10% 252/2609 [14:34<2:42:18,  4.13s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [20:55:37<31:01:41, 9308.44s/it]
Training...:  10% 252/2609 [14:42<2:42:18,  4.13s/it][A
Training...:  10% 253/2609 [14:42<3:24:45,  5.21s/it][A
Training...:  10% 254/2609 [14:48<3:42:36,  5.67s/it][A
Training...:  10% 255/2609 [14:54<3:48:13,  5.82s/it][A
Training...:  10% 256/2609 [15:00<3:47:58,  5.81s/it][A
Training...:  10% 257/2609 [15:06<3:46:02,  5.77s/it][A
Training...:  10% 258/2609 [15:11<3:40:59,  5.64s/it][A
Training...:  10% 259/2609 [15:16<3:35:03,  5.49s/it][A
Training...:  10% 260/2609 [15:21<3:28:51,  5.33s/it][A
Training...:  10% 261/2609 [15:26<3:23:09,  5.19s/it][A
Training...:  10% 262/2609 [15:31<3:16:14,  5.02s/it][A
Training...:  10% 263/2609 [15:35<3:10:11,  4.86s/it][A
Training...:  10% 264/2609 [15:40<3:04:18,  4.72s/it][A
Training...:  10% 265/2609 [15:44<2:58:36,  4.57s/it][A
Training...:  10% 266/2609 [15:48<2:52:20,  4.41s/it][A
Training...:  10% 267/2609 [15:52<2:47:21,  4.29s/it][A
Training...:  10% 268/2609 [15:56<2:42:50,  4.17s/it][A
Training...:  10% 269/2609 [16:00<2:38:00,  4.05s/it][A
Training...:  10% 270/2609 [16:03<2:33:43,  3.94s/it][A
Training...:  10% 271/2609 [16:07<2:29:37,  3.84s/it][A
Training...:  10% 272/2609 [16:10<2:25:48,  3.74s/it][A
Training...:  10% 273/2609 [16:14<2:22:06,  3.65s/it][A
Training...:  11% 274/2609 [16:17<2:18:28,  3.56s/it][A
Training...:  11% 275/2609 [16:20<2:14:08,  3.45s/it][A
Training...:  11% 276/2609 [16:24<2:09:59,  3.34s/it][A
Training...:  11% 277/2609 [16:27<2:06:19,  3.25s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [20:57:26<31:01:41, 9308.44s/it]
Training...:  11% 277/2609 [16:30<2:06:19,  3.25s/it][A
Training...:  11% 278/2609 [16:30<2:08:49,  3.32s/it][A
Training...:  11% 279/2609 [16:33<2:03:49,  3.19s/it][A
Training...:  11% 280/2609 [16:36<1:59:08,  3.07s/it][A
Training...:  11% 281/2609 [16:38<1:54:57,  2.96s/it][A
Training...:  11% 282/2609 [16:41<1:50:53,  2.86s/it][A
Training...:  11% 283/2609 [16:44<1:46:45,  2.75s/it][A
Training...:  11% 284/2609 [16:46<1:42:34,  2.65s/it][A
Training...:  11% 285/2609 [16:48<1:38:55,  2.55s/it][A
Training...:  11% 286/2609 [16:51<1:35:54,  2.48s/it][A
Training...:  11% 287/2609 [16:53<1:32:37,  2.39s/it][A
Training...:  11% 288/2609 [16:55<1:29:22,  2.31s/it][A
Training...:  11% 289/2609 [16:57<1:26:17,  2.23s/it][A
Training...:  11% 290/2609 [16:59<1:22:54,  2.15s/it][A
Training...:  11% 291/2609 [17:01<1:19:20,  2.05s/it][A
Training...:  11% 292/2609 [17:03<1:15:47,  1.96s/it][A
Training...:  11% 293/2609 [17:04<1:11:47,  1.86s/it][A
Training...:  11% 294/2609 [17:06<1:07:45,  1.76s/it][A
Training...:  11% 295/2609 [17:07<1:03:40,  1.65s/it][A
Training...:  11% 296/2609 [17:08<59:04,  1.53s/it]  [A
Training...:  11% 297/2609 [17:09<54:41,  1.42s/it][A
Training...:  11% 298/2609 [17:10<49:45,  1.29s/it][A
Training...:  11% 299/2609 [17:11<44:34,  1.16s/it][A
Training...:  11% 300/2609 [17:12<37:33,  1.02it/s][A
Training...:  12% 301/2609 [17:19<1:50:25,  2.87s/it][A
Training...:  12% 302/2609 [17:26<2:38:17,  4.12s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [20:58:29<31:01:41, 9308.44s/it]
Training...:  12% 302/2609 [17:34<2:38:17,  4.12s/it][A
Training...:  12% 303/2609 [17:34<3:16:54,  5.12s/it][A
Training...:  12% 304/2609 [17:40<3:29:05,  5.44s/it][A
Training...:  12% 305/2609 [17:46<3:33:54,  5.57s/it][A
Training...:  12% 306/2609 [17:51<3:33:10,  5.55s/it][A
Training...:  12% 307/2609 [17:57<3:31:49,  5.52s/it][A
Training...:  12% 308/2609 [18:02<3:26:32,  5.39s/it][A
Training...:  12% 309/2609 [18:07<3:23:04,  5.30s/it][A
Training...:  12% 310/2609 [18:12<3:17:34,  5.16s/it][A
Training...:  12% 311/2609 [18:16<3:12:50,  5.04s/it][A
Training...:  12% 312/2609 [18:21<3:07:10,  4.89s/it][A
Training...:  12% 313/2609 [18:25<3:02:02,  4.76s/it][A
Training...:  12% 314/2609 [18:30<2:57:02,  4.63s/it][A
Training...:  12% 315/2609 [18:34<2:53:29,  4.54s/it][A
Training...:  12% 316/2609 [18:38<2:49:24,  4.43s/it][A
Training...:  12% 317/2609 [18:42<2:45:50,  4.34s/it][A
Training...:  12% 318/2609 [18:46<2:41:18,  4.22s/it][A
Training...:  12% 319/2609 [18:50<2:37:29,  4.13s/it][A
Training...:  12% 320/2609 [18:54<2:32:47,  4.01s/it][A
Training...:  12% 321/2609 [18:58<2:28:08,  3.88s/it][A
Training...:  12% 322/2609 [19:01<2:23:41,  3.77s/it][A
Training...:  12% 323/2609 [19:04<2:19:51,  3.67s/it][A
Training...:  12% 324/2609 [19:08<2:16:10,  3.58s/it][A
Training...:  12% 325/2609 [19:11<2:13:15,  3.50s/it][A
Training...:  12% 326/2609 [19:14<2:10:22,  3.43s/it][A
Training...:  13% 327/2609 [19:17<2:06:15,  3.32s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:00:17<31:01:41, 9308.44s/it]
Training...:  13% 327/2609 [19:21<2:06:15,  3.32s/it][A
Training...:  13% 328/2609 [19:21<2:08:36,  3.38s/it][A
Training...:  13% 329/2609 [19:24<2:02:34,  3.23s/it][A
Training...:  13% 330/2609 [19:27<1:57:27,  3.09s/it][A
Training...:  13% 331/2609 [19:29<1:53:26,  2.99s/it][A
Training...:  13% 332/2609 [19:32<1:48:58,  2.87s/it][A
Training...:  13% 333/2609 [19:35<1:45:12,  2.77s/it][A
Training...:  13% 334/2609 [19:37<1:41:38,  2.68s/it][A
Training...:  13% 335/2609 [19:39<1:38:22,  2.60s/it][A
Training...:  13% 336/2609 [19:42<1:34:53,  2.50s/it][A
Training...:  13% 337/2609 [19:44<1:31:09,  2.41s/it][A
Training...:  13% 338/2609 [19:46<1:27:23,  2.31s/it][A
Training...:  13% 339/2609 [19:48<1:23:53,  2.22s/it][A
Training...:  13% 340/2609 [19:50<1:19:59,  2.12s/it][A
Training...:  13% 341/2609 [19:52<1:16:23,  2.02s/it][A
Training...:  13% 342/2609 [19:53<1:12:53,  1.93s/it][A
Training...:  13% 343/2609 [19:55<1:09:22,  1.84s/it][A
Training...:  13% 344/2609 [19:56<1:05:29,  1.73s/it][A
Training...:  13% 345/2609 [19:58<1:01:23,  1.63s/it][A
Training...:  13% 346/2609 [19:59<57:29,  1.52s/it]  [A
Training...:  13% 347/2609 [20:00<53:18,  1.41s/it][A
Training...:  13% 348/2609 [20:01<48:27,  1.29s/it][A
Training...:  13% 349/2609 [20:02<43:01,  1.14s/it][A
Training...:  13% 350/2609 [20:03<36:30,  1.03it/s][A
Training...:  13% 351/2609 [20:10<1:46:08,  2.82s/it][A
Training...:  13% 352/2609 [20:17<2:33:26,  4.08s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:01:20<31:01:41, 9308.44s/it]
Training...:  13% 352/2609 [20:24<2:33:26,  4.08s/it][A
Training...:  14% 353/2609 [20:24<3:11:51,  5.10s/it][A
Training...:  14% 354/2609 [20:30<3:23:51,  5.42s/it][A
Training...:  14% 355/2609 [20:36<3:29:09,  5.57s/it][A
Training...:  14% 356/2609 [20:42<3:29:04,  5.57s/it][A
Training...:  14% 357/2609 [20:47<3:27:39,  5.53s/it][A
Training...:  14% 358/2609 [20:53<3:24:07,  5.44s/it][A
Training...:  14% 359/2609 [20:58<3:19:55,  5.33s/it][A
Training...:  14% 360/2609 [21:03<3:14:56,  5.20s/it][A
Training...:  14% 361/2609 [21:07<3:10:09,  5.08s/it][A
Training...:  14% 362/2609 [21:12<3:03:58,  4.91s/it][A
Training...:  14% 363/2609 [21:16<2:59:37,  4.80s/it][A
Training...:  14% 364/2609 [21:21<2:54:46,  4.67s/it][A
Training...:  14% 365/2609 [21:25<2:50:10,  4.55s/it][A
Training...:  14% 366/2609 [21:29<2:45:21,  4.42s/it][A
Training...:  14% 367/2609 [21:33<2:41:05,  4.31s/it][A
Training...:  14% 368/2609 [21:37<2:35:51,  4.17s/it][A
Training...:  14% 369/2609 [21:41<2:31:46,  4.07s/it][A
Training...:  14% 370/2609 [21:45<2:27:20,  3.95s/it][A
Training...:  14% 371/2609 [21:48<2:23:21,  3.84s/it][A
Training...:  14% 372/2609 [21:52<2:18:53,  3.73s/it][A
Training...:  14% 373/2609 [21:55<2:15:22,  3.63s/it][A
Training...:  14% 374/2609 [21:58<2:11:19,  3.53s/it][A
Training...:  14% 375/2609 [22:02<2:08:02,  3.44s/it][A
Training...:  14% 376/2609 [22:05<2:04:18,  3.34s/it][A
Training...:  14% 377/2609 [22:08<2:01:32,  3.27s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:03:07<31:01:41, 9308.44s/it]
Training...:  14% 377/2609 [22:11<2:01:32,  3.27s/it][A
Training...:  14% 378/2609 [22:11<2:04:10,  3.34s/it][A
Training...:  15% 379/2609 [22:14<1:59:48,  3.22s/it][A
Training...:  15% 380/2609 [22:17<1:56:05,  3.12s/it][A
Training...:  15% 381/2609 [22:20<1:51:10,  2.99s/it][A
Training...:  15% 382/2609 [22:22<1:46:18,  2.86s/it][A
Training...:  15% 383/2609 [22:25<1:42:05,  2.75s/it][A
Training...:  15% 384/2609 [22:27<1:38:43,  2.66s/it][A
Training...:  15% 385/2609 [22:30<1:35:09,  2.57s/it][A
Training...:  15% 386/2609 [22:32<1:31:50,  2.48s/it][A
Training...:  15% 387/2609 [22:34<1:28:56,  2.40s/it][A
Training...:  15% 388/2609 [22:36<1:25:31,  2.31s/it][A
Training...:  15% 389/2609 [22:38<1:22:13,  2.22s/it][A
Training...:  15% 390/2609 [22:40<1:18:40,  2.13s/it][A
Training...:  15% 391/2609 [22:42<1:15:04,  2.03s/it][A
Training...:  15% 392/2609 [22:44<1:11:21,  1.93s/it][A
Training...:  15% 393/2609 [22:45<1:07:32,  1.83s/it][A
Training...:  15% 394/2609 [22:47<1:03:52,  1.73s/it][A
Training...:  15% 395/2609 [22:48<1:00:07,  1.63s/it][A
Training...:  15% 396/2609 [22:49<56:02,  1.52s/it]  [A
Training...:  15% 397/2609 [22:51<51:56,  1.41s/it][A
Training...:  15% 398/2609 [22:52<47:25,  1.29s/it][A
Training...:  15% 399/2609 [22:52<42:09,  1.14s/it][A
Training...:  15% 400/2609 [22:53<35:32,  1.04it/s][A
Training...:  15% 401/2609 [23:00<1:42:18,  2.78s/it][A
Training...:  15% 402/2609 [23:07<2:28:46,  4.04s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:04:10<31:01:41, 9308.44s/it]
Training...:  15% 402/2609 [23:14<2:28:46,  4.04s/it][A
Training...:  15% 403/2609 [23:14<3:06:11,  5.06s/it][A
Training...:  15% 404/2609 [23:21<3:19:00,  5.42s/it][A
Training...:  16% 405/2609 [23:27<3:24:47,  5.58s/it][A
Training...:  16% 406/2609 [23:32<3:25:06,  5.59s/it][A
Training...:  16% 407/2609 [23:38<3:23:27,  5.54s/it][A
Training...:  16% 408/2609 [23:43<3:20:00,  5.45s/it][A
Training...:  16% 409/2609 [23:48<3:15:32,  5.33s/it][A
Training...:  16% 410/2609 [23:53<3:10:28,  5.20s/it][A
Training...:  16% 411/2609 [23:58<3:05:23,  5.06s/it][A
Training...:  16% 412/2609 [24:02<2:59:42,  4.91s/it][A
Training...:  16% 413/2609 [24:07<2:56:12,  4.81s/it][A
Training...:  16% 414/2609 [24:11<2:50:14,  4.65s/it][A
Training...:  16% 415/2609 [24:15<2:45:04,  4.51s/it][A
Training...:  16% 416/2609 [24:19<2:39:22,  4.36s/it][A
Training...:  16% 417/2609 [24:23<2:35:42,  4.26s/it][A
Training...:  16% 418/2609 [24:27<2:32:12,  4.17s/it][A
Training...:  16% 419/2609 [24:31<2:28:53,  4.08s/it][A
Training...:  16% 420/2609 [24:35<2:23:40,  3.94s/it][A
Training...:  16% 421/2609 [24:38<2:20:11,  3.84s/it][A
Training...:  16% 422/2609 [24:42<2:15:45,  3.72s/it][A
Training...:  16% 423/2609 [24:45<2:11:42,  3.62s/it][A
Training...:  16% 424/2609 [24:48<2:07:26,  3.50s/it][A
Training...:  16% 425/2609 [24:52<2:04:07,  3.41s/it][A
Training...:  16% 426/2609 [24:55<2:00:11,  3.30s/it][A
Training...:  16% 427/2609 [24:58<1:57:05,  3.22s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:05:57<31:01:41, 9308.44s/it]
Training...:  16% 427/2609 [25:01<1:57:05,  3.22s/it][A
Training...:  16% 428/2609 [25:01<1:59:44,  3.29s/it][A
Training...:  16% 429/2609 [25:04<1:54:48,  3.16s/it][A
Training...:  16% 430/2609 [25:07<1:50:48,  3.05s/it][A
Training...:  17% 431/2609 [25:09<1:46:59,  2.95s/it][A
Training...:  17% 432/2609 [25:12<1:43:25,  2.85s/it][A
Training...:  17% 433/2609 [25:15<1:39:49,  2.75s/it][A
Training...:  17% 434/2609 [25:17<1:36:27,  2.66s/it][A
Training...:  17% 435/2609 [25:19<1:33:14,  2.57s/it][A
Training...:  17% 436/2609 [25:22<1:30:47,  2.51s/it][A
Training...:  17% 437/2609 [25:24<1:27:43,  2.42s/it][A
Training...:  17% 438/2609 [25:26<1:24:15,  2.33s/it][A
Training...:  17% 439/2609 [25:28<1:21:02,  2.24s/it][A
Training...:  17% 440/2609 [25:30<1:17:02,  2.13s/it][A
Training...:  17% 441/2609 [25:32<1:13:26,  2.03s/it][A
Training...:  17% 442/2609 [25:33<1:09:44,  1.93s/it][A
Training...:  17% 443/2609 [25:35<1:05:54,  1.83s/it][A
Training...:  17% 444/2609 [25:37<1:02:22,  1.73s/it][A
Training...:  17% 445/2609 [25:38<58:22,  1.62s/it]  [A
Training...:  17% 446/2609 [25:39<54:15,  1.51s/it][A
Training...:  17% 447/2609 [25:40<50:17,  1.40s/it][A
Training...:  17% 448/2609 [25:41<45:28,  1.26s/it][A
Training...:  17% 449/2609 [25:42<39:53,  1.11s/it][A
Training...:  17% 450/2609 [25:42<33:31,  1.07it/s][A
Training...:  17% 451/2609 [25:50<1:41:08,  2.81s/it][A
Training...:  17% 452/2609 [25:57<2:27:31,  4.10s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:07:00<31:01:41, 9308.44s/it]
Training...:  17% 452/2609 [26:04<2:27:31,  4.10s/it][A
Training...:  17% 453/2609 [26:04<3:03:11,  5.10s/it][A
Training...:  17% 454/2609 [26:10<3:14:21,  5.41s/it][A
Training...:  17% 455/2609 [26:16<3:19:32,  5.56s/it][A
Training...:  17% 456/2609 [26:22<3:19:45,  5.57s/it][A
Training...:  18% 457/2609 [26:27<3:18:20,  5.53s/it][A
Training...:  18% 458/2609 [26:33<3:14:48,  5.43s/it][A
Training...:  18% 459/2609 [26:38<3:12:03,  5.36s/it][A
Training...:  18% 460/2609 [26:43<3:06:44,  5.21s/it][A
Training...:  18% 461/2609 [26:47<3:02:20,  5.09s/it][A
Training...:  18% 462/2609 [26:52<2:57:09,  4.95s/it][A
Training...:  18% 463/2609 [26:57<2:52:27,  4.82s/it][A
Training...:  18% 464/2609 [27:01<2:47:11,  4.68s/it][A
Training...:  18% 465/2609 [27:05<2:42:12,  4.54s/it][A
Training...:  18% 466/2609 [27:09<2:36:57,  4.39s/it][A
Training...:  18% 467/2609 [27:13<2:33:02,  4.29s/it][A
Training...:  18% 468/2609 [27:17<2:28:49,  4.17s/it][A
Training...:  18% 469/2609 [27:21<2:26:53,  4.12s/it][A
Training...:  18% 470/2609 [27:25<2:23:13,  4.02s/it][A
Training...:  18% 471/2609 [27:29<2:19:19,  3.91s/it][A
Training...:  18% 472/2609 [27:32<2:14:35,  3.78s/it][A
Training...:  18% 473/2609 [27:35<2:10:51,  3.68s/it][A
Training...:  18% 474/2609 [27:39<2:07:02,  3.57s/it][A
Training...:  18% 475/2609 [27:42<2:03:43,  3.48s/it][A
Training...:  18% 476/2609 [27:45<1:59:38,  3.37s/it][A
Training...:  18% 477/2609 [27:48<1:56:49,  3.29s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:08:47<31:01:41, 9308.44s/it]
Training...:  18% 477/2609 [27:52<1:56:49,  3.29s/it][A
Training...:  18% 478/2609 [27:52<1:59:57,  3.38s/it][A
Training...:  18% 479/2609 [27:55<1:55:28,  3.25s/it][A
Training...:  18% 480/2609 [27:58<1:51:12,  3.13s/it][A
Training...:  18% 481/2609 [28:00<1:47:11,  3.02s/it][A
Training...:  18% 482/2609 [28:03<1:43:09,  2.91s/it][A
Training...:  19% 483/2609 [28:06<1:40:00,  2.82s/it][A
Training...:  19% 484/2609 [28:08<1:35:36,  2.70s/it][A
Training...:  19% 485/2609 [28:10<1:32:00,  2.60s/it][A
Training...:  19% 486/2609 [28:13<1:28:09,  2.49s/it][A
Training...:  19% 487/2609 [28:15<1:25:04,  2.41s/it][A
Training...:  19% 488/2609 [28:17<1:21:29,  2.31s/it][A
Training...:  19% 489/2609 [28:19<1:18:16,  2.22s/it][A
Training...:  19% 490/2609 [28:21<1:14:37,  2.11s/it][A
Training...:  19% 491/2609 [28:23<1:11:13,  2.02s/it][A
Training...:  19% 492/2609 [28:24<1:07:47,  1.92s/it][A
Training...:  19% 493/2609 [28:26<1:04:10,  1.82s/it][A
Training...:  19% 494/2609 [28:27<1:00:41,  1.72s/it][A
Training...:  19% 495/2609 [28:29<57:05,  1.62s/it]  [A
Training...:  19% 496/2609 [28:30<53:17,  1.51s/it][A
Training...:  19% 497/2609 [28:31<49:03,  1.39s/it][A
Training...:  19% 498/2609 [28:32<44:08,  1.25s/it][A
Training...:  19% 499/2609 [28:33<38:55,  1.11s/it][A
Training...:  19% 500/2609 [28:33<32:50,  1.07it/s][A
Training...:  19% 501/2609 [28:41<1:38:14,  2.80s/it][A
Training...:  19% 502/2609 [28:48<2:22:53,  4.07s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:09:51<31:01:41, 9308.44s/it]
Training...:  19% 502/2609 [28:55<2:22:53,  4.07s/it][A
Training...:  19% 503/2609 [28:55<3:00:35,  5.15s/it][A
Training...:  19% 504/2609 [29:02<3:13:01,  5.50s/it][A
Training...:  19% 505/2609 [29:08<3:17:40,  5.64s/it][A
Training...:  19% 506/2609 [29:13<3:17:16,  5.63s/it][A
Training...:  19% 507/2609 [29:19<3:15:40,  5.59s/it][A
Training...:  19% 508/2609 [29:24<3:13:27,  5.52s/it][A
Training...:  20% 509/2609 [29:29<3:10:55,  5.45s/it][A
Training...:  20% 510/2609 [29:34<3:03:54,  5.26s/it][A
Training...:  20% 511/2609 [29:39<2:59:14,  5.13s/it][A
Training...:  20% 512/2609 [29:44<2:54:02,  4.98s/it][A
Training...:  20% 513/2609 [29:48<2:48:53,  4.83s/it][A
Training...:  20% 514/2609 [29:52<2:43:28,  4.68s/it][A
Training...:  20% 515/2609 [29:57<2:39:07,  4.56s/it][A
Training...:  20% 516/2609 [30:01<2:34:14,  4.42s/it][A
Training...:  20% 517/2609 [30:05<2:29:52,  4.30s/it][A
Training...:  20% 518/2609 [30:09<2:24:54,  4.16s/it][A
Training...:  20% 519/2609 [30:12<2:21:10,  4.05s/it][A
Training...:  20% 520/2609 [30:16<2:17:09,  3.94s/it][A
Training...:  20% 521/2609 [30:20<2:14:13,  3.86s/it][A
Training...:  20% 522/2609 [30:23<2:10:45,  3.76s/it][A
Training...:  20% 523/2609 [30:27<2:07:32,  3.67s/it][A
Training...:  20% 524/2609 [30:30<2:04:12,  3.57s/it][A
Training...:  20% 525/2609 [30:33<2:00:40,  3.47s/it][A
Training...:  20% 526/2609 [30:36<1:56:59,  3.37s/it][A
Training...:  20% 527/2609 [30:40<1:54:21,  3.30s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:11:39<31:01:41, 9308.44s/it]
Training...:  20% 527/2609 [30:43<1:54:21,  3.30s/it][A
Training...:  20% 528/2609 [30:43<1:56:56,  3.37s/it][A
Training...:  20% 529/2609 [30:46<1:52:30,  3.25s/it][A
Training...:  20% 530/2609 [30:49<1:48:59,  3.15s/it][A
Training...:  20% 531/2609 [30:52<1:45:04,  3.03s/it][A
Training...:  20% 532/2609 [30:54<1:41:04,  2.92s/it][A
Training...:  20% 533/2609 [30:57<1:37:23,  2.81s/it][A
Training...:  20% 534/2609 [30:59<1:33:42,  2.71s/it][A
Training...:  21% 535/2609 [31:02<1:30:03,  2.61s/it][A
Training...:  21% 536/2609 [31:04<1:26:50,  2.51s/it][A
Training...:  21% 537/2609 [31:06<1:23:28,  2.42s/it][A
Training...:  21% 538/2609 [31:08<1:20:01,  2.32s/it][A
Training...:  21% 539/2609 [31:10<1:16:47,  2.23s/it][A
Training...:  21% 540/2609 [31:12<1:13:33,  2.13s/it][A
Training...:  21% 541/2609 [31:14<1:10:12,  2.04s/it][A
Training...:  21% 542/2609 [31:16<1:06:46,  1.94s/it][A
Training...:  21% 543/2609 [31:17<1:03:49,  1.85s/it][A
Training...:  21% 544/2609 [31:19<1:00:27,  1.76s/it][A
Training...:  21% 545/2609 [31:20<56:54,  1.65s/it]  [A
Training...:  21% 546/2609 [31:22<53:02,  1.54s/it][A
Training...:  21% 547/2609 [31:23<49:03,  1.43s/it][A
Training...:  21% 548/2609 [31:24<44:16,  1.29s/it][A
Training...:  21% 549/2609 [31:25<39:20,  1.15s/it][A
Training...:  21% 550/2609 [31:25<33:17,  1.03it/s][A
Training...:  21% 551/2609 [31:32<1:38:27,  2.87s/it][A
Training...:  21% 552/2609 [31:40<2:22:21,  4.15s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:12:43<31:01:41, 9308.44s/it]
Training...:  21% 552/2609 [31:47<2:22:21,  4.15s/it][A
Training...:  21% 553/2609 [31:47<2:57:40,  5.19s/it][A
Training...:  21% 554/2609 [31:54<3:09:06,  5.52s/it][A
Training...:  21% 555/2609 [31:59<3:13:07,  5.64s/it][A
Training...:  21% 556/2609 [32:05<3:12:34,  5.63s/it][A
Training...:  21% 557/2609 [32:10<3:10:18,  5.56s/it][A
Training...:  21% 558/2609 [32:16<3:05:28,  5.43s/it][A
Training...:  21% 559/2609 [32:21<3:01:07,  5.30s/it][A
Training...:  21% 560/2609 [32:25<2:55:35,  5.14s/it][A
Training...:  22% 561/2609 [32:30<2:51:22,  5.02s/it][A
Training...:  22% 562/2609 [32:35<2:45:57,  4.86s/it][A
Training...:  22% 563/2609 [32:39<2:41:31,  4.74s/it][A
Training...:  22% 564/2609 [32:43<2:35:49,  4.57s/it][A
Training...:  22% 565/2609 [32:47<2:31:44,  4.45s/it][A
Training...:  22% 566/2609 [32:51<2:27:41,  4.34s/it][A
Training...:  22% 567/2609 [32:55<2:24:08,  4.24s/it][A
Training...:  22% 568/2609 [32:59<2:19:20,  4.10s/it][A
Training...:  22% 569/2609 [33:03<2:15:21,  3.98s/it][A
Training...:  22% 570/2609 [33:07<2:11:44,  3.88s/it][A
Training...:  22% 571/2609 [33:10<2:08:39,  3.79s/it][A
Training...:  22% 572/2609 [33:14<2:05:11,  3.69s/it][A
Training...:  22% 573/2609 [33:17<2:02:28,  3.61s/it][A
Training...:  22% 574/2609 [33:20<2:00:07,  3.54s/it][A
Training...:  22% 575/2609 [33:24<1:55:56,  3.42s/it][A
Training...:  22% 576/2609 [33:27<1:52:12,  3.31s/it][A
Training...:  22% 577/2609 [33:30<1:48:16,  3.20s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:14:29<31:01:41, 9308.44s/it]
Training...:  22% 577/2609 [33:33<1:48:16,  3.20s/it][A
Training...:  22% 578/2609 [33:33<1:50:33,  3.27s/it][A
Training...:  22% 579/2609 [33:36<1:45:55,  3.13s/it][A
Training...:  22% 580/2609 [33:38<1:41:13,  2.99s/it][A
Training...:  22% 581/2609 [33:41<1:37:11,  2.88s/it][A
Training...:  22% 582/2609 [33:44<1:33:44,  2.77s/it][A
Training...:  22% 583/2609 [33:46<1:30:32,  2.68s/it][A
Training...:  22% 584/2609 [33:48<1:27:16,  2.59s/it][A
Training...:  22% 585/2609 [33:51<1:24:59,  2.52s/it][A
Training...:  22% 586/2609 [33:53<1:22:30,  2.45s/it][A
Training...:  22% 587/2609 [33:55<1:19:46,  2.37s/it][A
Training...:  23% 588/2609 [33:57<1:16:51,  2.28s/it][A
Training...:  23% 589/2609 [33:59<1:14:05,  2.20s/it][A
Training...:  23% 590/2609 [34:01<1:10:59,  2.11s/it][A
Training...:  23% 591/2609 [34:03<1:07:55,  2.02s/it][A
Training...:  23% 592/2609 [34:05<1:04:36,  1.92s/it][A
Training...:  23% 593/2609 [34:06<1:00:59,  1.82s/it][A
Training...:  23% 594/2609 [34:08<57:37,  1.72s/it]  [A
Training...:  23% 595/2609 [34:09<54:01,  1.61s/it][A
Training...:  23% 596/2609 [34:10<50:18,  1.50s/it][A
Training...:  23% 597/2609 [34:12<46:25,  1.38s/it][A
Training...:  23% 598/2609 [34:12<41:57,  1.25s/it][A
Training...:  23% 599/2609 [34:13<37:07,  1.11s/it][A
Training...:  23% 600/2609 [34:14<31:18,  1.07it/s][A
Training...:  23% 601/2609 [34:21<1:35:45,  2.86s/it][A
Training...:  23% 602/2609 [34:29<2:21:38,  4.23s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:15:32<31:01:41, 9308.44s/it]
Training...:  23% 602/2609 [34:37<2:21:38,  4.23s/it][A
Training...:  23% 603/2609 [34:37<2:59:18,  5.36s/it][A
Training...:  23% 604/2609 [34:43<3:10:16,  5.69s/it][A
Training...:  23% 605/2609 [34:49<3:15:02,  5.84s/it][A
Training...:  23% 606/2609 [34:55<3:15:05,  5.84s/it][A
Training...:  23% 607/2609 [35:01<3:12:04,  5.76s/it][A
Training...:  23% 608/2609 [35:06<3:07:23,  5.62s/it][A
Training...:  23% 609/2609 [35:11<3:02:28,  5.47s/it][A
Training...:  23% 610/2609 [35:16<2:57:11,  5.32s/it][A
Training...:  23% 611/2609 [35:21<2:52:35,  5.18s/it][A
Training...:  23% 612/2609 [35:26<2:47:13,  5.02s/it][A
Training...:  23% 613/2609 [35:30<2:42:58,  4.90s/it][A
Training...:  24% 614/2609 [35:35<2:38:24,  4.76s/it][A
Training...:  24% 615/2609 [35:39<2:33:30,  4.62s/it][A
Training...:  24% 616/2609 [35:43<2:29:52,  4.51s/it][A
Training...:  24% 617/2609 [35:47<2:26:37,  4.42s/it][A
Training...:  24% 618/2609 [35:51<2:22:44,  4.30s/it][A
Training...:  24% 619/2609 [35:55<2:19:27,  4.20s/it][A
Training...:  24% 620/2609 [35:59<2:14:46,  4.07s/it][A
Training...:  24% 621/2609 [36:03<2:11:19,  3.96s/it][A
Training...:  24% 622/2609 [36:06<2:07:33,  3.85s/it][A
Training...:  24% 623/2609 [36:10<2:04:04,  3.75s/it][A
Training...:  24% 624/2609 [36:13<2:00:28,  3.64s/it][A
Training...:  24% 625/2609 [36:17<1:57:20,  3.55s/it][A
Training...:  24% 626/2609 [36:20<1:53:52,  3.45s/it][A
Training...:  24% 627/2609 [36:23<1:51:08,  3.36s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:17:22<31:01:41, 9308.44s/it]
Training...:  24% 627/2609 [36:27<1:51:08,  3.36s/it][A
Training...:  24% 628/2609 [36:27<1:52:48,  3.42s/it][A
Training...:  24% 629/2609 [36:30<1:48:25,  3.29s/it][A
Training...:  24% 630/2609 [36:32<1:44:16,  3.16s/it][A
Training...:  24% 631/2609 [36:35<1:40:57,  3.06s/it][A
Training...:  24% 632/2609 [36:38<1:37:34,  2.96s/it][A
Training...:  24% 633/2609 [36:41<1:33:58,  2.85s/it][A
Training...:  24% 634/2609 [36:43<1:30:35,  2.75s/it][A
Training...:  24% 635/2609 [36:46<1:27:47,  2.67s/it][A
Training...:  24% 636/2609 [36:48<1:25:06,  2.59s/it][A
Training...:  24% 637/2609 [36:51<1:25:57,  2.62s/it][A
Training...:  24% 638/2609 [36:53<1:21:46,  2.49s/it][A
Training...:  24% 639/2609 [36:55<1:17:48,  2.37s/it][A
Training...:  25% 640/2609 [36:57<1:13:36,  2.24s/it][A
Training...:  25% 641/2609 [36:59<1:09:55,  2.13s/it][A
Training...:  25% 642/2609 [37:00<1:06:21,  2.02s/it][A
Training...:  25% 643/2609 [37:02<1:03:17,  1.93s/it][A
Training...:  25% 644/2609 [37:04<59:34,  1.82s/it]  [A
Training...:  25% 645/2609 [37:05<56:10,  1.72s/it][A
Training...:  25% 646/2609 [37:07<52:45,  1.61s/it][A
Training...:  25% 647/2609 [37:08<48:57,  1.50s/it][A
Training...:  25% 648/2609 [37:09<44:23,  1.36s/it][A
Training...:  25% 649/2609 [37:10<39:44,  1.22s/it][A
Training...:  25% 650/2609 [37:10<33:41,  1.03s/it][A
Training...:  25% 651/2609 [37:17<1:32:27,  2.83s/it][A
Training...:  25% 652/2609 [37:24<2:13:39,  4.10s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:18:28<31:01:41, 9308.44s/it]
Training...:  25% 652/2609 [37:32<2:13:39,  4.10s/it][A
Training...:  25% 653/2609 [37:32<2:47:02,  5.12s/it][A
Training...:  25% 654/2609 [37:38<2:58:38,  5.48s/it][A
Training...:  25% 655/2609 [37:44<3:03:47,  5.64s/it][A
Training...:  25% 656/2609 [37:50<3:06:06,  5.72s/it][A
Training...:  25% 657/2609 [37:56<3:05:07,  5.69s/it][A
Training...:  25% 658/2609 [38:01<3:00:22,  5.55s/it][A
Training...:  25% 659/2609 [38:06<2:55:25,  5.40s/it][A
Training...:  25% 660/2609 [38:11<2:50:06,  5.24s/it][A
Training...:  25% 661/2609 [38:16<2:46:45,  5.14s/it][A
Training...:  25% 662/2609 [38:20<2:40:59,  4.96s/it][A
Training...:  25% 663/2609 [38:25<2:36:57,  4.84s/it][A
Training...:  25% 664/2609 [38:29<2:31:48,  4.68s/it][A
Training...:  25% 665/2609 [38:33<2:27:15,  4.54s/it][A
Training...:  26% 666/2609 [38:38<2:23:18,  4.43s/it][A
Training...:  26% 667/2609 [38:42<2:20:06,  4.33s/it][A
Training...:  26% 668/2609 [38:46<2:16:19,  4.21s/it][A
Training...:  26% 669/2609 [38:50<2:12:52,  4.11s/it][A
Training...:  26% 670/2609 [38:53<2:09:03,  3.99s/it][A
Training...:  26% 671/2609 [38:57<2:05:02,  3.87s/it][A
Training...:  26% 672/2609 [39:00<2:01:23,  3.76s/it][A
Training...:  26% 673/2609 [39:04<1:57:56,  3.66s/it][A
Training...:  26% 674/2609 [39:07<1:54:44,  3.56s/it][A
Training...:  26% 675/2609 [39:10<1:51:40,  3.46s/it][A
Training...:  26% 676/2609 [39:13<1:48:26,  3.37s/it][A
Training...:  26% 677/2609 [39:17<1:46:07,  3.30s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:20:16<31:01:41, 9308.44s/it]
Training...:  26% 677/2609 [39:20<1:46:07,  3.30s/it][A
Training...:  26% 678/2609 [39:20<1:48:33,  3.37s/it][A
Training...:  26% 679/2609 [39:23<1:44:07,  3.24s/it][A
Training...:  26% 680/2609 [39:26<1:39:35,  3.10s/it][A
Training...:  26% 681/2609 [39:29<1:35:56,  2.99s/it][A
Training...:  26% 682/2609 [39:31<1:32:14,  2.87s/it][A
Training...:  26% 683/2609 [39:34<1:28:58,  2.77s/it][A
Training...:  26% 684/2609 [39:36<1:25:49,  2.67s/it][A
Training...:  26% 685/2609 [39:39<1:22:57,  2.59s/it][A
Training...:  26% 686/2609 [39:41<1:20:06,  2.50s/it][A
Training...:  26% 687/2609 [39:43<1:17:20,  2.41s/it][A
Training...:  26% 688/2609 [39:45<1:14:18,  2.32s/it][A
Training...:  26% 689/2609 [39:47<1:11:34,  2.24s/it][A
Training...:  26% 690/2609 [39:49<1:08:39,  2.15s/it][A
Training...:  26% 691/2609 [39:51<1:05:55,  2.06s/it][A
Training...:  27% 692/2609 [39:53<1:03:06,  1.98s/it][A
Training...:  27% 693/2609 [39:54<1:00:18,  1.89s/it][A
Training...:  27% 694/2609 [39:56<57:16,  1.79s/it]  [A
Training...:  27% 695/2609 [39:58<54:02,  1.69s/it][A
Training...:  27% 696/2609 [39:59<50:50,  1.59s/it][A
Training...:  27% 697/2609 [40:00<47:16,  1.48s/it][A
Training...:  27% 698/2609 [40:01<43:01,  1.35s/it][A
Training...:  27% 699/2609 [40:02<37:50,  1.19s/it][A
Training...:  27% 700/2609 [40:03<31:52,  1.00s/it][A
Training...:  27% 701/2609 [40:10<1:32:13,  2.90s/it][A
Training...:  27% 702/2609 [40:17<2:13:29,  4.20s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:21:20<31:01:41, 9308.44s/it]
Training...:  27% 702/2609 [40:25<2:13:29,  4.20s/it][A
Training...:  27% 703/2609 [40:25<2:45:35,  5.21s/it][A
Training...:  27% 704/2609 [40:31<2:56:06,  5.55s/it][A
Training...:  27% 705/2609 [40:37<3:00:26,  5.69s/it][A
Training...:  27% 706/2609 [40:43<3:00:47,  5.70s/it][A
Training...:  27% 707/2609 [40:48<2:59:35,  5.67s/it][A
Training...:  27% 708/2609 [40:54<2:56:49,  5.58s/it][A
Training...:  27% 709/2609 [40:59<2:52:58,  5.46s/it][A
Training...:  27% 710/2609 [41:04<2:49:29,  5.36s/it][A
Training...:  27% 711/2609 [41:09<2:45:06,  5.22s/it][A
Training...:  27% 712/2609 [41:14<2:40:05,  5.06s/it][A
Training...:  27% 713/2609 [41:18<2:35:21,  4.92s/it][A
Training...:  27% 714/2609 [41:23<2:30:09,  4.75s/it][A
Training...:  27% 715/2609 [41:27<2:25:39,  4.61s/it][A
Training...:  27% 716/2609 [41:31<2:21:37,  4.49s/it][A
Training...:  27% 717/2609 [41:35<2:17:43,  4.37s/it][A
Training...:  28% 718/2609 [41:39<2:13:07,  4.22s/it][A
Training...:  28% 719/2609 [41:43<2:09:50,  4.12s/it][A
Training...:  28% 720/2609 [41:47<2:05:57,  4.00s/it][A
Training...:  28% 721/2609 [41:50<2:02:21,  3.89s/it][A
Training...:  28% 722/2609 [41:54<1:58:42,  3.77s/it][A
Training...:  28% 723/2609 [41:57<1:55:30,  3.67s/it][A
Training...:  28% 724/2609 [42:01<1:52:14,  3.57s/it][A
Training...:  28% 725/2609 [42:04<1:49:27,  3.49s/it][A
Training...:  28% 726/2609 [42:07<1:46:18,  3.39s/it][A
Training...:  28% 727/2609 [42:10<1:43:13,  3.29s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:23:09<31:01:41, 9308.44s/it]
Training...:  28% 727/2609 [42:14<1:43:13,  3.29s/it][A
Training...:  28% 728/2609 [42:14<1:45:15,  3.36s/it][A
Training...:  28% 729/2609 [42:16<1:41:10,  3.23s/it][A
Training...:  28% 730/2609 [42:19<1:36:59,  3.10s/it][A
Training...:  28% 731/2609 [42:22<1:33:40,  2.99s/it][A
Training...:  28% 732/2609 [42:25<1:30:30,  2.89s/it][A
Training...:  28% 733/2609 [42:27<1:27:23,  2.79s/it][A
Training...:  28% 734/2609 [42:30<1:24:39,  2.71s/it][A
Training...:  28% 735/2609 [42:32<1:21:27,  2.61s/it][A
Training...:  28% 736/2609 [42:34<1:18:46,  2.52s/it][A
Training...:  28% 737/2609 [42:37<1:16:16,  2.44s/it][A
Training...:  28% 738/2609 [42:39<1:13:06,  2.34s/it][A
Training...:  28% 739/2609 [42:41<1:09:58,  2.25s/it][A
Training...:  28% 740/2609 [42:43<1:07:16,  2.16s/it][A
Training...:  28% 741/2609 [42:45<1:04:35,  2.07s/it][A
Training...:  28% 742/2609 [42:46<1:01:55,  1.99s/it][A
Training...:  28% 743/2609 [42:48<59:06,  1.90s/it]  [A
Training...:  29% 744/2609 [42:50<55:50,  1.80s/it][A
Training...:  29% 745/2609 [42:51<52:32,  1.69s/it][A
Training...:  29% 746/2609 [42:52<49:17,  1.59s/it][A
Training...:  29% 747/2609 [42:54<45:24,  1.46s/it][A
Training...:  29% 748/2609 [42:55<40:59,  1.32s/it][A
Training...:  29% 749/2609 [42:55<36:02,  1.16s/it][A
Training...:  29% 750/2609 [42:56<30:21,  1.02it/s][A
Training...:  29% 751/2609 [43:03<1:27:53,  2.84s/it][A
Training...:  29% 752/2609 [43:10<2:07:06,  4.11s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:24:14<31:01:41, 9308.44s/it]
Training...:  29% 752/2609 [43:18<2:07:06,  4.11s/it][A
Training...:  29% 753/2609 [43:18<2:40:22,  5.18s/it][A
Training...:  29% 754/2609 [43:24<2:50:45,  5.52s/it][A
Training...:  29% 755/2609 [43:30<2:56:14,  5.70s/it][A
Training...:  29% 756/2609 [43:36<2:55:56,  5.70s/it][A
Training...:  29% 757/2609 [43:42<2:54:37,  5.66s/it][A
Training...:  29% 758/2609 [43:47<2:51:37,  5.56s/it][A
Training...:  29% 759/2609 [43:52<2:48:41,  5.47s/it][A
Training...:  29% 760/2609 [43:57<2:44:37,  5.34s/it][A
Training...:  29% 761/2609 [44:02<2:40:12,  5.20s/it][A
Training...:  29% 762/2609 [44:07<2:35:44,  5.06s/it][A
Training...:  29% 763/2609 [44:12<2:32:39,  4.96s/it][A
Training...:  29% 764/2609 [44:16<2:28:42,  4.84s/it][A
Training...:  29% 765/2609 [44:21<2:24:19,  4.70s/it][A
Training...:  29% 766/2609 [44:25<2:19:31,  4.54s/it][A
Training...:  29% 767/2609 [44:29<2:15:00,  4.40s/it][A
Training...:  29% 768/2609 [44:33<2:10:49,  4.26s/it][A
Training...:  29% 769/2609 [44:37<2:07:12,  4.15s/it][A
Training...:  30% 770/2609 [44:40<2:03:05,  4.02s/it][A
Training...:  30% 771/2609 [44:44<1:59:36,  3.90s/it][A
Training...:  30% 772/2609 [44:47<1:56:17,  3.80s/it][A
Training...:  30% 773/2609 [44:51<1:53:02,  3.69s/it][A
Training...:  30% 774/2609 [44:54<1:49:27,  3.58s/it][A
Training...:  30% 775/2609 [44:57<1:46:21,  3.48s/it][A
Training...:  30% 776/2609 [45:01<1:43:12,  3.38s/it][A
Training...:  30% 777/2609 [45:04<1:40:14,  3.28s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:26:03<31:01:41, 9308.44s/it]
Training...:  30% 777/2609 [45:07<1:40:14,  3.28s/it][A
Training...:  30% 778/2609 [45:07<1:41:50,  3.34s/it][A
Training...:  30% 779/2609 [45:10<1:37:49,  3.21s/it][A
Training...:  30% 780/2609 [45:13<1:34:04,  3.09s/it][A
Training...:  30% 781/2609 [45:16<1:30:51,  2.98s/it][A
Training...:  30% 782/2609 [45:18<1:27:46,  2.88s/it][A
Training...:  30% 783/2609 [45:21<1:24:36,  2.78s/it][A
Training...:  30% 784/2609 [45:23<1:21:38,  2.68s/it][A
Training...:  30% 785/2609 [45:26<1:18:55,  2.60s/it][A
Training...:  30% 786/2609 [45:28<1:16:27,  2.52s/it][A
Training...:  30% 787/2609 [45:30<1:14:10,  2.44s/it][A
Training...:  30% 788/2609 [45:32<1:11:24,  2.35s/it][A
Training...:  30% 789/2609 [45:35<1:09:11,  2.28s/it][A
Training...:  30% 790/2609 [45:36<1:06:32,  2.19s/it][A
Training...:  30% 791/2609 [45:38<1:03:15,  2.09s/it][A
Training...:  30% 792/2609 [45:40<1:00:01,  1.98s/it][A
Training...:  30% 793/2609 [45:42<56:55,  1.88s/it]  [A
Training...:  30% 794/2609 [45:43<53:33,  1.77s/it][A
Training...:  30% 795/2609 [45:45<50:01,  1.65s/it][A
Training...:  31% 796/2609 [45:46<46:21,  1.53s/it][A
Training...:  31% 797/2609 [45:47<42:50,  1.42s/it][A
Training...:  31% 798/2609 [45:48<38:32,  1.28s/it][A
Training...:  31% 799/2609 [45:49<33:59,  1.13s/it][A
Training...:  31% 800/2609 [45:49<28:39,  1.05it/s][A
Training...:  31% 801/2609 [45:56<1:25:16,  2.83s/it][A
Training...:  31% 802/2609 [46:04<2:03:55,  4.11s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:27:07<31:01:41, 9308.44s/it]
Training...:  31% 802/2609 [46:11<2:03:55,  4.11s/it][A
Training...:  31% 803/2609 [46:11<2:35:26,  5.16s/it][A
Training...:  31% 804/2609 [46:18<2:46:20,  5.53s/it][A
Training...:  31% 805/2609 [46:24<2:50:42,  5.68s/it][A
Training...:  31% 806/2609 [46:29<2:50:33,  5.68s/it][A
Training...:  31% 807/2609 [46:35<2:48:36,  5.61s/it][A
Training...:  31% 808/2609 [46:40<2:45:18,  5.51s/it][A
Training...:  31% 809/2609 [46:45<2:41:34,  5.39s/it][A
Training...:  31% 810/2609 [46:50<2:37:29,  5.25s/it][A
Training...:  31% 811/2609 [46:55<2:34:16,  5.15s/it][A
Training...:  31% 812/2609 [47:00<2:29:51,  5.00s/it][A
Training...:  31% 813/2609 [47:04<2:25:57,  4.88s/it][A
Training...:  31% 814/2609 [47:09<2:21:08,  4.72s/it][A
Training...:  31% 815/2609 [47:13<2:17:13,  4.59s/it][A
Training...:  31% 816/2609 [47:17<2:12:40,  4.44s/it][A
Training...:  31% 817/2609 [47:21<2:09:19,  4.33s/it][A
Training...:  31% 818/2609 [47:25<2:05:39,  4.21s/it][A
Training...:  31% 819/2609 [47:29<2:02:41,  4.11s/it][A
Training...:  31% 820/2609 [47:33<1:59:13,  4.00s/it][A
Training...:  31% 821/2609 [47:36<1:56:51,  3.92s/it][A
Training...:  32% 822/2609 [47:40<1:53:44,  3.82s/it][A
Training...:  32% 823/2609 [47:43<1:51:13,  3.74s/it][A
Training...:  32% 824/2609 [47:47<1:47:54,  3.63s/it][A
Training...:  32% 825/2609 [47:50<1:45:15,  3.54s/it][A
Training...:  32% 826/2609 [47:53<1:42:10,  3.44s/it][A
Training...:  32% 827/2609 [47:56<1:39:19,  3.34s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:28:56<31:01:41, 9308.44s/it]
Training...:  32% 827/2609 [48:00<1:39:19,  3.34s/it][A
Training...:  32% 828/2609 [48:00<1:41:20,  3.41s/it][A
Training...:  32% 829/2609 [48:03<1:37:46,  3.30s/it][A
Training...:  32% 830/2609 [48:06<1:34:24,  3.18s/it][A
Training...:  32% 831/2609 [48:09<1:32:13,  3.11s/it][A
Training...:  32% 832/2609 [48:12<1:28:40,  2.99s/it][A
Training...:  32% 833/2609 [48:14<1:25:14,  2.88s/it][A
Training...:  32% 834/2609 [48:17<1:22:03,  2.77s/it][A
Training...:  32% 835/2609 [48:19<1:18:45,  2.66s/it][A
Training...:  32% 836/2609 [48:21<1:15:31,  2.56s/it][A
Training...:  32% 837/2609 [48:24<1:12:28,  2.45s/it][A
Training...:  32% 838/2609 [48:26<1:09:29,  2.35s/it][A
Training...:  32% 839/2609 [48:28<1:06:34,  2.26s/it][A
Training...:  32% 840/2609 [48:30<1:04:00,  2.17s/it][A
Training...:  32% 841/2609 [48:32<1:01:18,  2.08s/it][A
Training...:  32% 842/2609 [48:33<58:17,  1.98s/it]  [A
Training...:  32% 843/2609 [48:35<55:12,  1.88s/it][A
Training...:  32% 844/2609 [48:37<51:50,  1.76s/it][A
Training...:  32% 845/2609 [48:38<48:35,  1.65s/it][A
Training...:  32% 846/2609 [48:39<45:18,  1.54s/it][A
Training...:  32% 847/2609 [48:40<41:51,  1.43s/it][A
Training...:  33% 848/2609 [48:41<37:57,  1.29s/it][A
Training...:  33% 849/2609 [48:42<33:34,  1.14s/it][A
Training...:  33% 850/2609 [48:43<28:29,  1.03it/s][A
Training...:  33% 851/2609 [48:50<1:22:47,  2.83s/it][A
Training...:  33% 852/2609 [48:57<2:00:26,  4.11s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:30:00<31:01:41, 9308.44s/it]
Training...:  33% 852/2609 [49:05<2:00:26,  4.11s/it][A
Training...:  33% 853/2609 [49:05<2:31:26,  5.17s/it][A
Training...:  33% 854/2609 [49:11<2:40:48,  5.50s/it][A
Training...:  33% 855/2609 [49:17<2:44:28,  5.63s/it][A
Training...:  33% 856/2609 [49:23<2:44:51,  5.64s/it][A
Training...:  33% 857/2609 [49:28<2:43:12,  5.59s/it][A
Training...:  33% 858/2609 [49:33<2:41:03,  5.52s/it][A
Training...:  33% 859/2609 [49:39<2:38:49,  5.45s/it][A
Training...:  33% 860/2609 [49:44<2:34:34,  5.30s/it][A
Training...:  33% 861/2609 [49:49<2:31:38,  5.21s/it][A
Training...:  33% 862/2609 [49:53<2:27:05,  5.05s/it][A
Training...:  33% 863/2609 [49:58<2:23:24,  4.93s/it][A
Training...:  33% 864/2609 [50:02<2:18:43,  4.77s/it][A
Training...:  33% 865/2609 [50:07<2:14:48,  4.64s/it][A
Training...:  33% 866/2609 [50:11<2:10:59,  4.51s/it][A
Training...:  33% 867/2609 [50:15<2:07:24,  4.39s/it][A
Training...:  33% 868/2609 [50:19<2:03:17,  4.25s/it][A
Training...:  33% 869/2609 [50:23<1:59:45,  4.13s/it][A
Training...:  33% 870/2609 [50:26<1:55:55,  4.00s/it][A
Training...:  33% 871/2609 [50:30<1:52:44,  3.89s/it][A
Training...:  33% 872/2609 [50:34<1:49:34,  3.79s/it][A
Training...:  33% 873/2609 [50:37<1:47:28,  3.71s/it][A
Training...:  33% 874/2609 [50:41<1:44:34,  3.62s/it][A
Training...:  34% 875/2609 [50:44<1:41:22,  3.51s/it][A
Training...:  34% 876/2609 [50:47<1:37:48,  3.39s/it][A
Training...:  34% 877/2609 [50:50<1:34:55,  3.29s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:31:49<31:01:41, 9308.44s/it]
Training...:  34% 877/2609 [50:53<1:34:55,  3.29s/it][A
Training...:  34% 878/2609 [50:53<1:36:55,  3.36s/it][A
Training...:  34% 879/2609 [50:56<1:33:07,  3.23s/it][A
Training...:  34% 880/2609 [50:59<1:29:25,  3.10s/it][A
Training...:  34% 881/2609 [51:02<1:26:26,  3.00s/it][A
Training...:  34% 882/2609 [51:05<1:23:17,  2.89s/it][A
Training...:  34% 883/2609 [51:07<1:20:22,  2.79s/it][A
Training...:  34% 884/2609 [51:10<1:17:36,  2.70s/it][A
Training...:  34% 885/2609 [51:12<1:14:41,  2.60s/it][A
Training...:  34% 886/2609 [51:14<1:11:45,  2.50s/it][A
Training...:  34% 887/2609 [51:17<1:09:26,  2.42s/it][A
Training...:  34% 888/2609 [51:19<1:06:46,  2.33s/it][A
Training...:  34% 889/2609 [51:21<1:04:05,  2.24s/it][A
Training...:  34% 890/2609 [51:23<1:01:44,  2.15s/it][A
Training...:  34% 891/2609 [51:24<59:03,  2.06s/it]  [A
Training...:  34% 892/2609 [51:26<56:21,  1.97s/it][A
Training...:  34% 893/2609 [51:28<53:29,  1.87s/it][A
Training...:  34% 894/2609 [51:29<50:32,  1.77s/it][A
Training...:  34% 895/2609 [51:31<47:35,  1.67s/it][A
Training...:  34% 896/2609 [51:32<44:19,  1.55s/it][A
Training...:  34% 897/2609 [51:33<40:33,  1.42s/it][A
Training...:  34% 898/2609 [51:34<36:26,  1.28s/it][A
Training...:  34% 899/2609 [51:35<32:10,  1.13s/it][A
Training...:  34% 900/2609 [51:36<27:10,  1.05it/s][A
Training...:  35% 901/2609 [51:43<1:20:52,  2.84s/it][A
Training...:  35% 902/2609 [51:50<1:57:03,  4.11s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:32:53<31:01:41, 9308.44s/it]
Training...:  35% 902/2609 [51:58<1:57:03,  4.11s/it][A
Training...:  35% 903/2609 [51:58<2:28:18,  5.22s/it][A
Training...:  35% 904/2609 [52:04<2:38:38,  5.58s/it][A
Training...:  35% 905/2609 [52:10<2:42:50,  5.73s/it][A
Training...:  35% 906/2609 [52:16<2:44:04,  5.78s/it][A
Training...:  35% 907/2609 [52:22<2:43:18,  5.76s/it][A
Training...:  35% 908/2609 [52:27<2:40:18,  5.65s/it][A
Training...:  35% 909/2609 [52:32<2:36:45,  5.53s/it][A
Training...:  35% 910/2609 [52:37<2:32:18,  5.38s/it][A
Training...:  35% 911/2609 [52:42<2:28:14,  5.24s/it][A
Training...:  35% 912/2609 [52:47<2:24:06,  5.10s/it][A
Training...:  35% 913/2609 [52:52<2:21:10,  4.99s/it][A
Training...:  35% 914/2609 [52:56<2:16:50,  4.84s/it][A
Training...:  35% 915/2609 [53:01<2:12:10,  4.68s/it][A
Training...:  35% 916/2609 [53:05<2:07:43,  4.53s/it][A
Training...:  35% 917/2609 [53:09<2:03:54,  4.39s/it][A
Training...:  35% 918/2609 [53:13<1:59:56,  4.26s/it][A
Training...:  35% 919/2609 [53:17<1:56:59,  4.15s/it][A
Training...:  35% 920/2609 [53:20<1:53:26,  4.03s/it][A
Training...:  35% 921/2609 [53:24<1:50:15,  3.92s/it][A
Training...:  35% 922/2609 [53:28<1:47:19,  3.82s/it][A
Training...:  35% 923/2609 [53:31<1:44:28,  3.72s/it][A
Training...:  35% 924/2609 [53:35<1:41:15,  3.61s/it][A
Training...:  35% 925/2609 [53:38<1:38:44,  3.52s/it][A
Training...:  35% 926/2609 [53:41<1:36:06,  3.43s/it][A
Training...:  36% 927/2609 [53:44<1:33:39,  3.34s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:34:43<31:01:41, 9308.44s/it]
Training...:  36% 927/2609 [53:48<1:33:39,  3.34s/it][A
Training...:  36% 928/2609 [53:48<1:35:35,  3.41s/it][A
Training...:  36% 929/2609 [53:51<1:31:59,  3.29s/it][A
Training...:  36% 930/2609 [53:54<1:28:50,  3.17s/it][A
Training...:  36% 931/2609 [53:57<1:25:45,  3.07s/it][A
Training...:  36% 932/2609 [53:59<1:22:38,  2.96s/it][A
Training...:  36% 933/2609 [54:02<1:19:49,  2.86s/it][A
Training...:  36% 934/2609 [54:04<1:16:43,  2.75s/it][A
Training...:  36% 935/2609 [54:07<1:13:51,  2.65s/it][A
Training...:  36% 936/2609 [54:09<1:11:09,  2.55s/it][A
Training...:  36% 937/2609 [54:11<1:08:32,  2.46s/it][A
Training...:  36% 938/2609 [54:13<1:05:58,  2.37s/it][A
Training...:  36% 939/2609 [54:16<1:03:24,  2.28s/it][A
Training...:  36% 940/2609 [54:18<1:00:36,  2.18s/it][A
Training...:  36% 941/2609 [54:19<57:51,  2.08s/it]  [A
Training...:  36% 942/2609 [54:21<54:59,  1.98s/it][A
Training...:  36% 943/2609 [54:23<52:14,  1.88s/it][A
Training...:  36% 944/2609 [54:24<49:16,  1.78s/it][A
Training...:  36% 945/2609 [54:26<46:07,  1.66s/it][A
Training...:  36% 946/2609 [54:27<42:43,  1.54s/it][A
Training...:  36% 947/2609 [54:28<39:28,  1.43s/it][A
Training...:  36% 948/2609 [54:29<35:41,  1.29s/it][A
Training...:  36% 949/2609 [54:30<31:25,  1.14s/it][A
Training...:  36% 950/2609 [54:30<26:43,  1.03it/s][A
Training...:  36% 951/2609 [54:38<1:17:48,  2.82s/it][A
Training...:  36% 952/2609 [54:45<1:52:04,  4.06s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:35:48<31:01:41, 9308.44s/it]
Training...:  36% 952/2609 [54:52<1:52:04,  4.06s/it][A
Training...:  37% 953/2609 [54:52<2:19:53,  5.07s/it][A
Training...:  37% 954/2609 [54:58<2:28:37,  5.39s/it][A
Training...:  37% 955/2609 [55:04<2:32:28,  5.53s/it][A
Training...:  37% 956/2609 [55:10<2:34:42,  5.62s/it][A
Training...:  37% 957/2609 [55:15<2:34:07,  5.60s/it][A
Training...:  37% 958/2609 [55:20<2:30:39,  5.47s/it][A
Training...:  37% 959/2609 [55:26<2:27:29,  5.36s/it][A
Training...:  37% 960/2609 [55:30<2:23:28,  5.22s/it][A
Training...:  37% 961/2609 [55:35<2:20:23,  5.11s/it][A
Training...:  37% 962/2609 [55:40<2:16:05,  4.96s/it][A
Training...:  37% 963/2609 [55:44<2:12:11,  4.82s/it][A
Training...:  37% 964/2609 [55:49<2:08:27,  4.69s/it][A
Training...:  37% 965/2609 [55:53<2:04:49,  4.56s/it][A
Training...:  37% 966/2609 [55:57<2:00:43,  4.41s/it][A
Training...:  37% 967/2609 [56:01<1:57:38,  4.30s/it][A
Training...:  37% 968/2609 [56:05<1:53:48,  4.16s/it][A
Training...:  37% 969/2609 [56:09<1:50:23,  4.04s/it][A
Training...:  37% 970/2609 [56:12<1:46:59,  3.92s/it][A
Training...:  37% 971/2609 [56:16<1:44:24,  3.82s/it][A
Training...:  37% 972/2609 [56:19<1:41:07,  3.71s/it][A
Training...:  37% 973/2609 [56:23<1:38:26,  3.61s/it][A
Training...:  37% 974/2609 [56:26<1:35:42,  3.51s/it][A
Training...:  37% 975/2609 [56:29<1:33:19,  3.43s/it][A
Training...:  37% 976/2609 [56:32<1:30:43,  3.33s/it][A
Training...:  37% 977/2609 [56:35<1:28:24,  3.25s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:37:35<31:01:41, 9308.44s/it]
Training...:  37% 977/2609 [56:39<1:28:24,  3.25s/it][A
Training...:  37% 978/2609 [56:39<1:29:50,  3.30s/it][A
Training...:  38% 979/2609 [56:42<1:26:23,  3.18s/it][A
Training...:  38% 980/2609 [56:45<1:23:37,  3.08s/it][A
Training...:  38% 981/2609 [56:47<1:20:20,  2.96s/it][A
Training...:  38% 982/2609 [56:50<1:17:20,  2.85s/it][A
Training...:  38% 983/2609 [56:52<1:14:41,  2.76s/it][A
Training...:  38% 984/2609 [56:55<1:11:43,  2.65s/it][A
Training...:  38% 985/2609 [56:57<1:09:06,  2.55s/it][A
Training...:  38% 986/2609 [56:59<1:06:38,  2.46s/it][A
Training...:  38% 987/2609 [57:02<1:04:34,  2.39s/it][A
Training...:  38% 988/2609 [57:04<1:02:15,  2.30s/it][A
Training...:  38% 989/2609 [57:06<1:00:03,  2.22s/it][A
Training...:  38% 990/2609 [57:08<57:51,  2.14s/it]  [A
Training...:  38% 991/2609 [57:10<55:23,  2.05s/it][A
Training...:  38% 992/2609 [57:11<52:36,  1.95s/it][A
Training...:  38% 993/2609 [57:13<50:40,  1.88s/it][A
Training...:  38% 994/2609 [57:15<47:50,  1.78s/it][A
Training...:  38% 995/2609 [57:16<44:57,  1.67s/it][A
Training...:  38% 996/2609 [57:17<41:52,  1.56s/it][A
Training...:  38% 997/2609 [57:18<38:44,  1.44s/it][A
Training...:  38% 998/2609 [57:19<35:08,  1.31s/it][A
Training...:  38% 999/2609 [57:20<31:01,  1.16s/it][A
Training...:  38% 1000/2609 [57:21<26:04,  1.03it/s][A
Training...:  38% 1001/2609 [57:28<1:16:04,  2.84s/it][A
Training...:  38% 1002/2609 [57:35<1:49:51,  4.10s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:38:38<31:01:41, 9308.44s/it]
Training...:  38% 1002/2609 [57:43<1:49:51,  4.10s/it][A
Training...:  38% 1003/2609 [57:43<2:17:07,  5.12s/it][A
Training...:  38% 1004/2609 [57:49<2:25:07,  5.43s/it][A
Training...:  39% 1005/2609 [57:55<2:28:37,  5.56s/it][A
Training...:  39% 1006/2609 [58:00<2:29:21,  5.59s/it][A
Training...:  39% 1007/2609 [58:06<2:27:34,  5.53s/it][A
Training...:  39% 1008/2609 [58:11<2:23:53,  5.39s/it][A
Training...:  39% 1009/2609 [58:16<2:20:33,  5.27s/it][A
Training...:  39% 1010/2609 [58:20<2:16:49,  5.13s/it][A
Training...:  39% 1011/2609 [58:25<2:13:53,  5.03s/it][A
Training...:  39% 1012/2609 [58:30<2:10:03,  4.89s/it][A
Training...:  39% 1013/2609 [58:34<2:06:38,  4.76s/it][A
Training...:  39% 1014/2609 [58:39<2:02:50,  4.62s/it][A
Training...:  39% 1015/2609 [58:43<1:59:20,  4.49s/it][A
Training...:  39% 1016/2609 [58:47<1:55:36,  4.35s/it][A
Training...:  39% 1017/2609 [58:51<1:53:34,  4.28s/it][A
Training...:  39% 1018/2609 [58:55<1:50:34,  4.17s/it][A
Training...:  39% 1019/2609 [58:59<1:46:53,  4.03s/it][A
Training...:  39% 1020/2609 [59:02<1:43:56,  3.92s/it][A
Training...:  39% 1021/2609 [59:06<1:41:25,  3.83s/it][A
Training...:  39% 1022/2609 [59:09<1:38:35,  3.73s/it][A
Training...:  39% 1023/2609 [59:13<1:35:55,  3.63s/it][A
Training...:  39% 1024/2609 [59:16<1:33:22,  3.53s/it][A
Training...:  39% 1025/2609 [59:19<1:30:45,  3.44s/it][A
Training...:  39% 1026/2609 [59:22<1:28:08,  3.34s/it][A
Training...:  39% 1027/2609 [59:25<1:25:31,  3.24s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:40:24<31:01:41, 9308.44s/it]
Training...:  39% 1027/2609 [59:29<1:25:31,  3.24s/it][A
Training...:  39% 1028/2609 [59:29<1:27:14,  3.31s/it][A
Training...:  39% 1029/2609 [59:32<1:24:10,  3.20s/it][A
Training...:  39% 1030/2609 [59:35<1:21:42,  3.10s/it][A
Training...:  40% 1031/2609 [59:37<1:18:23,  2.98s/it][A
Training...:  40% 1032/2609 [59:40<1:15:36,  2.88s/it][A
Training...:  40% 1033/2609 [59:43<1:12:52,  2.77s/it][A
Training...:  40% 1034/2609 [59:45<1:10:09,  2.67s/it][A
Training...:  40% 1035/2609 [59:47<1:07:43,  2.58s/it][A
Training...:  40% 1036/2609 [59:50<1:05:19,  2.49s/it][A
Training...:  40% 1037/2609 [59:52<1:03:01,  2.41s/it][A
Training...:  40% 1038/2609 [59:54<1:00:34,  2.31s/it][A
Training...:  40% 1039/2609 [59:56<58:10,  2.22s/it]  [A
Training...:  40% 1040/2609 [59:58<55:46,  2.13s/it][A
Training...:  40% 1041/2609 [1:00:00<53:16,  2.04s/it][A
Training...:  40% 1042/2609 [1:00:01<50:43,  1.94s/it][A
Training...:  40% 1043/2609 [1:00:03<48:29,  1.86s/it][A
Training...:  40% 1044/2609 [1:00:05<45:51,  1.76s/it][A
Training...:  40% 1045/2609 [1:00:06<43:02,  1.65s/it][A
Training...:  40% 1046/2609 [1:00:07<40:00,  1.54s/it][A
Training...:  40% 1047/2609 [1:00:08<36:49,  1.41s/it][A
Training...:  40% 1048/2609 [1:00:09<33:14,  1.28s/it][A
Training...:  40% 1049/2609 [1:00:10<29:19,  1.13s/it][A
Training...:  40% 1050/2609 [1:00:11<24:43,  1.05it/s][A
Training...:  40% 1051/2609 [1:00:18<1:13:21,  2.82s/it][A
Training...:  40% 1052/2609 [1:00:25<1:47:09,  4.13s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:41:28<31:01:41, 9308.44s/it]
Training...:  40% 1052/2609 [1:00:33<1:47:09,  4.13s/it][A
Training...:  40% 1053/2609 [1:00:33<2:14:50,  5.20s/it][A
Training...:  40% 1054/2609 [1:00:39<2:23:03,  5.52s/it][A
Training...:  40% 1055/2609 [1:00:45<2:25:48,  5.63s/it][A
Training...:  40% 1056/2609 [1:00:50<2:25:03,  5.60s/it][A
Training...:  41% 1057/2609 [1:00:56<2:23:27,  5.55s/it][A
Training...:  41% 1058/2609 [1:01:01<2:20:09,  5.42s/it][A
Training...:  41% 1059/2609 [1:01:06<2:17:50,  5.34s/it][A
Training...:  41% 1060/2609 [1:01:11<2:14:33,  5.21s/it][A
Training...:  41% 1061/2609 [1:01:16<2:11:57,  5.11s/it][A
Training...:  41% 1062/2609 [1:01:21<2:08:43,  4.99s/it][A
Training...:  41% 1063/2609 [1:01:25<2:04:40,  4.84s/it][A
Training...:  41% 1064/2609 [1:01:29<2:00:13,  4.67s/it][A
Training...:  41% 1065/2609 [1:01:34<1:56:28,  4.53s/it][A
Training...:  41% 1066/2609 [1:01:38<1:53:19,  4.41s/it][A
Training...:  41% 1067/2609 [1:01:42<1:50:42,  4.31s/it][A
Training...:  41% 1068/2609 [1:01:46<1:47:46,  4.20s/it][A
Training...:  41% 1069/2609 [1:01:50<1:44:51,  4.09s/it][A
Training...:  41% 1070/2609 [1:01:53<1:42:01,  3.98s/it][A
Training...:  41% 1071/2609 [1:01:57<1:39:10,  3.87s/it][A
Training...:  41% 1072/2609 [1:02:00<1:36:30,  3.77s/it][A
Training...:  41% 1073/2609 [1:02:04<1:34:02,  3.67s/it][A
Training...:  41% 1074/2609 [1:02:07<1:31:38,  3.58s/it][A
Training...:  41% 1075/2609 [1:02:10<1:29:06,  3.49s/it][A
Training...:  41% 1076/2609 [1:02:14<1:26:16,  3.38s/it][A
Training...:  41% 1077/2609 [1:02:17<1:23:56,  3.29s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:43:16<31:01:41, 9308.44s/it]
Training...:  41% 1077/2609 [1:02:20<1:23:56,  3.29s/it][A
Training...:  41% 1078/2609 [1:02:20<1:25:22,  3.35s/it][A
Training...:  41% 1079/2609 [1:02:23<1:22:13,  3.22s/it][A
Training...:  41% 1080/2609 [1:02:26<1:19:40,  3.13s/it][A
Training...:  41% 1081/2609 [1:02:29<1:16:48,  3.02s/it][A
Training...:  41% 1082/2609 [1:02:31<1:13:37,  2.89s/it][A
Training...:  42% 1083/2609 [1:02:34<1:11:19,  2.80s/it][A
Training...:  42% 1084/2609 [1:02:36<1:08:53,  2.71s/it][A
Training...:  42% 1085/2609 [1:02:39<1:06:32,  2.62s/it][A
Training...:  42% 1086/2609 [1:02:41<1:03:58,  2.52s/it][A
Training...:  42% 1087/2609 [1:02:43<1:01:50,  2.44s/it][A
Training...:  42% 1088/2609 [1:02:45<59:04,  2.33s/it]  [A
Training...:  42% 1089/2609 [1:02:47<56:27,  2.23s/it][A
Training...:  42% 1090/2609 [1:02:49<53:58,  2.13s/it][A
Training...:  42% 1091/2609 [1:02:51<51:23,  2.03s/it][A
Training...:  42% 1092/2609 [1:02:53<49:17,  1.95s/it][A
Training...:  42% 1093/2609 [1:02:55<46:53,  1.86s/it][A
Training...:  42% 1094/2609 [1:02:56<44:12,  1.75s/it][A
Training...:  42% 1095/2609 [1:02:57<41:29,  1.64s/it][A
Training...:  42% 1096/2609 [1:02:59<38:52,  1.54s/it][A
Training...:  42% 1097/2609 [1:03:00<35:53,  1.42s/it][A
Training...:  42% 1098/2609 [1:03:01<32:42,  1.30s/it][A
Training...:  42% 1099/2609 [1:03:02<28:57,  1.15s/it][A
Training...:  42% 1100/2609 [1:03:02<24:31,  1.03it/s][A
Training...:  42% 1101/2609 [1:03:09<1:11:12,  2.83s/it][A
Training...:  42% 1102/2609 [1:03:17<1:43:05,  4.10s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:44:20<31:01:41, 9308.44s/it]
Training...:  42% 1102/2609 [1:03:24<1:43:05,  4.10s/it][A
Training...:  42% 1103/2609 [1:03:24<2:10:48,  5.21s/it][A
Training...:  42% 1104/2609 [1:03:31<2:20:54,  5.62s/it][A
Training...:  42% 1105/2609 [1:03:37<2:24:41,  5.77s/it][A
Training...:  42% 1106/2609 [1:03:43<2:24:31,  5.77s/it][A
Training...:  42% 1107/2609 [1:03:48<2:23:32,  5.73s/it][A
Training...:  42% 1108/2609 [1:03:54<2:20:30,  5.62s/it][A
Training...:  43% 1109/2609 [1:03:59<2:17:37,  5.51s/it][A
Training...:  43% 1110/2609 [1:04:04<2:13:26,  5.34s/it][A
Training...:  43% 1111/2609 [1:04:09<2:09:45,  5.20s/it][A
Training...:  43% 1112/2609 [1:04:13<2:05:12,  5.02s/it][A
Training...:  43% 1113/2609 [1:04:18<2:02:06,  4.90s/it][A
Training...:  43% 1114/2609 [1:04:22<1:58:28,  4.75s/it][A
Training...:  43% 1115/2609 [1:04:27<1:55:25,  4.64s/it][A
Training...:  43% 1116/2609 [1:04:31<1:51:35,  4.48s/it][A
Training...:  43% 1117/2609 [1:04:35<1:48:29,  4.36s/it][A
Training...:  43% 1118/2609 [1:04:39<1:45:04,  4.23s/it][A
Training...:  43% 1119/2609 [1:04:43<1:42:25,  4.12s/it][A
Training...:  43% 1120/2609 [1:04:47<1:39:10,  4.00s/it][A
Training...:  43% 1121/2609 [1:04:50<1:36:11,  3.88s/it][A
Training...:  43% 1122/2609 [1:04:54<1:33:17,  3.76s/it][A
Training...:  43% 1123/2609 [1:04:57<1:30:59,  3.67s/it][A
Training...:  43% 1124/2609 [1:05:00<1:28:32,  3.58s/it][A
Training...:  43% 1125/2609 [1:05:04<1:26:17,  3.49s/it][A
Training...:  43% 1126/2609 [1:05:07<1:23:31,  3.38s/it][A
Training...:  43% 1127/2609 [1:05:10<1:20:58,  3.28s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:46:09<31:01:41, 9308.44s/it]
Training...:  43% 1127/2609 [1:05:13<1:20:58,  3.28s/it][A
Training...:  43% 1128/2609 [1:05:13<1:22:34,  3.35s/it][A
Training...:  43% 1129/2609 [1:05:16<1:19:27,  3.22s/it][A
Training...:  43% 1130/2609 [1:05:19<1:16:51,  3.12s/it][A
Training...:  43% 1131/2609 [1:05:22<1:14:21,  3.02s/it][A
Training...:  43% 1132/2609 [1:05:25<1:11:42,  2.91s/it][A
Training...:  43% 1133/2609 [1:05:27<1:09:05,  2.81s/it][A
Training...:  43% 1134/2609 [1:05:30<1:07:04,  2.73s/it][A
Training...:  44% 1135/2609 [1:05:32<1:04:59,  2.65s/it][A
Training...:  44% 1136/2609 [1:05:35<1:03:03,  2.57s/it][A
Training...:  44% 1137/2609 [1:05:37<1:00:53,  2.48s/it][A
Training...:  44% 1138/2609 [1:05:39<58:27,  2.38s/it]  [A
Training...:  44% 1139/2609 [1:05:41<56:09,  2.29s/it][A
Training...:  44% 1140/2609 [1:05:43<53:46,  2.20s/it][A
Training...:  44% 1141/2609 [1:05:45<51:28,  2.10s/it][A
Training...:  44% 1142/2609 [1:05:47<48:53,  2.00s/it][A
Training...:  44% 1143/2609 [1:05:48<46:20,  1.90s/it][A
Training...:  44% 1144/2609 [1:05:50<43:26,  1.78s/it][A
Training...:  44% 1145/2609 [1:05:51<40:30,  1.66s/it][A
Training...:  44% 1146/2609 [1:05:53<37:33,  1.54s/it][A
Training...:  44% 1147/2609 [1:05:54<34:37,  1.42s/it][A
Training...:  44% 1148/2609 [1:05:55<31:29,  1.29s/it][A
Training...:  44% 1149/2609 [1:05:56<28:12,  1.16s/it][A
Training...:  44% 1150/2609 [1:05:56<23:54,  1.02it/s][A
Training...:  44% 1151/2609 [1:06:03<1:08:51,  2.83s/it][A
Training...:  44% 1152/2609 [1:06:10<1:39:17,  4.09s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:47:13<31:01:41, 9308.44s/it]
Training...:  44% 1152/2609 [1:06:18<1:39:17,  4.09s/it][A
Training...:  44% 1153/2609 [1:06:18<2:04:12,  5.12s/it][A
Training...:  44% 1154/2609 [1:06:24<2:11:08,  5.41s/it][A
Training...:  44% 1155/2609 [1:06:30<2:14:41,  5.56s/it][A
Training...:  44% 1156/2609 [1:06:35<2:14:47,  5.57s/it][A
Training...:  44% 1157/2609 [1:06:41<2:14:06,  5.54s/it][A
Training...:  44% 1158/2609 [1:06:46<2:11:56,  5.46s/it][A
Training...:  44% 1159/2609 [1:06:51<2:09:02,  5.34s/it][A
Training...:  44% 1160/2609 [1:06:56<2:05:26,  5.19s/it][A
Training...:  44% 1161/2609 [1:07:01<2:02:17,  5.07s/it][A
Training...:  45% 1162/2609 [1:07:05<1:58:49,  4.93s/it][A
Training...:  45% 1163/2609 [1:07:10<1:56:22,  4.83s/it][A
Training...:  45% 1164/2609 [1:07:14<1:53:02,  4.69s/it][A
Training...:  45% 1165/2609 [1:07:19<1:50:13,  4.58s/it][A
Training...:  45% 1166/2609 [1:07:23<1:46:39,  4.44s/it][A
Training...:  45% 1167/2609 [1:07:27<1:43:44,  4.32s/it][A
Training...:  45% 1168/2609 [1:07:31<1:40:38,  4.19s/it][A
Training...:  45% 1169/2609 [1:07:35<1:37:53,  4.08s/it][A
Training...:  45% 1170/2609 [1:07:38<1:34:56,  3.96s/it][A
Training...:  45% 1171/2609 [1:07:42<1:32:32,  3.86s/it][A
Training...:  45% 1172/2609 [1:07:45<1:29:56,  3.76s/it][A
Training...:  45% 1173/2609 [1:07:49<1:27:31,  3.66s/it][A
Training...:  45% 1174/2609 [1:07:52<1:25:17,  3.57s/it][A
Training...:  45% 1175/2609 [1:07:55<1:23:09,  3.48s/it][A
Training...:  45% 1176/2609 [1:07:59<1:20:55,  3.39s/it][A
Training...:  45% 1177/2609 [1:08:02<1:18:48,  3.30s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:49:01<31:01:41, 9308.44s/it]
Training...:  45% 1177/2609 [1:08:05<1:18:48,  3.30s/it][A
Training...:  45% 1178/2609 [1:08:05<1:20:13,  3.36s/it][A
Training...:  45% 1179/2609 [1:08:08<1:16:49,  3.22s/it][A
Training...:  45% 1180/2609 [1:08:11<1:14:11,  3.12s/it][A
Training...:  45% 1181/2609 [1:08:14<1:11:25,  3.00s/it][A
Training...:  45% 1182/2609 [1:08:16<1:08:35,  2.88s/it][A
Training...:  45% 1183/2609 [1:08:19<1:05:57,  2.78s/it][A
Training...:  45% 1184/2609 [1:08:21<1:03:25,  2.67s/it][A
Training...:  45% 1185/2609 [1:08:24<1:01:08,  2.58s/it][A
Training...:  45% 1186/2609 [1:08:26<59:05,  2.49s/it]  [A
Training...:  45% 1187/2609 [1:08:28<56:42,  2.39s/it][A
Training...:  46% 1188/2609 [1:08:30<54:30,  2.30s/it][A
Training...:  46% 1189/2609 [1:08:32<52:21,  2.21s/it][A
Training...:  46% 1190/2609 [1:08:34<50:09,  2.12s/it][A
Training...:  46% 1191/2609 [1:08:36<47:52,  2.03s/it][A
Training...:  46% 1192/2609 [1:08:38<45:49,  1.94s/it][A
Training...:  46% 1193/2609 [1:08:39<43:32,  1.85s/it][A
Training...:  46% 1194/2609 [1:08:41<41:17,  1.75s/it][A
Training...:  46% 1195/2609 [1:08:42<38:46,  1.65s/it][A
Training...:  46% 1196/2609 [1:08:43<36:10,  1.54s/it][A
Training...:  46% 1197/2609 [1:08:45<33:22,  1.42s/it][A
Training...:  46% 1198/2609 [1:08:46<30:18,  1.29s/it][A
Training...:  46% 1199/2609 [1:08:46<26:49,  1.14s/it][A
Training...:  46% 1200/2609 [1:08:47<22:38,  1.04it/s][A
Training...:  46% 1201/2609 [1:08:54<1:07:19,  2.87s/it][A
Training...:  46% 1202/2609 [1:09:01<1:36:47,  4.13s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:50:05<31:01:41, 9308.44s/it]
Training...:  46% 1202/2609 [1:09:09<1:36:47,  4.13s/it][A
Training...:  46% 1203/2609 [1:09:09<2:01:22,  5.18s/it][A
Training...:  46% 1204/2609 [1:09:15<2:09:10,  5.52s/it][A
Training...:  46% 1205/2609 [1:09:21<2:12:29,  5.66s/it][A
Training...:  46% 1206/2609 [1:09:27<2:12:54,  5.68s/it][A
Training...:  46% 1207/2609 [1:09:33<2:11:59,  5.65s/it][A
Training...:  46% 1208/2609 [1:09:38<2:08:53,  5.52s/it][A
Training...:  46% 1209/2609 [1:09:43<2:06:42,  5.43s/it][A
Training...:  46% 1210/2609 [1:09:48<2:03:23,  5.29s/it][A
Training...:  46% 1211/2609 [1:09:53<2:00:10,  5.16s/it][A
Training...:  46% 1212/2609 [1:09:57<1:56:06,  4.99s/it][A
Training...:  46% 1213/2609 [1:10:02<1:52:41,  4.84s/it][A
Training...:  47% 1214/2609 [1:10:06<1:48:59,  4.69s/it][A
Training...:  47% 1215/2609 [1:10:11<1:45:54,  4.56s/it][A
Training...:  47% 1216/2609 [1:10:15<1:43:09,  4.44s/it][A
Training...:  47% 1217/2609 [1:10:19<1:40:23,  4.33s/it][A
Training...:  47% 1218/2609 [1:10:23<1:37:11,  4.19s/it][A
Training...:  47% 1219/2609 [1:10:26<1:34:37,  4.08s/it][A
Training...:  47% 1220/2609 [1:10:30<1:31:44,  3.96s/it][A
Training...:  47% 1221/2609 [1:10:34<1:29:06,  3.85s/it][A
Training...:  47% 1222/2609 [1:10:37<1:26:34,  3.74s/it][A
Training...:  47% 1223/2609 [1:10:41<1:24:18,  3.65s/it][A
Training...:  47% 1224/2609 [1:10:44<1:21:46,  3.54s/it][A
Training...:  47% 1225/2609 [1:10:47<1:19:35,  3.45s/it][A
Training...:  47% 1226/2609 [1:10:50<1:17:29,  3.36s/it][A
Training...:  47% 1227/2609 [1:10:53<1:15:34,  3.28s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:51:53<31:01:41, 9308.44s/it]
Training...:  47% 1227/2609 [1:10:57<1:15:34,  3.28s/it][A
Training...:  47% 1228/2609 [1:10:57<1:16:59,  3.35s/it][A
Training...:  47% 1229/2609 [1:11:00<1:13:48,  3.21s/it][A
Training...:  47% 1230/2609 [1:11:03<1:11:18,  3.10s/it][A
Training...:  47% 1231/2609 [1:11:05<1:08:51,  3.00s/it][A
Training...:  47% 1232/2609 [1:11:08<1:06:21,  2.89s/it][A
Training...:  47% 1233/2609 [1:11:11<1:04:10,  2.80s/it][A
Training...:  47% 1234/2609 [1:11:13<1:01:50,  2.70s/it][A
Training...:  47% 1235/2609 [1:11:16<59:53,  2.62s/it]  [A
Training...:  47% 1236/2609 [1:11:18<57:44,  2.52s/it][A
Training...:  47% 1237/2609 [1:11:20<55:54,  2.44s/it][A
Training...:  47% 1238/2609 [1:11:22<53:40,  2.35s/it][A
Training...:  47% 1239/2609 [1:11:24<51:39,  2.26s/it][A
Training...:  48% 1240/2609 [1:11:26<49:27,  2.17s/it][A
Training...:  48% 1241/2609 [1:11:28<47:12,  2.07s/it][A
Training...:  48% 1242/2609 [1:11:30<45:02,  1.98s/it][A
Training...:  48% 1243/2609 [1:11:31<42:55,  1.89s/it][A
Training...:  48% 1244/2609 [1:11:33<40:17,  1.77s/it][A
Training...:  48% 1245/2609 [1:11:34<37:36,  1.65s/it][A
Training...:  48% 1246/2609 [1:11:36<34:45,  1.53s/it][A
Training...:  48% 1247/2609 [1:11:37<32:04,  1.41s/it][A
Training...:  48% 1248/2609 [1:11:38<29:12,  1.29s/it][A
Training...:  48% 1249/2609 [1:11:39<25:53,  1.14s/it][A
Training...:  48% 1250/2609 [1:11:39<21:52,  1.04it/s][A
Training...:  48% 1251/2609 [1:11:46<1:04:26,  2.85s/it][A
Training...:  48% 1252/2609 [1:11:53<1:32:43,  4.10s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:52:56<31:01:41, 9308.44s/it]
Training...:  48% 1252/2609 [1:12:01<1:32:43,  4.10s/it][A
Training...:  48% 1253/2609 [1:12:01<1:55:36,  5.12s/it][A
Training...:  48% 1254/2609 [1:12:07<2:03:33,  5.47s/it][A
Training...:  48% 1255/2609 [1:12:13<2:06:51,  5.62s/it][A
Training...:  48% 1256/2609 [1:12:19<2:07:17,  5.64s/it][A
Training...:  48% 1257/2609 [1:12:24<2:06:33,  5.62s/it][A
Training...:  48% 1258/2609 [1:12:30<2:03:56,  5.50s/it][A
Training...:  48% 1259/2609 [1:12:35<2:00:26,  5.35s/it][A
Training...:  48% 1260/2609 [1:12:39<1:56:50,  5.20s/it][A
Training...:  48% 1261/2609 [1:12:44<1:53:18,  5.04s/it][A
Training...:  48% 1262/2609 [1:12:49<1:49:32,  4.88s/it][A
Training...:  48% 1263/2609 [1:12:53<1:46:49,  4.76s/it][A
Training...:  48% 1264/2609 [1:12:57<1:43:14,  4.61s/it][A
Training...:  48% 1265/2609 [1:13:02<1:40:20,  4.48s/it][A
Training...:  49% 1266/2609 [1:13:06<1:37:08,  4.34s/it][A
Training...:  49% 1267/2609 [1:13:10<1:34:23,  4.22s/it][A
Training...:  49% 1268/2609 [1:13:13<1:31:36,  4.10s/it][A
Training...:  49% 1269/2609 [1:13:17<1:29:13,  3.99s/it][A
Training...:  49% 1270/2609 [1:13:21<1:26:53,  3.89s/it][A
Training...:  49% 1271/2609 [1:13:24<1:24:51,  3.81s/it][A
Training...:  49% 1272/2609 [1:13:28<1:22:26,  3.70s/it][A
Training...:  49% 1273/2609 [1:13:31<1:20:25,  3.61s/it][A
Training...:  49% 1274/2609 [1:13:34<1:18:02,  3.51s/it][A
Training...:  49% 1275/2609 [1:13:38<1:16:14,  3.43s/it][A
Training...:  49% 1276/2609 [1:13:41<1:13:56,  3.33s/it][A
Training...:  49% 1277/2609 [1:13:44<1:11:51,  3.24s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:54:43<31:01:41, 9308.44s/it]
Training...:  49% 1277/2609 [1:13:47<1:11:51,  3.24s/it][A
Training...:  49% 1278/2609 [1:13:47<1:13:24,  3.31s/it][A
Training...:  49% 1279/2609 [1:13:50<1:10:43,  3.19s/it][A
Training...:  49% 1280/2609 [1:13:53<1:08:35,  3.10s/it][A
Training...:  49% 1281/2609 [1:13:56<1:05:52,  2.98s/it][A
Training...:  49% 1282/2609 [1:13:58<1:03:19,  2.86s/it][A
Training...:  49% 1283/2609 [1:14:01<1:01:07,  2.77s/it][A
Training...:  49% 1284/2609 [1:14:03<59:14,  2.68s/it]  [A
Training...:  49% 1285/2609 [1:14:06<57:35,  2.61s/it][A
Training...:  49% 1286/2609 [1:14:08<55:48,  2.53s/it][A
Training...:  49% 1287/2609 [1:14:10<53:59,  2.45s/it][A
Training...:  49% 1288/2609 [1:14:13<51:51,  2.36s/it][A
Training...:  49% 1289/2609 [1:14:15<49:51,  2.27s/it][A
Training...:  49% 1290/2609 [1:14:17<47:40,  2.17s/it][A
Training...:  49% 1291/2609 [1:14:18<45:37,  2.08s/it][A
Training...:  50% 1292/2609 [1:14:20<43:39,  1.99s/it][A
Training...:  50% 1293/2609 [1:14:22<41:38,  1.90s/it][A
Training...:  50% 1294/2609 [1:14:23<39:17,  1.79s/it][A
Training...:  50% 1295/2609 [1:14:25<36:47,  1.68s/it][A
Training...:  50% 1296/2609 [1:14:26<34:24,  1.57s/it][A
Training...:  50% 1297/2609 [1:14:27<31:40,  1.45s/it][A
Training...:  50% 1298/2609 [1:14:28<28:51,  1.32s/it][A
Training...:  50% 1299/2609 [1:14:29<25:25,  1.16s/it][A
Training...:  50% 1300/2609 [1:14:30<21:23,  1.02it/s][A
Training...:  50% 1301/2609 [1:14:37<1:02:31,  2.87s/it][A
Training...:  50% 1302/2609 [1:14:44<1:30:04,  4.13s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:55:47<31:01:41, 9308.44s/it]
Training...:  50% 1302/2609 [1:14:52<1:30:04,  4.13s/it][A
Training...:  50% 1303/2609 [1:14:52<1:52:58,  5.19s/it][A
Training...:  50% 1304/2609 [1:14:58<1:59:44,  5.51s/it][A
Training...:  50% 1305/2609 [1:15:04<2:02:48,  5.65s/it][A
Training...:  50% 1306/2609 [1:15:10<2:02:34,  5.64s/it][A
Training...:  50% 1307/2609 [1:15:15<2:01:57,  5.62s/it][A
Training...:  50% 1308/2609 [1:15:20<1:59:11,  5.50s/it][A
Training...:  50% 1309/2609 [1:15:25<1:56:20,  5.37s/it][A
Training...:  50% 1310/2609 [1:15:30<1:53:10,  5.23s/it][A
Training...:  50% 1311/2609 [1:15:35<1:50:11,  5.09s/it][A
Training...:  50% 1312/2609 [1:15:40<1:47:10,  4.96s/it][A
Training...:  50% 1313/2609 [1:15:44<1:44:23,  4.83s/it][A
Training...:  50% 1314/2609 [1:15:49<1:41:37,  4.71s/it][A
Training...:  50% 1315/2609 [1:15:53<1:38:44,  4.58s/it][A
Training...:  50% 1316/2609 [1:15:57<1:35:57,  4.45s/it][A
Training...:  50% 1317/2609 [1:16:01<1:33:30,  4.34s/it][A
Training...:  51% 1318/2609 [1:16:05<1:30:52,  4.22s/it][A
Training...:  51% 1319/2609 [1:16:09<1:28:32,  4.12s/it][A
Training...:  51% 1320/2609 [1:16:13<1:25:29,  3.98s/it][A
Training...:  51% 1321/2609 [1:16:16<1:23:08,  3.87s/it][A
Training...:  51% 1322/2609 [1:16:20<1:20:32,  3.75s/it][A
Training...:  51% 1323/2609 [1:16:23<1:18:15,  3.65s/it][A
Training...:  51% 1324/2609 [1:16:27<1:16:11,  3.56s/it][A
Training...:  51% 1325/2609 [1:16:30<1:14:35,  3.49s/it][A
Training...:  51% 1326/2609 [1:16:33<1:12:43,  3.40s/it][A
Training...:  51% 1327/2609 [1:16:36<1:10:20,  3.29s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:57:35<31:01:41, 9308.44s/it]
Training...:  51% 1327/2609 [1:16:40<1:10:20,  3.29s/it][A
Training...:  51% 1328/2609 [1:16:40<1:11:23,  3.34s/it][A
Training...:  51% 1329/2609 [1:16:43<1:08:25,  3.21s/it][A
Training...:  51% 1330/2609 [1:16:45<1:06:05,  3.10s/it][A
Training...:  51% 1331/2609 [1:16:48<1:03:27,  2.98s/it][A
Training...:  51% 1332/2609 [1:16:51<1:01:02,  2.87s/it][A
Training...:  51% 1333/2609 [1:16:53<59:03,  2.78s/it]  [A
Training...:  51% 1334/2609 [1:16:56<57:00,  2.68s/it][A
Training...:  51% 1335/2609 [1:16:58<55:00,  2.59s/it][A
Training...:  51% 1336/2609 [1:17:00<53:01,  2.50s/it][A
Training...:  51% 1337/2609 [1:17:03<51:06,  2.41s/it][A
Training...:  51% 1338/2609 [1:17:05<49:08,  2.32s/it][A
Training...:  51% 1339/2609 [1:17:07<47:03,  2.22s/it][A
Training...:  51% 1340/2609 [1:17:09<45:18,  2.14s/it][A
Training...:  51% 1341/2609 [1:17:10<43:22,  2.05s/it][A
Training...:  51% 1342/2609 [1:17:12<41:29,  1.96s/it][A
Training...:  51% 1343/2609 [1:17:14<39:36,  1.88s/it][A
Training...:  52% 1344/2609 [1:17:15<37:25,  1.77s/it][A
Training...:  52% 1345/2609 [1:17:17<35:11,  1.67s/it][A
Training...:  52% 1346/2609 [1:17:18<32:53,  1.56s/it][A
Training...:  52% 1347/2609 [1:17:19<30:22,  1.44s/it][A
Training...:  52% 1348/2609 [1:17:20<27:33,  1.31s/it][A
Training...:  52% 1349/2609 [1:17:21<24:23,  1.16s/it][A
Training...:  52% 1350/2609 [1:17:22<20:36,  1.02it/s][A
Training...:  52% 1351/2609 [1:17:29<59:39,  2.85s/it][A
Training...:  52% 1352/2609 [1:17:36<1:26:04,  4.11s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [21:58:39<31:01:41, 9308.44s/it]
Training...:  52% 1352/2609 [1:17:43<1:26:04,  4.11s/it][A
Training...:  52% 1353/2609 [1:17:43<1:47:28,  5.13s/it][A
Training...:  52% 1354/2609 [1:17:50<1:54:19,  5.47s/it][A
Training...:  52% 1355/2609 [1:17:56<1:57:45,  5.63s/it][A
Training...:  52% 1356/2609 [1:18:01<1:57:37,  5.63s/it][A
Training...:  52% 1357/2609 [1:18:07<1:56:27,  5.58s/it][A
Training...:  52% 1358/2609 [1:18:12<1:54:15,  5.48s/it][A
Training...:  52% 1359/2609 [1:18:17<1:51:48,  5.37s/it][A
Training...:  52% 1360/2609 [1:18:22<1:48:13,  5.20s/it][A
Training...:  52% 1361/2609 [1:18:27<1:45:28,  5.07s/it][A
Training...:  52% 1362/2609 [1:18:31<1:42:27,  4.93s/it][A
Training...:  52% 1363/2609 [1:18:36<1:39:41,  4.80s/it][A
Training...:  52% 1364/2609 [1:18:40<1:36:25,  4.65s/it][A
Training...:  52% 1365/2609 [1:18:44<1:33:44,  4.52s/it][A
Training...:  52% 1366/2609 [1:18:49<1:31:09,  4.40s/it][A
Training...:  52% 1367/2609 [1:18:53<1:28:43,  4.29s/it][A
Training...:  52% 1368/2609 [1:18:57<1:27:02,  4.21s/it][A
Training...:  52% 1369/2609 [1:19:01<1:25:40,  4.15s/it][A
Training...:  53% 1370/2609 [1:19:04<1:22:44,  4.01s/it][A
Training...:  53% 1371/2609 [1:19:08<1:20:31,  3.90s/it][A
Training...:  53% 1372/2609 [1:19:11<1:18:18,  3.80s/it][A
Training...:  53% 1373/2609 [1:19:15<1:16:06,  3.69s/it][A
Training...:  53% 1374/2609 [1:19:18<1:13:37,  3.58s/it][A
Training...:  53% 1375/2609 [1:19:21<1:11:39,  3.48s/it][A
Training...:  53% 1376/2609 [1:19:25<1:09:52,  3.40s/it][A
Training...:  53% 1377/2609 [1:19:28<1:07:54,  3.31s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:00:27<31:01:41, 9308.44s/it]
Training...:  53% 1377/2609 [1:19:31<1:07:54,  3.31s/it][A
Training...:  53% 1378/2609 [1:19:31<1:09:22,  3.38s/it][A
Training...:  53% 1379/2609 [1:19:34<1:06:26,  3.24s/it][A
Training...:  53% 1380/2609 [1:19:37<1:04:36,  3.15s/it][A
Training...:  53% 1381/2609 [1:19:40<1:02:11,  3.04s/it][A
Training...:  53% 1382/2609 [1:19:43<59:55,  2.93s/it]  [A
Training...:  53% 1383/2609 [1:19:45<58:06,  2.84s/it][A
Training...:  53% 1384/2609 [1:19:48<55:55,  2.74s/it][A
Training...:  53% 1385/2609 [1:19:50<53:58,  2.65s/it][A
Training...:  53% 1386/2609 [1:19:53<52:05,  2.56s/it][A
Training...:  53% 1387/2609 [1:19:55<50:10,  2.46s/it][A
Training...:  53% 1388/2609 [1:19:57<48:07,  2.36s/it][A
Training...:  53% 1389/2609 [1:19:59<46:15,  2.27s/it][A
Training...:  53% 1390/2609 [1:20:01<44:10,  2.17s/it][A
Training...:  53% 1391/2609 [1:20:03<42:11,  2.08s/it][A
Training...:  53% 1392/2609 [1:20:05<40:13,  1.98s/it][A
Training...:  53% 1393/2609 [1:20:06<38:18,  1.89s/it][A
Training...:  53% 1394/2609 [1:20:08<36:03,  1.78s/it][A
Training...:  53% 1395/2609 [1:20:09<33:46,  1.67s/it][A
Training...:  54% 1396/2609 [1:20:10<31:26,  1.56s/it][A
Training...:  54% 1397/2609 [1:20:12<29:01,  1.44s/it][A
Training...:  54% 1398/2609 [1:20:13<26:22,  1.31s/it][A
Training...:  54% 1399/2609 [1:20:13<23:19,  1.16s/it][A
Training...:  54% 1400/2609 [1:20:14<19:46,  1.02it/s][A
Training...:  54% 1401/2609 [1:20:21<56:45,  2.82s/it][A
Training...:  54% 1402/2609 [1:20:28<1:21:52,  4.07s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:01:31<31:01:41, 9308.44s/it]
Training...:  54% 1402/2609 [1:20:36<1:21:52,  4.07s/it][A
Training...:  54% 1403/2609 [1:20:36<1:42:13,  5.09s/it][A
Training...:  54% 1404/2609 [1:20:42<1:48:09,  5.39s/it][A
Training...:  54% 1405/2609 [1:20:48<1:51:03,  5.53s/it][A
Training...:  54% 1406/2609 [1:20:53<1:51:21,  5.55s/it][A
Training...:  54% 1407/2609 [1:20:59<1:50:40,  5.52s/it][A
Training...:  54% 1408/2609 [1:21:04<1:48:55,  5.44s/it][A
Training...:  54% 1409/2609 [1:21:09<1:47:06,  5.36s/it][A
Training...:  54% 1410/2609 [1:21:14<1:43:47,  5.19s/it][A
Training...:  54% 1411/2609 [1:21:19<1:41:49,  5.10s/it][A
Training...:  54% 1412/2609 [1:21:23<1:39:21,  4.98s/it][A
Training...:  54% 1413/2609 [1:21:28<1:37:11,  4.88s/it][A
Training...:  54% 1414/2609 [1:21:32<1:33:47,  4.71s/it][A
Training...:  54% 1415/2609 [1:21:37<1:31:09,  4.58s/it][A
Training...:  54% 1416/2609 [1:21:41<1:28:04,  4.43s/it][A
Training...:  54% 1417/2609 [1:21:45<1:25:32,  4.31s/it][A
Training...:  54% 1418/2609 [1:21:49<1:23:10,  4.19s/it][A
Training...:  54% 1419/2609 [1:21:52<1:20:55,  4.08s/it][A
Training...:  54% 1420/2609 [1:21:56<1:18:36,  3.97s/it][A
Training...:  54% 1421/2609 [1:22:00<1:16:26,  3.86s/it][A
Training...:  55% 1422/2609 [1:22:03<1:14:21,  3.76s/it][A
Training...:  55% 1423/2609 [1:22:07<1:12:15,  3.66s/it][A
Training...:  55% 1424/2609 [1:22:10<1:10:02,  3.55s/it][A
Training...:  55% 1425/2609 [1:22:13<1:08:13,  3.46s/it][A
Training...:  55% 1426/2609 [1:22:16<1:06:06,  3.35s/it][A
Training...:  55% 1427/2609 [1:22:19<1:04:19,  3.26s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:03:19<31:01:41, 9308.44s/it]
Training...:  55% 1427/2609 [1:22:23<1:04:19,  3.26s/it][A
Training...:  55% 1428/2609 [1:22:23<1:05:48,  3.34s/it][A
Training...:  55% 1429/2609 [1:22:26<1:03:35,  3.23s/it][A
Training...:  55% 1430/2609 [1:22:29<1:01:41,  3.14s/it][A
Training...:  55% 1431/2609 [1:22:32<59:32,  3.03s/it]  [A
Training...:  55% 1432/2609 [1:22:34<57:24,  2.93s/it][A
Training...:  55% 1433/2609 [1:22:37<55:33,  2.83s/it][A
Training...:  55% 1434/2609 [1:22:39<53:35,  2.74s/it][A
Training...:  55% 1435/2609 [1:22:42<51:28,  2.63s/it][A
Training...:  55% 1436/2609 [1:22:44<49:33,  2.53s/it][A
Training...:  55% 1437/2609 [1:22:46<47:39,  2.44s/it][A
Training...:  55% 1438/2609 [1:22:48<45:40,  2.34s/it][A
Training...:  55% 1439/2609 [1:22:50<43:51,  2.25s/it][A
Training...:  55% 1440/2609 [1:22:52<41:56,  2.15s/it][A
Training...:  55% 1441/2609 [1:22:54<39:56,  2.05s/it][A
Training...:  55% 1442/2609 [1:22:56<38:13,  1.97s/it][A
Training...:  55% 1443/2609 [1:22:58<36:19,  1.87s/it][A
Training...:  55% 1444/2609 [1:22:59<34:17,  1.77s/it][A
Training...:  55% 1445/2609 [1:23:01<32:16,  1.66s/it][A
Training...:  55% 1446/2609 [1:23:02<30:06,  1.55s/it][A
Training...:  55% 1447/2609 [1:23:03<27:55,  1.44s/it][A
Training...:  56% 1448/2609 [1:23:04<25:29,  1.32s/it][A
Training...:  56% 1449/2609 [1:23:05<22:36,  1.17s/it][A
Training...:  56% 1450/2609 [1:23:05<19:06,  1.01it/s][A
Training...:  56% 1451/2609 [1:23:13<55:19,  2.87s/it][A
Training...:  56% 1452/2609 [1:23:20<1:21:18,  4.22s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:04:23<31:01:41, 9308.44s/it]
Training...:  56% 1452/2609 [1:23:28<1:21:18,  4.22s/it][A
Training...:  56% 1453/2609 [1:23:28<1:41:04,  5.25s/it][A
Training...:  56% 1454/2609 [1:23:34<1:47:46,  5.60s/it][A
Training...:  56% 1455/2609 [1:23:40<1:50:00,  5.72s/it][A
Training...:  56% 1456/2609 [1:23:46<1:50:05,  5.73s/it][A
Training...:  56% 1457/2609 [1:23:52<1:49:17,  5.69s/it][A
Training...:  56% 1458/2609 [1:23:57<1:46:44,  5.56s/it][A
Training...:  56% 1459/2609 [1:24:02<1:44:47,  5.47s/it][A
Training...:  56% 1460/2609 [1:24:07<1:41:53,  5.32s/it][A
Training...:  56% 1461/2609 [1:24:12<1:39:30,  5.20s/it][A
Training...:  56% 1462/2609 [1:24:17<1:36:12,  5.03s/it][A
Training...:  56% 1463/2609 [1:24:21<1:33:27,  4.89s/it][A
Training...:  56% 1464/2609 [1:24:26<1:30:47,  4.76s/it][A
Training...:  56% 1465/2609 [1:24:30<1:28:37,  4.65s/it][A
Training...:  56% 1466/2609 [1:24:34<1:26:12,  4.53s/it][A
Training...:  56% 1467/2609 [1:24:38<1:24:14,  4.43s/it][A
Training...:  56% 1468/2609 [1:24:42<1:21:49,  4.30s/it][A
Training...:  56% 1469/2609 [1:24:46<1:19:45,  4.20s/it][A
Training...:  56% 1470/2609 [1:24:50<1:17:15,  4.07s/it][A
Training...:  56% 1471/2609 [1:24:54<1:15:14,  3.97s/it][A
Training...:  56% 1472/2609 [1:24:57<1:12:49,  3.84s/it][A
Training...:  56% 1473/2609 [1:25:01<1:10:52,  3.74s/it][A
Training...:  56% 1474/2609 [1:25:04<1:09:25,  3.67s/it][A
Training...:  57% 1475/2609 [1:25:08<1:07:57,  3.60s/it][A
Training...:  57% 1476/2609 [1:25:11<1:05:28,  3.47s/it][A
Training...:  57% 1477/2609 [1:25:14<1:03:11,  3.35s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:06:13<31:01:41, 9308.44s/it]
Training...:  57% 1477/2609 [1:25:18<1:03:11,  3.35s/it][A
Training...:  57% 1478/2609 [1:25:18<1:04:12,  3.41s/it][A
Training...:  57% 1479/2609 [1:25:21<1:01:28,  3.26s/it][A
Training...:  57% 1480/2609 [1:25:23<59:12,  3.15s/it]  [A
Training...:  57% 1481/2609 [1:25:26<56:45,  3.02s/it][A
Training...:  57% 1482/2609 [1:25:29<54:40,  2.91s/it][A
Training...:  57% 1483/2609 [1:25:31<52:42,  2.81s/it][A
Training...:  57% 1484/2609 [1:25:34<50:51,  2.71s/it][A
Training...:  57% 1485/2609 [1:25:36<49:11,  2.63s/it][A
Training...:  57% 1486/2609 [1:25:39<47:26,  2.54s/it][A
Training...:  57% 1487/2609 [1:25:41<45:54,  2.45s/it][A
Training...:  57% 1488/2609 [1:25:43<43:54,  2.35s/it][A
Training...:  57% 1489/2609 [1:25:45<42:13,  2.26s/it][A
Training...:  57% 1490/2609 [1:25:47<40:24,  2.17s/it][A
Training...:  57% 1491/2609 [1:25:49<38:40,  2.08s/it][A
Training...:  57% 1492/2609 [1:25:51<36:50,  1.98s/it][A
Training...:  57% 1493/2609 [1:25:52<34:58,  1.88s/it][A
Training...:  57% 1494/2609 [1:25:54<32:55,  1.77s/it][A
Training...:  57% 1495/2609 [1:25:55<30:50,  1.66s/it][A
Training...:  57% 1496/2609 [1:25:56<28:32,  1.54s/it][A
Training...:  57% 1497/2609 [1:25:58<26:23,  1.42s/it][A
Training...:  57% 1498/2609 [1:25:59<24:05,  1.30s/it][A
Training...:  57% 1499/2609 [1:25:59<21:25,  1.16s/it][A
Training...:  57% 1500/2609 [1:26:00<18:11,  1.02it/s][A
Training...:  58% 1501/2609 [1:26:07<52:12,  2.83s/it][A
Training...:  58% 1502/2609 [1:26:14<1:15:30,  4.09s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:07:17<31:01:41, 9308.44s/it]
Training...:  58% 1502/2609 [1:26:22<1:15:30,  4.09s/it][A
Training...:  58% 1503/2609 [1:26:22<1:34:22,  5.12s/it][A
Training...:  58% 1504/2609 [1:26:28<1:40:02,  5.43s/it][A
Training...:  58% 1505/2609 [1:26:34<1:42:48,  5.59s/it][A
Training...:  58% 1506/2609 [1:26:40<1:43:30,  5.63s/it][A
Training...:  58% 1507/2609 [1:26:45<1:42:21,  5.57s/it][A
Training...:  58% 1508/2609 [1:26:50<1:40:09,  5.46s/it][A
Training...:  58% 1509/2609 [1:26:55<1:38:03,  5.35s/it][A
Training...:  58% 1510/2609 [1:27:00<1:35:26,  5.21s/it][A
Training...:  58% 1511/2609 [1:27:05<1:33:18,  5.10s/it][A
Training...:  58% 1512/2609 [1:27:10<1:31:03,  4.98s/it][A
Training...:  58% 1513/2609 [1:27:14<1:28:54,  4.87s/it][A
Training...:  58% 1514/2609 [1:27:19<1:25:49,  4.70s/it][A
Training...:  58% 1515/2609 [1:27:23<1:23:26,  4.58s/it][A
Training...:  58% 1516/2609 [1:27:27<1:20:18,  4.41s/it][A
Training...:  58% 1517/2609 [1:27:31<1:17:59,  4.28s/it][A
Training...:  58% 1518/2609 [1:27:35<1:15:51,  4.17s/it][A
Training...:  58% 1519/2609 [1:27:39<1:14:02,  4.08s/it][A
Training...:  58% 1520/2609 [1:27:42<1:11:41,  3.95s/it][A
Training...:  58% 1521/2609 [1:27:46<1:09:54,  3.86s/it][A
Training...:  58% 1522/2609 [1:27:49<1:08:06,  3.76s/it][A
Training...:  58% 1523/2609 [1:27:53<1:06:18,  3.66s/it][A
Training...:  58% 1524/2609 [1:27:56<1:04:10,  3.55s/it][A
Training...:  58% 1525/2609 [1:27:59<1:02:13,  3.44s/it][A
Training...:  58% 1526/2609 [1:28:02<1:00:13,  3.34s/it][A
Training...:  59% 1527/2609 [1:28:06<58:27,  3.24s/it]  [A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:09:05<31:01:41, 9308.44s/it]
Training...:  59% 1527/2609 [1:28:09<58:27,  3.24s/it][A
Training...:  59% 1528/2609 [1:28:09<59:28,  3.30s/it][A
Training...:  59% 1529/2609 [1:28:12<57:00,  3.17s/it][A
Training...:  59% 1530/2609 [1:28:15<55:18,  3.08s/it][A
Training...:  59% 1531/2609 [1:28:17<53:02,  2.95s/it][A
Training...:  59% 1532/2609 [1:28:20<51:00,  2.84s/it][A
Training...:  59% 1533/2609 [1:28:22<49:09,  2.74s/it][A
Training...:  59% 1534/2609 [1:28:25<47:22,  2.64s/it][A
Training...:  59% 1535/2609 [1:28:27<45:32,  2.54s/it][A
Training...:  59% 1536/2609 [1:28:29<43:58,  2.46s/it][A
Training...:  59% 1537/2609 [1:28:32<42:26,  2.38s/it][A
Training...:  59% 1538/2609 [1:28:34<40:48,  2.29s/it][A
Training...:  59% 1539/2609 [1:28:36<39:22,  2.21s/it][A
Training...:  59% 1540/2609 [1:28:38<37:50,  2.12s/it][A
Training...:  59% 1541/2609 [1:28:39<36:24,  2.05s/it][A
Training...:  59% 1542/2609 [1:28:41<34:48,  1.96s/it][A
Training...:  59% 1543/2609 [1:28:43<33:16,  1.87s/it][A
Training...:  59% 1544/2609 [1:28:44<31:25,  1.77s/it][A
Training...:  59% 1545/2609 [1:28:46<29:44,  1.68s/it][A
Training...:  59% 1546/2609 [1:28:47<27:55,  1.58s/it][A
Training...:  59% 1547/2609 [1:28:48<25:50,  1.46s/it][A
Training...:  59% 1548/2609 [1:28:49<23:32,  1.33s/it][A
Training...:  59% 1549/2609 [1:28:50<20:43,  1.17s/it][A
Training...:  59% 1550/2609 [1:28:51<17:24,  1.01it/s][A
Training...:  59% 1551/2609 [1:28:58<50:12,  2.85s/it][A
Training...:  59% 1552/2609 [1:29:05<1:12:12,  4.10s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:10:08<31:01:41, 9308.44s/it]
Training...:  59% 1552/2609 [1:29:12<1:12:12,  4.10s/it][A
Training...:  60% 1553/2609 [1:29:12<1:29:54,  5.11s/it][A
Training...:  60% 1554/2609 [1:29:19<1:36:43,  5.50s/it][A
Training...:  60% 1555/2609 [1:29:25<1:39:14,  5.65s/it][A
Training...:  60% 1556/2609 [1:29:31<1:39:12,  5.65s/it][A
Training...:  60% 1557/2609 [1:29:36<1:38:14,  5.60s/it][A
Training...:  60% 1558/2609 [1:29:41<1:36:05,  5.49s/it][A
Training...:  60% 1559/2609 [1:29:46<1:34:13,  5.38s/it][A
Training...:  60% 1560/2609 [1:29:51<1:31:23,  5.23s/it][A
Training...:  60% 1561/2609 [1:29:56<1:29:10,  5.11s/it][A
Training...:  60% 1562/2609 [1:30:01<1:26:06,  4.93s/it][A
Training...:  60% 1563/2609 [1:30:05<1:23:44,  4.80s/it][A
Training...:  60% 1564/2609 [1:30:09<1:20:51,  4.64s/it][A
Training...:  60% 1565/2609 [1:30:14<1:18:28,  4.51s/it][A
Training...:  60% 1566/2609 [1:30:18<1:16:03,  4.38s/it][A
Training...:  60% 1567/2609 [1:30:22<1:14:01,  4.26s/it][A
Training...:  60% 1568/2609 [1:30:25<1:11:39,  4.13s/it][A
Training...:  60% 1569/2609 [1:30:29<1:09:49,  4.03s/it][A
Training...:  60% 1570/2609 [1:30:33<1:08:00,  3.93s/it][A
Training...:  60% 1571/2609 [1:30:37<1:06:03,  3.82s/it][A
Training...:  60% 1572/2609 [1:30:40<1:04:03,  3.71s/it][A
Training...:  60% 1573/2609 [1:30:43<1:02:27,  3.62s/it][A
Training...:  60% 1574/2609 [1:30:47<1:00:53,  3.53s/it][A
Training...:  60% 1575/2609 [1:30:50<59:07,  3.43s/it]  [A
Training...:  60% 1576/2609 [1:30:53<57:29,  3.34s/it][A
Training...:  60% 1577/2609 [1:30:56<55:58,  3.25s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:11:55<31:01:41, 9308.44s/it]
Training...:  60% 1577/2609 [1:31:00<55:58,  3.25s/it][A
Training...:  60% 1578/2609 [1:31:00<56:53,  3.31s/it][A
Training...:  61% 1579/2609 [1:31:02<54:47,  3.19s/it][A
Training...:  61% 1580/2609 [1:31:05<52:53,  3.08s/it][A
Training...:  61% 1581/2609 [1:31:08<51:06,  2.98s/it][A
Training...:  61% 1582/2609 [1:31:11<49:27,  2.89s/it][A
Training...:  61% 1583/2609 [1:31:13<47:50,  2.80s/it][A
Training...:  61% 1584/2609 [1:31:16<46:31,  2.72s/it][A
Training...:  61% 1585/2609 [1:31:18<45:13,  2.65s/it][A
Training...:  61% 1586/2609 [1:31:21<43:45,  2.57s/it][A
Training...:  61% 1587/2609 [1:31:23<42:16,  2.48s/it][A
Training...:  61% 1588/2609 [1:31:25<40:33,  2.38s/it][A
Training...:  61% 1589/2609 [1:31:27<38:49,  2.28s/it][A
Training...:  61% 1590/2609 [1:31:29<37:13,  2.19s/it][A
Training...:  61% 1591/2609 [1:31:31<35:34,  2.10s/it][A
Training...:  61% 1592/2609 [1:31:33<33:52,  2.00s/it][A
Training...:  61% 1593/2609 [1:31:34<32:08,  1.90s/it][A
Training...:  61% 1594/2609 [1:31:36<30:19,  1.79s/it][A
Training...:  61% 1595/2609 [1:31:37<28:26,  1.68s/it][A
Training...:  61% 1596/2609 [1:31:39<26:22,  1.56s/it][A
Training...:  61% 1597/2609 [1:31:40<24:15,  1.44s/it][A
Training...:  61% 1598/2609 [1:31:41<21:50,  1.30s/it][A
Training...:  61% 1599/2609 [1:31:42<19:09,  1.14s/it][A
Training...:  61% 1600/2609 [1:31:42<15:58,  1.05it/s][A
Training...:  61% 1601/2609 [1:31:49<47:21,  2.82s/it][A
Training...:  61% 1602/2609 [1:31:56<1:08:27,  4.08s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:12:59<31:01:41, 9308.44s/it]
Training...:  61% 1602/2609 [1:32:04<1:08:27,  4.08s/it][A
Training...:  61% 1603/2609 [1:32:04<1:25:19,  5.09s/it][A
Training...:  61% 1604/2609 [1:32:10<1:30:44,  5.42s/it][A
Training...:  62% 1605/2609 [1:32:16<1:33:17,  5.58s/it][A
Training...:  62% 1606/2609 [1:32:21<1:33:24,  5.59s/it][A
Training...:  62% 1607/2609 [1:32:27<1:33:09,  5.58s/it][A
Training...:  62% 1608/2609 [1:32:32<1:32:07,  5.52s/it][A
Training...:  62% 1609/2609 [1:32:38<1:30:22,  5.42s/it][A
Training...:  62% 1610/2609 [1:32:43<1:28:00,  5.29s/it][A
Training...:  62% 1611/2609 [1:32:48<1:26:07,  5.18s/it][A
Training...:  62% 1612/2609 [1:32:52<1:23:17,  5.01s/it][A
Training...:  62% 1613/2609 [1:32:57<1:21:24,  4.90s/it][A
Training...:  62% 1614/2609 [1:33:01<1:18:45,  4.75s/it][A
Training...:  62% 1615/2609 [1:33:06<1:16:48,  4.64s/it][A
Training...:  62% 1616/2609 [1:33:10<1:14:34,  4.51s/it][A
Training...:  62% 1617/2609 [1:33:14<1:12:35,  4.39s/it][A
Training...:  62% 1618/2609 [1:33:18<1:10:37,  4.28s/it][A
Training...:  62% 1619/2609 [1:33:22<1:08:49,  4.17s/it][A
Training...:  62% 1620/2609 [1:33:26<1:06:57,  4.06s/it][A
Training...:  62% 1621/2609 [1:33:29<1:05:01,  3.95s/it][A
Training...:  62% 1622/2609 [1:33:33<1:03:12,  3.84s/it][A
Training...:  62% 1623/2609 [1:33:36<1:01:35,  3.75s/it][A
Training...:  62% 1624/2609 [1:33:40<59:42,  3.64s/it]  [A
Training...:  62% 1625/2609 [1:33:43<58:12,  3.55s/it][A
Training...:  62% 1626/2609 [1:33:46<56:49,  3.47s/it][A
Training...:  62% 1627/2609 [1:33:50<55:25,  3.39s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:14:49<31:01:41, 9308.44s/it]
Training...:  62% 1627/2609 [1:33:53<55:25,  3.39s/it][A
Training...:  62% 1628/2609 [1:33:53<56:17,  3.44s/it][A
Training...:  62% 1629/2609 [1:33:56<53:50,  3.30s/it][A
Training...:  62% 1630/2609 [1:33:59<51:48,  3.18s/it][A
Training...:  63% 1631/2609 [1:34:02<50:00,  3.07s/it][A
Training...:  63% 1632/2609 [1:34:04<47:48,  2.94s/it][A
Training...:  63% 1633/2609 [1:34:07<46:10,  2.84s/it][A
Training...:  63% 1634/2609 [1:34:10<44:22,  2.73s/it][A
Training...:  63% 1635/2609 [1:34:12<42:41,  2.63s/it][A
Training...:  63% 1636/2609 [1:34:14<41:02,  2.53s/it][A
Training...:  63% 1637/2609 [1:34:16<39:29,  2.44s/it][A
Training...:  63% 1638/2609 [1:34:19<37:54,  2.34s/it][A
Training...:  63% 1639/2609 [1:34:21<36:25,  2.25s/it][A
Training...:  63% 1640/2609 [1:34:23<34:48,  2.16s/it][A
Training...:  63% 1641/2609 [1:34:24<33:14,  2.06s/it][A
Training...:  63% 1642/2609 [1:34:26<31:36,  1.96s/it][A
Training...:  63% 1643/2609 [1:34:28<30:00,  1.86s/it][A
Training...:  63% 1644/2609 [1:34:29<28:16,  1.76s/it][A
Training...:  63% 1645/2609 [1:34:31<26:29,  1.65s/it][A
Training...:  63% 1646/2609 [1:34:32<24:41,  1.54s/it][A
Training...:  63% 1647/2609 [1:34:33<22:42,  1.42s/it][A
Training...:  63% 1648/2609 [1:34:34<20:26,  1.28s/it][A
Training...:  63% 1649/2609 [1:34:35<18:04,  1.13s/it][A
Training...:  63% 1650/2609 [1:34:35<15:12,  1.05it/s][A
Training...:  63% 1651/2609 [1:34:43<45:00,  2.82s/it][A
Training...:  63% 1652/2609 [1:34:50<1:05:20,  4.10s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:15:53<31:01:41, 9308.44s/it]
Training...:  63% 1652/2609 [1:34:57<1:05:20,  4.10s/it][A
Training...:  63% 1653/2609 [1:34:57<1:21:47,  5.13s/it][A
Training...:  63% 1654/2609 [1:35:03<1:26:51,  5.46s/it][A
Training...:  63% 1655/2609 [1:35:09<1:28:55,  5.59s/it][A
Training...:  63% 1656/2609 [1:35:15<1:29:08,  5.61s/it][A
Training...:  64% 1657/2609 [1:35:20<1:28:32,  5.58s/it][A
Training...:  64% 1658/2609 [1:35:26<1:26:49,  5.48s/it][A
Training...:  64% 1659/2609 [1:35:31<1:24:48,  5.36s/it][A
Training...:  64% 1660/2609 [1:35:36<1:22:29,  5.22s/it][A
Training...:  64% 1661/2609 [1:35:41<1:20:37,  5.10s/it][A
Training...:  64% 1662/2609 [1:35:45<1:18:25,  4.97s/it][A
Training...:  64% 1663/2609 [1:35:50<1:16:43,  4.87s/it][A
Training...:  64% 1664/2609 [1:35:54<1:14:56,  4.76s/it][A
Training...:  64% 1665/2609 [1:35:59<1:12:37,  4.62s/it][A
Training...:  64% 1666/2609 [1:36:03<1:10:29,  4.49s/it][A
Training...:  64% 1667/2609 [1:36:07<1:08:36,  4.37s/it][A
Training...:  64% 1668/2609 [1:36:11<1:06:33,  4.24s/it][A
Training...:  64% 1669/2609 [1:36:15<1:05:01,  4.15s/it][A
Training...:  64% 1670/2609 [1:36:18<1:03:00,  4.03s/it][A
Training...:  64% 1671/2609 [1:36:22<1:01:28,  3.93s/it][A
Training...:  64% 1672/2609 [1:36:26<59:52,  3.83s/it]  [A
Training...:  64% 1673/2609 [1:36:29<58:39,  3.76s/it][A
Training...:  64% 1674/2609 [1:36:33<56:57,  3.65s/it][A
Training...:  64% 1675/2609 [1:36:36<55:04,  3.54s/it][A
Training...:  64% 1676/2609 [1:36:39<53:25,  3.44s/it][A
Training...:  64% 1677/2609 [1:36:42<51:53,  3.34s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:17:42<31:01:41, 9308.44s/it]
Training...:  64% 1677/2609 [1:36:46<51:53,  3.34s/it][A
Training...:  64% 1678/2609 [1:36:46<52:45,  3.40s/it][A
Training...:  64% 1679/2609 [1:36:49<50:34,  3.26s/it][A
Training...:  64% 1680/2609 [1:36:52<48:33,  3.14s/it][A
Training...:  64% 1681/2609 [1:36:54<46:51,  3.03s/it][A
Training...:  64% 1682/2609 [1:36:57<45:10,  2.92s/it][A
Training...:  65% 1683/2609 [1:37:00<43:24,  2.81s/it][A
Training...:  65% 1684/2609 [1:37:02<41:49,  2.71s/it][A
Training...:  65% 1685/2609 [1:37:05<40:23,  2.62s/it][A
Training...:  65% 1686/2609 [1:37:07<39:03,  2.54s/it][A
Training...:  65% 1687/2609 [1:37:09<37:49,  2.46s/it][A
Training...:  65% 1688/2609 [1:37:11<36:28,  2.38s/it][A
Training...:  65% 1689/2609 [1:37:13<35:00,  2.28s/it][A
Training...:  65% 1690/2609 [1:37:15<33:31,  2.19s/it][A
Training...:  65% 1691/2609 [1:37:17<31:57,  2.09s/it][A
Training...:  65% 1692/2609 [1:37:19<30:27,  1.99s/it][A
Training...:  65% 1693/2609 [1:37:21<29:02,  1.90s/it][A
Training...:  65% 1694/2609 [1:37:22<27:27,  1.80s/it][A
Training...:  65% 1695/2609 [1:37:24<25:47,  1.69s/it][A
Training...:  65% 1696/2609 [1:37:25<23:55,  1.57s/it][A
Training...:  65% 1697/2609 [1:37:26<22:14,  1.46s/it][A
Training...:  65% 1698/2609 [1:37:27<20:09,  1.33s/it][A
Training...:  65% 1699/2609 [1:37:28<17:47,  1.17s/it][A
Training...:  65% 1700/2609 [1:37:29<14:59,  1.01it/s][A
Training...:  65% 1701/2609 [1:37:36<43:15,  2.86s/it][A
Training...:  65% 1702/2609 [1:37:43<1:02:41,  4.15s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:18:46<31:01:41, 9308.44s/it]
Training...:  65% 1702/2609 [1:37:51<1:02:41,  4.15s/it][A
Training...:  65% 1703/2609 [1:37:51<1:18:56,  5.23s/it][A
Training...:  65% 1704/2609 [1:37:57<1:23:50,  5.56s/it][A
Training...:  65% 1705/2609 [1:38:03<1:26:49,  5.76s/it][A
Training...:  65% 1706/2609 [1:38:09<1:27:40,  5.83s/it][A
Training...:  65% 1707/2609 [1:38:15<1:26:49,  5.78s/it][A
Training...:  65% 1708/2609 [1:38:20<1:24:43,  5.64s/it][A
Training...:  66% 1709/2609 [1:38:25<1:22:33,  5.50s/it][A
Training...:  66% 1710/2609 [1:38:30<1:19:55,  5.33s/it][A
Training...:  66% 1711/2609 [1:38:35<1:18:00,  5.21s/it][A
Training...:  66% 1712/2609 [1:38:40<1:15:35,  5.06s/it][A
Training...:  66% 1713/2609 [1:38:45<1:13:38,  4.93s/it][A
Training...:  66% 1714/2609 [1:38:49<1:11:31,  4.80s/it][A
Training...:  66% 1715/2609 [1:38:54<1:09:36,  4.67s/it][A
Training...:  66% 1716/2609 [1:38:58<1:07:05,  4.51s/it][A
Training...:  66% 1717/2609 [1:39:02<1:05:04,  4.38s/it][A
Training...:  66% 1718/2609 [1:39:06<1:03:04,  4.25s/it][A
Training...:  66% 1719/2609 [1:39:10<1:01:11,  4.13s/it][A
Training...:  66% 1720/2609 [1:39:13<59:26,  4.01s/it]  [A
Training...:  66% 1721/2609 [1:39:17<57:51,  3.91s/it][A
Training...:  66% 1722/2609 [1:39:21<56:16,  3.81s/it][A
Training...:  66% 1723/2609 [1:39:24<54:56,  3.72s/it][A
Training...:  66% 1724/2609 [1:39:27<53:27,  3.62s/it][A
Training...:  66% 1725/2609 [1:39:31<51:57,  3.53s/it][A
Training...:  66% 1726/2609 [1:39:34<50:21,  3.42s/it][A
Training...:  66% 1727/2609 [1:39:37<48:48,  3.32s/it][A                                                                                                                                                                  
                                                      [AStep... (20875 | Loss: 0.09646331518888474, Learning Rate: 5.884040365344845e-05, Gradient Norm: 0.5645613074302673)
Step... (20900 | Loss: 0.021428974345326424, Learning Rate: 5.8789893955690786e-05, Gradient Norm: 0.36574214696884155)
Step... (20925 | Loss: 0.09272317588329315, Learning Rate: 5.873939153389074e-05, Gradient Norm: 0.5352315306663513)
Step... (20950 | Loss: 0.054162800312042236, Learning Rate: 5.868888911209069e-05, Gradient Norm: 0.5583046078681946)
Step... (20975 | Loss: 0.08935841172933578, Learning Rate: 5.863837941433303e-05, Gradient Norm: 0.5141968131065369)
Step... (21000 | Loss: 0.06020263209939003, Learning Rate: 5.8587876992532983e-05, Gradient Norm: 0.5720793604850769)
Step... (21025 | Loss: 0.1474865972995758, Learning Rate: 5.8537374570732936e-05, Gradient Norm: 0.7432949542999268)
Step... (21050 | Loss: 0.05195086821913719, Learning Rate: 5.8486864872975275e-05, Gradient Norm: 0.5449946522712708)
Step... (21075 | Loss: 0.10920253396034241, Learning Rate: 5.843636245117523e-05, Gradient Norm: 0.7191970944404602)
Step... (21100 | Loss: 0.05010125786066055, Learning Rate: 5.838586002937518e-05, Gradient Norm: 0.586178183555603)
Step... (21125 | Loss: 0.09616929292678833, Learning Rate: 5.833535033161752e-05, Gradient Norm: 0.5922790169715881)
Step... (21150 | Loss: 0.06665879487991333, Learning Rate: 5.828484790981747e-05, Gradient Norm: 0.6257476806640625)
Step... (21175 | Loss: 0.09076544642448425, Learning Rate: 5.8234345488017425e-05, Gradient Norm: 0.5597334504127502)
Step... (21200 | Loss: 0.037376098334789276, Learning Rate: 5.8183835790259764e-05, Gradient Norm: 0.5228744745254517)
Step... (21225 | Loss: 0.1314399689435959, Learning Rate: 5.8133333368459716e-05, Gradient Norm: 0.7047460079193115)
Step... (21250 | Loss: 0.03230062872171402, Learning Rate: 5.808283094665967e-05, Gradient Norm: 0.5131407380104065)
Step... (21275 | Loss: 0.11027617752552032, Learning Rate: 5.803232124890201e-05, Gradient Norm: 0.6530473232269287)
Step... (21300 | Loss: 0.055570244789123535, Learning Rate: 5.798181882710196e-05, Gradient Norm: 0.7622199058532715)
Step... (21325 | Loss: 0.13618089258670807, Learning Rate: 5.7931312767323107e-05, Gradient Norm: 0.8548926711082458)
Step... (21350 | Loss: 0.05330244451761246, Learning Rate: 5.788080670754425e-05, Gradient Norm: 0.46538442373275757)
Step... (21375 | Loss: 0.10561370849609375, Learning Rate: 5.78303006477654e-05, Gradient Norm: 1.5102776288986206)
Step... (21400 | Loss: 0.05742337182164192, Learning Rate: 5.777979822596535e-05, Gradient Norm: 0.777388870716095)
Step... (21425 | Loss: 0.10305607318878174, Learning Rate: 5.77292921661865e-05, Gradient Norm: 0.6811842918395996)
Step... (21450 | Loss: 0.05525478720664978, Learning Rate: 5.767878610640764e-05, Gradient Norm: 0.5397440791130066)
Step... (21475 | Loss: 0.16633500158786774, Learning Rate: 5.7628283684607595e-05, Gradient Norm: 0.6534770727157593)
Step... (21500 | Loss: 0.04074010252952576, Learning Rate: 5.7577773986849934e-05, Gradient Norm: 0.5458734631538391)
Step... (21525 | Loss: 0.10166380554437637, Learning Rate: 5.752727156504989e-05, Gradient Norm: 0.6807247400283813)
Step... (21550 | Loss: 0.03546448424458504, Learning Rate: 5.747676914324984e-05, Gradient Norm: 0.5537781119346619)
Step... (21575 | Loss: 0.10244131833314896, Learning Rate: 5.742625944549218e-05, Gradient Norm: 0.682369589805603)
Step... (21600 | Loss: 0.046987976878881454, Learning Rate: 5.737575702369213e-05, Gradient Norm: 0.5567821860313416)
Step... (21625 | Loss: 0.11611246317625046, Learning Rate: 5.7325254601892084e-05, Gradient Norm: 0.5907114148139954)
Step... (21650 | Loss: 0.0463586300611496, Learning Rate: 5.727474490413442e-05, Gradient Norm: 0.581840991973877)
Step... (21675 | Loss: 0.11260996758937836, Learning Rate: 5.7224242482334375e-05, Gradient Norm: 0.6259892582893372)
Step... (21700 | Loss: 0.05771653726696968, Learning Rate: 5.717374006053433e-05, Gradient Norm: 0.5895575881004333)
Step... (21725 | Loss: 0.12867863476276398, Learning Rate: 5.7123230362776Step... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:20:36<31:01:41, 9308.44s/it]
67e-05, Gradient Norm: 0.5899444222450256)
Step... (21750 | Loss: 0.029731420800089836, Learning Rate: 5.707272794097662e-05, Gradient Norm: 0.5035610795021057)
Step... (21775 | Loss: 0.18859294056892395, Learning Rate: 5.702222551917657e-05, Gradient Norm: 0.7567996978759766)
Step... (21800 | Loss: 0.058851443231105804, Learning Rate: 5.697171582141891e-05, Gradient Norm: 0.5249009728431702)
Step... (21825 | Loss: 0.1006644144654274, Learning Rate: 5.692120612366125e-05, Gradient Norm: 0.5620114803314209)
Step... (21850 | Loss: 0.025059513747692108, Learning Rate: 5.687071097781882e-05, Gradient Norm: 0.4571587145328522)
Step... (21875 | Loss: 0.10919447988271713, Learning Rate: 5.6820201280061156e-05, Gradient Norm: 0.8916088938713074)
Step... (21900 | Loss: 0.0385773703455925, Learning Rate: 5.6769691582303494e-05, Gradient Norm: 0.5329483151435852)
Step... (21925 | Loss: 0.11717501282691956, Learning Rate: 5.6719192798482254e-05, Gradient Norm: 0.6584633588790894)
Step... (21950 | Loss: 0.040405310690402985, Learning Rate: 5.66686867387034e-05, Gradient Norm: 0.6182504892349243)
Step... (21975 | Loss: 0.11199165880680084, Learning Rate: 5.661817704094574e-05, Gradient Norm: 0.6889082789421082)
Step... (22000 | Loss: 0.036874450743198395, Learning Rate: 5.65676782571245e-05, Gradient Norm: 0.4608137309551239)
Step... (22025 | Loss: 0.10218273103237152, Learning Rate: 5.6517172197345644e-05, Gradient Norm: 0.605218231678009)
Step... (22050 | Loss: 0.05830655246973038, Learning Rate: 5.646666249958798e-05, Gradient Norm: 0.6310475468635559)
Step... (22075 | Loss: 0.09956756234169006, Learning Rate: 5.641616371576674e-05, Gradient Norm: 0.5719039440155029)
Step... (22100 | Loss: 0.04268798232078552, Learning Rate: 5.636565401800908e-05, Gradient Norm: 0.5089082717895508)
Step... (22125 | Loss: 0.126277893781662, Learning Rate: 5.631514795823023e-05, Gradient Norm: 0.7834742665290833)
Step... (22150 | Loss: 0.03956480324268341, Learning Rate: 5.626464917440899e-05, Gradient Norm: 0.5323749780654907)
Step... (22175 | Loss: 0.10425399988889694, Learning Rate: 5.6214139476651326e-05, Gradient Norm: 0.6041829586029053)
Step... (22200 | Loss: 0.04479037970304489, Learning Rate: 5.6163629778893664e-05, Gradient Norm: 0.48484960198402405)
Step... (22225 | Loss: 0.16359077394008636, Learning Rate: 5.611313463305123e-05, Gradient Norm: 0.7516233921051025)
Step... (22250 | Loss: 0.04196855425834656, Learning Rate: 5.606262493529357e-05, Gradient Norm: 0.4332177937030792)
Step... (22275 | Loss: 0.1515035629272461, Learning Rate: 5.601211523753591e-05, Gradient Norm: 0.9035255312919617)
Step... (22300 | Loss: 0.0337812565267086, Learning Rate: 5.5961620091693476e-05, Gradient Norm: 0.465321809053421)
Step... (22325 | Loss: 0.09370750933885574, Learning Rate: 5.5911110393935814e-05, Gradient Norm: 0.7123635411262512)
Step... (22350 | Loss: 0.10653503984212875, Learning Rate: 5.586060069617815e-05, Gradient Norm: 0.9075793027877808)
Step... (22375 | Loss: 0.09652194380760193, Learning Rate: 5.5810098274378106e-05, Gradient Norm: 0.6398986577987671)
Step... (22400 | Loss: 0.05390862748026848, Learning Rate: 5.575959585257806e-05, Gradient Norm: 0.7112522125244141)
Step... (22425 | Loss: 0.10085970908403397, Learning Rate: 5.57090861548204e-05, Gradient Norm: 0.6854842901229858)
Step... (22450 | Loss: 0.05993541330099106, Learning Rate: 5.565858373302035e-05, Gradient Norm: 0.5325659513473511)
Step... (22475 | Loss: 0.09763462841510773, Learning Rate: 5.56080813112203e-05, Gradient Norm: 0.7785378098487854)
Step... (22500 | Loss: 0.044943902641534805, Learning Rate: 5.555757161346264e-05, Gradient Norm: 0.5272863507270813)
Step... (22525 | Loss: 0.08861356973648071, Learning Rate: 5.5507069191662595e-05, Gradient Norm: 0.6314809918403625)
Step... (22550 | Loss: 0.03761596605181694, Learning Rate: 5.545656676986255e-05, Gradient Norm: 0.5191182494163513)
Step... (22575 | Loss: 0.14786894619464874, Learning Rate: 5.5406057072104886e-05, Gradient Norm: 0.9904794096946716)
Training...:  66% 1727/2609 [1:39:41<48:48,  3.32s/it][A
Training...:  66% 1728/2609 [1:39:41<49:36,  3.38s/it][A
Training...:  66% 1729/2609 [1:39:43<47:43,  3.25s/it][A
Training...:  66% 1730/2609 [1:39:46<45:55,  3.13s/it][A
Training...:  66% 1731/2609 [1:39:49<44:02,  3.01s/it][A
Training...:  66% 1732/2609 [1:39:52<42:13,  2.89s/it][A
Training...:  66% 1733/2609 [1:39:54<40:48,  2.79s/it][A
Training...:  66% 1734/2609 [1:39:57<39:09,  2.69s/it][A
Training...:  67% 1735/2609 [1:39:59<37:42,  2.59s/it][A
Training...:  67% 1736/2609 [1:40:01<36:20,  2.50s/it][A
Training...:  67% 1737/2609 [1:40:03<34:56,  2.40s/it][A
Training...:  67% 1738/2609 [1:40:06<33:46,  2.33s/it][A
Training...:  67% 1739/2609 [1:40:08<32:35,  2.25s/it][A
Training...:  67% 1740/2609 [1:40:10<31:07,  2.15s/it][A
Training...:  67% 1741/2609 [1:40:11<29:46,  2.06s/it][A
Training...:  67% 1742/2609 [1:40:13<28:17,  1.96s/it][A
Training...:  67% 1743/2609 [1:40:15<26:53,  1.86s/it][A
Training...:  67% 1744/2609 [1:40:16<25:17,  1.75s/it][A
Training...:  67% 1745/2609 [1:40:18<23:43,  1.65s/it][A
Training...:  67% 1746/2609 [1:40:19<21:59,  1.53s/it][A
Training...:  67% 1747/2609 [1:40:20<20:18,  1.41s/it][A
Training...:  67% 1748/2609 [1:40:21<18:20,  1.28s/it][A
Training...:  67% 1749/2609 [1:40:22<16:12,  1.13s/it][A
Training...:  67% 1750/2609 [1:40:22<13:43,  1.04it/s][A
Training...:  67% 1751/2609 [1:40:30<40:42,  2.85s/it][A
Training...:  67% 1752/2609 [1:40:37<58:39,  4.11s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:21:40<31:01:41, 9308.44s/it]
Training...:  67% 1752/2609 [1:40:44<58:39,  4.11s/it][A
Training...:  67% 1753/2609 [1:40:44<1:13:04,  5.12s/it][A
Training...:  67% 1754/2609 [1:40:50<1:17:31,  5.44s/it][A
Training...:  67% 1755/2609 [1:40:56<1:19:11,  5.56s/it][A
Training...:  67% 1756/2609 [1:41:02<1:19:21,  5.58s/it][A
Training...:  67% 1757/2609 [1:41:07<1:18:49,  5.55s/it][A
Training...:  67% 1758/2609 [1:41:13<1:17:12,  5.44s/it][A
Training...:  67% 1759/2609 [1:41:18<1:15:53,  5.36s/it][A
Training...:  67% 1760/2609 [1:41:23<1:13:34,  5.20s/it][A
Training...:  67% 1761/2609 [1:41:27<1:11:37,  5.07s/it][A
Training...:  68% 1762/2609 [1:41:32<1:09:08,  4.90s/it][A
Training...:  68% 1763/2609 [1:41:36<1:07:17,  4.77s/it][A
Training...:  68% 1764/2609 [1:41:41<1:05:02,  4.62s/it][A
Training...:  68% 1765/2609 [1:41:45<1:03:10,  4.49s/it][A
Training...:  68% 1766/2609 [1:41:49<1:01:15,  4.36s/it][A
Training...:  68% 1767/2609 [1:41:53<59:35,  4.25s/it]  [A
Training...:  68% 1768/2609 [1:41:57<58:07,  4.15s/it][A
Training...:  68% 1769/2609 [1:42:01<56:57,  4.07s/it][A
Training...:  68% 1770/2609 [1:42:04<55:07,  3.94s/it][A
Training...:  68% 1771/2609 [1:42:08<53:10,  3.81s/it][A
Training...:  68% 1772/2609 [1:42:11<51:23,  3.68s/it][A
Training...:  68% 1773/2609 [1:42:14<49:53,  3.58s/it][A
Training...:  68% 1774/2609 [1:42:18<48:21,  3.47s/it][A
Training...:  68% 1775/2609 [1:42:21<46:54,  3.37s/it][A
Training...:  68% 1776/2609 [1:42:24<45:22,  3.27s/it][A
Training...:  68% 1777/2609 [1:42:27<44:03,  3.18s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:23:26<31:01:41, 9308.44s/it]
Training...:  68% 1777/2609 [1:42:30<44:03,  3.18s/it][A
Training...:  68% 1778/2609 [1:42:30<44:59,  3.25s/it][A
Training...:  68% 1779/2609 [1:42:33<43:10,  3.12s/it][A
Training...:  68% 1780/2609 [1:42:36<41:35,  3.01s/it][A
Training...:  68% 1781/2609 [1:42:38<40:10,  2.91s/it][A
Training...:  68% 1782/2609 [1:42:41<38:43,  2.81s/it][A
Training...:  68% 1783/2609 [1:42:44<37:31,  2.73s/it][A
Training...:  68% 1784/2609 [1:42:46<36:11,  2.63s/it][A
Training...:  68% 1785/2609 [1:42:48<34:54,  2.54s/it][A
Training...:  68% 1786/2609 [1:42:51<33:35,  2.45s/it][A
Training...:  68% 1787/2609 [1:42:53<32:11,  2.35s/it][A
Training...:  69% 1788/2609 [1:42:55<30:57,  2.26s/it][A
Training...:  69% 1789/2609 [1:42:57<29:40,  2.17s/it][A
Training...:  69% 1790/2609 [1:42:59<28:17,  2.07s/it][A
Training...:  69% 1791/2609 [1:43:00<27:05,  1.99s/it][A
Training...:  69% 1792/2609 [1:43:02<25:49,  1.90s/it][A
Training...:  69% 1793/2609 [1:43:04<24:29,  1.80s/it][A
Training...:  69% 1794/2609 [1:43:05<23:05,  1.70s/it][A
Training...:  69% 1795/2609 [1:43:06<21:43,  1.60s/it][A
Training...:  69% 1796/2609 [1:43:08<20:13,  1.49s/it][A
Training...:  69% 1797/2609 [1:43:09<18:40,  1.38s/it][A
Training...:  69% 1798/2609 [1:43:10<16:58,  1.26s/it][A
Training...:  69% 1799/2609 [1:43:11<15:06,  1.12s/it][A
Training...:  69% 1800/2609 [1:43:11<12:53,  1.05it/s][A
Training...:  69% 1801/2609 [1:43:18<37:56,  2.82s/it][A
Training...:  69% 1802/2609 [1:43:25<55:26,  4.12s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:24:29<31:01:41, 9308.44s/it]
Training...:  69% 1802/2609 [1:43:33<55:26,  4.12s/it][A
Training...:  69% 1803/2609 [1:43:33<1:09:27,  5.17s/it][A
Training...:  69% 1804/2609 [1:43:39<1:13:09,  5.45s/it][A
Training...:  69% 1805/2609 [1:43:45<1:15:19,  5.62s/it][A
Training...:  69% 1806/2609 [1:43:51<1:16:07,  5.69s/it][A
Training...:  69% 1807/2609 [1:43:56<1:15:06,  5.62s/it][A
Training...:  69% 1808/2609 [1:44:02<1:13:09,  5.48s/it][A
Training...:  69% 1809/2609 [1:44:07<1:11:30,  5.36s/it][A
Training...:  69% 1810/2609 [1:44:12<1:09:17,  5.20s/it][A
Training...:  69% 1811/2609 [1:44:16<1:07:30,  5.08s/it][A
Training...:  69% 1812/2609 [1:44:21<1:05:19,  4.92s/it][A
Training...:  69% 1813/2609 [1:44:25<1:03:27,  4.78s/it][A
Training...:  70% 1814/2609 [1:44:30<1:01:33,  4.65s/it][A
Training...:  70% 1815/2609 [1:44:34<59:49,  4.52s/it]  [A
Training...:  70% 1816/2609 [1:44:38<57:58,  4.39s/it][A
Training...:  70% 1817/2609 [1:44:42<56:22,  4.27s/it][A
Training...:  70% 1818/2609 [1:44:46<54:55,  4.17s/it][A
Training...:  70% 1819/2609 [1:44:50<53:32,  4.07s/it][A
Training...:  70% 1820/2609 [1:44:53<52:01,  3.96s/it][A
Training...:  70% 1821/2609 [1:44:57<50:25,  3.84s/it][A
Training...:  70% 1822/2609 [1:45:01<49:08,  3.75s/it][A
Training...:  70% 1823/2609 [1:45:04<47:47,  3.65s/it][A
Training...:  70% 1824/2609 [1:45:07<46:17,  3.54s/it][A
Training...:  70% 1825/2609 [1:45:10<44:57,  3.44s/it][A
Training...:  70% 1826/2609 [1:45:14<43:36,  3.34s/it][A
Training...:  70% 1827/2609 [1:45:17<42:23,  3.25s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:26:16<31:01:41, 9308.44s/it]
Training...:  70% 1827/2609 [1:45:20<42:23,  3.25s/it][A
Training...:  70% 1828/2609 [1:45:20<43:14,  3.32s/it][A
Training...:  70% 1829/2609 [1:45:23<41:35,  3.20s/it][A
Training...:  70% 1830/2609 [1:45:26<40:23,  3.11s/it][A
Training...:  70% 1831/2609 [1:45:29<39:00,  3.01s/it][A
Training...:  70% 1832/2609 [1:45:31<37:29,  2.90s/it][A
Training...:  70% 1833/2609 [1:45:34<36:16,  2.80s/it][A
Training...:  70% 1834/2609 [1:45:36<34:49,  2.70s/it][A
Training...:  70% 1835/2609 [1:45:39<33:30,  2.60s/it][A
Training...:  70% 1836/2609 [1:45:41<32:15,  2.50s/it][A
Training...:  70% 1837/2609 [1:45:43<31:06,  2.42s/it][A
Training...:  70% 1838/2609 [1:45:45<29:52,  2.32s/it][A
Training...:  70% 1839/2609 [1:45:47<28:39,  2.23s/it][A
Training...:  71% 1840/2609 [1:45:49<27:29,  2.15s/it][A
Training...:  71% 1841/2609 [1:45:51<26:18,  2.05s/it][A
Training...:  71% 1842/2609 [1:45:53<25:13,  1.97s/it][A
Training...:  71% 1843/2609 [1:45:55<24:11,  1.89s/it][A
Training...:  71% 1844/2609 [1:45:56<22:56,  1.80s/it][A
Training...:  71% 1845/2609 [1:45:58<21:35,  1.70s/it][A
Training...:  71% 1846/2609 [1:45:59<20:00,  1.57s/it][A
Training...:  71% 1847/2609 [1:46:00<18:29,  1.46s/it][A
Training...:  71% 1848/2609 [1:46:01<16:52,  1.33s/it][A
Training...:  71% 1849/2609 [1:46:02<14:59,  1.18s/it][A
Training...:  71% 1850/2609 [1:46:03<12:41,  1.00s/it][A
Training...:  71% 1851/2609 [1:46:10<36:45,  2.91s/it][A
Training...:  71% 1852/2609 [1:46:17<52:58,  4.20s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:27:20<31:01:41, 9308.44s/it]
Training...:  71% 1852/2609 [1:46:25<52:58,  4.20s/it][A
Training...:  71% 1853/2609 [1:46:25<1:06:14,  5.26s/it][A
Training...:  71% 1854/2609 [1:46:31<1:09:59,  5.56s/it][A
Training...:  71% 1855/2609 [1:46:37<1:11:26,  5.69s/it][A
Training...:  71% 1856/2609 [1:46:43<1:11:01,  5.66s/it][A
Training...:  71% 1857/2609 [1:46:48<1:10:14,  5.60s/it][A
Training...:  71% 1858/2609 [1:46:53<1:08:29,  5.47s/it][A
Training...:  71% 1859/2609 [1:46:58<1:06:56,  5.36s/it][A
Training...:  71% 1860/2609 [1:47:03<1:05:07,  5.22s/it][A
Training...:  71% 1861/2609 [1:47:08<1:03:27,  5.09s/it][A
Training...:  71% 1862/2609 [1:47:13<1:01:31,  4.94s/it][A
Training...:  71% 1863/2609 [1:47:17<59:59,  4.83s/it]  [A
Training...:  71% 1864/2609 [1:47:22<58:14,  4.69s/it][A
Training...:  71% 1865/2609 [1:47:26<56:55,  4.59s/it][A
Training...:  72% 1866/2609 [1:47:30<55:08,  4.45s/it][A
Training...:  72% 1867/2609 [1:47:34<53:41,  4.34s/it][A
Training...:  72% 1868/2609 [1:47:38<51:53,  4.20s/it][A
Training...:  72% 1869/2609 [1:47:42<50:28,  4.09s/it][A
Training...:  72% 1870/2609 [1:47:46<48:56,  3.97s/it][A
Training...:  72% 1871/2609 [1:47:49<47:28,  3.86s/it][A
Training...:  72% 1872/2609 [1:47:53<46:15,  3.77s/it][A
Training...:  72% 1873/2609 [1:47:56<45:23,  3.70s/it][A
Training...:  72% 1874/2609 [1:48:00<44:03,  3.60s/it][A
Training...:  72% 1875/2609 [1:48:03<42:42,  3.49s/it][A
Training...:  72% 1876/2609 [1:48:06<41:26,  3.39s/it][A
Training...:  72% 1877/2609 [1:48:09<40:06,  3.29s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:29:08<31:01:41, 9308.44s/it]
Training...:  72% 1877/2609 [1:48:13<40:06,  3.29s/it][A
Training...:  72% 1878/2609 [1:48:13<40:46,  3.35s/it][A
Training...:  72% 1879/2609 [1:48:16<40:25,  3.32s/it][A
Training...:  72% 1880/2609 [1:48:19<38:37,  3.18s/it][A
Training...:  72% 1881/2609 [1:48:21<36:52,  3.04s/it][A
Training...:  72% 1882/2609 [1:48:24<35:23,  2.92s/it][A
Training...:  72% 1883/2609 [1:48:27<34:07,  2.82s/it][A
Training...:  72% 1884/2609 [1:48:29<32:41,  2.70s/it][A
Training...:  72% 1885/2609 [1:48:32<31:55,  2.65s/it][A
Training...:  72% 1886/2609 [1:48:34<30:51,  2.56s/it][A
Training...:  72% 1887/2609 [1:48:36<29:30,  2.45s/it][A
Training...:  72% 1888/2609 [1:48:38<28:04,  2.34s/it][A
Training...:  72% 1889/2609 [1:48:40<26:48,  2.23s/it][A
Training...:  72% 1890/2609 [1:48:42<25:38,  2.14s/it][A
Training...:  72% 1891/2609 [1:48:44<24:24,  2.04s/it][A
Training...:  73% 1892/2609 [1:48:46<23:10,  1.94s/it][A
Training...:  73% 1893/2609 [1:48:47<21:56,  1.84s/it][A
Training...:  73% 1894/2609 [1:48:49<20:43,  1.74s/it][A
Training...:  73% 1895/2609 [1:48:50<19:26,  1.63s/it][A
Training...:  73% 1896/2609 [1:48:51<18:06,  1.52s/it][A
Training...:  73% 1897/2609 [1:48:53<16:44,  1.41s/it][A
Training...:  73% 1898/2609 [1:48:54<15:02,  1.27s/it][A
Training...:  73% 1899/2609 [1:48:54<13:16,  1.12s/it][A
Training...:  73% 1900/2609 [1:48:55<11:12,  1.05it/s][A
Training...:  73% 1901/2609 [1:49:02<33:05,  2.80s/it][A
Training...:  73% 1902/2609 [1:49:09<47:26,  4.03s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:30:12<31:01:41, 9308.44s/it]
Training...:  73% 1902/2609 [1:49:16<47:26,  4.03s/it][A
Training...:  73% 1903/2609 [1:49:16<59:22,  5.05s/it][A
Training...:  73% 1904/2609 [1:49:22<1:02:48,  5.35s/it][A
Training...:  73% 1905/2609 [1:49:28<1:04:29,  5.50s/it][A
Training...:  73% 1906/2609 [1:49:34<1:04:39,  5.52s/it][A
Training...:  73% 1907/2609 [1:49:39<1:04:27,  5.51s/it][A
Training...:  73% 1908/2609 [1:49:44<1:03:08,  5.40s/it][A
Training...:  73% 1909/2609 [1:49:49<1:01:46,  5.30s/it][A
Training...:  73% 1910/2609 [1:49:54<1:00:14,  5.17s/it][A
Training...:  73% 1911/2609 [1:49:59<58:44,  5.05s/it]  [A
Training...:  73% 1912/2609 [1:50:04<57:07,  4.92s/it][A
Training...:  73% 1913/2609 [1:50:08<55:46,  4.81s/it][A
Training...:  73% 1914/2609 [1:50:13<54:06,  4.67s/it][A
Training...:  73% 1915/2609 [1:50:17<52:48,  4.57s/it][A
Training...:  73% 1916/2609 [1:50:21<51:20,  4.45s/it][A
Training...:  73% 1917/2609 [1:50:25<50:11,  4.35s/it][A
Training...:  74% 1918/2609 [1:50:29<48:26,  4.21s/it][A
Training...:  74% 1919/2609 [1:50:33<46:55,  4.08s/it][A
Training...:  74% 1920/2609 [1:50:36<45:19,  3.95s/it][A
Training...:  74% 1921/2609 [1:50:40<44:05,  3.85s/it][A
Training...:  74% 1922/2609 [1:50:44<42:55,  3.75s/it][A
Training...:  74% 1923/2609 [1:50:47<41:37,  3.64s/it][A
Training...:  74% 1924/2609 [1:50:50<40:18,  3.53s/it][A
Training...:  74% 1925/2609 [1:50:54<39:19,  3.45s/it][A
Training...:  74% 1926/2609 [1:50:57<38:06,  3.35s/it][A
Training...:  74% 1927/2609 [1:51:00<36:55,  3.25s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:31:59<31:01:41, 9308.44s/it]
Training...:  74% 1927/2609 [1:51:03<36:55,  3.25s/it][A
Training...:  74% 1928/2609 [1:51:03<37:30,  3.30s/it][A
Training...:  74% 1929/2609 [1:51:06<36:02,  3.18s/it][A
Training...:  74% 1930/2609 [1:51:09<34:41,  3.07s/it][A
Training...:  74% 1931/2609 [1:51:11<33:23,  2.95s/it][A
Training...:  74% 1932/2609 [1:51:14<32:03,  2.84s/it][A
Training...:  74% 1933/2609 [1:51:17<30:57,  2.75s/it][A
Training...:  74% 1934/2609 [1:51:19<29:50,  2.65s/it][A
Training...:  74% 1935/2609 [1:51:21<28:44,  2.56s/it][A
Training...:  74% 1936/2609 [1:51:24<27:43,  2.47s/it][A
Training...:  74% 1937/2609 [1:51:26<26:43,  2.39s/it][A
Training...:  74% 1938/2609 [1:51:28<25:39,  2.29s/it][A
Training...:  74% 1939/2609 [1:51:30<24:41,  2.21s/it][A
Training...:  74% 1940/2609 [1:51:32<23:28,  2.11s/it][A
Training...:  74% 1941/2609 [1:51:34<22:23,  2.01s/it][A
Training...:  74% 1942/2609 [1:51:35<21:19,  1.92s/it][A
Training...:  74% 1943/2609 [1:51:37<20:09,  1.82s/it][A
Training...:  75% 1944/2609 [1:51:38<18:56,  1.71s/it][A
Training...:  75% 1945/2609 [1:51:40<17:42,  1.60s/it][A
Training...:  75% 1946/2609 [1:51:41<16:27,  1.49s/it][A
Training...:  75% 1947/2609 [1:51:42<15:08,  1.37s/it][A
Training...:  75% 1948/2609 [1:51:43<13:39,  1.24s/it][A
Training...:  75% 1949/2609 [1:51:44<12:05,  1.10s/it][A
Training...:  75% 1950/2609 [1:51:44<10:12,  1.08it/s][A
Training...:  75% 1951/2609 [1:51:51<30:25,  2.77s/it][A
Training...:  75% 1952/2609 [1:51:58<44:11,  4.04s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:33:02<31:01:41, 9308.44s/it]
Training...:  75% 1952/2609 [1:52:06<44:11,  4.04s/it][A
Training...:  75% 1953/2609 [1:52:06<56:01,  5.12s/it][A
Training...:  75% 1954/2609 [1:52:12<1:00:03,  5.50s/it][A
Training...:  75% 1955/2609 [1:52:18<1:01:34,  5.65s/it][A
Training...:  75% 1956/2609 [1:52:24<1:01:19,  5.63s/it][A
Training...:  75% 1957/2609 [1:52:29<1:00:41,  5.58s/it][A
Training...:  75% 1958/2609 [1:52:35<59:20,  5.47s/it]  [A
Training...:  75% 1959/2609 [1:52:40<58:14,  5.38s/it][A
Training...:  75% 1960/2609 [1:52:45<56:34,  5.23s/it][A
Training...:  75% 1961/2609 [1:52:49<55:03,  5.10s/it][A
Training...:  75% 1962/2609 [1:52:54<53:31,  4.96s/it][A
Training...:  75% 1963/2609 [1:52:59<51:55,  4.82s/it][A
Training...:  75% 1964/2609 [1:53:03<50:26,  4.69s/it][A
Training...:  75% 1965/2609 [1:53:07<49:25,  4.60s/it][A
Training...:  75% 1966/2609 [1:53:11<47:39,  4.45s/it][A
Training...:  75% 1967/2609 [1:53:15<46:13,  4.32s/it][A
Training...:  75% 1968/2609 [1:53:19<44:48,  4.19s/it][A
Training...:  75% 1969/2609 [1:53:23<43:48,  4.11s/it][A
Training...:  76% 1970/2609 [1:53:27<42:27,  3.99s/it][A
Training...:  76% 1971/2609 [1:53:31<41:12,  3.87s/it][A
Training...:  76% 1972/2609 [1:53:34<39:53,  3.76s/it][A
Training...:  76% 1973/2609 [1:53:38<38:53,  3.67s/it][A
Training...:  76% 1974/2609 [1:53:41<38:00,  3.59s/it][A
Training...:  76% 1975/2609 [1:53:44<36:54,  3.49s/it][A
Training...:  76% 1976/2609 [1:53:47<35:53,  3.40s/it][A
Training...:  76% 1977/2609 [1:53:51<34:54,  3.31s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:34:50<31:01:41, 9308.44s/it]
Training...:  76% 1977/2609 [1:53:54<34:54,  3.31s/it][A
Training...:  76% 1978/2609 [1:53:54<35:23,  3.36s/it][A
Training...:  76% 1979/2609 [1:53:57<33:56,  3.23s/it][A
Training...:  76% 1980/2609 [1:54:00<32:36,  3.11s/it][A
Training...:  76% 1981/2609 [1:54:02<31:25,  3.00s/it][A
Training...:  76% 1982/2609 [1:54:05<30:04,  2.88s/it][A
Training...:  76% 1983/2609 [1:54:08<29:02,  2.78s/it][A
Training...:  76% 1984/2609 [1:54:10<28:02,  2.69s/it][A
Training...:  76% 1985/2609 [1:54:12<27:01,  2.60s/it][A
Training...:  76% 1986/2609 [1:54:15<26:06,  2.52s/it][A
Training...:  76% 1987/2609 [1:54:17<25:11,  2.43s/it][A
Training...:  76% 1988/2609 [1:54:19<24:10,  2.34s/it][A
Training...:  76% 1989/2609 [1:54:21<23:15,  2.25s/it][A
Training...:  76% 1990/2609 [1:54:23<22:21,  2.17s/it][A
Training...:  76% 1991/2609 [1:54:25<21:21,  2.07s/it][A
Training...:  76% 1992/2609 [1:54:27<20:24,  1.98s/it][A
Training...:  76% 1993/2609 [1:54:28<19:24,  1.89s/it][A
Training...:  76% 1994/2609 [1:54:30<18:16,  1.78s/it][A
Training...:  76% 1995/2609 [1:54:31<17:09,  1.68s/it][A
Training...:  77% 1996/2609 [1:54:33<15:57,  1.56s/it][A
Training...:  77% 1997/2609 [1:54:34<14:41,  1.44s/it][A
Training...:  77% 1998/2609 [1:54:35<13:15,  1.30s/it][A
Training...:  77% 1999/2609 [1:54:36<11:43,  1.15s/it][A
Training...:  77% 2000/2609 [1:54:36<09:50,  1.03it/s][A
Training...:  77% 2001/2609 [1:54:43<28:35,  2.82s/it][A
Training...:  77% 2002/2609 [1:54:51<42:00,  4.15s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:35:54<31:01:41, 9308.44s/it]
Training...:  77% 2002/2609 [1:54:58<42:00,  4.15s/it][A
Training...:  77% 2003/2609 [1:54:58<53:06,  5.26s/it][A
Training...:  77% 2004/2609 [1:55:05<56:27,  5.60s/it][A
Training...:  77% 2005/2609 [1:55:11<57:45,  5.74s/it][A
Training...:  77% 2006/2609 [1:55:17<57:35,  5.73s/it][A
Training...:  77% 2007/2609 [1:55:22<56:44,  5.66s/it][A
Training...:  77% 2008/2609 [1:55:27<55:42,  5.56s/it][A
Training...:  77% 2009/2609 [1:55:33<54:19,  5.43s/it][A
Training...:  77% 2010/2609 [1:55:37<52:38,  5.27s/it][A
Training...:  77% 2011/2609 [1:55:42<51:14,  5.14s/it][A
Training...:  77% 2012/2609 [1:55:47<49:39,  4.99s/it][A
Training...:  77% 2013/2609 [1:55:52<48:22,  4.87s/it][A
Training...:  77% 2014/2609 [1:55:56<46:59,  4.74s/it][A
Training...:  77% 2015/2609 [1:56:00<45:28,  4.59s/it][A
Training...:  77% 2016/2609 [1:56:04<44:00,  4.45s/it][A
Training...:  77% 2017/2609 [1:56:08<42:43,  4.33s/it][A
Training...:  77% 2018/2609 [1:56:12<41:18,  4.19s/it][A
Training...:  77% 2019/2609 [1:56:16<40:09,  4.08s/it][A
Training...:  77% 2020/2609 [1:56:20<39:02,  3.98s/it][A
Training...:  77% 2021/2609 [1:56:23<37:54,  3.87s/it][A
Training...:  78% 2022/2609 [1:56:27<36:44,  3.76s/it][A
Training...:  78% 2023/2609 [1:56:30<35:42,  3.66s/it][A
Training...:  78% 2024/2609 [1:56:34<34:43,  3.56s/it][A
Training...:  78% 2025/2609 [1:56:37<33:38,  3.46s/it][A
Training...:  78% 2026/2609 [1:56:40<32:44,  3.37s/it][A
Training...:  78% 2027/2609 [1:56:43<31:45,  3.27s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:37:42<31:01:41, 9308.44s/it]
Training...:  78% 2027/2609 [1:56:47<31:45,  3.27s/it][A
Training...:  78% 2028/2609 [1:56:47<32:25,  3.35s/it][A
Training...:  78% 2029/2609 [1:56:50<31:12,  3.23s/it][A
Training...:  78% 2030/2609 [1:56:52<30:02,  3.11s/it][A
Training...:  78% 2031/2609 [1:56:55<29:04,  3.02s/it][A
Training...:  78% 2032/2609 [1:56:58<28:15,  2.94s/it][A
Training...:  78% 2033/2609 [1:57:01<27:14,  2.84s/it][A
Training...:  78% 2034/2609 [1:57:03<26:06,  2.72s/it][A
Training...:  78% 2035/2609 [1:57:05<25:04,  2.62s/it][A
Training...:  78% 2036/2609 [1:57:08<24:07,  2.53s/it][A
Training...:  78% 2037/2609 [1:57:10<23:10,  2.43s/it][A
Training...:  78% 2038/2609 [1:57:12<22:07,  2.32s/it][A
Training...:  78% 2039/2609 [1:57:14<21:10,  2.23s/it][A
Training...:  78% 2040/2609 [1:57:16<20:14,  2.13s/it][A
Training...:  78% 2041/2609 [1:57:18<19:19,  2.04s/it][A
Training...:  78% 2042/2609 [1:57:20<18:23,  1.95s/it][A
Training...:  78% 2043/2609 [1:57:21<17:20,  1.84s/it][A
Training...:  78% 2044/2609 [1:57:23<16:22,  1.74s/it][A
Training...:  78% 2045/2609 [1:57:24<15:24,  1.64s/it][A
Training...:  78% 2046/2609 [1:57:25<14:22,  1.53s/it][A
Training...:  78% 2047/2609 [1:57:26<13:16,  1.42s/it][A
Training...:  78% 2048/2609 [1:57:27<12:02,  1.29s/it][A
Training...:  79% 2049/2609 [1:57:28<10:41,  1.15s/it][A
Training...:  79% 2050/2609 [1:57:29<09:04,  1.03it/s][A
Training...:  79% 2051/2609 [1:57:36<26:46,  2.88s/it][A
Training...:  79% 2052/2609 [1:57:44<39:21,  4.24s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:38:47<31:01:41, 9308.44s/it]
Training...:  79% 2052/2609 [1:57:51<39:21,  4.24s/it][A
Training...:  79% 2053/2609 [1:57:51<49:10,  5.31s/it][A
Training...:  79% 2054/2609 [1:57:58<52:10,  5.64s/it][A
Training...:  79% 2055/2609 [1:58:04<53:42,  5.82s/it][A
Training...:  79% 2056/2609 [1:58:10<54:03,  5.87s/it][A
Training...:  79% 2057/2609 [1:58:16<53:34,  5.82s/it][A
Training...:  79% 2058/2609 [1:58:21<52:18,  5.70s/it][A
Training...:  79% 2059/2609 [1:58:26<51:02,  5.57s/it][A
Training...:  79% 2060/2609 [1:58:31<49:31,  5.41s/it][A
Training...:  79% 2061/2609 [1:58:36<48:29,  5.31s/it][A
Training...:  79% 2062/2609 [1:58:41<47:02,  5.16s/it][A
Training...:  79% 2063/2609 [1:58:46<45:55,  5.05s/it][A
Training...:  79% 2064/2609 [1:58:51<44:27,  4.90s/it][A
Training...:  79% 2065/2609 [1:58:55<43:09,  4.76s/it][A
Training...:  79% 2066/2609 [1:58:59<41:41,  4.61s/it][A
Training...:  79% 2067/2609 [1:59:03<40:14,  4.46s/it][A
Training...:  79% 2068/2609 [1:59:07<39:04,  4.33s/it][A
Training...:  79% 2069/2609 [1:59:12<38:19,  4.26s/it][A
Training...:  79% 2070/2609 [1:59:15<37:11,  4.14s/it][A
Training...:  79% 2071/2609 [1:59:19<36:04,  4.02s/it][A
Training...:  79% 2072/2609 [1:59:23<34:48,  3.89s/it][A
Training...:  79% 2073/2609 [1:59:26<33:56,  3.80s/it][A
Training...:  79% 2074/2609 [1:59:30<32:54,  3.69s/it][A
Training...:  80% 2075/2609 [1:59:33<31:55,  3.59s/it][A
Training...:  80% 2076/2609 [1:59:36<30:55,  3.48s/it][A
Training...:  80% 2077/2609 [1:59:39<29:59,  3.38s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:40:39<31:01:41, 9308.44s/it]
Training...:  80% 2077/2609 [1:59:43<29:59,  3.38s/it][A
Training...:  80% 2078/2609 [1:59:43<30:31,  3.45s/it][A
Training...:  80% 2079/2609 [1:59:46<29:12,  3.31s/it][A
Training...:  80% 2080/2609 [1:59:49<28:07,  3.19s/it][A
Training...:  80% 2081/2609 [1:59:52<27:06,  3.08s/it][A
Training...:  80% 2082/2609 [1:59:54<25:57,  2.95s/it][A
Training...:  80% 2083/2609 [1:59:57<25:11,  2.87s/it][A
Training...:  80% 2084/2609 [2:00:00<24:19,  2.78s/it][A
Training...:  80% 2085/2609 [2:00:02<23:32,  2.69s/it][A
Training...:  80% 2086/2609 [2:00:05<22:36,  2.59s/it][A
Training...:  80% 2087/2609 [2:00:07<21:49,  2.51s/it][A
Training...:  80% 2088/2609 [2:00:09<20:55,  2.41s/it][A
Training...:  80% 2089/2609 [2:00:11<20:07,  2.32s/it][A
Training...:  80% 2090/2609 [2:00:13<19:10,  2.22s/it][A
Training...:  80% 2091/2609 [2:00:15<18:22,  2.13s/it][A
Training...:  80% 2092/2609 [2:00:17<17:26,  2.02s/it][A
Training...:  80% 2093/2609 [2:00:19<16:35,  1.93s/it][A
Training...:  80% 2094/2609 [2:00:20<15:42,  1.83s/it][A
Training...:  80% 2095/2609 [2:00:22<14:46,  1.73s/it][A
Training...:  80% 2096/2609 [2:00:23<13:45,  1.61s/it][A
Training...:  80% 2097/2609 [2:00:24<12:40,  1.49s/it][A
Training...:  80% 2098/2609 [2:00:25<11:33,  1.36s/it][A
Training...:  80% 2099/2609 [2:00:26<10:13,  1.20s/it][A
Training...:  80% 2100/2609 [2:00:27<08:35,  1.01s/it][A
Training...:  81% 2101/2609 [2:00:34<24:12,  2.86s/it][A
Training...:  81% 2102/2609 [2:00:41<35:05,  4.15s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:41:44<31:01:41, 9308.44s/it]
Training...:  81% 2102/2609 [2:00:49<35:05,  4.15s/it][A
Training...:  81% 2103/2609 [2:00:49<43:54,  5.21s/it][A
Training...:  81% 2104/2609 [2:00:55<46:37,  5.54s/it][A
Training...:  81% 2105/2609 [2:01:01<47:58,  5.71s/it][A
Training...:  81% 2106/2609 [2:01:07<47:47,  5.70s/it][A
Training...:  81% 2107/2609 [2:01:12<47:11,  5.64s/it][A
Training...:  81% 2108/2609 [2:01:17<46:03,  5.52s/it][A
Training...:  81% 2109/2609 [2:01:23<45:11,  5.42s/it][A
Training...:  81% 2110/2609 [2:01:28<44:11,  5.31s/it][A
Training...:  81% 2111/2609 [2:01:33<42:44,  5.15s/it][A
Training...:  81% 2112/2609 [2:01:37<41:08,  4.97s/it][A
Training...:  81% 2113/2609 [2:01:42<40:02,  4.84s/it][A
Training...:  81% 2114/2609 [2:01:46<38:40,  4.69s/it][A
Training...:  81% 2115/2609 [2:01:50<37:34,  4.56s/it][A
Training...:  81% 2116/2609 [2:01:54<36:23,  4.43s/it][A
Training...:  81% 2117/2609 [2:01:58<35:14,  4.30s/it][A
Training...:  81% 2118/2609 [2:02:02<34:12,  4.18s/it][A
Training...:  81% 2119/2609 [2:02:06<33:11,  4.06s/it][A
Training...:  81% 2120/2609 [2:02:10<32:15,  3.96s/it][A
Training...:  81% 2121/2609 [2:02:13<31:27,  3.87s/it][A
Training...:  81% 2122/2609 [2:02:17<30:35,  3.77s/it][A
Training...:  81% 2123/2609 [2:02:20<29:42,  3.67s/it][A
Training...:  81% 2124/2609 [2:02:24<28:46,  3.56s/it][A
Training...:  81% 2125/2609 [2:02:27<27:49,  3.45s/it][A
Training...:  81% 2126/2609 [2:02:30<26:57,  3.35s/it][A
Training...:  82% 2127/2609 [2:02:33<26:05,  3.25s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:43:32<31:01:41, 9308.44s/it]
Training...:  82% 2127/2609 [2:02:36<26:05,  3.25s/it][A
Training...:  82% 2128/2609 [2:02:36<26:35,  3.32s/it][A
Training...:  82% 2129/2609 [2:02:39<25:28,  3.18s/it][A
Training...:  82% 2130/2609 [2:02:42<24:26,  3.06s/it][A
Training...:  82% 2131/2609 [2:02:45<23:31,  2.95s/it][A
Training...:  82% 2132/2609 [2:02:47<22:52,  2.88s/it][A
Training...:  82% 2133/2609 [2:02:50<22:00,  2.77s/it][A
Training...:  82% 2134/2609 [2:02:52<21:07,  2.67s/it][A
Training...:  82% 2135/2609 [2:02:55<20:19,  2.57s/it][A
Training...:  82% 2136/2609 [2:02:57<19:27,  2.47s/it][A
Training...:  82% 2137/2609 [2:02:59<18:38,  2.37s/it][A
Training...:  82% 2138/2609 [2:03:01<17:49,  2.27s/it][A
Training...:  82% 2139/2609 [2:03:03<17:02,  2.18s/it][A
Training...:  82% 2140/2609 [2:03:05<16:20,  2.09s/it][A
Training...:  82% 2141/2609 [2:03:07<15:34,  2.00s/it][A
Training...:  82% 2142/2609 [2:03:09<14:50,  1.91s/it][A
Training...:  82% 2143/2609 [2:03:10<14:02,  1.81s/it][A
Training...:  82% 2144/2609 [2:03:12<13:16,  1.71s/it][A
Training...:  82% 2145/2609 [2:03:13<12:28,  1.61s/it][A
Training...:  82% 2146/2609 [2:03:14<11:40,  1.51s/it][A
Training...:  82% 2147/2609 [2:03:15<10:48,  1.40s/it][A
Training...:  82% 2148/2609 [2:03:16<09:49,  1.28s/it][A
Training...:  82% 2149/2609 [2:03:17<08:44,  1.14s/it][A
Training...:  82% 2150/2609 [2:03:18<07:26,  1.03it/s][A
Training...:  82% 2151/2609 [2:03:25<21:39,  2.84s/it][A
Training...:  82% 2152/2609 [2:03:32<30:55,  4.06s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:44:35<31:01:41, 9308.44s/it]
Training...:  82% 2152/2609 [2:03:39<30:55,  4.06s/it][A
Training...:  83% 2153/2609 [2:03:39<38:47,  5.10s/it][A
Training...:  83% 2154/2609 [2:03:46<41:47,  5.51s/it][A
Training...:  83% 2155/2609 [2:03:52<43:00,  5.68s/it][A
Training...:  83% 2156/2609 [2:03:58<43:03,  5.70s/it][A
Training...:  83% 2157/2609 [2:04:03<42:25,  5.63s/it][A
Training...:  83% 2158/2609 [2:04:08<41:21,  5.50s/it][A
Training...:  83% 2159/2609 [2:04:13<40:11,  5.36s/it][A
Training...:  83% 2160/2609 [2:04:18<39:02,  5.22s/it][A
Training...:  83% 2161/2609 [2:04:23<38:04,  5.10s/it][A
Training...:  83% 2162/2609 [2:04:28<36:55,  4.96s/it][A
Training...:  83% 2163/2609 [2:04:32<35:59,  4.84s/it][A
Training...:  83% 2164/2609 [2:04:37<34:57,  4.71s/it][A
Training...:  83% 2165/2609 [2:04:41<33:47,  4.57s/it][A
Training...:  83% 2166/2609 [2:04:45<32:43,  4.43s/it][A
Training...:  83% 2167/2609 [2:04:49<31:48,  4.32s/it][A
Training...:  83% 2168/2609 [2:04:53<30:53,  4.20s/it][A
Training...:  83% 2169/2609 [2:04:57<30:06,  4.11s/it][A
Training...:  83% 2170/2609 [2:05:01<29:09,  3.99s/it][A
Training...:  83% 2171/2609 [2:05:04<28:30,  3.91s/it][A
Training...:  83% 2172/2609 [2:05:08<27:34,  3.79s/it][A
Training...:  83% 2173/2609 [2:05:11<26:41,  3.67s/it][A
Training...:  83% 2174/2609 [2:05:15<25:46,  3.56s/it][A
Training...:  83% 2175/2609 [2:05:18<25:02,  3.46s/it][A
Training...:  83% 2176/2609 [2:05:21<24:13,  3.36s/it][A
Training...:  83% 2177/2609 [2:05:24<23:31,  3.27s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:46:23<31:01:41, 9308.44s/it]
Training...:  83% 2177/2609 [2:05:27<23:31,  3.27s/it][A
Training...:  83% 2178/2609 [2:05:27<23:57,  3.33s/it][A
Training...:  84% 2179/2609 [2:05:30<22:57,  3.20s/it][A
Training...:  84% 2180/2609 [2:05:33<22:01,  3.08s/it][A
Training...:  84% 2181/2609 [2:05:36<21:14,  2.98s/it][A
Training...:  84% 2182/2609 [2:05:39<20:36,  2.89s/it][A
Training...:  84% 2183/2609 [2:05:41<19:47,  2.79s/it][A
Training...:  84% 2184/2609 [2:05:44<19:00,  2.68s/it][A
Training...:  84% 2185/2609 [2:05:46<18:18,  2.59s/it][A
Training...:  84% 2186/2609 [2:05:48<17:37,  2.50s/it][A
Training...:  84% 2187/2609 [2:05:50<16:56,  2.41s/it][A
Training...:  84% 2188/2609 [2:05:52<16:08,  2.30s/it][A
Training...:  84% 2189/2609 [2:05:54<15:28,  2.21s/it][A
Training...:  84% 2190/2609 [2:05:56<14:43,  2.11s/it][A
Training...:  84% 2191/2609 [2:05:58<14:00,  2.01s/it][A
Training...:  84% 2192/2609 [2:06:00<13:19,  1.92s/it][A
Training...:  84% 2193/2609 [2:06:01<12:36,  1.82s/it][A
Training...:  84% 2194/2609 [2:06:03<11:55,  1.72s/it][A
Training...:  84% 2195/2609 [2:06:04<11:09,  1.62s/it][A
Training...:  84% 2196/2609 [2:06:06<10:27,  1.52s/it][A
Training...:  84% 2197/2609 [2:06:07<09:36,  1.40s/it][A
Training...:  84% 2198/2609 [2:06:08<08:39,  1.26s/it][A
Training...:  84% 2199/2609 [2:06:08<07:42,  1.13s/it][A
Training...:  84% 2200/2609 [2:06:09<06:30,  1.05it/s][A
Training...:  84% 2201/2609 [2:06:16<19:28,  2.86s/it][A
Training...:  84% 2202/2609 [2:06:24<28:16,  4.17s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:47:27<31:01:41, 9308.44s/it]
Training...:  84% 2202/2609 [2:06:31<28:16,  4.17s/it][A
Training...:  84% 2203/2609 [2:06:31<34:57,  5.17s/it][A
Training...:  84% 2204/2609 [2:06:37<37:12,  5.51s/it][A
Training...:  85% 2205/2609 [2:06:43<37:54,  5.63s/it][A
Training...:  85% 2206/2609 [2:06:49<38:08,  5.68s/it][A
Training...:  85% 2207/2609 [2:06:55<37:45,  5.64s/it][A
Training...:  85% 2208/2609 [2:07:00<36:55,  5.53s/it][A
Training...:  85% 2209/2609 [2:07:05<36:07,  5.42s/it][A
Training...:  85% 2210/2609 [2:07:10<34:55,  5.25s/it][A
Training...:  85% 2211/2609 [2:07:15<33:55,  5.11s/it][A
Training...:  85% 2212/2609 [2:07:19<32:47,  4.96s/it][A
Training...:  85% 2213/2609 [2:07:24<31:51,  4.83s/it][A
Training...:  85% 2214/2609 [2:07:28<31:00,  4.71s/it][A
Training...:  85% 2215/2609 [2:07:33<30:08,  4.59s/it][A
Training...:  85% 2216/2609 [2:07:37<29:14,  4.46s/it][A
Training...:  85% 2217/2609 [2:07:41<28:36,  4.38s/it][A
Training...:  85% 2218/2609 [2:07:45<27:41,  4.25s/it][A
Training...:  85% 2219/2609 [2:07:49<26:49,  4.13s/it][A
Training...:  85% 2220/2609 [2:07:52<26:01,  4.01s/it][A
Training...:  85% 2221/2609 [2:07:56<25:17,  3.91s/it][A
Training...:  85% 2222/2609 [2:08:00<24:28,  3.79s/it][A
Training...:  85% 2223/2609 [2:08:03<23:45,  3.69s/it][A
Training...:  85% 2224/2609 [2:08:06<22:58,  3.58s/it][A
Training...:  85% 2225/2609 [2:08:10<22:22,  3.50s/it][A
Training...:  85% 2226/2609 [2:08:13<21:39,  3.39s/it][A
Training...:  85% 2227/2609 [2:08:16<21:14,  3.34s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:49:15<31:01:41, 9308.44s/it]
Training...:  85% 2227/2609 [2:08:20<21:14,  3.34s/it][A
Training...:  85% 2228/2609 [2:08:20<21:38,  3.41s/it][A
Training...:  85% 2229/2609 [2:08:23<20:40,  3.26s/it][A
Training...:  85% 2230/2609 [2:08:25<19:45,  3.13s/it][A
Training...:  86% 2231/2609 [2:08:28<19:03,  3.03s/it][A
Training...:  86% 2232/2609 [2:08:31<18:16,  2.91s/it][A
Training...:  86% 2233/2609 [2:08:33<17:41,  2.82s/it][A
Training...:  86% 2234/2609 [2:08:36<17:00,  2.72s/it][A
Training...:  86% 2235/2609 [2:08:38<16:21,  2.63s/it][A
Training...:  86% 2236/2609 [2:08:41<15:42,  2.53s/it][A
Training...:  86% 2237/2609 [2:08:43<15:04,  2.43s/it][A
Training...:  86% 2238/2609 [2:08:45<14:22,  2.32s/it][A
Training...:  86% 2239/2609 [2:08:47<13:46,  2.23s/it][A
Training...:  86% 2240/2609 [2:08:49<13:07,  2.14s/it][A
Training...:  86% 2241/2609 [2:08:51<12:29,  2.04s/it][A
Training...:  86% 2242/2609 [2:08:52<11:51,  1.94s/it][A
Training...:  86% 2243/2609 [2:08:54<11:11,  1.84s/it][A
Training...:  86% 2244/2609 [2:08:55<10:32,  1.73s/it][A
Training...:  86% 2245/2609 [2:08:57<09:54,  1.63s/it][A
Training...:  86% 2246/2609 [2:08:58<09:13,  1.53s/it][A
Training...:  86% 2247/2609 [2:08:59<08:29,  1.41s/it][A
Training...:  86% 2248/2609 [2:09:00<07:44,  1.29s/it][A
Training...:  86% 2249/2609 [2:09:01<06:52,  1.15s/it][A
Training...:  86% 2250/2609 [2:09:02<05:49,  1.03it/s][A
Training...:  86% 2251/2609 [2:09:09<17:01,  2.85s/it][A
Training...:  86% 2252/2609 [2:09:16<24:29,  4.12s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:50:19<31:01:41, 9308.44s/it]
Training...:  86% 2252/2609 [2:09:23<24:29,  4.12s/it][A
Training...:  86% 2253/2609 [2:09:23<30:25,  5.13s/it][A
Training...:  86% 2254/2609 [2:09:30<32:25,  5.48s/it][A
Training...:  86% 2255/2609 [2:09:36<33:14,  5.64s/it][A
Training...:  86% 2256/2609 [2:09:41<33:15,  5.65s/it][A
Training...:  87% 2257/2609 [2:09:47<33:06,  5.64s/it][A
Training...:  87% 2258/2609 [2:09:52<32:19,  5.53s/it][A
Training...:  87% 2259/2609 [2:09:57<31:35,  5.42s/it][A
Training...:  87% 2260/2609 [2:10:02<30:42,  5.28s/it][A
Training...:  87% 2261/2609 [2:10:07<29:50,  5.15s/it][A
Training...:  87% 2262/2609 [2:10:12<28:47,  4.98s/it][A
Training...:  87% 2263/2609 [2:10:16<27:58,  4.85s/it][A
Training...:  87% 2264/2609 [2:10:21<27:13,  4.73s/it][A
Training...:  87% 2265/2609 [2:10:25<26:28,  4.62s/it][A
Training...:  87% 2266/2609 [2:10:29<25:37,  4.48s/it][A
Training...:  87% 2267/2609 [2:10:33<24:49,  4.36s/it][A
Training...:  87% 2268/2609 [2:10:37<24:00,  4.23s/it][A
Training...:  87% 2269/2609 [2:10:41<23:24,  4.13s/it][A
Training...:  87% 2270/2609 [2:10:45<22:44,  4.02s/it][A
Training...:  87% 2271/2609 [2:10:49<22:07,  3.93s/it][A
Training...:  87% 2272/2609 [2:10:52<21:20,  3.80s/it][A
Training...:  87% 2273/2609 [2:10:56<20:37,  3.68s/it][A
Training...:  87% 2274/2609 [2:10:59<19:56,  3.57s/it][A
Training...:  87% 2275/2609 [2:11:02<19:24,  3.49s/it][A
Training...:  87% 2276/2609 [2:11:05<18:42,  3.37s/it][A
Training...:  87% 2277/2609 [2:11:08<18:11,  3.29s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:52:08<31:01:41, 9308.44s/it]
Training...:  87% 2277/2609 [2:11:12<18:11,  3.29s/it][A
Training...:  87% 2278/2609 [2:11:12<18:34,  3.37s/it][A
Training...:  87% 2279/2609 [2:11:15<17:48,  3.24s/it][A
Training...:  87% 2280/2609 [2:11:18<17:05,  3.12s/it][A
Training...:  87% 2281/2609 [2:11:21<16:26,  3.01s/it][A
Training...:  87% 2282/2609 [2:11:23<15:47,  2.90s/it][A
Training...:  88% 2283/2609 [2:11:26<15:09,  2.79s/it][A
Training...:  88% 2284/2609 [2:11:28<14:35,  2.69s/it][A
Training...:  88% 2285/2609 [2:11:31<14:02,  2.60s/it][A
Training...:  88% 2286/2609 [2:11:33<13:30,  2.51s/it][A
Training...:  88% 2287/2609 [2:11:35<13:00,  2.43s/it][A
Training...:  88% 2288/2609 [2:11:37<12:26,  2.33s/it][A
Training...:  88% 2289/2609 [2:11:39<11:56,  2.24s/it][A
Training...:  88% 2290/2609 [2:11:41<11:24,  2.14s/it][A
Training...:  88% 2291/2609 [2:11:43<10:52,  2.05s/it][A
Training...:  88% 2292/2609 [2:11:45<10:21,  1.96s/it][A
Training...:  88% 2293/2609 [2:11:46<09:47,  1.86s/it][A
Training...:  88% 2294/2609 [2:11:48<09:12,  1.75s/it][A
Training...:  88% 2295/2609 [2:11:49<08:35,  1.64s/it][A
Training...:  88% 2296/2609 [2:11:50<07:57,  1.53s/it][A
Training...:  88% 2297/2609 [2:11:52<07:18,  1.41s/it][A
Training...:  88% 2298/2609 [2:11:53<06:32,  1.26s/it][A
Training...:  88% 2299/2609 [2:11:53<05:45,  1.11s/it][A
Training...:  88% 2300/2609 [2:11:54<04:49,  1.07it/s][A
Training...:  88% 2301/2609 [2:12:01<14:10,  2.76s/it][A
Training...:  88% 2302/2609 [2:12:08<20:28,  4.00s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:53:11<31:01:41, 9308.44s/it]
Training...:  88% 2302/2609 [2:12:15<20:28,  4.00s/it][A
Training...:  88% 2303/2609 [2:12:15<25:46,  5.05s/it][A
Training...:  88% 2304/2609 [2:12:21<27:28,  5.41s/it][A
Training...:  88% 2305/2609 [2:12:27<28:10,  5.56s/it][A
Training...:  88% 2306/2609 [2:12:33<28:12,  5.59s/it][A
Training...:  88% 2307/2609 [2:12:38<27:55,  5.55s/it][A
Training...:  88% 2308/2609 [2:12:44<27:17,  5.44s/it][A
Training...:  89% 2309/2609 [2:12:49<26:44,  5.35s/it][A
Training...:  89% 2310/2609 [2:12:54<25:54,  5.20s/it][A
Training...:  89% 2311/2609 [2:12:59<25:27,  5.12s/it][A
Training...:  89% 2312/2609 [2:13:03<24:50,  5.02s/it][A
Training...:  89% 2313/2609 [2:13:08<24:00,  4.87s/it][A
Training...:  89% 2314/2609 [2:13:12<23:04,  4.69s/it][A
Training...:  89% 2315/2609 [2:13:16<22:19,  4.56s/it][A
Training...:  89% 2316/2609 [2:13:20<21:29,  4.40s/it][A
Training...:  89% 2317/2609 [2:13:24<20:49,  4.28s/it][A
Training...:  89% 2318/2609 [2:13:28<20:06,  4.14s/it][A
Training...:  89% 2319/2609 [2:13:32<19:28,  4.03s/it][A
Training...:  89% 2320/2609 [2:13:36<18:53,  3.92s/it][A
Training...:  89% 2321/2609 [2:13:39<18:22,  3.83s/it][A
Training...:  89% 2322/2609 [2:13:43<17:45,  3.71s/it][A
Training...:  89% 2323/2609 [2:13:46<17:13,  3.61s/it][A
Training...:  89% 2324/2609 [2:13:49<16:45,  3.53s/it][A
Training...:  89% 2325/2609 [2:13:53<16:16,  3.44s/it][A
Training...:  89% 2326/2609 [2:13:56<15:48,  3.35s/it][A
Training...:  89% 2327/2609 [2:13:59<15:16,  3.25s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:54:58<31:01:41, 9308.44s/it]
Training...:  89% 2327/2609 [2:14:02<15:16,  3.25s/it][A
Training...:  89% 2328/2609 [2:14:02<15:31,  3.31s/it][A
Training...:  89% 2329/2609 [2:14:05<14:55,  3.20s/it][A
Training...:  89% 2330/2609 [2:14:08<14:20,  3.08s/it][A
Training...:  89% 2331/2609 [2:14:11<13:49,  2.98s/it][A
Training...:  89% 2332/2609 [2:14:13<13:15,  2.87s/it][A
Training...:  89% 2333/2609 [2:14:16<12:48,  2.78s/it][A
Training...:  89% 2334/2609 [2:14:19<12:22,  2.70s/it][A
Training...:  89% 2335/2609 [2:14:21<11:55,  2.61s/it][A
Training...:  90% 2336/2609 [2:14:23<11:28,  2.52s/it][A
Training...:  90% 2337/2609 [2:14:25<11:01,  2.43s/it][A
Training...:  90% 2338/2609 [2:14:28<10:32,  2.33s/it][A
Training...:  90% 2339/2609 [2:14:30<10:04,  2.24s/it][A
Training...:  90% 2340/2609 [2:14:31<09:34,  2.14s/it][A
Training...:  90% 2341/2609 [2:14:33<09:07,  2.04s/it][A
Training...:  90% 2342/2609 [2:14:35<08:43,  1.96s/it][A
Training...:  90% 2343/2609 [2:14:37<08:16,  1.87s/it][A
Training...:  90% 2344/2609 [2:14:38<07:46,  1.76s/it][A
Training...:  90% 2345/2609 [2:14:40<07:17,  1.66s/it][A
Training...:  90% 2346/2609 [2:14:41<06:48,  1.55s/it][A
Training...:  90% 2347/2609 [2:14:42<06:15,  1.43s/it][A
Training...:  90% 2348/2609 [2:14:43<05:38,  1.30s/it][A
Training...:  90% 2349/2609 [2:14:44<04:58,  1.15s/it][A
Training...:  90% 2350/2609 [2:14:44<04:10,  1.03it/s][A
Training...:  90% 2351/2609 [2:14:52<12:05,  2.81s/it][A
Training...:  90% 2352/2609 [2:14:59<17:32,  4.09s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:56:02<31:01:41, 9308.44s/it]
Training...:  90% 2352/2609 [2:15:06<17:32,  4.09s/it][A
Training...:  90% 2353/2609 [2:15:06<22:04,  5.17s/it][A
Training...:  90% 2354/2609 [2:15:13<23:32,  5.54s/it][A
Training...:  90% 2355/2609 [2:15:19<24:11,  5.71s/it][A
Training...:  90% 2356/2609 [2:15:25<24:04,  5.71s/it][A
Training...:  90% 2357/2609 [2:15:30<23:51,  5.68s/it][A
Training...:  90% 2358/2609 [2:15:35<23:17,  5.57s/it][A
Training...:  90% 2359/2609 [2:15:41<22:37,  5.43s/it][A
Training...:  90% 2360/2609 [2:15:46<21:59,  5.30s/it][A
Training...:  90% 2361/2609 [2:15:50<21:24,  5.18s/it][A
Training...:  91% 2362/2609 [2:15:55<20:40,  5.02s/it][A
Training...:  91% 2363/2609 [2:16:00<20:06,  4.90s/it][A
Training...:  91% 2364/2609 [2:16:04<19:27,  4.76s/it][A
Training...:  91% 2365/2609 [2:16:09<18:54,  4.65s/it][A
Training...:  91% 2366/2609 [2:16:13<18:17,  4.52s/it][A
Training...:  91% 2367/2609 [2:16:17<17:38,  4.37s/it][A
Training...:  91% 2368/2609 [2:16:21<17:01,  4.24s/it][A
Training...:  91% 2369/2609 [2:16:25<16:33,  4.14s/it][A
Training...:  91% 2370/2609 [2:16:28<16:01,  4.02s/it][A
Training...:  91% 2371/2609 [2:16:32<15:30,  3.91s/it][A
Training...:  91% 2372/2609 [2:16:36<15:02,  3.81s/it][A
Training...:  91% 2373/2609 [2:16:39<14:33,  3.70s/it][A
Training...:  91% 2374/2609 [2:16:42<14:08,  3.61s/it][A
Training...:  91% 2375/2609 [2:16:46<13:43,  3.52s/it][A
Training...:  91% 2376/2609 [2:16:49<13:14,  3.41s/it][A
Training...:  91% 2377/2609 [2:16:52<12:47,  3.31s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:57:51<31:01:41, 9308.44s/it]
Training...:  91% 2377/2609 [2:16:55<12:47,  3.31s/it][A
Training...:  91% 2378/2609 [2:16:55<12:58,  3.37s/it][A
Training...:  91% 2379/2609 [2:16:58<12:24,  3.24s/it][A
Training...:  91% 2380/2609 [2:17:01<11:54,  3.12s/it][A
Training...:  91% 2381/2609 [2:17:04<11:28,  3.02s/it][A
Training...:  91% 2382/2609 [2:17:07<10:58,  2.90s/it][A
Training...:  91% 2383/2609 [2:17:09<10:32,  2.80s/it][A
Training...:  91% 2384/2609 [2:17:12<10:05,  2.69s/it][A
Training...:  91% 2385/2609 [2:17:14<09:41,  2.60s/it][A
Training...:  91% 2386/2609 [2:17:16<09:17,  2.50s/it][A
Training...:  91% 2387/2609 [2:17:19<08:56,  2.42s/it][A
Training...:  92% 2388/2609 [2:17:21<08:32,  2.32s/it][A
Training...:  92% 2389/2609 [2:17:23<08:09,  2.23s/it][A
Training...:  92% 2390/2609 [2:17:25<07:49,  2.15s/it][A
Training...:  92% 2391/2609 [2:17:26<07:30,  2.07s/it][A
Training...:  92% 2392/2609 [2:17:28<07:10,  1.98s/it][A
Training...:  92% 2393/2609 [2:17:30<06:50,  1.90s/it][A
Training...:  92% 2394/2609 [2:17:32<06:24,  1.79s/it][A
Training...:  92% 2395/2609 [2:17:33<05:58,  1.68s/it][A
Training...:  92% 2396/2609 [2:17:34<05:32,  1.56s/it][A
Training...:  92% 2397/2609 [2:17:35<05:06,  1.44s/it][A
Training...:  92% 2398/2609 [2:17:36<04:37,  1.32s/it][A
Training...:  92% 2399/2609 [2:17:37<04:08,  1.18s/it][A
Training...:  92% 2400/2609 [2:17:38<03:30,  1.01s/it][A
Training...:  92% 2401/2609 [2:17:45<09:58,  2.88s/it][A
Training...:  92% 2402/2609 [2:17:52<14:11,  4.11s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [22:58:55<31:01:41, 9308.44s/it]
Training...:  92% 2402/2609 [2:18:00<14:11,  4.11s/it][A
Training...:  92% 2403/2609 [2:18:00<17:38,  5.14s/it][A
Training...:  92% 2404/2609 [2:18:06<18:44,  5.49s/it][A
Training...:  92% 2405/2609 [2:18:12<19:16,  5.67s/it][A
Training...:  92% 2406/2609 [2:18:18<19:15,  5.69s/it][A
Training...:  92% 2407/2609 [2:18:23<19:02,  5.65s/it][A
Training...:  92% 2408/2609 [2:18:29<18:33,  5.54s/it][A
Training...:  92% 2409/2609 [2:18:34<18:14,  5.47s/it][A
Training...:  92% 2410/2609 [2:18:39<17:37,  5.32s/it][A
Training...:  92% 2411/2609 [2:18:44<17:02,  5.16s/it][A
Training...:  92% 2412/2609 [2:18:48<16:24,  5.00s/it][A
Training...:  92% 2413/2609 [2:18:53<15:55,  4.87s/it][A
Training...:  93% 2414/2609 [2:18:57<15:21,  4.73s/it][A
Training...:  93% 2415/2609 [2:19:02<14:52,  4.60s/it][A
Training...:  93% 2416/2609 [2:19:06<14:24,  4.48s/it][A
Training...:  93% 2417/2609 [2:19:10<14:02,  4.39s/it][A
Training...:  93% 2418/2609 [2:19:14<13:32,  4.25s/it][A
Training...:  93% 2419/2609 [2:19:18<13:05,  4.13s/it][A
Training...:  93% 2420/2609 [2:19:22<12:40,  4.03s/it][A
Training...:  93% 2421/2609 [2:19:25<12:13,  3.90s/it][A
Training...:  93% 2422/2609 [2:19:29<11:48,  3.79s/it][A
Training...:  93% 2423/2609 [2:19:32<11:26,  3.69s/it][A
Training...:  93% 2424/2609 [2:19:35<11:02,  3.58s/it][A
Training...:  93% 2425/2609 [2:19:39<10:41,  3.49s/it][A
Training...:  93% 2426/2609 [2:19:42<10:19,  3.39s/it][A
Training...:  93% 2427/2609 [2:19:45<10:01,  3.30s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [23:00:44<31:01:41, 9308.44s/it]
Training...:  93% 2427/2609 [2:19:49<10:01,  3.30s/it][A
Training...:  93% 2428/2609 [2:19:49<10:15,  3.40s/it][A
Training...:  93% 2429/2609 [2:19:52<09:51,  3.29s/it][A
Training...:  93% 2430/2609 [2:19:54<09:25,  3.16s/it][A
Training...:  93% 2431/2609 [2:19:57<09:00,  3.04s/it][A
Training...:  93% 2432/2609 [2:20:00<08:34,  2.91s/it][A
Training...:  93% 2433/2609 [2:20:02<08:14,  2.81s/it][A
Training...:  93% 2434/2609 [2:20:05<07:53,  2.70s/it][A
Training...:  93% 2435/2609 [2:20:07<07:35,  2.62s/it][A
Training...:  93% 2436/2609 [2:20:10<07:16,  2.52s/it][A
Training...:  93% 2437/2609 [2:20:12<06:58,  2.43s/it][A
Training...:  93% 2438/2609 [2:20:14<06:40,  2.34s/it][A
Training...:  93% 2439/2609 [2:20:16<06:23,  2.26s/it][A
Training...:  94% 2440/2609 [2:20:18<06:05,  2.17s/it][A
Training...:  94% 2441/2609 [2:20:20<05:49,  2.08s/it][A
Training...:  94% 2442/2609 [2:20:22<05:32,  1.99s/it][A
Training...:  94% 2443/2609 [2:20:23<05:14,  1.89s/it][A
Training...:  94% 2444/2609 [2:20:25<04:56,  1.80s/it][A
Training...:  94% 2445/2609 [2:20:26<04:38,  1.70s/it][A
Training...:  94% 2446/2609 [2:20:28<04:19,  1.59s/it][A
Training...:  94% 2447/2609 [2:20:29<03:57,  1.47s/it][A
Training...:  94% 2448/2609 [2:20:30<03:34,  1.33s/it][A
Training...:  94% 2449/2609 [2:20:31<03:07,  1.17s/it][A
Training...:  94% 2450/2609 [2:20:31<02:37,  1.01it/s][A
Training...:  94% 2451/2609 [2:20:38<07:29,  2.85s/it][A
Training...:  94% 2452/2609 [2:20:46<10:48,  4.13s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [23:01:49<31:01:41, 9308.44s/it]
Training...:  94% 2452/2609 [2:20:53<10:48,  4.13s/it][A
Training...:  94% 2453/2609 [2:20:53<13:34,  5.22s/it][A
Training...:  94% 2454/2609 [2:21:00<14:23,  5.57s/it][A
Training...:  94% 2455/2609 [2:21:06<14:41,  5.73s/it][A
Training...:  94% 2456/2609 [2:21:12<14:37,  5.73s/it][A
Training...:  94% 2457/2609 [2:21:17<14:27,  5.71s/it][A
Training...:  94% 2458/2609 [2:21:23<14:06,  5.61s/it][A
Training...:  94% 2459/2609 [2:21:28<13:45,  5.50s/it][A
Training...:  94% 2460/2609 [2:21:33<13:17,  5.35s/it][A
Training...:  94% 2461/2609 [2:21:38<12:49,  5.20s/it][A
Training...:  94% 2462/2609 [2:21:42<12:19,  5.03s/it][A
Training...:  94% 2463/2609 [2:21:47<11:53,  4.88s/it][A
Training...:  94% 2464/2609 [2:21:51<11:25,  4.73s/it][A
Training...:  94% 2465/2609 [2:21:55<11:01,  4.59s/it][A
Training...:  95% 2466/2609 [2:22:00<10:37,  4.45s/it][A
Training...:  95% 2467/2609 [2:22:04<10:11,  4.30s/it][A
Training...:  95% 2468/2609 [2:22:07<09:47,  4.17s/it][A
Training...:  95% 2469/2609 [2:22:11<09:27,  4.05s/it][A
Training...:  95% 2470/2609 [2:22:15<09:07,  3.94s/it][A
Training...:  95% 2471/2609 [2:22:18<08:50,  3.84s/it][A
Training...:  95% 2472/2609 [2:22:22<08:33,  3.75s/it][A
Training...:  95% 2473/2609 [2:22:25<08:17,  3.66s/it][A
Training...:  95% 2474/2609 [2:22:29<08:01,  3.57s/it][A
Training...:  95% 2475/2609 [2:22:32<07:46,  3.48s/it][A
Training...:  95% 2476/2609 [2:22:35<07:30,  3.39s/it][A
Training...:  95% 2477/2609 [2:22:38<07:16,  3.30s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [23:03:37<31:01:41, 9308.44s/it]
Training...:  95% 2477/2609 [2:22:42<07:16,  3.30s/it][A
Training...:  95% 2478/2609 [2:22:42<07:20,  3.37s/it][A
Training...:  95% 2479/2609 [2:22:45<06:59,  3.23s/it][A
Training...:  95% 2480/2609 [2:22:48<06:39,  3.10s/it][A
Training...:  95% 2481/2609 [2:22:50<06:23,  2.99s/it][A
Training...:  95% 2482/2609 [2:22:53<06:05,  2.88s/it][A
Training...:  95% 2483/2609 [2:22:56<05:51,  2.79s/it][A
Training...:  95% 2484/2609 [2:22:58<05:37,  2.70s/it][A
Training...:  95% 2485/2609 [2:23:00<05:23,  2.61s/it][A
Training...:  95% 2486/2609 [2:23:03<05:09,  2.51s/it][A
Training...:  95% 2487/2609 [2:23:05<04:56,  2.43s/it][A
Training...:  95% 2488/2609 [2:23:07<04:42,  2.34s/it][A
Training...:  95% 2489/2609 [2:23:09<04:29,  2.25s/it][A
Training...:  95% 2490/2609 [2:23:11<04:16,  2.16s/it][A
Training...:  95% 2491/2609 [2:23:13<04:03,  2.06s/it][A
Training...:  96% 2492/2609 [2:23:15<03:49,  1.96s/it][A
Training...:  96% 2493/2609 [2:23:16<03:37,  1.87s/it][A
Training...:  96% 2494/2609 [2:23:18<03:22,  1.76s/it][A
Training...:  96% 2495/2609 [2:23:19<03:06,  1.64s/it][A
Training...:  96% 2496/2609 [2:23:20<02:51,  1.52s/it][A
Training...:  96% 2497/2609 [2:23:21<02:36,  1.40s/it][A
Training...:  96% 2498/2609 [2:23:22<02:20,  1.27s/it][A
Training...:  96% 2499/2609 [2:23:23<02:03,  1.12s/it][A
Training...:  96% 2500/2609 [2:23:24<01:43,  1.05it/s][A
Training...:  96% 2501/2609 [2:23:31<05:04,  2.82s/it][A
Training...:  96% 2502/2609 [2:23:38<07:15,  4.07s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [23:04:41<31:01:41, 9308.44s/it]
Training...:  96% 2502/2609 [2:23:45<07:15,  4.07s/it][A
Training...:  96% 2503/2609 [2:23:45<08:56,  5.06s/it][A
Training...:  96% 2504/2609 [2:23:52<09:31,  5.44s/it][A
Training...:  96% 2505/2609 [2:23:58<09:42,  5.60s/it][A
Training...:  96% 2506/2609 [2:24:03<09:39,  5.63s/it][A
Training...:  96% 2507/2609 [2:24:09<09:28,  5.58s/it][A
Training...:  96% 2508/2609 [2:24:14<09:12,  5.47s/it][A
Training...:  96% 2509/2609 [2:24:19<08:55,  5.36s/it][A
Training...:  96% 2510/2609 [2:24:24<08:36,  5.21s/it][A
Training...:  96% 2511/2609 [2:24:29<08:20,  5.10s/it][A
Training...:  96% 2512/2609 [2:24:33<07:58,  4.94s/it][A
Training...:  96% 2513/2609 [2:24:38<07:43,  4.83s/it][A
Training...:  96% 2514/2609 [2:24:42<07:23,  4.67s/it][A
Training...:  96% 2515/2609 [2:24:47<07:09,  4.56s/it][A
Training...:  96% 2516/2609 [2:24:51<06:51,  4.43s/it][A
Training...:  96% 2517/2609 [2:24:55<06:35,  4.30s/it][A
Training...:  97% 2518/2609 [2:24:59<06:19,  4.17s/it][A
Training...:  97% 2519/2609 [2:25:02<06:05,  4.06s/it][A
Training...:  97% 2520/2609 [2:25:06<05:50,  3.94s/it][A
Training...:  97% 2521/2609 [2:25:10<05:39,  3.86s/it][A
Training...:  97% 2522/2609 [2:25:13<05:26,  3.76s/it][A
Training...:  97% 2523/2609 [2:25:17<05:15,  3.67s/it][A
Training...:  97% 2524/2609 [2:25:20<05:02,  3.56s/it][A
Training...:  97% 2525/2609 [2:25:23<04:52,  3.48s/it][A
Training...:  97% 2526/2609 [2:25:26<04:41,  3.40s/it][A
Training...:  97% 2527/2609 [2:25:30<04:31,  3.32s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [23:06:29<31:01:41, 9308.44s/it]
Training...:  97% 2527/2609 [2:25:33<04:31,  3.32s/it][A
Training...:  97% 2528/2609 [2:25:33<04:33,  3.38s/it][A
Training...:  97% 2529/2609 [2:25:36<04:21,  3.27s/it][A
Training...:  97% 2530/2609 [2:25:39<04:08,  3.15s/it][A
Training...:  97% 2531/2609 [2:25:42<03:56,  3.03s/it][A
Training...:  97% 2532/2609 [2:25:44<03:44,  2.92s/it][A
Training...:  97% 2533/2609 [2:25:47<03:34,  2.83s/it][A
Training...:  97% 2534/2609 [2:25:50<03:25,  2.73s/it][A
Training...:  97% 2535/2609 [2:25:52<03:15,  2.64s/it][A
Training...:  97% 2536/2609 [2:25:54<03:06,  2.56s/it][A
Training...:  97% 2537/2609 [2:25:57<02:58,  2.47s/it][A
Training...:  97% 2538/2609 [2:25:59<02:49,  2.38s/it][A
Training...:  97% 2539/2609 [2:26:01<02:40,  2.29s/it][A
Training...:  97% 2540/2609 [2:26:03<02:31,  2.19s/it][A
Training...:  97% 2541/2609 [2:26:05<02:23,  2.10s/it][A
Training...:  97% 2542/2609 [2:26:06<02:14,  2.00s/it][A
Training...:  97% 2543/2609 [2:26:08<02:05,  1.91s/it][A
Training...:  98% 2544/2609 [2:26:10<01:56,  1.79s/it][A
Training...:  98% 2545/2609 [2:26:11<01:48,  1.69s/it][A
Training...:  98% 2546/2609 [2:26:12<01:39,  1.57s/it][A
Training...:  98% 2547/2609 [2:26:14<01:30,  1.46s/it][A
Training...:  98% 2548/2609 [2:26:15<01:20,  1.33s/it][A
Training...:  98% 2549/2609 [2:26:15<01:10,  1.17s/it][A
Training...:  98% 2550/2609 [2:26:16<00:58,  1.01it/s][A
Training...:  98% 2551/2609 [2:26:23<02:45,  2.86s/it][A
Training...:  98% 2552/2609 [2:26:30<03:54,  4.11s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [23:07:33<31:01:41, 9308.44s/it]
Training...:  98% 2552/2609 [2:26:38<03:54,  4.11s/it][A
Training...:  98% 2553/2609 [2:26:38<04:49,  5.17s/it][A
Training...:  98% 2554/2609 [2:26:44<05:00,  5.46s/it][A
Training...:  98% 2555/2609 [2:26:50<05:02,  5.61s/it][A
Training...:  98% 2556/2609 [2:26:56<04:58,  5.62s/it][A
Training...:  98% 2557/2609 [2:27:01<04:50,  5.59s/it][A
Training...:  98% 2558/2609 [2:27:06<04:39,  5.48s/it][A
Training...:  98% 2559/2609 [2:27:11<04:28,  5.37s/it][A
Training...:  98% 2560/2609 [2:27:16<04:15,  5.22s/it][A
Training...:  98% 2561/2609 [2:27:21<04:04,  5.10s/it][A
Training...:  98% 2562/2609 [2:27:26<03:53,  4.96s/it][A
Training...:  98% 2563/2609 [2:27:30<03:43,  4.85s/it][A
Training...:  98% 2564/2609 [2:27:35<03:32,  4.72s/it][A
Training...:  98% 2565/2609 [2:27:39<03:22,  4.60s/it][A
Training...:  98% 2566/2609 [2:27:43<03:10,  4.43s/it][A
Training...:  98% 2567/2609 [2:27:47<03:00,  4.30s/it][A
Training...:  98% 2568/2609 [2:27:51<02:52,  4.21s/it][A
Training...:  98% 2569/2609 [2:27:55<02:45,  4.14s/it][A
Training...:  99% 2570/2609 [2:27:59<02:37,  4.05s/it][A
Training...:  99% 2571/2609 [2:28:03<02:29,  3.93s/it][A
Training...:  99% 2572/2609 [2:28:06<02:20,  3.80s/it][A
Training...:  99% 2573/2609 [2:28:10<02:12,  3.69s/it][A
Training...:  99% 2574/2609 [2:28:13<02:05,  3.58s/it][A
Training...:  99% 2575/2609 [2:28:16<01:58,  3.47s/it][A
Training...:  99% 2576/2609 [2:28:19<01:51,  3.37s/it][A
Training...:  99% 2577/2609 [2:28:22<01:45,  3.29s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [23:09:21<31:01:41, 9308.44s/it]
Training...:  99% 2577/2609 [2:28:26<01:45,  3.29s/it][A
Training...:  99% 2578/2609 [2:28:26<01:43,  3.35s/it][A
Training...:  99% 2579/2609 [2:28:29<01:36,  3.22s/it][A
Training...:  99% 2580/2609 [2:28:32<01:29,  3.10s/it][A
Training...:  99% 2581/2609 [2:28:34<01:24,  3.00s/it][A
Training...:  99% 2582/2609 [2:28:37<01:18,  2.89s/it][A
Training...:  99% 2583/2609 [2:28:40<01:12,  2.79s/it][A
Training...:  99% 2584/2609 [2:28:42<01:06,  2.68s/it][A
Training...:  99% 2585/2609 [2:28:44<01:02,  2.59s/it][A
Training...:  99% 2586/2609 [2:28:47<00:57,  2.49s/it][A
Training...:  99% 2587/2609 [2:28:49<00:53,  2.41s/it][A
Training...:  99% 2588/2609 [2:28:51<00:48,  2.31s/it][A
Training...:  99% 2589/2609 [2:28:53<00:44,  2.23s/it][A
Training...:  99% 2590/2609 [2:28:55<00:40,  2.14s/it][A
Training...:  99% 2591/2609 [2:28:57<00:36,  2.04s/it][A
Training...:  99% 2592/2609 [2:28:58<00:33,  1.94s/it][A
Training...:  99% 2593/2609 [2:29:00<00:29,  1.84s/it][A
Training...:  99% 2594/2609 [2:29:01<00:25,  1.73s/it][A
Training...:  99% 2595/2609 [2:29:03<00:22,  1.61s/it][A
Training...: 100% 2596/2609 [2:29:04<00:19,  1.49s/it][A
Training...: 100% 2597/2609 [2:29:05<00:16,  1.37s/it][A
Training...: 100% 2598/2609 [2:29:06<00:13,  1.24s/it][A
Training...: 100% 2599/2609 [2:29:07<00:11,  1.11s/it][A
Training...: 100% 2600/2609 [2:29:07<00:08,  1.06it/s][A
Training...: 100% 2601/2609 [2:29:14<00:20,  2.59s/it][A
Training...: 100% 2602/2609 [2:29:19<00:24,  3.45s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  40% 8/20 [23:10:20<31:01:41, 9308.44s/it]
Training...: 100% 2602/2609 [2:29:25<00:24,  3.45s/it][A
Training...: 100% 2603/2609 [2:29:25<00:24,  4.03s/it][A
Training...: 100% 2604/2609 [2:29:29<00:20,  4.01s/it][A
Training...: 100% 2605/2609 [2:29:32<00:15,  3.86s/it][A
Training...: 100% 2606/2609 [2:29:35<00:10,  3.59s/it][A
Training...: 100% 2607/2609 [2:29:38<00:06,  3.30s/it][A
Training...: 100% 2608/2609 [2:29:40<00:02,  2.94s/it][A
Training...: 100% 2609/2609 [2:29:41<00:00,  2.55s/it][ATraining...: 100% 2609/2609 [2:29:41<00:00,  3.44s/it]
Step... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:10:37<28:07:54, 9206.81s/it]
Training...:   0% 0/2609 [00:00<?, ?it/s][AStep... (22600 | Loss: 0.06457497924566269, Learning Rate: 5.535555465030484e-05, Gradient Norm: 0.7001880407333374)
Step... (22625 | Loss: 0.13552699983119965, Learning Rate: 5.5305048590525985e-05, Gradient Norm: 0.6694729328155518)
Step... (22650 | Loss: 0.0439557209610939, Learning Rate: 5.525454253074713e-05, Gradient Norm: 0.4276103377342224)
Step... (22675 | Loss: 0.118545763194561, Learning Rate: 5.520404010894708e-05, Gradient Norm: 0.5373468399047852)
Step... (22700 | Loss: 0.07692348957061768, Learning Rate: 5.515353404916823e-05, Gradient Norm: 0.6831678748130798)
Step... (22725 | Loss: 0.14473190903663635, Learning Rate: 5.5103027989389375e-05, Gradient Norm: 0.6232723593711853)
Step... (22750 | Loss: 0.03767504170536995, Learning Rate: 5.505252192961052e-05, Gradient Norm: 0.5422889590263367)
Step... (22775 | Loss: 0.10562020540237427, Learning Rate: 5.5002019507810473e-05, Gradient Norm: 0.6348559260368347)
Step... (22800 | Loss: 0.06192649155855179, Learning Rate: 5.495150981005281e-05, Gradient Norm: 0.6894593238830566)
Step... (22825 | Loss: 0.10977955907583237, Learning Rate: 5.4901007388252765e-05, Gradient Norm: 0.6100590229034424)
Step... (22850 | Loss: 0.062068093568086624, Learning Rate: 5.485050496645272e-05, Gradient Norm: 0.5303589105606079)
Step... (22875 | Loss: 0.12488548457622528, Learning Rate: 5.4799995268695056e-05, Gradient Norm: 0.6698378920555115)
Step... (22900 | Loss: 0.029733745381236076, Learning Rate: 5.474949284689501e-05, Gradient Norm: 0.48986366391181946)
Step... (22925 | Loss: 0.1088017076253891, Learning Rate: 5.469899042509496e-05, Gradient Norm: 0.6174437403678894)
Step... (22950 | Loss: 0.026845501735806465, Learning Rate: 5.46484807273373e-05, Gradient Norm: 0.39009010791778564)
Step... (22975 | Loss: 0.13322192430496216, Learning Rate: 5.4597978305537254e-05, Gradient Norm: 0.735497772693634)
Step... (23000 | Loss: 0.06368522346019745, Learning Rate: 5.4547475883737206e-05, Gradient Norm: 0.7239629626274109)
Step... (23025 | Loss: 0.13067938387393951, Learning Rate: 5.4496966185979545e-05, Gradient Norm: 0.6738235950469971)
Step... (23050 | Loss: 0.0665752962231636, Learning Rate: 5.44464637641795e-05, Gradient Norm: 0.6781498193740845)
Step... (23075 | Loss: 0.09846387803554535, Learning Rate: 5.439596134237945e-05, Gradient Norm: 0.641862690448761)
Step... (23100 | Loss: 0.05713598430156708, Learning Rate: 5.434545164462179e-05, Gradient Norm: 1.1203252077102661)
Step... (23125 | Loss: 0.10571461915969849, Learning Rate: 5.429494922282174e-05, Gradient Norm: 0.6121724247932434)
Step... (23150 | Loss: 0.08534817397594452, Learning Rate: 5.4244446801021695e-05, Gradient Norm: 0.7149307131767273)
Step... (23175 | Loss: 0.1255890429019928, Learning Rate: 5.4193937103264034e-05, Gradient Norm: 0.721530020236969)
Step... (23200 | Loss: 0.05551229044795036, Learning Rate: 5.414343468146399e-05, Gradient Norm: 0.5696101784706116)
Step... (23225 | Loss: 0.15322035551071167, Learning Rate: 5.409292862168513e-05, Gradient Norm: 0.9126167297363281)
Step... (23250 | Loss: 0.049703218042850494, Learning Rate: 5.404242256190628e-05, Gradient Norm: 0.5698544979095459)
Step... (23275 | Loss: 0.11180680990219116, Learning Rate: 5.399192014010623e-05, Gradient Norm: 0.7963271737098694)
Step... (23300 | Loss: 0.07032832503318787, Learning Rate: 5.394141408032738e-05, Gradient Norm: 0.8297340869903564)
Step... (23325 | Loss: 0.12500369548797607, Learning Rate: 5.389090802054852e-05, Gradient Norm: 0.6549610495567322)
Step... (23350 | Loss: 0.033124327659606934, Learning Rate: 5.384040196076967e-05, Gradient Norm: 0.424003541469574)
Step... (23375 | Loss: 0.10681040585041046, Learning Rate: 5.378989953896962e-05, Gradient Norm: 0.5406028628349304)
Step... (23400 | Loss: 0.03323294222354889, Learning Rate: 5.373938984121196e-05, Gradient Norm: 0.43120354413986206)
Step... (23425 | Loss: 0.1003863736987114, Learning Rate: 5.368888741941191e-05, Gradient Norm: 0.5889189839363098)
Step... (23450 | Loss: 0.03319001570343971, Learning Rate: 5.3638384997611865e-05, Gradient Norm: 0.5503553152084351)
Step... (23475 | Loss: 0.08171083778142929, Learning Rate: 5.3587875299854204e-05, Gradient Norm: 0.6657590270042419)

Training...:   0% 1/2609 [00:07<5:13:49,  7.22s/it][A
Training...:   0% 2/2609 [00:14<5:10:43,  7.15s/it][A
Training...:   0% 3/2609 [00:20<4:55:51,  6.81s/it][A
Training...:   0% 4/2609 [00:26<4:45:54,  6.59s/it][A
Training...:   0% 5/2609 [00:33<4:39:07,  6.43s/it][A
Training...:   0% 6/2609 [00:39<4:33:01,  6.29s/it][A
Training...:   0% 7/2609 [00:44<4:24:47,  6.11s/it][A
Training...:   0% 8/2609 [00:50<4:14:47,  5.88s/it][A
Training...:   0% 9/2609 [00:55<4:06:56,  5.70s/it][A
Training...:   0% 10/2609 [01:00<3:56:49,  5.47s/it][A
Training...:   0% 11/2609 [01:05<3:48:45,  5.28s/it][A
Training...:   0% 12/2609 [01:10<3:40:26,  5.09s/it][A
Training...:   0% 13/2609 [01:14<3:34:31,  4.96s/it][A
Training...:   1% 14/2609 [01:19<3:27:08,  4.79s/it][A
Training...:   1% 15/2609 [01:23<3:21:48,  4.67s/it][A
Training...:   1% 16/2609 [01:27<3:15:32,  4.52s/it][A
Training...:   1% 17/2609 [01:31<3:09:38,  4.39s/it][A
Training...:   1% 18/2609 [01:35<3:03:54,  4.26s/it][A                                                                                                                                                                  
                                                    [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:12:19<28:07:54, 9206.81s/it]
Training...:   1% 18/2609 [01:40<3:03:54,  4.26s/it][A
Training...:   1% 19/2609 [01:40<3:06:26,  4.32s/it][A
Training...:   1% 20/2609 [01:43<2:58:47,  4.14s/it][A
Training...:   1% 21/2609 [01:47<2:52:27,  4.00s/it][A
Training...:   1% 22/2609 [01:51<2:46:19,  3.86s/it][A
Training...:   1% 23/2609 [01:54<2:40:24,  3.72s/it][A
Training...:   1% 24/2609 [01:57<2:35:22,  3.61s/it][A
Training...:   1% 25/2609 [02:01<2:30:59,  3.51s/it][A
Training...:   1% 26/2609 [02:04<2:26:56,  3.41s/it][A
Training...:   1% 27/2609 [02:07<2:22:41,  3.32s/it][A
Training...:   1% 28/2609 [02:10<2:18:51,  3.23s/it][A
Training...:   1% 29/2609 [02:13<2:15:24,  3.15s/it][A
Training...:   1% 30/2609 [02:16<2:12:20,  3.08s/it][A
Training...:   1% 31/2609 [02:19<2:08:29,  2.99s/it][A
Training...:   1% 32/2609 [02:21<2:04:16,  2.89s/it][A
Training...:   1% 33/2609 [02:24<2:00:32,  2.81s/it][A
Training...:   1% 34/2609 [02:26<1:57:17,  2.73s/it][A
Training...:   1% 35/2609 [02:29<1:53:52,  2.65s/it][A
Training...:   1% 36/2609 [02:31<1:49:42,  2.56s/it][A
Training...:   1% 37/2609 [02:33<1:45:35,  2.46s/it][A
Training...:   1% 38/2609 [02:36<1:41:51,  2.38s/it][A
Training...:   1% 39/2609 [02:38<1:37:53,  2.29s/it][A
Training...:   2% 40/2609 [02:40<1:34:06,  2.20s/it][A
Training...:   2% 41/2609 [02:42<1:29:50,  2.10s/it][A
Training...:   2% 42/2609 [02:43<1:25:32,  2.00s/it][A
Training...:   2% 43/2609 [02:45<1:21:13,  1.90s/it][A                                                                                                                                                                  
                                                    [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:13:26<28:07:54, 9206.81s/it]
Training...:   2% 43/2609 [02:47<1:21:13,  1.90s/it][A
Training...:   2% 44/2609 [02:47<1:20:53,  1.89s/it][A
Training...:   2% 45/2609 [02:48<1:14:54,  1.75s/it][A
Training...:   2% 46/2609 [02:50<1:08:41,  1.61s/it][A
Training...:   2% 47/2609 [02:51<1:03:14,  1.48s/it][A
Training...:   2% 48/2609 [02:52<57:16,  1.34s/it]  [A
Training...:   2% 49/2609 [02:53<49:57,  1.17s/it][A
Training...:   2% 50/2609 [02:53<41:27,  1.03it/s][A
Training...:   2% 51/2609 [03:00<2:01:08,  2.84s/it][A
Training...:   2% 52/2609 [03:07<2:56:49,  4.15s/it][A
Training...:   2% 53/2609 [03:14<3:28:54,  4.90s/it][A
Training...:   2% 54/2609 [03:20<3:46:44,  5.32s/it][A
Training...:   2% 55/2609 [03:27<3:57:16,  5.57s/it][A
Training...:   2% 56/2609 [03:32<4:00:08,  5.64s/it][A
Training...:   2% 57/2609 [03:38<4:00:17,  5.65s/it][A
Training...:   2% 58/2609 [03:43<3:56:10,  5.55s/it][A
Training...:   2% 59/2609 [03:49<3:52:26,  5.47s/it][A
Training...:   2% 60/2609 [03:54<3:47:14,  5.35s/it][A
Training...:   2% 61/2609 [03:58<3:39:35,  5.17s/it][A
Training...:   2% 62/2609 [04:03<3:32:32,  5.01s/it][A
Training...:   2% 63/2609 [04:08<3:26:01,  4.86s/it][A
Training...:   2% 64/2609 [04:12<3:18:38,  4.68s/it][A
Training...:   2% 65/2609 [04:16<3:12:52,  4.55s/it][A
Training...:   3% 66/2609 [04:20<3:05:47,  4.38s/it][A
Training...:   3% 67/2609 [04:24<3:00:10,  4.25s/it][A
Training...:   3% 68/2609 [04:28<2:54:38,  4.12s/it][A                                                                                                                                                                  
                                                    [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:15:11<28:07:54, 9206.81s/it]
Training...:   3% 68/2609 [04:32<2:54:38,  4.12s/it][A
Training...:   3% 69/2609 [04:32<2:57:34,  4.19s/it][A
Training...:   3% 70/2609 [04:36<2:49:43,  4.01s/it][A
Training...:   3% 71/2609 [04:39<2:43:21,  3.86s/it][A
Training...:   3% 72/2609 [04:43<2:37:15,  3.72s/it][A
Training...:   3% 73/2609 [04:46<2:32:38,  3.61s/it][A
Training...:   3% 74/2609 [04:49<2:27:43,  3.50s/it][A
Training...:   3% 75/2609 [04:52<2:23:30,  3.40s/it][A
Training...:   3% 76/2609 [04:56<2:18:55,  3.29s/it][A
Training...:   3% 77/2609 [04:58<2:14:47,  3.19s/it][A
Training...:   3% 78/2609 [05:01<2:10:41,  3.10s/it][A
Training...:   3% 79/2609 [05:04<2:07:06,  3.01s/it][A
Training...:   3% 80/2609 [05:07<2:03:39,  2.93s/it][A
Training...:   3% 81/2609 [05:10<2:00:24,  2.86s/it][A
Training...:   3% 82/2609 [05:12<1:57:39,  2.79s/it][A
Training...:   3% 83/2609 [05:15<1:53:57,  2.71s/it][A
Training...:   3% 84/2609 [05:17<1:51:50,  2.66s/it][A
Training...:   3% 85/2609 [05:20<1:48:03,  2.57s/it][A
Training...:   3% 86/2609 [05:22<1:44:21,  2.48s/it][A
Training...:   3% 87/2609 [05:24<1:41:13,  2.41s/it][A
Training...:   3% 88/2609 [05:26<1:37:09,  2.31s/it][A
Training...:   3% 89/2609 [05:28<1:33:10,  2.22s/it][A
Training...:   3% 90/2609 [05:30<1:29:35,  2.13s/it][A
Training...:   3% 91/2609 [05:32<1:25:55,  2.05s/it][A
Training...:   4% 92/2609 [05:34<1:21:57,  1.95s/it][A
Training...:   4% 93/2609 [05:35<1:18:11,  1.86s/it][A                                                                                                                                                                  
                                                    [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:16:16<28:07:54, 9206.81s/it]
Training...:   4% 93/2609 [05:37<1:18:11,  1.86s/it][A
Training...:   4% 94/2609 [05:37<1:17:52,  1.86s/it][A
Training...:   4% 95/2609 [05:39<1:12:03,  1.72s/it][A
Training...:   4% 96/2609 [05:40<1:06:09,  1.58s/it][A
Training...:   4% 97/2609 [05:41<1:00:23,  1.44s/it][A
Training...:   4% 98/2609 [05:42<54:35,  1.30s/it]  [A
Training...:   4% 99/2609 [05:43<48:32,  1.16s/it][A
Training...:   4% 100/2609 [05:43<41:28,  1.01it/s][A
Training...:   4% 101/2609 [05:51<1:58:20,  2.83s/it][A
Training...:   4% 102/2609 [05:58<2:51:42,  4.11s/it][A
Training...:   4% 103/2609 [06:04<3:23:22,  4.87s/it][A
Training...:   4% 104/2609 [06:11<3:40:22,  5.28s/it][A
Training...:   4% 105/2609 [06:17<3:49:26,  5.50s/it][A
Training...:   4% 106/2609 [06:22<3:52:16,  5.57s/it][A
Training...:   4% 107/2609 [06:28<3:51:34,  5.55s/it][A
Training...:   4% 108/2609 [06:33<3:48:18,  5.48s/it][A
Training...:   4% 109/2609 [06:38<3:44:07,  5.38s/it][A
Training...:   4% 110/2609 [06:43<3:38:10,  5.24s/it][A
Training...:   4% 111/2609 [06:48<3:33:42,  5.13s/it][A
Training...:   4% 112/2609 [06:53<3:27:31,  4.99s/it][A
Training...:   4% 113/2609 [06:57<3:21:55,  4.85s/it][A
Training...:   4% 114/2609 [07:02<3:15:13,  4.69s/it][A
Training...:   4% 115/2609 [07:06<3:10:10,  4.58s/it][A
Training...:   4% 116/2609 [07:10<3:04:22,  4.44s/it][A
Training...:   4% 117/2609 [07:14<2:59:59,  4.33s/it][A
Training...:   5% 118/2609 [07:18<2:54:48,  4.21s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:18:01<28:07:54, 9206.81s/it]
Training...:   5% 118/2609 [07:22<2:54:48,  4.21s/it][A
Training...:   5% 119/2609 [07:22<2:57:49,  4.29s/it][A
Training...:   5% 120/2609 [07:26<2:51:04,  4.12s/it][A
Training...:   5% 121/2609 [07:30<2:45:14,  3.98s/it][A
Training...:   5% 122/2609 [07:33<2:40:14,  3.87s/it][A
Training...:   5% 123/2609 [07:37<2:35:28,  3.75s/it][A
Training...:   5% 124/2609 [07:40<2:30:51,  3.64s/it][A
Training...:   5% 125/2609 [07:44<2:26:28,  3.54s/it][A
Training...:   5% 126/2609 [07:47<2:21:26,  3.42s/it][A
Training...:   5% 127/2609 [07:50<2:17:07,  3.31s/it][A
Training...:   5% 128/2609 [07:53<2:12:38,  3.21s/it][A
Training...:   5% 129/2609 [07:56<2:09:21,  3.13s/it][A
Training...:   5% 130/2609 [07:59<2:05:13,  3.03s/it][A
Training...:   5% 131/2609 [08:01<2:01:18,  2.94s/it][A
Training...:   5% 132/2609 [08:04<1:57:47,  2.85s/it][A
Training...:   5% 133/2609 [08:06<1:53:24,  2.75s/it][A
Training...:   5% 134/2609 [08:09<1:49:25,  2.65s/it][A
Training...:   5% 135/2609 [08:11<1:46:13,  2.58s/it][A
Training...:   5% 136/2609 [08:14<1:42:27,  2.49s/it][A
Training...:   5% 137/2609 [08:16<1:38:35,  2.39s/it][A
Training...:   5% 138/2609 [08:18<1:34:15,  2.29s/it][A
Training...:   5% 139/2609 [08:20<1:30:24,  2.20s/it][A
Training...:   5% 140/2609 [08:22<1:26:17,  2.10s/it][A
Training...:   5% 141/2609 [08:23<1:22:23,  2.00s/it][A
Training...:   5% 142/2609 [08:25<1:18:21,  1.91s/it][A
Training...:   5% 143/2609 [08:27<1:14:33,  1.81s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:19:07<28:07:54, 9206.81s/it]
Training...:   5% 143/2609 [08:28<1:14:33,  1.81s/it][A
Training...:   6% 144/2609 [08:28<1:14:30,  1.81s/it][A
Training...:   6% 145/2609 [08:30<1:09:07,  1.68s/it][A
Training...:   6% 146/2609 [08:31<1:04:04,  1.56s/it][A
Training...:   6% 147/2609 [08:32<58:03,  1.42s/it]  [A
Training...:   6% 148/2609 [08:33<51:56,  1.27s/it][A
Training...:   6% 149/2609 [08:34<46:01,  1.12s/it][A
Training...:   6% 150/2609 [08:34<38:58,  1.05it/s][A
Training...:   6% 151/2609 [08:42<1:55:02,  2.81s/it][A
Training...:   6% 152/2609 [08:49<2:47:58,  4.10s/it][A
Training...:   6% 153/2609 [08:55<3:19:07,  4.86s/it][A
Training...:   6% 154/2609 [09:02<3:35:27,  5.27s/it][A
Training...:   6% 155/2609 [09:08<3:44:24,  5.49s/it][A
Training...:   6% 156/2609 [09:13<3:46:25,  5.54s/it][A
Training...:   6% 157/2609 [09:19<3:46:16,  5.54s/it][A
Training...:   6% 158/2609 [09:24<3:42:41,  5.45s/it][A
Training...:   6% 159/2609 [09:29<3:39:56,  5.39s/it][A
Training...:   6% 160/2609 [09:34<3:33:48,  5.24s/it][A
Training...:   6% 161/2609 [09:39<3:28:50,  5.12s/it][A
Training...:   6% 162/2609 [09:44<3:22:23,  4.96s/it][A
Training...:   6% 163/2609 [09:48<3:17:50,  4.85s/it][A
Training...:   6% 164/2609 [09:53<3:13:07,  4.74s/it][A
Training...:   6% 165/2609 [09:57<3:08:18,  4.62s/it][A
Training...:   6% 166/2609 [10:01<3:02:22,  4.48s/it][A
Training...:   6% 167/2609 [10:05<2:57:41,  4.37s/it][A
Training...:   6% 168/2609 [10:09<2:51:47,  4.22s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:20:52<28:07:54, 9206.81s/it]
Training...:   6% 168/2609 [10:14<2:51:47,  4.22s/it][A
Training...:   6% 169/2609 [10:14<2:54:31,  4.29s/it][A
Training...:   7% 170/2609 [10:17<2:47:39,  4.12s/it][A
Training...:   7% 171/2609 [10:21<2:42:31,  4.00s/it][A
Training...:   7% 172/2609 [10:25<2:37:03,  3.87s/it][A
Training...:   7% 173/2609 [10:28<2:32:52,  3.77s/it][A
Training...:   7% 174/2609 [10:32<2:28:29,  3.66s/it][A
Training...:   7% 175/2609 [10:35<2:23:41,  3.54s/it][A
Training...:   7% 176/2609 [10:38<2:18:25,  3.41s/it][A
Training...:   7% 177/2609 [10:41<2:13:46,  3.30s/it][A
Training...:   7% 178/2609 [10:44<2:09:04,  3.19s/it][A
Training...:   7% 179/2609 [10:47<2:05:23,  3.10s/it][A
Training...:   7% 180/2609 [10:50<2:01:13,  2.99s/it][A
Training...:   7% 181/2609 [10:52<1:57:18,  2.90s/it][A
Training...:   7% 182/2609 [10:55<1:53:42,  2.81s/it][A
Training...:   7% 183/2609 [10:57<1:50:11,  2.73s/it][A
Training...:   7% 184/2609 [11:00<1:46:15,  2.63s/it][A
Training...:   7% 185/2609 [11:02<1:42:51,  2.55s/it][A
Training...:   7% 186/2609 [11:04<1:39:36,  2.47s/it][A
Training...:   7% 187/2609 [11:07<1:36:54,  2.40s/it][A
Training...:   7% 188/2609 [11:09<1:33:16,  2.31s/it][A
Training...:   7% 189/2609 [11:11<1:30:01,  2.23s/it][A
Training...:   7% 190/2609 [11:13<1:26:27,  2.14s/it][A
Training...:   7% 191/2609 [11:15<1:23:01,  2.06s/it][A
Training...:   7% 192/2609 [11:16<1:19:16,  1.97s/it][A
Training...:   7% 193/2609 [11:18<1:15:40,  1.88s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:21:59<28:07:54, 9206.81s/it]
Training...:   7% 193/2609 [11:20<1:15:40,  1.88s/it][A
Training...:   7% 194/2609 [11:20<1:15:52,  1.88s/it][A
Training...:   7% 195/2609 [11:21<1:10:16,  1.75s/it][A
Training...:   8% 196/2609 [11:23<1:04:41,  1.61s/it][A
Training...:   8% 197/2609 [11:24<59:54,  1.49s/it]  [A
Training...:   8% 198/2609 [11:25<54:29,  1.36s/it][A
Training...:   8% 199/2609 [11:26<48:25,  1.21s/it][A
Training...:   8% 200/2609 [11:26<40:55,  1.02s/it][A
Training...:   8% 201/2609 [11:33<1:54:02,  2.84s/it][A
Training...:   8% 202/2609 [11:41<2:46:27,  4.15s/it][A
Training...:   8% 203/2609 [11:47<3:15:20,  4.87s/it][A
Training...:   8% 204/2609 [11:53<3:32:15,  5.30s/it][A
Training...:   8% 205/2609 [11:59<3:40:45,  5.51s/it][A
Training...:   8% 206/2609 [12:05<3:45:16,  5.62s/it][A
Training...:   8% 207/2609 [12:11<3:44:49,  5.62s/it][A
Training...:   8% 208/2609 [12:16<3:40:50,  5.52s/it][A
Training...:   8% 209/2609 [12:21<3:36:03,  5.40s/it][A
Training...:   8% 210/2609 [12:26<3:30:53,  5.27s/it][A
Training...:   8% 211/2609 [12:31<3:25:23,  5.14s/it][A
Training...:   8% 212/2609 [12:36<3:19:51,  5.00s/it][A
Training...:   8% 213/2609 [12:40<3:14:28,  4.87s/it][A
Training...:   8% 214/2609 [12:45<3:08:07,  4.71s/it][A
Training...:   8% 215/2609 [12:49<3:02:47,  4.58s/it][A
Training...:   8% 216/2609 [12:53<2:57:43,  4.46s/it][A
Training...:   8% 217/2609 [12:57<2:53:17,  4.35s/it][A
Training...:   8% 218/2609 [13:01<2:47:48,  4.21s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:23:44<28:07:54, 9206.81s/it]
Training...:   8% 218/2609 [13:06<2:47:48,  4.21s/it][A
Training...:   8% 219/2609 [13:06<2:50:37,  4.28s/it][A
Training...:   8% 220/2609 [13:09<2:44:22,  4.13s/it][A
Training...:   8% 221/2609 [13:13<2:38:37,  3.99s/it][A
Training...:   9% 222/2609 [13:17<2:33:25,  3.86s/it][A
Training...:   9% 223/2609 [13:20<2:28:36,  3.74s/it][A
Training...:   9% 224/2609 [13:23<2:24:51,  3.64s/it][A
Training...:   9% 225/2609 [13:27<2:21:56,  3.57s/it][A
Training...:   9% 226/2609 [13:30<2:17:02,  3.45s/it][A
Training...:   9% 227/2609 [13:33<2:12:36,  3.34s/it][A
Training...:   9% 228/2609 [13:36<2:08:04,  3.23s/it][A
Training...:   9% 229/2609 [13:39<2:03:30,  3.11s/it][A
Training...:   9% 230/2609 [13:42<2:00:24,  3.04s/it][A
Training...:   9% 231/2609 [13:44<1:56:16,  2.93s/it][A
Training...:   9% 232/2609 [13:47<1:52:40,  2.84s/it][A
Training...:   9% 233/2609 [13:50<1:49:25,  2.76s/it][A
Training...:   9% 234/2609 [13:52<1:45:34,  2.67s/it][A
Training...:   9% 235/2609 [13:54<1:41:54,  2.58s/it][A
Training...:   9% 236/2609 [13:57<1:38:06,  2.48s/it][A
Training...:   9% 237/2609 [13:59<1:34:54,  2.40s/it][A
Training...:   9% 238/2609 [14:01<1:31:23,  2.31s/it][A
Training...:   9% 239/2609 [14:03<1:27:36,  2.22s/it][A
Training...:   9% 240/2609 [14:05<1:23:58,  2.13s/it][A
Training...:   9% 241/2609 [14:07<1:20:13,  2.03s/it][A
Training...:   9% 242/2609 [14:09<1:16:19,  1.93s/it][A
Training...:   9% 243/2609 [14:10<1:12:45,  1.85s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:24:51<28:07:54, 9206.81s/it]
Training...:   9% 243/2609 [14:12<1:12:45,  1.85s/it][A
Training...:   9% 244/2609 [14:12<1:12:26,  1.84s/it][A
Training...:   9% 245/2609 [14:13<1:07:09,  1.70s/it][A
Training...:   9% 246/2609 [14:15<1:02:02,  1.58s/it][A
Training...:   9% 247/2609 [14:16<56:46,  1.44s/it]  [A
Training...:  10% 248/2609 [14:17<50:41,  1.29s/it][A
Training...:  10% 249/2609 [14:17<44:26,  1.13s/it][A
Training...:  10% 250/2609 [14:18<37:19,  1.05it/s][A
Training...:  10% 251/2609 [14:25<1:51:13,  2.83s/it][A
Training...:  10% 252/2609 [14:32<2:40:44,  4.09s/it][A
Training...:  10% 253/2609 [14:39<3:09:34,  4.83s/it][A
Training...:  10% 254/2609 [14:45<3:26:47,  5.27s/it][A
Training...:  10% 255/2609 [14:51<3:35:09,  5.48s/it][A
Training...:  10% 256/2609 [14:57<3:37:24,  5.54s/it][A
Training...:  10% 257/2609 [15:02<3:37:13,  5.54s/it][A
Training...:  10% 258/2609 [15:08<3:35:42,  5.51s/it][A
Training...:  10% 259/2609 [15:13<3:31:50,  5.41s/it][A
Training...:  10% 260/2609 [15:18<3:25:08,  5.24s/it][A
Training...:  10% 261/2609 [15:23<3:20:22,  5.12s/it][A
Training...:  10% 262/2609 [15:27<3:14:31,  4.97s/it][A
Training...:  10% 263/2609 [15:32<3:10:17,  4.87s/it][A
Training...:  10% 264/2609 [15:36<3:04:26,  4.72s/it][A
Training...:  10% 265/2609 [15:41<2:59:42,  4.60s/it][A
Training...:  10% 266/2609 [15:45<2:53:53,  4.45s/it][A
Training...:  10% 267/2609 [15:49<2:48:49,  4.33s/it][A
Training...:  10% 268/2609 [15:53<2:43:20,  4.19s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:26:36<28:07:54, 9206.81s/it]
Training...:  10% 268/2609 [15:57<2:43:20,  4.19s/it][A
Training...:  10% 269/2609 [15:57<2:46:19,  4.26s/it][A
Training...:  10% 270/2609 [16:01<2:40:08,  4.11s/it][A
Training...:  10% 271/2609 [16:04<2:34:42,  3.97s/it][A
Training...:  10% 272/2609 [16:08<2:29:23,  3.84s/it][A
Training...:  10% 273/2609 [16:11<2:24:34,  3.71s/it][A
Training...:  11% 274/2609 [16:15<2:19:47,  3.59s/it][A
Training...:  11% 275/2609 [16:18<2:15:19,  3.48s/it][A
Training...:  11% 276/2609 [16:21<2:11:16,  3.38s/it][A
Training...:  11% 277/2609 [16:24<2:07:13,  3.27s/it][A
Training...:  11% 278/2609 [16:27<2:03:07,  3.17s/it][A
Training...:  11% 279/2609 [16:30<1:59:18,  3.07s/it][A
Training...:  11% 280/2609 [16:33<1:55:47,  2.98s/it][A
Training...:  11% 281/2609 [16:35<1:52:11,  2.89s/it][A
Training...:  11% 282/2609 [16:38<1:48:27,  2.80s/it][A
Training...:  11% 283/2609 [16:40<1:45:31,  2.72s/it][A
Training...:  11% 284/2609 [16:43<1:41:58,  2.63s/it][A
Training...:  11% 285/2609 [16:45<1:39:14,  2.56s/it][A
Training...:  11% 286/2609 [16:47<1:36:27,  2.49s/it][A
Training...:  11% 287/2609 [16:50<1:32:37,  2.39s/it][A
Training...:  11% 288/2609 [16:52<1:28:36,  2.29s/it][A
Training...:  11% 289/2609 [16:54<1:24:52,  2.20s/it][A
Training...:  11% 290/2609 [16:56<1:21:06,  2.10s/it][A
Training...:  11% 291/2609 [16:57<1:17:35,  2.01s/it][A
Training...:  11% 292/2609 [16:59<1:13:49,  1.91s/it][A
Training...:  11% 293/2609 [17:01<1:10:12,  1.82s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:27:41<28:07:54, 9206.81s/it]
Training...:  11% 293/2609 [17:02<1:10:12,  1.82s/it][A
Training...:  11% 294/2609 [17:02<1:09:51,  1.81s/it][A
Training...:  11% 295/2609 [17:04<1:04:48,  1.68s/it][A
Training...:  11% 296/2609 [17:05<59:31,  1.54s/it]  [A
Training...:  11% 297/2609 [17:06<54:32,  1.42s/it][A
Training...:  11% 298/2609 [17:07<49:32,  1.29s/it][A
Training...:  11% 299/2609 [17:08<44:06,  1.15s/it][A
Training...:  11% 300/2609 [17:09<37:43,  1.02it/s][A
Training...:  12% 301/2609 [17:16<1:49:17,  2.84s/it][A
Training...:  12% 302/2609 [17:23<2:38:08,  4.11s/it][A
Training...:  12% 303/2609 [17:29<3:06:16,  4.85s/it][A
Training...:  12% 304/2609 [17:36<3:22:03,  5.26s/it][A
Training...:  12% 305/2609 [17:42<3:29:40,  5.46s/it][A
Training...:  12% 306/2609 [17:47<3:31:32,  5.51s/it][A
Training...:  12% 307/2609 [17:53<3:31:21,  5.51s/it][A
Training...:  12% 308/2609 [17:58<3:28:11,  5.43s/it][A
Training...:  12% 309/2609 [18:03<3:25:14,  5.35s/it][A
Training...:  12% 310/2609 [18:08<3:20:29,  5.23s/it][A
Training...:  12% 311/2609 [18:13<3:15:47,  5.11s/it][A
Training...:  12% 312/2609 [18:18<3:10:28,  4.98s/it][A
Training...:  12% 313/2609 [18:22<3:05:52,  4.86s/it][A
Training...:  12% 314/2609 [18:27<3:00:46,  4.73s/it][A
Training...:  12% 315/2609 [18:31<2:55:36,  4.59s/it][A
Training...:  12% 316/2609 [18:35<2:49:55,  4.45s/it][A
Training...:  12% 317/2609 [18:39<2:45:43,  4.34s/it][A
Training...:  12% 318/2609 [18:43<2:41:34,  4.23s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:29:26<28:07:54, 9206.81s/it]
Training...:  12% 318/2609 [18:47<2:41:34,  4.23s/it][A
Training...:  12% 319/2609 [18:47<2:44:38,  4.31s/it][A
Training...:  12% 320/2609 [18:51<2:37:29,  4.13s/it][A
Training...:  12% 321/2609 [18:55<2:31:34,  3.97s/it][A
Training...:  12% 322/2609 [18:58<2:25:52,  3.83s/it][A
Training...:  12% 323/2609 [19:02<2:20:51,  3.70s/it][A
Training...:  12% 324/2609 [19:05<2:16:18,  3.58s/it][A
Training...:  12% 325/2609 [19:08<2:11:24,  3.45s/it][A
Training...:  12% 326/2609 [19:11<2:07:03,  3.34s/it][A
Training...:  13% 327/2609 [19:14<2:03:09,  3.24s/it][A
Training...:  13% 328/2609 [19:17<1:59:08,  3.13s/it][A
Training...:  13% 329/2609 [19:20<1:55:35,  3.04s/it][A
Training...:  13% 330/2609 [19:23<1:52:02,  2.95s/it][A
Training...:  13% 331/2609 [19:25<1:48:27,  2.86s/it][A
Training...:  13% 332/2609 [19:28<1:45:22,  2.78s/it][A
Training...:  13% 333/2609 [19:30<1:41:54,  2.69s/it][A
Training...:  13% 334/2609 [19:33<1:38:36,  2.60s/it][A
Training...:  13% 335/2609 [19:35<1:35:39,  2.52s/it][A
Training...:  13% 336/2609 [19:37<1:32:23,  2.44s/it][A
Training...:  13% 337/2609 [19:40<1:29:19,  2.36s/it][A
Training...:  13% 338/2609 [19:42<1:26:00,  2.27s/it][A
Training...:  13% 339/2609 [19:44<1:22:25,  2.18s/it][A
Training...:  13% 340/2609 [19:45<1:18:58,  2.09s/it][A
Training...:  13% 341/2609 [19:47<1:15:32,  2.00s/it][A
Training...:  13% 342/2609 [19:49<1:12:14,  1.91s/it][A
Training...:  13% 343/2609 [19:50<1:08:06,  1.80s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:30:31<28:07:54, 9206.81s/it]
Training...:  13% 343/2609 [19:52<1:08:06,  1.80s/it][A
Training...:  13% 344/2609 [19:52<1:07:29,  1.79s/it][A
Training...:  13% 345/2609 [19:54<1:02:05,  1.65s/it][A
Training...:  13% 346/2609 [19:55<57:17,  1.52s/it]  [A
Training...:  13% 347/2609 [19:56<52:30,  1.39s/it][A
Training...:  13% 348/2609 [19:57<47:34,  1.26s/it][A
Training...:  13% 349/2609 [19:58<42:05,  1.12s/it][A
Training...:  13% 350/2609 [19:58<35:13,  1.07it/s][A
Training...:  13% 351/2609 [20:05<1:45:14,  2.80s/it][A
Training...:  13% 352/2609 [20:12<2:31:51,  4.04s/it][A
Training...:  14% 353/2609 [20:19<2:58:58,  4.76s/it][A
Training...:  14% 354/2609 [20:25<3:14:35,  5.18s/it][A
Training...:  14% 355/2609 [20:31<3:25:45,  5.48s/it][A
Training...:  14% 356/2609 [20:37<3:27:10,  5.52s/it][A
Training...:  14% 357/2609 [20:42<3:28:09,  5.55s/it][A
Training...:  14% 358/2609 [20:47<3:24:18,  5.45s/it][A
Training...:  14% 359/2609 [20:53<3:21:28,  5.37s/it][A
Training...:  14% 360/2609 [20:58<3:16:37,  5.25s/it][A
Training...:  14% 361/2609 [21:02<3:12:09,  5.13s/it][A
Training...:  14% 362/2609 [21:07<3:06:33,  4.98s/it][A
Training...:  14% 363/2609 [21:12<3:04:11,  4.92s/it][A
Training...:  14% 364/2609 [21:16<2:59:14,  4.79s/it][A
Training...:  14% 365/2609 [21:21<2:53:34,  4.64s/it][A
Training...:  14% 366/2609 [21:25<2:47:56,  4.49s/it][A
Training...:  14% 367/2609 [21:29<2:43:12,  4.37s/it][A
Training...:  14% 368/2609 [21:33<2:37:50,  4.23s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:32:16<28:07:54, 9206.81s/it]
Training...:  14% 368/2609 [21:37<2:37:50,  4.23s/it][A
Training...:  14% 369/2609 [21:37<2:40:37,  4.30s/it][A
Training...:  14% 370/2609 [21:41<2:33:59,  4.13s/it][A
Training...:  14% 371/2609 [21:45<2:28:17,  3.98s/it][A
Training...:  14% 372/2609 [21:48<2:23:02,  3.84s/it][A
Training...:  14% 373/2609 [21:52<2:18:59,  3.73s/it][A
Training...:  14% 374/2609 [21:55<2:14:16,  3.60s/it][A
Training...:  14% 375/2609 [21:58<2:10:13,  3.50s/it][A
Training...:  14% 376/2609 [22:01<2:05:56,  3.38s/it][A
Training...:  14% 377/2609 [22:04<2:02:30,  3.29s/it][A
Training...:  14% 378/2609 [22:07<1:58:43,  3.19s/it][A
Training...:  15% 379/2609 [22:10<1:55:35,  3.11s/it][A
Training...:  15% 380/2609 [22:13<1:52:10,  3.02s/it][A
Training...:  15% 381/2609 [22:16<1:48:18,  2.92s/it][A
Training...:  15% 382/2609 [22:18<1:44:48,  2.82s/it][A
Training...:  15% 383/2609 [22:21<1:41:20,  2.73s/it][A
Training...:  15% 384/2609 [22:23<1:38:43,  2.66s/it][A
Training...:  15% 385/2609 [22:26<1:35:43,  2.58s/it][A
Training...:  15% 386/2609 [22:28<1:32:36,  2.50s/it][A
Training...:  15% 387/2609 [22:30<1:29:26,  2.42s/it][A
Training...:  15% 388/2609 [22:32<1:26:00,  2.32s/it][A
Training...:  15% 389/2609 [22:34<1:22:56,  2.24s/it][A
Training...:  15% 390/2609 [22:36<1:19:47,  2.16s/it][A
Training...:  15% 391/2609 [22:38<1:16:19,  2.06s/it][A
Training...:  15% 392/2609 [22:40<1:12:54,  1.97s/it][A
Training...:  15% 393/2609 [22:42<1:09:43,  1.89s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:33:22<28:07:54, 9206.81s/it]
Training...:  15% 393/2609 [22:43<1:09:43,  1.89s/it][A
Training...:  15% 394/2609 [22:43<1:09:25,  1.88s/it][A
Training...:  15% 395/2609 [22:45<1:04:47,  1.76s/it][A
Training...:  15% 396/2609 [22:46<1:00:00,  1.63s/it][A
Training...:  15% 397/2609 [22:47<55:19,  1.50s/it]  [A
Training...:  15% 398/2609 [22:48<50:00,  1.36s/it][A
Training...:  15% 399/2609 [22:49<44:17,  1.20s/it][A
Training...:  15% 400/2609 [22:50<37:18,  1.01s/it][A
Training...:  15% 401/2609 [22:57<1:45:12,  2.86s/it][A
Training...:  15% 402/2609 [23:04<2:31:39,  4.12s/it][A
Training...:  15% 403/2609 [23:11<2:58:49,  4.86s/it][A
Training...:  15% 404/2609 [23:17<3:12:36,  5.24s/it][A
Training...:  16% 405/2609 [23:23<3:19:59,  5.44s/it][A
Training...:  16% 406/2609 [23:28<3:21:26,  5.49s/it][A
Training...:  16% 407/2609 [23:34<3:22:06,  5.51s/it][A
Training...:  16% 408/2609 [23:39<3:18:28,  5.41s/it][A
Training...:  16% 409/2609 [23:44<3:17:45,  5.39s/it][A
Training...:  16% 410/2609 [23:49<3:12:47,  5.26s/it][A
Training...:  16% 411/2609 [23:54<3:08:50,  5.16s/it][A
Training...:  16% 412/2609 [23:59<3:01:47,  4.96s/it][A
Training...:  16% 413/2609 [24:03<2:56:05,  4.81s/it][A
Training...:  16% 414/2609 [24:08<2:50:15,  4.65s/it][A
Training...:  16% 415/2609 [24:12<2:45:56,  4.54s/it][A
Training...:  16% 416/2609 [24:16<2:40:45,  4.40s/it][A
Training...:  16% 417/2609 [24:20<2:36:57,  4.30s/it][A
Training...:  16% 418/2609 [24:24<2:32:08,  4.17s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:35:07<28:07:54, 9206.81s/it]
Training...:  16% 418/2609 [24:28<2:32:08,  4.17s/it][A
Training...:  16% 419/2609 [24:28<2:34:41,  4.24s/it][A
Training...:  16% 420/2609 [24:32<2:28:23,  4.07s/it][A
Training...:  16% 421/2609 [24:36<2:23:43,  3.94s/it][A
Training...:  16% 422/2609 [24:39<2:19:17,  3.82s/it][A
Training...:  16% 423/2609 [24:43<2:15:00,  3.71s/it][A
Training...:  16% 424/2609 [24:46<2:10:31,  3.58s/it][A
Training...:  16% 425/2609 [24:49<2:06:56,  3.49s/it][A
Training...:  16% 426/2609 [24:52<2:02:57,  3.38s/it][A
Training...:  16% 427/2609 [24:55<1:59:15,  3.28s/it][A
Training...:  16% 428/2609 [24:58<1:55:56,  3.19s/it][A
Training...:  16% 429/2609 [25:01<1:53:02,  3.11s/it][A
Training...:  16% 430/2609 [25:04<1:49:30,  3.02s/it][A
Training...:  17% 431/2609 [25:07<1:46:25,  2.93s/it][A
Training...:  17% 432/2609 [25:09<1:43:13,  2.84s/it][A
Training...:  17% 433/2609 [25:12<1:40:05,  2.76s/it][A
Training...:  17% 434/2609 [25:14<1:36:23,  2.66s/it][A
Training...:  17% 435/2609 [25:17<1:32:56,  2.56s/it][A
Training...:  17% 436/2609 [25:19<1:29:43,  2.48s/it][A
Training...:  17% 437/2609 [25:21<1:26:28,  2.39s/it][A
Training...:  17% 438/2609 [25:23<1:23:09,  2.30s/it][A
Training...:  17% 439/2609 [25:25<1:19:51,  2.21s/it][A
Training...:  17% 440/2609 [25:27<1:16:39,  2.12s/it][A
Training...:  17% 441/2609 [25:29<1:13:06,  2.02s/it][A
Training...:  17% 442/2609 [25:31<1:09:31,  1.93s/it][A
Training...:  17% 443/2609 [25:32<1:06:06,  1.83s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:36:13<28:07:54, 9206.81s/it]
Training...:  17% 443/2609 [25:34<1:06:06,  1.83s/it][A
Training...:  17% 444/2609 [25:34<1:05:53,  1.83s/it][A
Training...:  17% 445/2609 [25:35<1:01:16,  1.70s/it][A
Training...:  17% 446/2609 [25:37<56:19,  1.56s/it]  [A
Training...:  17% 447/2609 [25:38<51:52,  1.44s/it][A
Training...:  17% 448/2609 [25:39<46:53,  1.30s/it][A
Training...:  17% 449/2609 [25:40<41:37,  1.16s/it][A
Training...:  17% 450/2609 [25:40<35:09,  1.02it/s][A
Training...:  17% 451/2609 [25:47<1:42:10,  2.84s/it][A
Training...:  17% 452/2609 [25:54<2:27:59,  4.12s/it][A
Training...:  17% 453/2609 [26:01<2:54:34,  4.86s/it][A
Training...:  17% 454/2609 [26:07<3:09:18,  5.27s/it][A
Training...:  17% 455/2609 [26:14<3:19:38,  5.56s/it][A
Training...:  17% 456/2609 [26:19<3:21:46,  5.62s/it][A
Training...:  18% 457/2609 [26:25<3:20:32,  5.59s/it][A
Training...:  18% 458/2609 [26:30<3:17:06,  5.50s/it][A
Training...:  18% 459/2609 [26:35<3:13:17,  5.39s/it][A
Training...:  18% 460/2609 [26:40<3:07:50,  5.24s/it][A
Training...:  18% 461/2609 [26:45<3:03:56,  5.14s/it][A
Training...:  18% 462/2609 [26:50<2:58:32,  4.99s/it][A
Training...:  18% 463/2609 [26:54<2:53:50,  4.86s/it][A
Training...:  18% 464/2609 [26:59<2:48:25,  4.71s/it][A
Training...:  18% 465/2609 [27:03<2:43:39,  4.58s/it][A
Training...:  18% 466/2609 [27:07<2:38:40,  4.44s/it][A
Training...:  18% 467/2609 [27:11<2:34:42,  4.33s/it][A
Training...:  18% 468/2609 [27:15<2:30:06,  4.21s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:37:58<28:07:54, 9206.81s/it]
Training...:  18% 468/2609 [27:19<2:30:06,  4.21s/it][A
Training...:  18% 469/2609 [27:19<2:31:58,  4.26s/it][A
Training...:  18% 470/2609 [27:23<2:25:46,  4.09s/it][A
Training...:  18% 471/2609 [27:27<2:21:02,  3.96s/it][A
Training...:  18% 472/2609 [27:30<2:15:58,  3.82s/it][A
Training...:  18% 473/2609 [27:34<2:11:49,  3.70s/it][A
Training...:  18% 474/2609 [27:37<2:08:12,  3.60s/it][A
Training...:  18% 475/2609 [27:40<2:04:01,  3.49s/it][A
Training...:  18% 476/2609 [27:43<1:59:20,  3.36s/it][A
Training...:  18% 477/2609 [27:46<1:55:37,  3.25s/it][A
Training...:  18% 478/2609 [27:49<1:52:08,  3.16s/it][A
Training...:  18% 479/2609 [27:52<1:48:59,  3.07s/it][A
Training...:  18% 480/2609 [27:55<1:45:51,  2.98s/it][A
Training...:  18% 481/2609 [27:58<1:42:44,  2.90s/it][A
Training...:  18% 482/2609 [28:00<1:40:02,  2.82s/it][A
Training...:  19% 483/2609 [28:03<1:37:00,  2.74s/it][A
Training...:  19% 484/2609 [28:05<1:33:10,  2.63s/it][A
Training...:  19% 485/2609 [28:08<1:30:05,  2.55s/it][A
Training...:  19% 486/2609 [28:10<1:26:31,  2.45s/it][A
Training...:  19% 487/2609 [28:12<1:23:04,  2.35s/it][A
Training...:  19% 488/2609 [28:14<1:19:46,  2.26s/it][A
Training...:  19% 489/2609 [28:16<1:16:35,  2.17s/it][A
Training...:  19% 490/2609 [28:18<1:13:26,  2.08s/it][A
Training...:  19% 491/2609 [28:20<1:10:35,  2.00s/it][A
Training...:  19% 492/2609 [28:21<1:07:21,  1.91s/it][A
Training...:  19% 493/2609 [28:23<1:04:06,  1.82s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:39:04<28:07:54, 9206.81s/it]
Training...:  19% 493/2609 [28:25<1:04:06,  1.82s/it][A
Training...:  19% 494/2609 [28:25<1:04:13,  1.82s/it][A
Training...:  19% 495/2609 [28:26<59:46,  1.70s/it]  [A
Training...:  19% 496/2609 [28:27<55:16,  1.57s/it][A
Training...:  19% 497/2609 [28:29<50:56,  1.45s/it][A
Training...:  19% 498/2609 [28:30<46:32,  1.32s/it][A
Training...:  19% 499/2609 [28:30<41:20,  1.18s/it][A
Training...:  19% 500/2609 [28:31<35:10,  1.00s/it][A
Training...:  19% 501/2609 [28:38<1:39:21,  2.83s/it][A
Training...:  19% 502/2609 [28:45<2:24:08,  4.10s/it][A
Training...:  19% 503/2609 [28:52<2:50:21,  4.85s/it][A
Training...:  19% 504/2609 [28:58<3:04:43,  5.27s/it][A
Training...:  19% 505/2609 [29:04<3:12:02,  5.48s/it][A
Training...:  19% 506/2609 [29:10<3:15:05,  5.57s/it][A
Training...:  19% 507/2609 [29:15<3:15:50,  5.59s/it][A
Training...:  19% 508/2609 [29:21<3:12:11,  5.49s/it][A
Training...:  20% 509/2609 [29:26<3:08:37,  5.39s/it][A
Training...:  20% 510/2609 [29:31<3:04:36,  5.28s/it][A
Training...:  20% 511/2609 [29:36<3:00:49,  5.17s/it][A
Training...:  20% 512/2609 [29:41<2:57:36,  5.08s/it][A
Training...:  20% 513/2609 [29:45<2:52:54,  4.95s/it][A
Training...:  20% 514/2609 [29:50<2:47:00,  4.78s/it][A
Training...:  20% 515/2609 [29:54<2:41:43,  4.63s/it][A
Training...:  20% 516/2609 [29:58<2:36:46,  4.49s/it][A
Training...:  20% 517/2609 [30:02<2:32:21,  4.37s/it][A
Training...:  20% 518/2609 [30:06<2:27:50,  4.24s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:40:49<28:07:54, 9206.81s/it]
Training...:  20% 518/2609 [30:11<2:27:50,  4.24s/it][A
Training...:  20% 519/2609 [30:11<2:30:00,  4.31s/it][A
Training...:  20% 520/2609 [30:14<2:24:08,  4.14s/it][A
Training...:  20% 521/2609 [30:18<2:19:04,  4.00s/it][A
Training...:  20% 522/2609 [30:22<2:14:21,  3.86s/it][A
Training...:  20% 523/2609 [30:25<2:09:57,  3.74s/it][A
Training...:  20% 524/2609 [30:28<2:05:27,  3.61s/it][A
Training...:  20% 525/2609 [30:32<2:02:09,  3.52s/it][A
Training...:  20% 526/2609 [30:35<1:58:20,  3.41s/it][A
Training...:  20% 527/2609 [30:38<1:55:19,  3.32s/it][A
Training...:  20% 528/2609 [30:41<1:52:02,  3.23s/it][A
Training...:  20% 529/2609 [30:44<1:49:13,  3.15s/it][A
Training...:  20% 530/2609 [30:47<1:46:00,  3.06s/it][A
Training...:  20% 531/2609 [30:50<1:43:34,  2.99s/it][A
Training...:  20% 532/2609 [30:52<1:40:22,  2.90s/it][A
Training...:  20% 533/2609 [30:55<1:37:28,  2.82s/it][A
Training...:  20% 534/2609 [30:57<1:34:02,  2.72s/it][A
Training...:  21% 535/2609 [31:00<1:31:18,  2.64s/it][A
Training...:  21% 536/2609 [31:02<1:27:56,  2.55s/it][A
Training...:  21% 537/2609 [31:04<1:24:44,  2.45s/it][A
Training...:  21% 538/2609 [31:07<1:21:56,  2.37s/it][A
Training...:  21% 539/2609 [31:09<1:18:55,  2.29s/it][A
Training...:  21% 540/2609 [31:11<1:15:45,  2.20s/it][A
Training...:  21% 541/2609 [31:12<1:12:39,  2.11s/it][A
Training...:  21% 542/2609 [31:14<1:09:02,  2.00s/it][A
Training...:  21% 543/2609 [31:16<1:05:41,  1.91s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:41:57<28:07:54, 9206.81s/it]
Training...:  21% 543/2609 [31:18<1:05:41,  1.91s/it][A
Training...:  21% 544/2609 [31:18<1:05:16,  1.90s/it][A
Training...:  21% 545/2609 [31:19<1:00:28,  1.76s/it][A
Training...:  21% 546/2609 [31:21<55:39,  1.62s/it]  [A
Training...:  21% 547/2609 [31:22<50:56,  1.48s/it][A
Training...:  21% 548/2609 [31:23<45:53,  1.34s/it][A
Training...:  21% 549/2609 [31:23<40:10,  1.17s/it][A
Training...:  21% 550/2609 [31:24<33:48,  1.02it/s][A
Training...:  21% 551/2609 [31:31<1:35:30,  2.78s/it][A
Training...:  21% 552/2609 [31:38<2:18:32,  4.04s/it][A
Training...:  21% 553/2609 [31:45<2:45:08,  4.82s/it][A
Training...:  21% 554/2609 [31:51<3:01:38,  5.30s/it][A
Training...:  21% 555/2609 [31:57<3:10:19,  5.56s/it][A
Training...:  21% 556/2609 [32:03<3:12:35,  5.63s/it][A
Training...:  21% 557/2609 [32:09<3:12:32,  5.63s/it][A
Training...:  21% 558/2609 [32:14<3:09:37,  5.55s/it][A
Training...:  21% 559/2609 [32:19<3:05:48,  5.44s/it][A
Training...:  21% 560/2609 [32:24<3:01:12,  5.31s/it][A
Training...:  22% 561/2609 [32:29<2:56:49,  5.18s/it][A
Training...:  22% 562/2609 [32:34<2:52:53,  5.07s/it][A
Training...:  22% 563/2609 [32:39<2:49:55,  4.98s/it][A
Training...:  22% 564/2609 [32:43<2:44:46,  4.83s/it][A
Training...:  22% 565/2609 [32:47<2:39:18,  4.68s/it][A
Training...:  22% 566/2609 [32:52<2:34:27,  4.54s/it][A
Training...:  22% 567/2609 [32:56<2:29:59,  4.41s/it][A
Training...:  22% 568/2609 [33:00<2:25:50,  4.29s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:43:43<28:07:54, 9206.81s/it]
Training...:  22% 568/2609 [33:04<2:25:50,  4.29s/it][A
Training...:  22% 569/2609 [33:04<2:28:30,  4.37s/it][A
Training...:  22% 570/2609 [33:08<2:22:27,  4.19s/it][A
Training...:  22% 571/2609 [33:12<2:17:37,  4.05s/it][A
Training...:  22% 572/2609 [33:15<2:12:56,  3.92s/it][A
Training...:  22% 573/2609 [33:19<2:08:37,  3.79s/it][A
Training...:  22% 574/2609 [33:22<2:04:31,  3.67s/it][A
Training...:  22% 575/2609 [33:26<2:00:54,  3.57s/it][A
Training...:  22% 576/2609 [33:29<1:57:08,  3.46s/it][A
Training...:  22% 577/2609 [33:32<1:53:53,  3.36s/it][A
Training...:  22% 578/2609 [33:35<1:50:31,  3.26s/it][A
Training...:  22% 579/2609 [33:38<1:47:07,  3.17s/it][A
Training...:  22% 580/2609 [33:41<1:43:32,  3.06s/it][A
Training...:  22% 581/2609 [33:44<1:40:32,  2.97s/it][A
Training...:  22% 582/2609 [33:46<1:37:08,  2.88s/it][A
Training...:  22% 583/2609 [33:49<1:33:46,  2.78s/it][A
Training...:  22% 584/2609 [33:51<1:30:35,  2.68s/it][A
Training...:  22% 585/2609 [33:54<1:27:42,  2.60s/it][A
Training...:  22% 586/2609 [33:56<1:24:43,  2.51s/it][A
Training...:  22% 587/2609 [33:58<1:21:48,  2.43s/it][A
Training...:  23% 588/2609 [34:00<1:18:29,  2.33s/it][A
Training...:  23% 589/2609 [34:02<1:15:38,  2.25s/it][A
Training...:  23% 590/2609 [34:04<1:12:42,  2.16s/it][A
Training...:  23% 591/2609 [34:06<1:09:37,  2.07s/it][A
Training...:  23% 592/2609 [34:08<1:06:33,  1.98s/it][A
Training...:  23% 593/2609 [34:10<1:03:45,  1.90s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:44:50<28:07:54, 9206.81s/it]
Training...:  23% 593/2609 [34:11<1:03:45,  1.90s/it][A
Training...:  23% 594/2609 [34:11<1:03:18,  1.89s/it][A
Training...:  23% 595/2609 [34:13<58:20,  1.74s/it]  [A
Training...:  23% 596/2609 [34:14<53:26,  1.59s/it][A
Training...:  23% 597/2609 [34:15<48:47,  1.46s/it][A
Training...:  23% 598/2609 [34:16<44:04,  1.32s/it][A
Training...:  23% 599/2609 [34:17<39:10,  1.17s/it][A
Training...:  23% 600/2609 [34:18<33:11,  1.01it/s][A
Training...:  23% 601/2609 [34:25<1:34:03,  2.81s/it][A
Training...:  23% 602/2609 [34:32<2:15:58,  4.07s/it][A
Training...:  23% 603/2609 [34:38<2:41:09,  4.82s/it][A
Training...:  23% 604/2609 [34:44<2:54:54,  5.23s/it][A
Training...:  23% 605/2609 [34:50<3:02:08,  5.45s/it][A
Training...:  23% 606/2609 [34:56<3:04:48,  5.54s/it][A
Training...:  23% 607/2609 [35:02<3:04:46,  5.54s/it][A
Training...:  23% 608/2609 [35:07<3:01:47,  5.45s/it][A
Training...:  23% 609/2609 [35:12<2:58:44,  5.36s/it][A
Training...:  23% 610/2609 [35:17<2:53:28,  5.21s/it][A
Training...:  23% 611/2609 [35:22<2:48:53,  5.07s/it][A
Training...:  23% 612/2609 [35:26<2:45:03,  4.96s/it][A
Training...:  23% 613/2609 [35:31<2:41:21,  4.85s/it][A
Training...:  24% 614/2609 [35:35<2:35:14,  4.67s/it][A
Training...:  24% 615/2609 [35:39<2:30:33,  4.53s/it][A
Training...:  24% 616/2609 [35:44<2:25:51,  4.39s/it][A
Training...:  24% 617/2609 [35:48<2:21:54,  4.27s/it][A
Training...:  24% 618/2609 [35:51<2:18:43,  4.18s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:46:35<28:07:54, 9206.81s/it]
Training...:  24% 618/2609 [35:56<2:18:43,  4.18s/it][A
Training...:  24% 619/2609 [35:56<2:21:11,  4.26s/it][A
Training...:  24% 620/2609 [36:00<2:15:19,  4.08s/it][A
Training...:  24% 621/2609 [36:03<2:10:21,  3.93s/it][A
Training...:  24% 622/2609 [36:07<2:05:51,  3.80s/it][A
Training...:  24% 623/2609 [36:10<2:02:06,  3.69s/it][A
Training...:  24% 624/2609 [36:13<1:58:03,  3.57s/it][A
Training...:  24% 625/2609 [36:17<1:54:31,  3.46s/it][A
Training...:  24% 626/2609 [36:20<1:50:42,  3.35s/it][A
Training...:  24% 627/2609 [36:23<1:47:21,  3.25s/it][A
Training...:  24% 628/2609 [36:26<1:44:07,  3.15s/it][A
Training...:  24% 629/2609 [36:28<1:41:04,  3.06s/it][A
Training...:  24% 630/2609 [36:31<1:37:59,  2.97s/it][A
Training...:  24% 631/2609 [36:34<1:34:59,  2.88s/it][A
Training...:  24% 632/2609 [36:37<1:32:20,  2.80s/it][A
Training...:  24% 633/2609 [36:39<1:30:24,  2.75s/it][A
Training...:  24% 634/2609 [36:42<1:27:04,  2.65s/it][A
Training...:  24% 635/2609 [36:44<1:24:05,  2.56s/it][A
Training...:  24% 636/2609 [36:46<1:21:10,  2.47s/it][A
Training...:  24% 637/2609 [36:48<1:18:35,  2.39s/it][A
Training...:  24% 638/2609 [36:50<1:15:25,  2.30s/it][A
Training...:  24% 639/2609 [36:52<1:12:28,  2.21s/it][A
Training...:  25% 640/2609 [36:54<1:09:10,  2.11s/it][A
Training...:  25% 641/2609 [36:56<1:06:25,  2.03s/it][A
Training...:  25% 642/2609 [36:58<1:03:03,  1.92s/it][A
Training...:  25% 643/2609 [36:59<59:49,  1.83s/it]  [A                                                                                                                                                                  
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:47:40<28:07:54, 9206.81s/it]
Training...:  25% 643/2609 [37:01<59:49,  1.83s/it][A
Training...:  25% 644/2609 [37:01<59:46,  1.83s/it][A
Training...:  25% 645/2609 [37:03<55:35,  1.70s/it][A
Training...:  25% 646/2609 [37:04<51:25,  1.57s/it][A
Training...:  25% 647/2609 [37:05<47:20,  1.45s/it][A
Training...:  25% 648/2609 [37:06<42:15,  1.29s/it][A
Training...:  25% 649/2609 [37:07<37:10,  1.14s/it][A
Training...:  25% 650/2609 [37:07<31:30,  1.04it/s][A
Training...:  25% 651/2609 [37:15<1:34:11,  2.89s/it][A
Training...:  25% 652/2609 [37:22<2:15:54,  4.17s/it][A
Training...:  25% 653/2609 [37:28<2:39:34,  4.90s/it][A
Training...:  25% 654/2609 [37:35<2:52:30,  5.29s/it][A
Training...:  25% 655/2609 [37:41<2:58:35,  5.48s/it][A
Training...:  25% 656/2609 [37:46<3:01:15,  5.57s/it][A
Training...:  25% 657/2609 [37:52<3:00:52,  5.56s/it][A
Training...:  25% 658/2609 [37:57<2:57:02,  5.44s/it][A
Training...:  25% 659/2609 [38:02<2:53:47,  5.35s/it][A
Training...:  25% 660/2609 [38:07<2:48:47,  5.20s/it][A
Training...:  25% 661/2609 [38:12<2:44:43,  5.07s/it][A
Training...:  25% 662/2609 [38:16<2:39:25,  4.91s/it][A
Training...:  25% 663/2609 [38:21<2:35:36,  4.80s/it][A
Training...:  25% 664/2609 [38:25<2:30:51,  4.65s/it][A
Training...:  25% 665/2609 [38:30<2:26:51,  4.53s/it][A
Training...:  26% 666/2609 [38:34<2:22:39,  4.41s/it][A
Training...:  26% 667/2609 [38:38<2:19:00,  4.29s/it][A
Training...:  26% 668/2609 [38:42<2:14:39,  4.16s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:49:25<28:07:54, 9206.81s/it]
Training...:  26% 668/2609 [38:46<2:14:39,  4.16s/it][A
Training...:  26% 669/2609 [38:46<2:16:04,  4.21s/it][A
Training...:  26% 670/2609 [38:49<2:10:46,  4.05s/it][A
Training...:  26% 671/2609 [38:53<2:07:02,  3.93s/it][A
Training...:  26% 672/2609 [38:57<2:03:03,  3.81s/it][A
Training...:  26% 673/2609 [39:00<1:59:43,  3.71s/it][A
Training...:  26% 674/2609 [39:03<1:55:23,  3.58s/it][A
Training...:  26% 675/2609 [39:07<1:51:34,  3.46s/it][A
Training...:  26% 676/2609 [39:10<1:47:57,  3.35s/it][A
Training...:  26% 677/2609 [39:13<1:44:58,  3.26s/it][A
Training...:  26% 678/2609 [39:16<1:42:09,  3.17s/it][A
Training...:  26% 679/2609 [39:19<1:39:56,  3.11s/it][A
Training...:  26% 680/2609 [39:22<1:37:19,  3.03s/it][A
Training...:  26% 681/2609 [39:24<1:34:57,  2.96s/it][A
Training...:  26% 682/2609 [39:27<1:32:02,  2.87s/it][A
Training...:  26% 683/2609 [39:30<1:29:47,  2.80s/it][A
Training...:  26% 684/2609 [39:32<1:26:46,  2.70s/it][A
Training...:  26% 685/2609 [39:35<1:23:52,  2.62s/it][A
Training...:  26% 686/2609 [39:37<1:21:22,  2.54s/it][A
Training...:  26% 687/2609 [39:39<1:18:56,  2.46s/it][A
Training...:  26% 688/2609 [39:41<1:15:43,  2.36s/it][A
Training...:  26% 689/2609 [39:43<1:13:03,  2.28s/it][A
Training...:  26% 690/2609 [39:45<1:09:50,  2.18s/it][A
Training...:  26% 691/2609 [39:47<1:06:52,  2.09s/it][A
Training...:  27% 692/2609 [39:49<1:03:46,  2.00s/it][A
Training...:  27% 693/2609 [39:51<1:00:44,  1.90s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:50:31<28:07:54, 9206.81s/it]
Training...:  27% 693/2609 [39:53<1:00:44,  1.90s/it][A
Training...:  27% 694/2609 [39:53<1:00:35,  1.90s/it][A
Training...:  27% 695/2609 [39:54<56:07,  1.76s/it]  [A
Training...:  27% 696/2609 [39:55<51:35,  1.62s/it][A
Training...:  27% 697/2609 [39:56<47:18,  1.48s/it][A
Training...:  27% 698/2609 [39:57<42:47,  1.34s/it][A
Training...:  27% 699/2609 [39:58<38:02,  1.20s/it][A
Training...:  27% 700/2609 [39:59<32:06,  1.01s/it][A
Training...:  27% 701/2609 [40:06<1:30:18,  2.84s/it][A
Training...:  27% 702/2609 [40:13<2:09:53,  4.09s/it][A
Training...:  27% 703/2609 [40:19<2:32:39,  4.81s/it][A
Training...:  27% 704/2609 [40:26<2:45:39,  5.22s/it][A
Training...:  27% 705/2609 [40:32<2:52:36,  5.44s/it][A
Training...:  27% 706/2609 [40:37<2:54:29,  5.50s/it][A
Training...:  27% 707/2609 [40:43<2:54:11,  5.50s/it][A
Training...:  27% 708/2609 [40:48<2:50:56,  5.40s/it][A
Training...:  27% 709/2609 [40:53<2:48:11,  5.31s/it][A
Training...:  27% 710/2609 [40:58<2:43:59,  5.18s/it][A
Training...:  27% 711/2609 [41:03<2:40:33,  5.08s/it][A
Training...:  27% 712/2609 [41:07<2:36:31,  4.95s/it][A
Training...:  27% 713/2609 [41:12<2:32:54,  4.84s/it][A
Training...:  27% 714/2609 [41:16<2:29:26,  4.73s/it][A
Training...:  27% 715/2609 [41:21<2:25:15,  4.60s/it][A
Training...:  27% 716/2609 [41:25<2:21:04,  4.47s/it][A
Training...:  27% 717/2609 [41:29<2:18:19,  4.39s/it][A
Training...:  28% 718/2609 [41:33<2:15:12,  4.29s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:52:17<28:07:54, 9206.81s/it]
Training...:  28% 718/2609 [41:38<2:15:12,  4.29s/it][A
Training...:  28% 719/2609 [41:38<2:17:37,  4.37s/it][A
Training...:  28% 720/2609 [41:41<2:11:42,  4.18s/it][A
Training...:  28% 721/2609 [41:45<2:06:56,  4.03s/it][A
Training...:  28% 722/2609 [41:49<2:02:25,  3.89s/it][A
Training...:  28% 723/2609 [41:52<1:58:28,  3.77s/it][A
Training...:  28% 724/2609 [41:56<1:54:17,  3.64s/it][A
Training...:  28% 725/2609 [41:59<1:51:14,  3.54s/it][A
Training...:  28% 726/2609 [42:02<1:48:04,  3.44s/it][A
Training...:  28% 727/2609 [42:05<1:44:57,  3.35s/it][A
Training...:  28% 728/2609 [42:08<1:41:35,  3.24s/it][A
Training...:  28% 729/2609 [42:11<1:38:39,  3.15s/it][A
Training...:  28% 730/2609 [42:14<1:35:20,  3.04s/it][A
Training...:  28% 731/2609 [42:17<1:32:20,  2.95s/it][A
Training...:  28% 732/2609 [42:19<1:29:35,  2.86s/it][A
Training...:  28% 733/2609 [42:22<1:26:55,  2.78s/it][A
Training...:  28% 734/2609 [42:24<1:24:09,  2.69s/it][A
Training...:  28% 735/2609 [42:27<1:21:32,  2.61s/it][A
Training...:  28% 736/2609 [42:29<1:18:34,  2.52s/it][A
Training...:  28% 737/2609 [42:31<1:15:56,  2.43s/it][A
Training...:  28% 738/2609 [42:33<1:12:44,  2.33s/it][A
Training...:  28% 739/2609 [42:35<1:09:39,  2.23s/it][A
Training...:  28% 740/2609 [42:37<1:06:59,  2.15s/it][A
Training...:  28% 741/2609 [42:39<1:04:06,  2.06s/it][A
Training...:  28% 742/2609 [42:41<1:01:01,  1.96s/it][A
Training...:  28% 743/2609 [42:43<57:56,  1.86s/it]  [A                                                                                                                                                                  
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:53:23<28:07:54, 9206.81s/it]
Training...:  28% 743/2609 [42:44<57:56,  1.86s/it][A
Training...:  29% 744/2609 [42:44<57:16,  1.84s/it][A
Training...:  29% 745/2609 [42:46<52:48,  1.70s/it][A
Training...:  29% 746/2609 [42:47<48:20,  1.56s/it][A
Training...:  29% 747/2609 [42:48<44:15,  1.43s/it][A
Training...:  29% 748/2609 [42:49<39:56,  1.29s/it][A
Training...:  29% 749/2609 [42:50<35:40,  1.15s/it][A
Training...:  29% 750/2609 [42:50<30:06,  1.03it/s][A
Training...:  29% 751/2609 [42:58<1:26:43,  2.80s/it][A
Training...:  29% 752/2609 [43:05<2:05:31,  4.06s/it][A
Training...:  29% 753/2609 [43:11<2:28:49,  4.81s/it][A
Training...:  29% 754/2609 [43:17<2:42:05,  5.24s/it][A
Training...:  29% 755/2609 [43:23<2:48:58,  5.47s/it][A
Training...:  29% 756/2609 [43:29<2:51:03,  5.54s/it][A
Training...:  29% 757/2609 [43:34<2:50:04,  5.51s/it][A
Training...:  29% 758/2609 [43:40<2:48:11,  5.45s/it][A
Training...:  29% 759/2609 [43:45<2:46:33,  5.40s/it][A
Training...:  29% 760/2609 [43:50<2:41:46,  5.25s/it][A
Training...:  29% 761/2609 [43:55<2:37:02,  5.10s/it][A
Training...:  29% 762/2609 [43:59<2:32:06,  4.94s/it][A
Training...:  29% 763/2609 [44:04<2:28:09,  4.82s/it][A
Training...:  29% 764/2609 [44:08<2:22:50,  4.65s/it][A
Training...:  29% 765/2609 [44:12<2:19:21,  4.53s/it][A
Training...:  29% 766/2609 [44:16<2:15:06,  4.40s/it][A
Training...:  29% 767/2609 [44:20<2:11:09,  4.27s/it][A
Training...:  29% 768/2609 [44:24<2:07:11,  4.15s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:55:07<28:07:54, 9206.81s/it]
Training...:  29% 768/2609 [44:29<2:07:11,  4.15s/it][A
Training...:  29% 769/2609 [44:29<2:08:59,  4.21s/it][A
Training...:  30% 770/2609 [44:32<2:04:00,  4.05s/it][A
Training...:  30% 771/2609 [44:36<2:00:01,  3.92s/it][A
Training...:  30% 772/2609 [44:39<1:56:09,  3.79s/it][A
Training...:  30% 773/2609 [44:43<1:52:28,  3.68s/it][A
Training...:  30% 774/2609 [44:46<1:49:17,  3.57s/it][A
Training...:  30% 775/2609 [44:49<1:45:49,  3.46s/it][A
Training...:  30% 776/2609 [44:52<1:42:47,  3.36s/it][A
Training...:  30% 777/2609 [44:56<1:39:46,  3.27s/it][A
Training...:  30% 778/2609 [44:58<1:36:58,  3.18s/it][A
Training...:  30% 779/2609 [45:01<1:34:22,  3.09s/it][A
Training...:  30% 780/2609 [45:04<1:31:32,  3.00s/it][A
Training...:  30% 781/2609 [45:07<1:28:56,  2.92s/it][A
Training...:  30% 782/2609 [45:10<1:26:08,  2.83s/it][A
Training...:  30% 783/2609 [45:12<1:23:28,  2.74s/it][A
Training...:  30% 784/2609 [45:15<1:20:55,  2.66s/it][A
Training...:  30% 785/2609 [45:17<1:18:16,  2.57s/it][A
Training...:  30% 786/2609 [45:19<1:15:32,  2.49s/it][A
Training...:  30% 787/2609 [45:21<1:12:53,  2.40s/it][A
Training...:  30% 788/2609 [45:23<1:10:15,  2.32s/it][A
Training...:  30% 789/2609 [45:25<1:07:25,  2.22s/it][A
Training...:  30% 790/2609 [45:27<1:04:38,  2.13s/it][A
Training...:  30% 791/2609 [45:29<1:02:06,  2.05s/it][A
Training...:  30% 792/2609 [45:31<59:06,  1.95s/it]  [A
Training...:  30% 793/2609 [45:33<56:20,  1.86s/it][A                                                                                                                                                                  
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:56:13<28:07:54, 9206.81s/it]
Training...:  30% 793/2609 [45:34<56:20,  1.86s/it][A
Training...:  30% 794/2609 [45:34<56:02,  1.85s/it][A
Training...:  30% 795/2609 [45:36<51:53,  1.72s/it][A
Training...:  31% 796/2609 [45:37<47:58,  1.59s/it][A
Training...:  31% 797/2609 [45:38<43:55,  1.45s/it][A
Training...:  31% 798/2609 [45:39<39:30,  1.31s/it][A
Training...:  31% 799/2609 [45:40<34:45,  1.15s/it][A
Training...:  31% 800/2609 [45:41<29:19,  1.03it/s][A
Training...:  31% 801/2609 [45:48<1:27:01,  2.89s/it][A
Training...:  31% 802/2609 [45:55<2:04:45,  4.14s/it][A
Training...:  31% 803/2609 [46:02<2:26:28,  4.87s/it][A
Training...:  31% 804/2609 [46:08<2:37:58,  5.25s/it][A
Training...:  31% 805/2609 [46:14<2:44:45,  5.48s/it][A
Training...:  31% 806/2609 [46:19<2:46:04,  5.53s/it][A
Training...:  31% 807/2609 [46:25<2:45:41,  5.52s/it][A
Training...:  31% 808/2609 [46:30<2:42:49,  5.42s/it][A
Training...:  31% 809/2609 [46:35<2:39:34,  5.32s/it][A
Training...:  31% 810/2609 [46:40<2:36:08,  5.21s/it][A
Training...:  31% 811/2609 [46:45<2:32:24,  5.09s/it][A
Training...:  31% 812/2609 [46:49<2:27:43,  4.93s/it][A
Training...:  31% 813/2609 [46:54<2:24:08,  4.82s/it][A
Training...:  31% 814/2609 [46:58<2:19:35,  4.67s/it][A
Training...:  31% 815/2609 [47:03<2:16:00,  4.55s/it][A
Training...:  31% 816/2609 [47:07<2:11:24,  4.40s/it][A
Training...:  31% 817/2609 [47:11<2:08:30,  4.30s/it][A
Training...:  31% 818/2609 [47:15<2:04:29,  4.17s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:57:58<28:07:54, 9206.81s/it]
Training...:  31% 818/2609 [47:19<2:04:29,  4.17s/it][A
Training...:  31% 819/2609 [47:19<2:06:43,  4.25s/it][A
Training...:  31% 820/2609 [47:23<2:01:27,  4.07s/it][A
Training...:  31% 821/2609 [47:26<1:57:25,  3.94s/it][A
Training...:  32% 822/2609 [47:30<1:53:29,  3.81s/it][A
Training...:  32% 823/2609 [47:33<1:50:17,  3.71s/it][A
Training...:  32% 824/2609 [47:37<1:46:47,  3.59s/it][A
Training...:  32% 825/2609 [47:40<1:43:47,  3.49s/it][A
Training...:  32% 826/2609 [47:43<1:40:18,  3.38s/it][A
Training...:  32% 827/2609 [47:46<1:37:31,  3.28s/it][A
Training...:  32% 828/2609 [47:49<1:34:33,  3.19s/it][A
Training...:  32% 829/2609 [47:52<1:31:41,  3.09s/it][A
Training...:  32% 830/2609 [47:55<1:28:41,  2.99s/it][A
Training...:  32% 831/2609 [47:57<1:26:13,  2.91s/it][A
Training...:  32% 832/2609 [48:00<1:23:13,  2.81s/it][A
Training...:  32% 833/2609 [48:02<1:20:51,  2.73s/it][A
Training...:  32% 834/2609 [48:05<1:18:21,  2.65s/it][A
Training...:  32% 835/2609 [48:07<1:16:01,  2.57s/it][A
Training...:  32% 836/2609 [48:10<1:13:31,  2.49s/it][A
Training...:  32% 837/2609 [48:12<1:10:42,  2.39s/it][A
Training...:  32% 838/2609 [48:14<1:07:42,  2.29s/it][A
Training...:  32% 839/2609 [48:16<1:04:44,  2.19s/it][A
Training...:  32% 840/2609 [48:18<1:02:04,  2.11s/it][A
Training...:  32% 841/2609 [48:20<59:20,  2.01s/it]  [A
Training...:  32% 842/2609 [48:21<56:34,  1.92s/it][A
Training...:  32% 843/2609 [48:23<53:43,  1.83s/it][A                                                                                                                                                                  
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [23:59:04<28:07:54, 9206.81s/it]
Training...:  32% 843/2609 [48:25<53:43,  1.83s/it][A
Training...:  32% 844/2609 [48:25<53:36,  1.82s/it][A
Training...:  32% 845/2609 [48:26<49:42,  1.69s/it][A
Training...:  32% 846/2609 [48:27<45:43,  1.56s/it][A
Training...:  32% 847/2609 [48:28<41:49,  1.42s/it][A
Training...:  33% 848/2609 [48:29<37:39,  1.28s/it][A
Training...:  33% 849/2609 [48:30<33:18,  1.14s/it][A
Training...:  33% 850/2609 [48:31<28:23,  1.03it/s][A
Training...:  33% 851/2609 [48:38<1:22:35,  2.82s/it][A
Training...:  33% 852/2609 [48:45<1:59:27,  4.08s/it][A
Training...:  33% 853/2609 [48:51<2:21:25,  4.83s/it][A
Training...:  33% 854/2609 [48:58<2:35:07,  5.30s/it][A
Training...:  33% 855/2609 [49:04<2:42:05,  5.54s/it][A
Training...:  33% 856/2609 [49:10<2:44:28,  5.63s/it][A
Training...:  33% 857/2609 [49:15<2:44:49,  5.64s/it][A
Training...:  33% 858/2609 [49:21<2:42:49,  5.58s/it][A
Training...:  33% 859/2609 [49:26<2:40:14,  5.49s/it][A
Training...:  33% 860/2609 [49:31<2:36:00,  5.35s/it][A
Training...:  33% 861/2609 [49:36<2:31:22,  5.20s/it][A
Training...:  33% 862/2609 [49:41<2:25:57,  5.01s/it][A
Training...:  33% 863/2609 [49:45<2:21:31,  4.86s/it][A
Training...:  33% 864/2609 [49:50<2:17:28,  4.73s/it][A
Training...:  33% 865/2609 [49:54<2:13:21,  4.59s/it][A
Training...:  33% 866/2609 [49:58<2:09:20,  4.45s/it][A
Training...:  33% 867/2609 [50:02<2:05:44,  4.33s/it][A
Training...:  33% 868/2609 [50:06<2:01:48,  4.20s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:00:49<28:07:54, 9206.81s/it]
Training...:  33% 868/2609 [50:10<2:01:48,  4.20s/it][A
Training...:  33% 869/2609 [50:10<2:03:33,  4.26s/it][A
Training...:  33% 870/2609 [50:14<1:58:56,  4.10s/it][A
Training...:  33% 871/2609 [50:18<1:54:47,  3.96s/it][A
Training...:  33% 872/2609 [50:21<1:51:16,  3.84s/it][A
Training...:  33% 873/2609 [50:25<1:48:04,  3.74s/it][A
Training...:  33% 874/2609 [50:28<1:44:58,  3.63s/it][A
Training...:  34% 875/2609 [50:31<1:42:12,  3.54s/it][A
Training...:  34% 876/2609 [50:35<1:38:44,  3.42s/it][A
Training...:  34% 877/2609 [50:38<1:35:36,  3.31s/it][A
Training...:  34% 878/2609 [50:41<1:32:53,  3.22s/it][A
Training...:  34% 879/2609 [50:44<1:30:47,  3.15s/it][A
Training...:  34% 880/2609 [50:46<1:28:17,  3.06s/it][A
Training...:  34% 881/2609 [50:49<1:25:36,  2.97s/it][A
Training...:  34% 882/2609 [50:52<1:22:43,  2.87s/it][A
Training...:  34% 883/2609 [50:54<1:19:59,  2.78s/it][A
Training...:  34% 884/2609 [50:57<1:17:00,  2.68s/it][A
Training...:  34% 885/2609 [50:59<1:14:17,  2.59s/it][A
Training...:  34% 886/2609 [51:02<1:11:47,  2.50s/it][A
Training...:  34% 887/2609 [51:04<1:09:19,  2.42s/it][A
Training...:  34% 888/2609 [51:06<1:06:28,  2.32s/it][A
Training...:  34% 889/2609 [51:08<1:04:14,  2.24s/it][A
Training...:  34% 890/2609 [51:10<1:01:25,  2.14s/it][A
Training...:  34% 891/2609 [51:12<58:31,  2.04s/it]  [A
Training...:  34% 892/2609 [51:13<55:27,  1.94s/it][A
Training...:  34% 893/2609 [51:15<52:42,  1.84s/it][A                                                                                                                                                                  
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:01:56<28:07:54, 9206.81s/it]
Training...:  34% 893/2609 [51:17<52:42,  1.84s/it][A
Training...:  34% 894/2609 [51:17<52:17,  1.83s/it][A
Training...:  34% 895/2609 [51:18<48:21,  1.69s/it][A
Training...:  34% 896/2609 [51:19<44:16,  1.55s/it][A
Training...:  34% 897/2609 [51:20<40:34,  1.42s/it][A
Training...:  34% 898/2609 [51:21<36:41,  1.29s/it][A
Training...:  34% 899/2609 [51:22<32:44,  1.15s/it][A
Training...:  34% 900/2609 [51:23<27:50,  1.02it/s][A
Training...:  35% 901/2609 [51:30<1:20:51,  2.84s/it][A
Training...:  35% 902/2609 [51:37<1:56:04,  4.08s/it][A
Training...:  35% 903/2609 [51:43<2:16:12,  4.79s/it][A
Training...:  35% 904/2609 [51:50<2:27:23,  5.19s/it][A
Training...:  35% 905/2609 [51:56<2:33:32,  5.41s/it][A
Training...:  35% 906/2609 [52:01<2:35:02,  5.46s/it][A
Training...:  35% 907/2609 [52:06<2:34:04,  5.43s/it][A
Training...:  35% 908/2609 [52:12<2:31:52,  5.36s/it][A
Training...:  35% 909/2609 [52:17<2:29:12,  5.27s/it][A
Training...:  35% 910/2609 [52:22<2:25:22,  5.13s/it][A
Training...:  35% 911/2609 [52:26<2:22:25,  5.03s/it][A
Training...:  35% 912/2609 [52:31<2:18:23,  4.89s/it][A
Training...:  35% 913/2609 [52:35<2:14:49,  4.77s/it][A
Training...:  35% 914/2609 [52:40<2:11:09,  4.64s/it][A
Training...:  35% 915/2609 [52:44<2:07:44,  4.52s/it][A
Training...:  35% 916/2609 [52:48<2:04:17,  4.40s/it][A
Training...:  35% 917/2609 [52:52<2:01:45,  4.32s/it][A
Training...:  35% 918/2609 [52:56<1:58:09,  4.19s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:03:39<28:07:54, 9206.81s/it]
Training...:  35% 918/2609 [53:01<1:58:09,  4.19s/it][A
Training...:  35% 919/2609 [53:01<2:00:13,  4.27s/it][A
Training...:  35% 920/2609 [53:04<1:55:50,  4.11s/it][A
Training...:  35% 921/2609 [53:08<1:51:39,  3.97s/it][A
Training...:  35% 922/2609 [53:11<1:47:15,  3.81s/it][A
Training...:  35% 923/2609 [53:15<1:43:29,  3.68s/it][A
Training...:  35% 924/2609 [53:18<1:40:19,  3.57s/it][A
Training...:  35% 925/2609 [53:21<1:37:34,  3.48s/it][A
Training...:  35% 926/2609 [53:24<1:34:45,  3.38s/it][A
Training...:  36% 927/2609 [53:28<1:32:02,  3.28s/it][A
Training...:  36% 928/2609 [53:31<1:29:17,  3.19s/it][A
Training...:  36% 929/2609 [53:33<1:26:29,  3.09s/it][A
Training...:  36% 930/2609 [53:36<1:26:23,  3.09s/it][A
Training...:  36% 931/2609 [53:39<1:23:22,  2.98s/it][A
Training...:  36% 932/2609 [53:42<1:20:06,  2.87s/it][A
Training...:  36% 933/2609 [53:44<1:17:45,  2.78s/it][A
Training...:  36% 934/2609 [53:47<1:14:46,  2.68s/it][A
Training...:  36% 935/2609 [53:49<1:11:39,  2.57s/it][A
Training...:  36% 936/2609 [53:51<1:09:21,  2.49s/it][A
Training...:  36% 937/2609 [53:54<1:06:44,  2.39s/it][A
Training...:  36% 938/2609 [53:56<1:03:32,  2.28s/it][A
Training...:  36% 939/2609 [53:58<1:00:48,  2.18s/it][A
Training...:  36% 940/2609 [53:59<57:55,  2.08s/it]  [A
Training...:  36% 941/2609 [54:01<55:28,  2.00s/it][A
Training...:  36% 942/2609 [54:03<52:45,  1.90s/it][A
Training...:  36% 943/2609 [54:04<50:08,  1.81s/it][A                                                                                                                                                                  
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:04:45<28:07:54, 9206.81s/it]
Training...:  36% 943/2609 [54:06<50:08,  1.81s/it][A
Training...:  36% 944/2609 [54:06<50:11,  1.81s/it][A
Training...:  36% 945/2609 [54:08<46:43,  1.68s/it][A
Training...:  36% 946/2609 [54:09<43:07,  1.56s/it][A
Training...:  36% 947/2609 [54:10<39:57,  1.44s/it][A
Training...:  36% 948/2609 [54:11<35:51,  1.30s/it][A
Training...:  36% 949/2609 [54:12<31:34,  1.14s/it][A
Training...:  36% 950/2609 [54:12<26:38,  1.04it/s][A
Training...:  36% 951/2609 [54:20<1:18:17,  2.83s/it][A
Training...:  36% 952/2609 [54:27<1:54:01,  4.13s/it][A
Training...:  37% 953/2609 [54:33<2:14:40,  4.88s/it][A
Training...:  37% 954/2609 [54:40<2:26:54,  5.33s/it][A
Training...:  37% 955/2609 [54:46<2:33:39,  5.57s/it][A
Training...:  37% 956/2609 [54:52<2:35:42,  5.65s/it][A
Training...:  37% 957/2609 [54:57<2:35:26,  5.65s/it][A
Training...:  37% 958/2609 [55:03<2:32:40,  5.55s/it][A
Training...:  37% 959/2609 [55:08<2:30:09,  5.46s/it][A
Training...:  37% 960/2609 [55:13<2:28:05,  5.39s/it][A
Training...:  37% 961/2609 [55:18<2:25:57,  5.31s/it][A
Training...:  37% 962/2609 [55:23<2:20:49,  5.13s/it][A
Training...:  37% 963/2609 [55:28<2:17:05,  5.00s/it][A
Training...:  37% 964/2609 [55:32<2:12:38,  4.84s/it][A
Training...:  37% 965/2609 [55:37<2:09:06,  4.71s/it][A
Training...:  37% 966/2609 [55:41<2:04:59,  4.56s/it][A
Training...:  37% 967/2609 [55:45<2:01:47,  4.45s/it][A
Training...:  37% 968/2609 [55:49<1:57:43,  4.30s/it][A                                                                                                                                                                  
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:06:32<28:07:54, 9206.81s/it]
Training...:  37% 968/2609 [55:54<1:57:43,  4.30s/it][A
Training...:  37% 969/2609 [55:54<1:59:59,  4.39s/it][A
Training...:  37% 970/2609 [55:57<1:55:19,  4.22s/it][A
Training...:  37% 971/2609 [56:01<1:51:37,  4.09s/it][A
Training...:  37% 972/2609 [56:05<1:47:28,  3.94s/it][A
Training...:  37% 973/2609 [56:08<1:44:08,  3.82s/it][A
Training...:  37% 974/2609 [56:12<1:41:02,  3.71s/it][A
Training...:  37% 975/2609 [56:15<1:37:27,  3.58s/it][A
Training...:  37% 976/2609 [56:18<1:33:50,  3.45s/it][A
Training...:  37% 977/2609 [56:21<1:31:20,  3.36s/it][A
Training...:  37% 978/2609 [56:24<1:28:18,  3.25s/it][A
Training...:  38% 979/2609 [56:27<1:25:35,  3.15s/it][A
Training...:  38% 980/2609 [56:30<1:22:46,  3.05s/it][A
Training...:  38% 981/2609 [56:33<1:20:50,  2.98s/it][A
Training...:  38% 982/2609 [56:36<1:18:27,  2.89s/it][A
Training...:  38% 983/2609 [56:38<1:16:12,  2.81s/it][A
Training...:  38% 984/2609 [56:41<1:13:33,  2.72s/it][A
Training...:  38% 985/2609 [56:43<1:11:08,  2.63s/it][A
Training...:  38% 986/2609 [56:45<1:08:30,  2.53s/it][A
Training...:  38% 987/2609 [56:48<1:05:51,  2.44s/it][A
Training...:  38% 988/2609 [56:50<1:03:07,  2.34s/it][A
Training...:  38% 989/2609 [56:52<1:00:22,  2.24s/it][A
Training...:  38% 990/2609 [56:54<57:34,  2.13s/it]  [A
Training...:  38% 991/2609 [56:55<54:46,  2.03s/it][A
Training...:  38% 992/2609 [56:57<52:26,  1.95s/it][A
Training...:  38% 993/2609 [56:59<49:25,  1.84s/it][A                                                                                                                                                                  
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:07:39<28:07:54, 9206.81s/it]
Training...:  38% 993/2609 [57:01<49:25,  1.84s/it][A
Training...:  38% 994/2609 [57:01<49:22,  1.83s/it][A
Training...:  38% 995/2609 [57:02<45:34,  1.69s/it][A
Training...:  38% 996/2609 [57:03<42:00,  1.56s/it][A
Training...:  38% 997/2609 [57:04<38:28,  1.43s/it][A
Training...:  38% 998/2609 [57:05<34:38,  1.29s/it][A
Training...:  38% 999/2609 [57:06<30:25,  1.13s/it][A
Training...:  38% 1000/2609 [57:07<25:34,  1.05it/s][A
Training...:  38% 1001/2609 [57:14<1:17:29,  2.89s/it][A
Training...:  38% 1002/2609 [57:21<1:50:18,  4.12s/it][A
Training...:  38% 1003/2609 [57:28<2:10:46,  4.89s/it][A
Training...:  38% 1004/2609 [57:34<2:22:04,  5.31s/it][A
Training...:  39% 1005/2609 [57:40<2:27:17,  5.51s/it][A
Training...:  39% 1006/2609 [57:46<2:29:11,  5.58s/it][A
Training...:  39% 1007/2609 [57:51<2:28:52,  5.58s/it][A
Training...:  39% 1008/2609 [57:56<2:26:00,  5.47s/it][A
Training...:  39% 1009/2609 [58:02<2:24:02,  5.40s/it][A
Training...:  39% 1010/2609 [58:07<2:20:08,  5.26s/it][A
Training...:  39% 1011/2609 [58:11<2:16:49,  5.14s/it][A
Training...:  39% 1012/2609 [58:16<2:13:09,  5.00s/it][A
Training...:  39% 1013/2609 [58:21<2:10:05,  4.89s/it][A
Training...:  39% 1014/2609 [58:25<2:06:31,  4.76s/it][A
Training...:  39% 1015/2609 [58:30<2:03:49,  4.66s/it][A
Training...:  39% 1016/2609 [58:34<1:59:35,  4.50s/it][A
Training...:  39% 1017/2609 [58:38<1:56:35,  4.39s/it][A
Training...:  39% 1018/2609 [58:42<1:53:11,  4.27s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:09:25<28:07:54, 9206.81s/it]
Training...:  39% 1018/2609 [58:46<1:53:11,  4.27s/it][A
Training...:  39% 1019/2609 [58:46<1:55:45,  4.37s/it][A
Training...:  39% 1020/2609 [58:50<1:50:55,  4.19s/it][A
Training...:  39% 1021/2609 [58:54<1:48:32,  4.10s/it][A
Training...:  39% 1022/2609 [58:58<1:44:47,  3.96s/it][A
Training...:  39% 1023/2609 [59:02<1:42:40,  3.88s/it][A
Training...:  39% 1024/2609 [59:05<1:39:06,  3.75s/it][A
Training...:  39% 1025/2609 [59:08<1:35:43,  3.63s/it][A
Training...:  39% 1026/2609 [59:11<1:32:05,  3.49s/it][A
Training...:  39% 1027/2609 [59:15<1:28:57,  3.37s/it][A
Training...:  39% 1028/2609 [59:18<1:26:12,  3.27s/it][A
Training...:  39% 1029/2609 [59:21<1:23:38,  3.18s/it][A
Training...:  39% 1030/2609 [59:23<1:20:50,  3.07s/it][A
Training...:  40% 1031/2609 [59:26<1:18:16,  2.98s/it][A
Training...:  40% 1032/2609 [59:29<1:15:21,  2.87s/it][A
Training...:  40% 1033/2609 [59:31<1:12:52,  2.77s/it][A
Training...:  40% 1034/2609 [59:34<1:10:31,  2.69s/it][A
Training...:  40% 1035/2609 [59:36<1:08:15,  2.60s/it][A
Training...:  40% 1036/2609 [59:38<1:05:53,  2.51s/it][A
Training...:  40% 1037/2609 [59:41<1:03:28,  2.42s/it][A
Training...:  40% 1038/2609 [59:43<1:00:42,  2.32s/it][A
Training...:  40% 1039/2609 [59:45<58:26,  2.23s/it]  [A
Training...:  40% 1040/2609 [59:47<55:56,  2.14s/it][A
Training...:  40% 1041/2609 [59:49<53:26,  2.05s/it][A
Training...:  40% 1042/2609 [59:50<50:46,  1.94s/it][A
Training...:  40% 1043/2609 [59:52<48:19,  1.85s/it][A                                                                                                                                                                  
                                                    [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:10:33<28:07:54, 9206.81s/it]
Training...:  40% 1043/2609 [59:54<48:19,  1.85s/it][A
Training...:  40% 1044/2609 [59:54<48:24,  1.86s/it][A
Training...:  40% 1045/2609 [59:55<45:22,  1.74s/it][A
Training...:  40% 1046/2609 [59:57<42:04,  1.62s/it][A
Training...:  40% 1047/2609 [59:58<38:50,  1.49s/it][A
Training...:  40% 1048/2609 [59:59<35:05,  1.35s/it][A
Training...:  40% 1049/2609 [1:00:00<30:57,  1.19s/it][A
Training...:  40% 1050/2609 [1:00:00<26:14,  1.01s/it][A
Training...:  40% 1051/2609 [1:00:07<1:13:38,  2.84s/it][A
Training...:  40% 1052/2609 [1:00:14<1:46:31,  4.10s/it][A
Training...:  40% 1053/2609 [1:00:21<2:04:48,  4.81s/it][A
Training...:  40% 1054/2609 [1:00:27<2:14:51,  5.20s/it][A
Training...:  40% 1055/2609 [1:00:33<2:20:49,  5.44s/it][A
Training...:  40% 1056/2609 [1:00:39<2:22:11,  5.49s/it][A
Training...:  41% 1057/2609 [1:00:44<2:22:14,  5.50s/it][A
Training...:  41% 1058/2609 [1:00:49<2:20:29,  5.43s/it][A
Training...:  41% 1059/2609 [1:00:54<2:17:59,  5.34s/it][A
Training...:  41% 1060/2609 [1:00:59<2:15:17,  5.24s/it][A
Training...:  41% 1061/2609 [1:01:04<2:11:55,  5.11s/it][A
Training...:  41% 1062/2609 [1:01:09<2:08:28,  4.98s/it][A
Training...:  41% 1063/2609 [1:01:14<2:06:52,  4.92s/it][A
Training...:  41% 1064/2609 [1:01:18<2:03:59,  4.82s/it][A
Training...:  41% 1065/2609 [1:01:23<1:59:51,  4.66s/it][A
Training...:  41% 1066/2609 [1:01:27<1:55:58,  4.51s/it][A
Training...:  41% 1067/2609 [1:01:31<1:52:53,  4.39s/it][A
Training...:  41% 1068/2609 [1:01:35<1:49:22,  4.26s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:12:18<28:07:54, 9206.81s/it]
Training...:  41% 1068/2609 [1:01:39<1:49:22,  4.26s/it][A
Training...:  41% 1069/2609 [1:01:39<1:50:46,  4.32s/it][A
Training...:  41% 1070/2609 [1:01:43<1:46:11,  4.14s/it][A
Training...:  41% 1071/2609 [1:01:47<1:42:16,  3.99s/it][A
Training...:  41% 1072/2609 [1:01:50<1:38:40,  3.85s/it][A
Training...:  41% 1073/2609 [1:01:54<1:35:10,  3.72s/it][A
Training...:  41% 1074/2609 [1:01:57<1:32:15,  3.61s/it][A
Training...:  41% 1075/2609 [1:02:00<1:29:25,  3.50s/it][A
Training...:  41% 1076/2609 [1:02:03<1:26:29,  3.39s/it][A
Training...:  41% 1077/2609 [1:02:06<1:24:16,  3.30s/it][A
Training...:  41% 1078/2609 [1:02:09<1:22:02,  3.22s/it][A
Training...:  41% 1079/2609 [1:02:12<1:19:50,  3.13s/it][A
Training...:  41% 1080/2609 [1:02:15<1:17:33,  3.04s/it][A
Training...:  41% 1081/2609 [1:02:18<1:15:23,  2.96s/it][A
Training...:  41% 1082/2609 [1:02:21<1:12:52,  2.86s/it][A
Training...:  42% 1083/2609 [1:02:23<1:10:16,  2.76s/it][A
Training...:  42% 1084/2609 [1:02:26<1:07:58,  2.67s/it][A
Training...:  42% 1085/2609 [1:02:28<1:05:51,  2.59s/it][A
Training...:  42% 1086/2609 [1:02:30<1:03:33,  2.50s/it][A
Training...:  42% 1087/2609 [1:02:33<1:01:26,  2.42s/it][A
Training...:  42% 1088/2609 [1:02:35<59:13,  2.34s/it]  [A
Training...:  42% 1089/2609 [1:02:37<57:04,  2.25s/it][A
Training...:  42% 1090/2609 [1:02:39<54:37,  2.16s/it][A
Training...:  42% 1091/2609 [1:02:41<52:19,  2.07s/it][A
Training...:  42% 1092/2609 [1:02:42<49:54,  1.97s/it][A
Training...:  42% 1093/2609 [1:02:44<47:24,  1.88s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:13:25<28:07:54, 9206.81s/it]
Training...:  42% 1093/2609 [1:02:46<47:24,  1.88s/it][A
Training...:  42% 1094/2609 [1:02:46<47:14,  1.87s/it][A
Training...:  42% 1095/2609 [1:02:47<44:02,  1.75s/it][A
Training...:  42% 1096/2609 [1:02:49<40:47,  1.62s/it][A
Training...:  42% 1097/2609 [1:02:50<37:33,  1.49s/it][A
Training...:  42% 1098/2609 [1:02:51<33:52,  1.35s/it][A
Training...:  42% 1099/2609 [1:02:52<29:57,  1.19s/it][A
Training...:  42% 1100/2609 [1:02:52<25:20,  1.01s/it][A
Training...:  42% 1101/2609 [1:02:59<1:12:16,  2.88s/it][A
Training...:  42% 1102/2609 [1:03:06<1:43:30,  4.12s/it][A
Training...:  42% 1103/2609 [1:03:13<2:01:27,  4.84s/it][A
Training...:  42% 1104/2609 [1:03:19<2:11:07,  5.23s/it][A
Training...:  42% 1105/2609 [1:03:25<2:16:24,  5.44s/it][A
Training...:  42% 1106/2609 [1:03:31<2:18:49,  5.54s/it][A
Training...:  42% 1107/2609 [1:03:36<2:19:55,  5.59s/it][A
Training...:  42% 1108/2609 [1:03:42<2:18:02,  5.52s/it][A
Training...:  43% 1109/2609 [1:03:47<2:14:59,  5.40s/it][A
Training...:  43% 1110/2609 [1:03:52<2:11:34,  5.27s/it][A
Training...:  43% 1111/2609 [1:03:57<2:08:17,  5.14s/it][A
Training...:  43% 1112/2609 [1:04:01<2:04:32,  4.99s/it][A
Training...:  43% 1113/2609 [1:04:06<2:01:09,  4.86s/it][A
Training...:  43% 1114/2609 [1:04:10<1:57:42,  4.72s/it][A
Training...:  43% 1115/2609 [1:04:15<1:54:51,  4.61s/it][A
Training...:  43% 1116/2609 [1:04:19<1:51:53,  4.50s/it][A
Training...:  43% 1117/2609 [1:04:23<1:48:54,  4.38s/it][A
Training...:  43% 1118/2609 [1:04:27<1:45:40,  4.25s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:15:10<28:07:54, 9206.81s/it]
Training...:  43% 1118/2609 [1:04:32<1:45:40,  4.25s/it][A
Training...:  43% 1119/2609 [1:04:32<1:47:50,  4.34s/it][A
Training...:  43% 1120/2609 [1:04:35<1:43:19,  4.16s/it][A
Training...:  43% 1121/2609 [1:04:39<1:39:53,  4.03s/it][A
Training...:  43% 1122/2609 [1:04:43<1:36:36,  3.90s/it][A
Training...:  43% 1123/2609 [1:04:46<1:33:32,  3.78s/it][A
Training...:  43% 1124/2609 [1:04:49<1:30:28,  3.66s/it][A
Training...:  43% 1125/2609 [1:04:53<1:27:43,  3.55s/it][A
Training...:  43% 1126/2609 [1:04:56<1:25:14,  3.45s/it][A
Training...:  43% 1127/2609 [1:04:59<1:22:37,  3.35s/it][A
Training...:  43% 1128/2609 [1:05:02<1:20:11,  3.25s/it][A
Training...:  43% 1129/2609 [1:05:05<1:17:41,  3.15s/it][A
Training...:  43% 1130/2609 [1:05:08<1:15:26,  3.06s/it][A
Training...:  43% 1131/2609 [1:05:11<1:13:16,  2.97s/it][A
Training...:  43% 1132/2609 [1:05:13<1:10:37,  2.87s/it][A
Training...:  43% 1133/2609 [1:05:16<1:08:40,  2.79s/it][A
Training...:  43% 1134/2609 [1:05:18<1:06:14,  2.69s/it][A
Training...:  44% 1135/2609 [1:05:21<1:04:20,  2.62s/it][A
Training...:  44% 1136/2609 [1:05:23<1:02:10,  2.53s/it][A
Training...:  44% 1137/2609 [1:05:25<59:50,  2.44s/it]  [A
Training...:  44% 1138/2609 [1:05:27<57:20,  2.34s/it][A
Training...:  44% 1139/2609 [1:05:30<55:14,  2.25s/it][A
Training...:  44% 1140/2609 [1:05:31<52:49,  2.16s/it][A
Training...:  44% 1141/2609 [1:05:33<50:32,  2.07s/it][A
Training...:  44% 1142/2609 [1:05:35<48:28,  1.98s/it][A
Training...:  44% 1143/2609 [1:05:37<46:10,  1.89s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:16:18<28:07:54, 9206.81s/it]
Training...:  44% 1143/2609 [1:05:39<46:10,  1.89s/it][A
Training...:  44% 1144/2609 [1:05:39<45:52,  1.88s/it][A
Training...:  44% 1145/2609 [1:05:40<42:32,  1.74s/it][A
Training...:  44% 1146/2609 [1:05:41<39:10,  1.61s/it][A
Training...:  44% 1147/2609 [1:05:43<36:05,  1.48s/it][A
Training...:  44% 1148/2609 [1:05:43<32:27,  1.33s/it][A
Training...:  44% 1149/2609 [1:05:44<28:37,  1.18s/it][A
Training...:  44% 1150/2609 [1:05:45<23:52,  1.02it/s][A
Training...:  44% 1151/2609 [1:05:52<1:09:45,  2.87s/it][A
Training...:  44% 1152/2609 [1:05:59<1:39:54,  4.11s/it][A
Training...:  44% 1153/2609 [1:06:06<1:58:09,  4.87s/it][A
Training...:  44% 1154/2609 [1:06:12<2:08:46,  5.31s/it][A
Training...:  44% 1155/2609 [1:06:18<2:14:02,  5.53s/it][A
Training...:  44% 1156/2609 [1:06:24<2:15:29,  5.59s/it][A
Training...:  44% 1157/2609 [1:06:29<2:15:19,  5.59s/it][A
Training...:  44% 1158/2609 [1:06:35<2:13:20,  5.51s/it][A
Training...:  44% 1159/2609 [1:06:40<2:10:43,  5.41s/it][A
Training...:  44% 1160/2609 [1:06:45<2:07:02,  5.26s/it][A
Training...:  44% 1161/2609 [1:06:50<2:04:23,  5.15s/it][A
Training...:  45% 1162/2609 [1:06:55<2:01:28,  5.04s/it][A
Training...:  45% 1163/2609 [1:06:59<1:58:07,  4.90s/it][A
Training...:  45% 1164/2609 [1:07:04<1:54:28,  4.75s/it][A
Training...:  45% 1165/2609 [1:07:08<1:51:25,  4.63s/it][A
Training...:  45% 1166/2609 [1:07:12<1:48:10,  4.50s/it][A
Training...:  45% 1167/2609 [1:07:16<1:45:08,  4.37s/it][A
Training...:  45% 1168/2609 [1:07:20<1:41:55,  4.24s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:18:04<28:07:54, 9206.81s/it]
Training...:  45% 1168/2609 [1:07:25<1:41:55,  4.24s/it][A
Training...:  45% 1169/2609 [1:07:25<1:44:01,  4.33s/it][A
Training...:  45% 1170/2609 [1:07:29<1:40:31,  4.19s/it][A
Training...:  45% 1171/2609 [1:07:32<1:37:13,  4.06s/it][A
Training...:  45% 1172/2609 [1:07:36<1:33:31,  3.91s/it][A
Training...:  45% 1173/2609 [1:07:39<1:30:18,  3.77s/it][A
Training...:  45% 1174/2609 [1:07:43<1:26:43,  3.63s/it][A
Training...:  45% 1175/2609 [1:07:46<1:24:02,  3.52s/it][A
Training...:  45% 1176/2609 [1:07:49<1:21:16,  3.40s/it][A
Training...:  45% 1177/2609 [1:07:52<1:19:10,  3.32s/it][A
Training...:  45% 1178/2609 [1:07:55<1:16:29,  3.21s/it][A
Training...:  45% 1179/2609 [1:07:58<1:14:18,  3.12s/it][A
Training...:  45% 1180/2609 [1:08:01<1:12:01,  3.02s/it][A
Training...:  45% 1181/2609 [1:08:03<1:10:04,  2.94s/it][A
Training...:  45% 1182/2609 [1:08:06<1:07:36,  2.84s/it][A
Training...:  45% 1183/2609 [1:08:09<1:05:36,  2.76s/it][A
Training...:  45% 1184/2609 [1:08:11<1:03:32,  2.68s/it][A
Training...:  45% 1185/2609 [1:08:14<1:01:35,  2.59s/it][A
Training...:  45% 1186/2609 [1:08:16<59:25,  2.51s/it]  [A
Training...:  45% 1187/2609 [1:08:18<57:22,  2.42s/it][A
Training...:  46% 1188/2609 [1:08:20<54:57,  2.32s/it][A
Training...:  46% 1189/2609 [1:08:22<52:53,  2.23s/it][A
Training...:  46% 1190/2609 [1:08:24<50:42,  2.14s/it][A
Training...:  46% 1191/2609 [1:08:26<48:24,  2.05s/it][A
Training...:  46% 1192/2609 [1:08:28<46:11,  1.96s/it][A
Training...:  46% 1193/2609 [1:08:29<43:58,  1.86s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:19:10<28:07:54, 9206.81s/it]
Training...:  46% 1193/2609 [1:08:31<43:58,  1.86s/it][A
Training...:  46% 1194/2609 [1:08:31<43:51,  1.86s/it][A
Training...:  46% 1195/2609 [1:08:33<40:44,  1.73s/it][A
Training...:  46% 1196/2609 [1:08:34<37:45,  1.60s/it][A
Training...:  46% 1197/2609 [1:08:35<34:28,  1.47s/it][A
Training...:  46% 1198/2609 [1:08:36<31:03,  1.32s/it][A
Training...:  46% 1199/2609 [1:08:37<27:19,  1.16s/it][A
Training...:  46% 1200/2609 [1:08:37<22:55,  1.02it/s][A
Training...:  46% 1201/2609 [1:08:45<1:06:21,  2.83s/it][A
Training...:  46% 1202/2609 [1:08:52<1:36:17,  4.11s/it][A
Training...:  46% 1203/2609 [1:08:58<1:54:15,  4.88s/it][A
Training...:  46% 1204/2609 [1:09:05<2:05:02,  5.34s/it][A
Training...:  46% 1205/2609 [1:09:11<2:10:39,  5.58s/it][A
Training...:  46% 1206/2609 [1:09:17<2:12:29,  5.67s/it][A
Training...:  46% 1207/2609 [1:09:22<2:11:59,  5.65s/it][A
Training...:  46% 1208/2609 [1:09:28<2:10:03,  5.57s/it][A
Training...:  46% 1209/2609 [1:09:33<2:07:42,  5.47s/it][A
Training...:  46% 1210/2609 [1:09:38<2:04:24,  5.34s/it][A
Training...:  46% 1211/2609 [1:09:43<2:01:32,  5.22s/it][A
Training...:  46% 1212/2609 [1:09:48<1:57:41,  5.05s/it][A
Training...:  46% 1213/2609 [1:09:52<1:54:38,  4.93s/it][A
Training...:  47% 1214/2609 [1:09:57<1:51:13,  4.78s/it][A
Training...:  47% 1215/2609 [1:10:01<1:47:45,  4.64s/it][A
Training...:  47% 1216/2609 [1:10:05<1:44:00,  4.48s/it][A
Training...:  47% 1217/2609 [1:10:09<1:41:27,  4.37s/it][A
Training...:  47% 1218/2609 [1:10:13<1:38:07,  4.23s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:20:56<28:07:54, 9206.81s/it]
Training...:  47% 1218/2609 [1:10:18<1:38:07,  4.23s/it][A
Training...:  47% 1219/2609 [1:10:18<1:39:28,  4.29s/it][A
Training...:  47% 1220/2609 [1:10:21<1:35:14,  4.11s/it][A
Training...:  47% 1221/2609 [1:10:25<1:31:52,  3.97s/it][A
Training...:  47% 1222/2609 [1:10:28<1:28:26,  3.83s/it][A
Training...:  47% 1223/2609 [1:10:32<1:25:27,  3.70s/it][A
Training...:  47% 1224/2609 [1:10:35<1:23:26,  3.61s/it][A
Training...:  47% 1225/2609 [1:10:39<1:21:15,  3.52s/it][A
Training...:  47% 1226/2609 [1:10:42<1:18:57,  3.43s/it][A
Training...:  47% 1227/2609 [1:10:45<1:16:44,  3.33s/it][A
Training...:  47% 1228/2609 [1:10:48<1:14:14,  3.23s/it][A
Training...:  47% 1229/2609 [1:10:51<1:12:12,  3.14s/it][A
Training...:  47% 1230/2609 [1:10:54<1:10:20,  3.06s/it][A
Training...:  47% 1231/2609 [1:10:56<1:08:28,  2.98s/it][A
Training...:  47% 1232/2609 [1:10:59<1:06:28,  2.90s/it][A
Training...:  47% 1233/2609 [1:11:02<1:04:25,  2.81s/it][A
Training...:  47% 1234/2609 [1:11:04<1:02:11,  2.71s/it][A
Training...:  47% 1235/2609 [1:11:07<1:00:20,  2.63s/it][A
Training...:  47% 1236/2609 [1:11:09<58:17,  2.55s/it]  [A
Training...:  47% 1237/2609 [1:11:11<56:14,  2.46s/it][A
Training...:  47% 1238/2609 [1:11:13<54:16,  2.37s/it][A
Training...:  47% 1239/2609 [1:11:15<52:08,  2.28s/it][A
Training...:  48% 1240/2609 [1:11:17<49:43,  2.18s/it][A
Training...:  48% 1241/2609 [1:11:19<47:26,  2.08s/it][A
Training...:  48% 1242/2609 [1:11:21<45:02,  1.98s/it][A
Training...:  48% 1243/2609 [1:11:23<42:49,  1.88s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:22:03<28:07:54, 9206.81s/it]
Training...:  48% 1243/2609 [1:11:25<42:49,  1.88s/it][A
Training...:  48% 1244/2609 [1:11:25<42:42,  1.88s/it][A
Training...:  48% 1245/2609 [1:11:26<39:45,  1.75s/it][A
Training...:  48% 1246/2609 [1:11:27<36:29,  1.61s/it][A
Training...:  48% 1247/2609 [1:11:28<33:15,  1.47s/it][A
Training...:  48% 1248/2609 [1:11:29<29:55,  1.32s/it][A
Training...:  48% 1249/2609 [1:11:30<26:10,  1.15s/it][A
Training...:  48% 1250/2609 [1:11:31<21:51,  1.04it/s][A
Training...:  48% 1251/2609 [1:11:38<1:03:52,  2.82s/it][A
Training...:  48% 1252/2609 [1:11:45<1:33:03,  4.11s/it][A
Training...:  48% 1253/2609 [1:11:52<1:49:35,  4.85s/it][A
Training...:  48% 1254/2609 [1:11:58<1:58:56,  5.27s/it][A
Training...:  48% 1255/2609 [1:12:04<2:03:39,  5.48s/it][A
Training...:  48% 1256/2609 [1:12:09<2:05:02,  5.55s/it][A
Training...:  48% 1257/2609 [1:12:15<2:04:52,  5.54s/it][A
Training...:  48% 1258/2609 [1:12:20<2:03:03,  5.46s/it][A
Training...:  48% 1259/2609 [1:12:25<2:01:00,  5.38s/it][A
Training...:  48% 1260/2609 [1:12:30<1:57:54,  5.24s/it][A
Training...:  48% 1261/2609 [1:12:35<1:55:14,  5.13s/it][A
Training...:  48% 1262/2609 [1:12:40<1:51:39,  4.97s/it][A
Training...:  48% 1263/2609 [1:12:44<1:49:25,  4.88s/it][A
Training...:  48% 1264/2609 [1:12:49<1:46:49,  4.77s/it][A
Training...:  48% 1265/2609 [1:12:53<1:43:17,  4.61s/it][A
Training...:  49% 1266/2609 [1:12:57<1:39:37,  4.45s/it][A
Training...:  49% 1267/2609 [1:13:01<1:36:58,  4.34s/it][A
Training...:  49% 1268/2609 [1:13:05<1:33:54,  4.20s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:23:49<28:07:54, 9206.81s/it]
Training...:  49% 1268/2609 [1:13:10<1:33:54,  4.20s/it][A
Training...:  49% 1269/2609 [1:13:10<1:35:23,  4.27s/it][A
Training...:  49% 1270/2609 [1:13:13<1:31:25,  4.10s/it][A
Training...:  49% 1271/2609 [1:13:17<1:27:55,  3.94s/it][A
Training...:  49% 1272/2609 [1:13:20<1:24:40,  3.80s/it][A
Training...:  49% 1273/2609 [1:13:24<1:22:05,  3.69s/it][A
Training...:  49% 1274/2609 [1:13:27<1:19:23,  3.57s/it][A
Training...:  49% 1275/2609 [1:13:30<1:16:51,  3.46s/it][A
Training...:  49% 1276/2609 [1:13:33<1:14:35,  3.36s/it][A
Training...:  49% 1277/2609 [1:13:37<1:12:52,  3.28s/it][A
Training...:  49% 1278/2609 [1:13:40<1:10:36,  3.18s/it][A
Training...:  49% 1279/2609 [1:13:42<1:08:47,  3.10s/it][A
Training...:  49% 1280/2609 [1:13:45<1:06:40,  3.01s/it][A
Training...:  49% 1281/2609 [1:13:48<1:04:56,  2.93s/it][A
Training...:  49% 1282/2609 [1:13:51<1:02:48,  2.84s/it][A
Training...:  49% 1283/2609 [1:13:53<1:01:11,  2.77s/it][A
Training...:  49% 1284/2609 [1:13:56<58:55,  2.67s/it]  [A
Training...:  49% 1285/2609 [1:13:58<57:05,  2.59s/it][A
Training...:  49% 1286/2609 [1:14:00<55:02,  2.50s/it][A
Training...:  49% 1287/2609 [1:14:03<53:02,  2.41s/it][A
Training...:  49% 1288/2609 [1:14:05<51:08,  2.32s/it][A
Training...:  49% 1289/2609 [1:14:07<49:17,  2.24s/it][A
Training...:  49% 1290/2609 [1:14:09<47:20,  2.15s/it][A
Training...:  49% 1291/2609 [1:14:11<45:28,  2.07s/it][A
Training...:  50% 1292/2609 [1:14:12<43:26,  1.98s/it][A
Training...:  50% 1293/2609 [1:14:14<41:30,  1.89s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:24:55<28:07:54, 9206.81s/it]
Training...:  50% 1293/2609 [1:14:16<41:30,  1.89s/it][A
Training...:  50% 1294/2609 [1:14:16<41:27,  1.89s/it][A
Training...:  50% 1295/2609 [1:14:17<38:26,  1.76s/it][A
Training...:  50% 1296/2609 [1:14:19<35:25,  1.62s/it][A
Training...:  50% 1297/2609 [1:14:20<32:25,  1.48s/it][A
Training...:  50% 1298/2609 [1:14:21<29:18,  1.34s/it][A
Training...:  50% 1299/2609 [1:14:22<25:56,  1.19s/it][A
Training...:  50% 1300/2609 [1:14:22<21:49,  1.00s/it][A
Training...:  50% 1301/2609 [1:14:29<1:01:41,  2.83s/it][A
Training...:  50% 1302/2609 [1:14:36<1:28:49,  4.08s/it][A
Training...:  50% 1303/2609 [1:14:43<1:45:04,  4.83s/it][A
Training...:  50% 1304/2609 [1:14:49<1:55:26,  5.31s/it][A
Training...:  50% 1305/2609 [1:14:55<2:00:32,  5.55s/it][A
Training...:  50% 1306/2609 [1:15:01<2:01:32,  5.60s/it][A
Training...:  50% 1307/2609 [1:15:07<2:00:42,  5.56s/it][A
Training...:  50% 1308/2609 [1:15:12<1:58:32,  5.47s/it][A
Training...:  50% 1309/2609 [1:15:17<1:56:06,  5.36s/it][A
Training...:  50% 1310/2609 [1:15:22<1:53:00,  5.22s/it][A
Training...:  50% 1311/2609 [1:15:27<1:50:14,  5.10s/it][A
Training...:  50% 1312/2609 [1:15:31<1:47:02,  4.95s/it][A
Training...:  50% 1313/2609 [1:15:36<1:43:59,  4.81s/it][A
Training...:  50% 1314/2609 [1:15:40<1:41:00,  4.68s/it][A
Training...:  50% 1315/2609 [1:15:44<1:38:18,  4.56s/it][A
Training...:  50% 1316/2609 [1:15:49<1:35:47,  4.45s/it][A
Training...:  50% 1317/2609 [1:15:53<1:33:14,  4.33s/it][A
Training...:  51% 1318/2609 [1:15:57<1:30:47,  4.22s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:26:40<28:07:54, 9206.81s/it]
Training...:  51% 1318/2609 [1:16:01<1:30:47,  4.22s/it][A
Training...:  51% 1319/2609 [1:16:01<1:32:23,  4.30s/it][A
Training...:  51% 1320/2609 [1:16:05<1:28:34,  4.12s/it][A
Training...:  51% 1321/2609 [1:16:08<1:25:32,  3.98s/it][A
Training...:  51% 1322/2609 [1:16:12<1:22:40,  3.85s/it][A
Training...:  51% 1323/2609 [1:16:16<1:20:33,  3.76s/it][A
Training...:  51% 1324/2609 [1:16:19<1:18:14,  3.65s/it][A
Training...:  51% 1325/2609 [1:16:22<1:15:50,  3.54s/it][A
Training...:  51% 1326/2609 [1:16:25<1:13:15,  3.43s/it][A
Training...:  51% 1327/2609 [1:16:29<1:11:13,  3.33s/it][A
Training...:  51% 1328/2609 [1:16:32<1:09:15,  3.24s/it][A
Training...:  51% 1329/2609 [1:16:34<1:07:02,  3.14s/it][A
Training...:  51% 1330/2609 [1:16:37<1:05:07,  3.05s/it][A
Training...:  51% 1331/2609 [1:16:40<1:03:05,  2.96s/it][A
Training...:  51% 1332/2609 [1:16:43<1:01:31,  2.89s/it][A
Training...:  51% 1333/2609 [1:16:45<59:55,  2.82s/it]  [A
Training...:  51% 1334/2609 [1:16:48<58:00,  2.73s/it][A
Training...:  51% 1335/2609 [1:16:50<55:37,  2.62s/it][A
Training...:  51% 1336/2609 [1:16:53<53:14,  2.51s/it][A
Training...:  51% 1337/2609 [1:16:55<51:12,  2.42s/it][A
Training...:  51% 1338/2609 [1:16:57<49:15,  2.33s/it][A
Training...:  51% 1339/2609 [1:16:59<47:29,  2.24s/it][A
Training...:  51% 1340/2609 [1:17:01<45:29,  2.15s/it][A
Training...:  51% 1341/2609 [1:17:03<43:39,  2.07s/it][A
Training...:  51% 1342/2609 [1:17:04<41:32,  1.97s/it][A
Training...:  51% 1343/2609 [1:17:06<39:35,  1.88s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:27:47<28:07:54, 9206.81s/it]
Training...:  51% 1343/2609 [1:17:08<39:35,  1.88s/it][A
Training...:  52% 1344/2609 [1:17:08<39:32,  1.88s/it][A
Training...:  52% 1345/2609 [1:17:09<36:44,  1.74s/it][A
Training...:  52% 1346/2609 [1:17:11<33:51,  1.61s/it][A
Training...:  52% 1347/2609 [1:17:12<30:55,  1.47s/it][A
Training...:  52% 1348/2609 [1:17:13<27:56,  1.33s/it][A
Training...:  52% 1349/2609 [1:17:14<24:33,  1.17s/it][A
Training...:  52% 1350/2609 [1:17:14<20:42,  1.01it/s][A
Training...:  52% 1351/2609 [1:17:21<59:42,  2.85s/it][A
Training...:  52% 1352/2609 [1:17:28<1:25:27,  4.08s/it][A
Training...:  52% 1353/2609 [1:17:35<1:40:35,  4.81s/it][A
Training...:  52% 1354/2609 [1:17:41<1:49:46,  5.25s/it][A
Training...:  52% 1355/2609 [1:17:47<1:53:36,  5.44s/it][A
Training...:  52% 1356/2609 [1:17:53<1:54:21,  5.48s/it][A
Training...:  52% 1357/2609 [1:17:58<1:54:18,  5.48s/it][A
Training...:  52% 1358/2609 [1:18:03<1:51:56,  5.37s/it][A
Training...:  52% 1359/2609 [1:18:08<1:50:07,  5.29s/it][A
Training...:  52% 1360/2609 [1:18:13<1:47:05,  5.14s/it][A
Training...:  52% 1361/2609 [1:18:18<1:44:32,  5.03s/it][A
Training...:  52% 1362/2609 [1:18:22<1:41:53,  4.90s/it][A
Training...:  52% 1363/2609 [1:18:27<1:39:07,  4.77s/it][A
Training...:  52% 1364/2609 [1:18:31<1:35:29,  4.60s/it][A
Training...:  52% 1365/2609 [1:18:35<1:32:48,  4.48s/it][A
Training...:  52% 1366/2609 [1:18:39<1:29:57,  4.34s/it][A
Training...:  52% 1367/2609 [1:18:43<1:27:39,  4.23s/it][A
Training...:  52% 1368/2609 [1:18:47<1:25:33,  4.14s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:29:31<28:07:54, 9206.81s/it]
Training...:  52% 1368/2609 [1:18:52<1:25:33,  4.14s/it][A
Training...:  52% 1369/2609 [1:18:52<1:26:59,  4.21s/it][A
Training...:  53% 1370/2609 [1:18:55<1:23:30,  4.04s/it][A
Training...:  53% 1371/2609 [1:18:59<1:20:47,  3.92s/it][A
Training...:  53% 1372/2609 [1:19:02<1:18:04,  3.79s/it][A
Training...:  53% 1373/2609 [1:19:06<1:15:44,  3.68s/it][A
Training...:  53% 1374/2609 [1:19:09<1:13:20,  3.56s/it][A
Training...:  53% 1375/2609 [1:19:12<1:11:15,  3.46s/it][A
Training...:  53% 1376/2609 [1:19:15<1:08:59,  3.36s/it][A
Training...:  53% 1377/2609 [1:19:19<1:07:05,  3.27s/it][A
Training...:  53% 1378/2609 [1:19:21<1:04:54,  3.16s/it][A
Training...:  53% 1379/2609 [1:19:24<1:02:46,  3.06s/it][A
Training...:  53% 1380/2609 [1:19:27<1:00:48,  2.97s/it][A
Training...:  53% 1381/2609 [1:19:30<58:50,  2.87s/it]  [A
Training...:  53% 1382/2609 [1:19:32<56:52,  2.78s/it][A
Training...:  53% 1383/2609 [1:19:35<55:05,  2.70s/it][A
Training...:  53% 1384/2609 [1:19:37<53:17,  2.61s/it][A
Training...:  53% 1385/2609 [1:19:39<51:37,  2.53s/it][A
Training...:  53% 1386/2609 [1:19:42<49:59,  2.45s/it][A
Training...:  53% 1387/2609 [1:19:44<48:24,  2.38s/it][A
Training...:  53% 1388/2609 [1:19:46<46:40,  2.29s/it][A
Training...:  53% 1389/2609 [1:19:48<44:42,  2.20s/it][A
Training...:  53% 1390/2609 [1:19:50<42:38,  2.10s/it][A
Training...:  53% 1391/2609 [1:19:52<40:41,  2.00s/it][A
Training...:  53% 1392/2609 [1:19:53<38:40,  1.91s/it][A
Training...:  53% 1393/2609 [1:19:55<36:40,  1.81s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:30:36<28:07:54, 9206.81s/it]
Training...:  53% 1393/2609 [1:19:57<36:40,  1.81s/it][A
Training...:  53% 1394/2609 [1:19:57<36:38,  1.81s/it][A
Training...:  53% 1395/2609 [1:19:58<33:53,  1.68s/it][A
Training...:  54% 1396/2609 [1:19:59<31:12,  1.54s/it][A
Training...:  54% 1397/2609 [1:20:00<28:31,  1.41s/it][A
Training...:  54% 1398/2609 [1:20:01<25:34,  1.27s/it][A
Training...:  54% 1399/2609 [1:20:02<22:33,  1.12s/it][A
Training...:  54% 1400/2609 [1:20:03<18:55,  1.07it/s][A
Training...:  54% 1401/2609 [1:20:10<56:02,  2.78s/it][A
Training...:  54% 1402/2609 [1:20:17<1:21:30,  4.05s/it][A
Training...:  54% 1403/2609 [1:20:23<1:36:30,  4.80s/it][A
Training...:  54% 1404/2609 [1:20:30<1:44:52,  5.22s/it][A
Training...:  54% 1405/2609 [1:20:35<1:49:12,  5.44s/it][A
Training...:  54% 1406/2609 [1:20:41<1:51:30,  5.56s/it][A
Training...:  54% 1407/2609 [1:20:47<1:51:12,  5.55s/it][A
Training...:  54% 1408/2609 [1:20:52<1:49:48,  5.49s/it][A
Training...:  54% 1409/2609 [1:20:57<1:48:18,  5.42s/it][A
Training...:  54% 1410/2609 [1:21:02<1:46:07,  5.31s/it][A
Training...:  54% 1411/2609 [1:21:07<1:43:26,  5.18s/it][A
Training...:  54% 1412/2609 [1:21:12<1:40:20,  5.03s/it][A
Training...:  54% 1413/2609 [1:21:17<1:37:36,  4.90s/it][A
Training...:  54% 1414/2609 [1:21:21<1:34:42,  4.76s/it][A
Training...:  54% 1415/2609 [1:21:25<1:31:56,  4.62s/it][A
Training...:  54% 1416/2609 [1:21:30<1:29:32,  4.50s/it][A
Training...:  54% 1417/2609 [1:21:34<1:26:57,  4.38s/it][A
Training...:  54% 1418/2609 [1:21:38<1:24:37,  4.26s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:32:21<28:07:54, 9206.81s/it]
Training...:  54% 1418/2609 [1:21:42<1:24:37,  4.26s/it][A
Training...:  54% 1419/2609 [1:21:42<1:26:25,  4.36s/it][A
Training...:  54% 1420/2609 [1:21:46<1:23:14,  4.20s/it][A
Training...:  54% 1421/2609 [1:21:50<1:20:12,  4.05s/it][A
Training...:  55% 1422/2609 [1:21:53<1:17:18,  3.91s/it][A
Training...:  55% 1423/2609 [1:21:57<1:14:27,  3.77s/it][A
Training...:  55% 1424/2609 [1:22:00<1:12:14,  3.66s/it][A
Training...:  55% 1425/2609 [1:22:03<1:09:45,  3.53s/it][A
Training...:  55% 1426/2609 [1:22:07<1:07:26,  3.42s/it][A
Training...:  55% 1427/2609 [1:22:10<1:05:33,  3.33s/it][A
Training...:  55% 1428/2609 [1:22:13<1:03:20,  3.22s/it][A
Training...:  55% 1429/2609 [1:22:16<1:01:33,  3.13s/it][A
Training...:  55% 1430/2609 [1:22:18<59:35,  3.03s/it]  [A
Training...:  55% 1431/2609 [1:22:21<57:52,  2.95s/it][A
Training...:  55% 1432/2609 [1:22:24<56:27,  2.88s/it][A
Training...:  55% 1433/2609 [1:22:27<54:54,  2.80s/it][A
Training...:  55% 1434/2609 [1:22:29<53:07,  2.71s/it][A
Training...:  55% 1435/2609 [1:22:31<51:32,  2.63s/it][A
Training...:  55% 1436/2609 [1:22:34<50:04,  2.56s/it][A
Training...:  55% 1437/2609 [1:22:36<48:08,  2.46s/it][A
Training...:  55% 1438/2609 [1:22:38<46:15,  2.37s/it][A
Training...:  55% 1439/2609 [1:22:40<44:30,  2.28s/it][A
Training...:  55% 1440/2609 [1:22:42<42:57,  2.20s/it][A
Training...:  55% 1441/2609 [1:22:44<41:00,  2.11s/it][A
Training...:  55% 1442/2609 [1:22:46<39:02,  2.01s/it][A
Training...:  55% 1443/2609 [1:22:48<37:13,  1.92s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:33:29<28:07:54, 9206.81s/it]
Training...:  55% 1443/2609 [1:22:50<37:13,  1.92s/it][A
Training...:  55% 1444/2609 [1:22:50<37:12,  1.92s/it][A
Training...:  55% 1445/2609 [1:22:51<34:45,  1.79s/it][A
Training...:  55% 1446/2609 [1:22:52<32:08,  1.66s/it][A
Training...:  55% 1447/2609 [1:22:54<29:25,  1.52s/it][A
Training...:  56% 1448/2609 [1:22:55<26:38,  1.38s/it][A
Training...:  56% 1449/2609 [1:22:56<23:36,  1.22s/it][A
Training...:  56% 1450/2609 [1:22:56<19:55,  1.03s/it][A
Training...:  56% 1451/2609 [1:23:03<55:24,  2.87s/it][A
Training...:  56% 1452/2609 [1:23:10<1:19:15,  4.11s/it][A
Training...:  56% 1453/2609 [1:23:17<1:32:52,  4.82s/it][A
Training...:  56% 1454/2609 [1:23:23<1:39:59,  5.19s/it][A
Training...:  56% 1455/2609 [1:23:29<1:43:21,  5.37s/it][A
Training...:  56% 1456/2609 [1:23:34<1:44:14,  5.42s/it][A
Training...:  56% 1457/2609 [1:23:40<1:43:48,  5.41s/it][A
Training...:  56% 1458/2609 [1:23:45<1:42:13,  5.33s/it][A
Training...:  56% 1459/2609 [1:23:50<1:40:22,  5.24s/it][A
Training...:  56% 1460/2609 [1:23:55<1:37:54,  5.11s/it][A
Training...:  56% 1461/2609 [1:23:59<1:36:05,  5.02s/it][A
Training...:  56% 1462/2609 [1:24:04<1:33:22,  4.88s/it][A
Training...:  56% 1463/2609 [1:24:08<1:30:51,  4.76s/it][A
Training...:  56% 1464/2609 [1:24:13<1:27:56,  4.61s/it][A
Training...:  56% 1465/2609 [1:24:17<1:25:28,  4.48s/it][A
Training...:  56% 1466/2609 [1:24:21<1:23:02,  4.36s/it][A
Training...:  56% 1467/2609 [1:24:25<1:21:06,  4.26s/it][A
Training...:  56% 1468/2609 [1:24:29<1:18:37,  4.13s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:35:12<28:07:54, 9206.81s/it]
Training...:  56% 1468/2609 [1:24:33<1:18:37,  4.13s/it][A
Training...:  56% 1469/2609 [1:24:33<1:19:55,  4.21s/it][A
Training...:  56% 1470/2609 [1:24:37<1:16:35,  4.03s/it][A
Training...:  56% 1471/2609 [1:24:40<1:14:03,  3.90s/it][A
Training...:  56% 1472/2609 [1:24:44<1:11:16,  3.76s/it][A
Training...:  56% 1473/2609 [1:24:47<1:09:06,  3.65s/it][A
Training...:  56% 1474/2609 [1:24:50<1:06:48,  3.53s/it][A
Training...:  57% 1475/2609 [1:24:54<1:04:50,  3.43s/it][A
Training...:  57% 1476/2609 [1:24:57<1:02:58,  3.34s/it][A
Training...:  57% 1477/2609 [1:25:00<1:01:02,  3.24s/it][A
Training...:  57% 1478/2609 [1:25:03<58:57,  3.13s/it]  [A
Training...:  57% 1479/2609 [1:25:05<57:12,  3.04s/it][A
Training...:  57% 1480/2609 [1:25:08<55:54,  2.97s/it][A
Training...:  57% 1481/2609 [1:25:11<54:20,  2.89s/it][A
Training...:  57% 1482/2609 [1:25:14<52:52,  2.82s/it][A
Training...:  57% 1483/2609 [1:25:16<51:23,  2.74s/it][A
Training...:  57% 1484/2609 [1:25:19<49:48,  2.66s/it][A
Training...:  57% 1485/2609 [1:25:21<48:02,  2.56s/it][A
Training...:  57% 1486/2609 [1:25:23<46:32,  2.49s/it][A
Training...:  57% 1487/2609 [1:25:26<45:00,  2.41s/it][A
Training...:  57% 1488/2609 [1:25:28<43:10,  2.31s/it][A
Training...:  57% 1489/2609 [1:25:30<41:28,  2.22s/it][A
Training...:  57% 1490/2609 [1:25:32<39:47,  2.13s/it][A
Training...:  57% 1491/2609 [1:25:33<38:10,  2.05s/it][A
Training...:  57% 1492/2609 [1:25:35<36:26,  1.96s/it][A
Training...:  57% 1493/2609 [1:25:37<34:34,  1.86s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:36:17<28:07:54, 9206.81s/it]
Training...:  57% 1493/2609 [1:25:39<34:34,  1.86s/it][A
Training...:  57% 1494/2609 [1:25:39<34:20,  1.85s/it][A
Training...:  57% 1495/2609 [1:25:40<31:52,  1.72s/it][A
Training...:  57% 1496/2609 [1:25:41<29:19,  1.58s/it][A
Training...:  57% 1497/2609 [1:25:42<26:57,  1.46s/it][A
Training...:  57% 1498/2609 [1:25:43<24:26,  1.32s/it][A
Training...:  57% 1499/2609 [1:25:44<21:39,  1.17s/it][A
Training...:  57% 1500/2609 [1:25:45<18:09,  1.02it/s][A
Training...:  58% 1501/2609 [1:25:52<52:05,  2.82s/it][A
Training...:  58% 1502/2609 [1:25:59<1:14:28,  4.04s/it][A
Training...:  58% 1503/2609 [1:26:05<1:27:07,  4.73s/it][A
Training...:  58% 1504/2609 [1:26:11<1:33:36,  5.08s/it][A
Training...:  58% 1505/2609 [1:26:17<1:36:57,  5.27s/it][A
Training...:  58% 1506/2609 [1:26:22<1:37:17,  5.29s/it][A
Training...:  58% 1507/2609 [1:26:27<1:36:51,  5.27s/it][A
Training...:  58% 1508/2609 [1:26:32<1:35:02,  5.18s/it][A
Training...:  58% 1509/2609 [1:26:37<1:33:42,  5.11s/it][A
Training...:  58% 1510/2609 [1:26:42<1:31:17,  4.98s/it][A
Training...:  58% 1511/2609 [1:26:47<1:29:13,  4.88s/it][A
Training...:  58% 1512/2609 [1:26:51<1:26:45,  4.75s/it][A
Training...:  58% 1513/2609 [1:26:55<1:24:30,  4.63s/it][A
Training...:  58% 1514/2609 [1:27:00<1:21:54,  4.49s/it][A
Training...:  58% 1515/2609 [1:27:04<1:19:28,  4.36s/it][A
Training...:  58% 1516/2609 [1:27:08<1:17:09,  4.24s/it][A
Training...:  58% 1517/2609 [1:27:12<1:15:53,  4.17s/it][A
Training...:  58% 1518/2609 [1:27:15<1:14:00,  4.07s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:37:59<28:07:54, 9206.81s/it]
Training...:  58% 1518/2609 [1:27:20<1:14:00,  4.07s/it][A
Training...:  58% 1519/2609 [1:27:20<1:15:11,  4.14s/it][A
Training...:  58% 1520/2609 [1:27:23<1:11:48,  3.96s/it][A
Training...:  58% 1521/2609 [1:27:27<1:09:05,  3.81s/it][A
Training...:  58% 1522/2609 [1:27:30<1:06:31,  3.67s/it][A
Training...:  58% 1523/2609 [1:27:33<1:04:26,  3.56s/it][A
Training...:  58% 1524/2609 [1:27:36<1:02:19,  3.45s/it][A
Training...:  58% 1525/2609 [1:27:40<1:00:35,  3.35s/it][A
Training...:  58% 1526/2609 [1:27:43<58:46,  3.26s/it]  [A
Training...:  59% 1527/2609 [1:27:46<57:13,  3.17s/it][A
Training...:  59% 1528/2609 [1:27:49<55:31,  3.08s/it][A
Training...:  59% 1529/2609 [1:27:51<53:55,  3.00s/it][A
Training...:  59% 1530/2609 [1:27:54<52:30,  2.92s/it][A
Training...:  59% 1531/2609 [1:27:57<50:57,  2.84s/it][A
Training...:  59% 1532/2609 [1:27:59<49:25,  2.75s/it][A
Training...:  59% 1533/2609 [1:28:02<48:14,  2.69s/it][A
Training...:  59% 1534/2609 [1:28:04<46:36,  2.60s/it][A
Training...:  59% 1535/2609 [1:28:07<45:06,  2.52s/it][A
Training...:  59% 1536/2609 [1:28:09<43:47,  2.45s/it][A
Training...:  59% 1537/2609 [1:28:11<42:21,  2.37s/it][A
Training...:  59% 1538/2609 [1:28:13<40:51,  2.29s/it][A
Training...:  59% 1539/2609 [1:28:15<39:23,  2.21s/it][A
Training...:  59% 1540/2609 [1:28:17<37:45,  2.12s/it][A
Training...:  59% 1541/2609 [1:28:19<36:11,  2.03s/it][A
Training...:  59% 1542/2609 [1:28:21<34:42,  1.95s/it][A
Training...:  59% 1543/2609 [1:28:22<33:11,  1.87s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:39:03<28:07:54, 9206.81s/it]
Training...:  59% 1543/2609 [1:28:24<33:11,  1.87s/it][A
Training...:  59% 1544/2609 [1:28:24<33:15,  1.87s/it][A
Training...:  59% 1545/2609 [1:28:26<30:56,  1.74s/it][A
Training...:  59% 1546/2609 [1:28:27<28:36,  1.61s/it][A
Training...:  59% 1547/2609 [1:28:28<26:17,  1.49s/it][A
Training...:  59% 1548/2609 [1:28:29<23:50,  1.35s/it][A
Training...:  59% 1549/2609 [1:28:30<21:01,  1.19s/it][A
Training...:  59% 1550/2609 [1:28:30<17:33,  1.01it/s][A
Training...:  59% 1551/2609 [1:28:38<49:33,  2.81s/it][A
Training...:  59% 1552/2609 [1:28:45<1:12:28,  4.11s/it][A
Training...:  60% 1553/2609 [1:28:51<1:25:19,  4.85s/it][A
Training...:  60% 1554/2609 [1:28:58<1:32:40,  5.27s/it][A
Training...:  60% 1555/2609 [1:29:04<1:37:24,  5.55s/it][A
Training...:  60% 1556/2609 [1:29:09<1:38:32,  5.61s/it][A
Training...:  60% 1557/2609 [1:29:15<1:38:17,  5.61s/it][A
Training...:  60% 1558/2609 [1:29:20<1:37:09,  5.55s/it][A
Training...:  60% 1559/2609 [1:29:26<1:35:45,  5.47s/it][A
Training...:  60% 1560/2609 [1:29:31<1:33:07,  5.33s/it][A
Training...:  60% 1561/2609 [1:29:36<1:30:31,  5.18s/it][A
Training...:  60% 1562/2609 [1:29:40<1:27:29,  5.01s/it][A
Training...:  60% 1563/2609 [1:29:45<1:25:19,  4.89s/it][A
Training...:  60% 1564/2609 [1:29:49<1:22:42,  4.75s/it][A
Training...:  60% 1565/2609 [1:29:54<1:20:32,  4.63s/it][A
Training...:  60% 1566/2609 [1:29:58<1:17:50,  4.48s/it][A
Training...:  60% 1567/2609 [1:30:02<1:15:49,  4.37s/it][A
Training...:  60% 1568/2609 [1:30:06<1:13:27,  4.23s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:40:49<28:07:54, 9206.81s/it]
Training...:  60% 1568/2609 [1:30:10<1:13:27,  4.23s/it][A
Training...:  60% 1569/2609 [1:30:10<1:14:30,  4.30s/it][A
Training...:  60% 1570/2609 [1:30:14<1:11:30,  4.13s/it][A
Training...:  60% 1571/2609 [1:30:18<1:08:56,  3.98s/it][A
Training...:  60% 1572/2609 [1:30:21<1:06:38,  3.86s/it][A
Training...:  60% 1573/2609 [1:30:25<1:04:40,  3.75s/it][A
Training...:  60% 1574/2609 [1:30:28<1:02:42,  3.64s/it][A
Training...:  60% 1575/2609 [1:30:31<1:01:05,  3.55s/it][A
Training...:  60% 1576/2609 [1:30:35<59:38,  3.46s/it]  [A
Training...:  60% 1577/2609 [1:30:38<58:02,  3.37s/it][A
Training...:  60% 1578/2609 [1:30:41<56:08,  3.27s/it][A
Training...:  61% 1579/2609 [1:30:44<54:36,  3.18s/it][A
Training...:  61% 1580/2609 [1:30:47<52:54,  3.09s/it][A
Training...:  61% 1581/2609 [1:30:49<51:30,  3.01s/it][A
Training...:  61% 1582/2609 [1:30:52<49:59,  2.92s/it][A
Training...:  61% 1583/2609 [1:30:55<48:26,  2.83s/it][A
Training...:  61% 1584/2609 [1:30:57<46:50,  2.74s/it][A
Training...:  61% 1585/2609 [1:31:00<45:18,  2.65s/it][A
Training...:  61% 1586/2609 [1:31:02<44:06,  2.59s/it][A
Training...:  61% 1587/2609 [1:31:05<42:33,  2.50s/it][A
Training...:  61% 1588/2609 [1:31:07<40:42,  2.39s/it][A
Training...:  61% 1589/2609 [1:31:09<38:53,  2.29s/it][A
Training...:  61% 1590/2609 [1:31:11<37:10,  2.19s/it][A
Training...:  61% 1591/2609 [1:31:13<35:37,  2.10s/it][A
Training...:  61% 1592/2609 [1:31:14<33:50,  2.00s/it][A
Training...:  61% 1593/2609 [1:31:16<32:13,  1.90s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:41:57<28:07:54, 9206.81s/it]
Training...:  61% 1593/2609 [1:31:18<32:13,  1.90s/it][A
Training...:  61% 1594/2609 [1:31:18<32:06,  1.90s/it][A
Training...:  61% 1595/2609 [1:31:19<29:59,  1.78s/it][A
Training...:  61% 1596/2609 [1:31:21<27:56,  1.66s/it][A
Training...:  61% 1597/2609 [1:31:22<25:47,  1.53s/it][A
Training...:  61% 1598/2609 [1:31:23<23:23,  1.39s/it][A
Training...:  61% 1599/2609 [1:31:24<20:34,  1.22s/it][A
Training...:  61% 1600/2609 [1:31:24<17:20,  1.03s/it][A
Training...:  61% 1601/2609 [1:31:32<47:56,  2.85s/it][A
Training...:  61% 1602/2609 [1:31:39<1:08:41,  4.09s/it][A
Training...:  61% 1603/2609 [1:31:45<1:19:50,  4.76s/it][A
Training...:  61% 1604/2609 [1:31:51<1:26:05,  5.14s/it][A
Training...:  62% 1605/2609 [1:31:57<1:29:31,  5.35s/it][A
Training...:  62% 1606/2609 [1:32:02<1:30:27,  5.41s/it][A
Training...:  62% 1607/2609 [1:32:08<1:30:24,  5.41s/it][A
Training...:  62% 1608/2609 [1:32:13<1:28:59,  5.33s/it][A
Training...:  62% 1609/2609 [1:32:18<1:27:40,  5.26s/it][A
Training...:  62% 1610/2609 [1:32:23<1:25:18,  5.12s/it][A
Training...:  62% 1611/2609 [1:32:28<1:23:56,  5.05s/it][A
Training...:  62% 1612/2609 [1:32:32<1:22:04,  4.94s/it][A
Training...:  62% 1613/2609 [1:32:37<1:20:13,  4.83s/it][A
Training...:  62% 1614/2609 [1:32:41<1:17:27,  4.67s/it][A
Training...:  62% 1615/2609 [1:32:45<1:15:13,  4.54s/it][A
Training...:  62% 1616/2609 [1:32:50<1:12:59,  4.41s/it][A
Training...:  62% 1617/2609 [1:32:54<1:11:02,  4.30s/it][A
Training...:  62% 1618/2609 [1:32:57<1:08:57,  4.17s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:43:41<28:07:54, 9206.81s/it]
Training...:  62% 1618/2609 [1:33:02<1:08:57,  4.17s/it][A
Training...:  62% 1619/2609 [1:33:02<1:10:13,  4.26s/it][A
Training...:  62% 1620/2609 [1:33:06<1:07:35,  4.10s/it][A
Training...:  62% 1621/2609 [1:33:09<1:05:22,  3.97s/it][A
Training...:  62% 1622/2609 [1:33:13<1:03:04,  3.83s/it][A
Training...:  62% 1623/2609 [1:33:16<1:01:21,  3.73s/it][A
Training...:  62% 1624/2609 [1:33:20<59:22,  3.62s/it]  [A
Training...:  62% 1625/2609 [1:33:23<57:50,  3.53s/it][A
Training...:  62% 1626/2609 [1:33:26<55:54,  3.41s/it][A
Training...:  62% 1627/2609 [1:33:29<54:33,  3.33s/it][A
Training...:  62% 1628/2609 [1:33:32<53:07,  3.25s/it][A
Training...:  62% 1629/2609 [1:33:35<51:54,  3.18s/it][A
Training...:  62% 1630/2609 [1:33:38<50:20,  3.09s/it][A
Training...:  63% 1631/2609 [1:33:41<48:42,  2.99s/it][A
Training...:  63% 1632/2609 [1:33:44<46:51,  2.88s/it][A
Training...:  63% 1633/2609 [1:33:46<45:27,  2.79s/it][A
Training...:  63% 1634/2609 [1:33:49<43:48,  2.70s/it][A
Training...:  63% 1635/2609 [1:33:51<42:25,  2.61s/it][A
Training...:  63% 1636/2609 [1:33:53<40:54,  2.52s/it][A
Training...:  63% 1637/2609 [1:33:56<39:29,  2.44s/it][A
Training...:  63% 1638/2609 [1:33:58<37:49,  2.34s/it][A
Training...:  63% 1639/2609 [1:34:00<36:22,  2.25s/it][A
Training...:  63% 1640/2609 [1:34:02<34:39,  2.15s/it][A
Training...:  63% 1641/2609 [1:34:04<33:05,  2.05s/it][A
Training...:  63% 1642/2609 [1:34:05<31:39,  1.96s/it][A
Training...:  63% 1643/2609 [1:34:07<30:03,  1.87s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:44:48<28:07:54, 9206.81s/it]
Training...:  63% 1643/2609 [1:34:09<30:03,  1.87s/it][A
Training...:  63% 1644/2609 [1:34:09<29:55,  1.86s/it][A
Training...:  63% 1645/2609 [1:34:10<27:38,  1.72s/it][A
Training...:  63% 1646/2609 [1:34:11<25:34,  1.59s/it][A
Training...:  63% 1647/2609 [1:34:13<23:23,  1.46s/it][A
Training...:  63% 1648/2609 [1:34:14<21:15,  1.33s/it][A
Training...:  63% 1649/2609 [1:34:14<18:50,  1.18s/it][A
Training...:  63% 1650/2609 [1:34:15<15:53,  1.01it/s][A
Training...:  63% 1651/2609 [1:34:22<45:14,  2.83s/it][A
Training...:  63% 1652/2609 [1:34:29<1:05:34,  4.11s/it][A
Training...:  63% 1653/2609 [1:34:36<1:17:14,  4.85s/it][A
Training...:  63% 1654/2609 [1:34:42<1:24:12,  5.29s/it][A
Training...:  63% 1655/2609 [1:34:48<1:27:42,  5.52s/it][A
Training...:  63% 1656/2609 [1:34:54<1:28:11,  5.55s/it][A
Training...:  64% 1657/2609 [1:34:59<1:27:32,  5.52s/it][A
Training...:  64% 1658/2609 [1:35:04<1:26:05,  5.43s/it][A
Training...:  64% 1659/2609 [1:35:10<1:24:30,  5.34s/it][A
Training...:  64% 1660/2609 [1:35:14<1:22:07,  5.19s/it][A
Training...:  64% 1661/2609 [1:35:19<1:20:24,  5.09s/it][A
Training...:  64% 1662/2609 [1:35:24<1:17:50,  4.93s/it][A
Training...:  64% 1663/2609 [1:35:28<1:15:59,  4.82s/it][A
Training...:  64% 1664/2609 [1:35:33<1:13:39,  4.68s/it][A
Training...:  64% 1665/2609 [1:35:37<1:11:41,  4.56s/it][A
Training...:  64% 1666/2609 [1:35:41<1:09:38,  4.43s/it][A
Training...:  64% 1667/2609 [1:35:45<1:07:38,  4.31s/it][A
Training...:  64% 1668/2609 [1:35:49<1:05:45,  4.19s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:46:32<28:07:54, 9206.81s/it]
Training...:  64% 1668/2609 [1:35:54<1:05:45,  4.19s/it][A
Training...:  64% 1669/2609 [1:35:54<1:06:56,  4.27s/it][A
Training...:  64% 1670/2609 [1:35:57<1:04:13,  4.10s/it][A
Training...:  64% 1671/2609 [1:36:01<1:02:10,  3.98s/it][A
Training...:  64% 1672/2609 [1:36:05<1:00:12,  3.86s/it][A
Training...:  64% 1673/2609 [1:36:08<58:12,  3.73s/it]  [A
Training...:  64% 1674/2609 [1:36:11<56:32,  3.63s/it][A
Training...:  64% 1675/2609 [1:36:15<55:03,  3.54s/it][A
Training...:  64% 1676/2609 [1:36:18<53:11,  3.42s/it][A
Training...:  64% 1677/2609 [1:36:21<51:36,  3.32s/it][A
Training...:  64% 1678/2609 [1:36:24<50:12,  3.24s/it][A
Training...:  64% 1679/2609 [1:36:27<48:48,  3.15s/it][A
Training...:  64% 1680/2609 [1:36:30<47:42,  3.08s/it][A
Training...:  64% 1681/2609 [1:36:33<46:08,  2.98s/it][A
Training...:  64% 1682/2609 [1:36:35<44:18,  2.87s/it][A
Training...:  65% 1683/2609 [1:36:38<42:39,  2.76s/it][A
Training...:  65% 1684/2609 [1:36:40<41:06,  2.67s/it][A
Training...:  65% 1685/2609 [1:36:42<39:22,  2.56s/it][A
Training...:  65% 1686/2609 [1:36:45<37:53,  2.46s/it][A
Training...:  65% 1687/2609 [1:36:47<36:24,  2.37s/it][A
Training...:  65% 1688/2609 [1:36:49<34:52,  2.27s/it][A
Training...:  65% 1689/2609 [1:36:51<33:30,  2.18s/it][A
Training...:  65% 1690/2609 [1:36:53<32:01,  2.09s/it][A
Training...:  65% 1691/2609 [1:36:54<30:28,  1.99s/it][A
Training...:  65% 1692/2609 [1:36:56<28:56,  1.89s/it][A
Training...:  65% 1693/2609 [1:36:58<27:19,  1.79s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:47:38<28:07:54, 9206.81s/it]
Training...:  65% 1693/2609 [1:36:59<27:19,  1.79s/it][A
Training...:  65% 1694/2609 [1:36:59<27:16,  1.79s/it][A
Training...:  65% 1695/2609 [1:37:01<25:18,  1.66s/it][A
Training...:  65% 1696/2609 [1:37:02<23:33,  1.55s/it][A
Training...:  65% 1697/2609 [1:37:03<21:38,  1.42s/it][A
Training...:  65% 1698/2609 [1:37:04<19:34,  1.29s/it][A
Training...:  65% 1699/2609 [1:37:05<17:14,  1.14s/it][A
Training...:  65% 1700/2609 [1:37:06<14:32,  1.04it/s][A
Training...:  65% 1701/2609 [1:37:13<42:16,  2.79s/it][A
Training...:  65% 1702/2609 [1:37:20<1:01:12,  4.05s/it][A
Training...:  65% 1703/2609 [1:37:26<1:11:59,  4.77s/it][A
Training...:  65% 1704/2609 [1:37:32<1:17:42,  5.15s/it][A
Training...:  65% 1705/2609 [1:37:38<1:20:34,  5.35s/it][A
Training...:  65% 1706/2609 [1:37:43<1:21:05,  5.39s/it][A
Training...:  65% 1707/2609 [1:37:49<1:20:43,  5.37s/it][A
Training...:  65% 1708/2609 [1:37:54<1:19:48,  5.32s/it][A
Training...:  66% 1709/2609 [1:37:59<1:18:41,  5.25s/it][A
Training...:  66% 1710/2609 [1:38:04<1:16:34,  5.11s/it][A
Training...:  66% 1711/2609 [1:38:08<1:14:37,  4.99s/it][A
Training...:  66% 1712/2609 [1:38:13<1:12:20,  4.84s/it][A
Training...:  66% 1713/2609 [1:38:17<1:10:39,  4.73s/it][A
Training...:  66% 1714/2609 [1:38:22<1:08:27,  4.59s/it][A
Training...:  66% 1715/2609 [1:38:26<1:06:37,  4.47s/it][A
Training...:  66% 1716/2609 [1:38:30<1:04:34,  4.34s/it][A
Training...:  66% 1717/2609 [1:38:34<1:02:50,  4.23s/it][A
Training...:  66% 1718/2609 [1:38:38<1:01:05,  4.11s/it][A                                                                                                                                                                  
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:49:21<28:07:54, 9206.81s/it]
Training...:  66% 1718/2609 [1:38:42<1:01:05,  4.11s/it][A
Training...:  66% 1719/2609 [1:38:42<1:02:09,  4.19s/it][A
Training...:  66% 1720/2609 [1:38:46<59:42,  4.03s/it]  [A
Training...:  66% 1721/2609 [1:38:49<57:39,  3.90s/it][A
Training...:  66% 1722/2609 [1:38:53<55:38,  3.76s/it][A
Training...:  66% 1723/2609 [1:38:56<53:54,  3.65s/it][A
Training...:  66% 1724/2609 [1:39:00<52:22,  3.55s/it][A
Training...:  66% 1725/2609 [1:39:03<50:50,  3.45s/it][A
Training...:  66% 1726/2609 [1:39:06<49:14,  3.35s/it][A
Training...:  66% 1727/2609 [1:39:09<47:46,  3.25s/it][A
Training...:  66% 1728/2609 [1:39:12<46:18,  3.15s/it][A
Training...:  66% 1729/2609 [1:39:15<45:02,  3.07s/it][A
Training...:  66% 1730/2609 [1:39:17<43:38,  2.98s/it][A
Training...:  66% 1731/2609 [1:39:20<42:25,  2.90s/it][A
Training...:  66% 1732/2609 [1:39:23<41:15,  2.82s/it][A
Training...:  66% 1733/2609 [1:39:25<40:16,  2.76s/it][A
Training...:  66% 1734/2609 [1:39:28<38:51,  2.66s/it][A
Training...:  67% 1735/2609 [1:39:30<37:46,  2.59s/it][A
Training...:  67% 1736/2609 [1:39:33<36:47,  2.53s/it][A
Training...:  67% 1737/2609 [1:39:35<35:37,  2.45s/it][A
Training...:  67% 1738/2609 [1:39:37<34:08,  2.35s/it][A
Training...:  67% 1739/2609 [1:39:39<32:39,  2.25s/it][A
Training...:  67% 1740/2609 [1:39:41<31:12,  2.15s/it][A
Training...:  67% 1741/2609 [1:39:43<29:44,  2.06s/it][A
Training...:  67% 1742/2609 [1:39:45<28:17,  1.96s/it][A
Training...:  67% 1743/2609 [1:39:46<26:47,  1.86s/it][A                                                                                                                                                                  
                                                      [AStep... (23500 | Loss: 0.08331461995840073, Learning Rate: 5.353737287805416e-05, Gradient Norm: 0.6795549392700195)
Step... (23525 | Loss: 0.02590278349816799, Learning Rate: 5.348687045625411e-05, Gradient Norm: 0.6572902798652649)
Step... (23550 | Loss: 0.03697578236460686, Learning Rate: 5.343636075849645e-05, Gradient Norm: 0.5106611847877502)
Step... (23575 | Loss: 0.01591714844107628, Learning Rate: 5.33858583366964e-05, Gradient Norm: 0.6555964946746826)
Step... (23600 | Loss: 0.04430196434259415, Learning Rate: 5.3335355914896354e-05, Gradient Norm: 0.5670647025108337)
Step... (23625 | Loss: 0.02203584648668766, Learning Rate: 5.328484621713869e-05, Gradient Norm: 0.616367757320404)
Step... (23650 | Loss: 0.023091163486242294, Learning Rate: 5.3234343795338646e-05, Gradient Norm: 0.34857046604156494)
Step... (23675 | Loss: 0.027377527207136154, Learning Rate: 5.31838413735386e-05, Gradient Norm: 0.5813961625099182)
Step... (23700 | Loss: 0.05263010412454605, Learning Rate: 5.313333167578094e-05, Gradient Norm: 0.4683428108692169)
Step... (23725 | Loss: 0.051211435347795486, Learning Rate: 5.308282925398089e-05, Gradient Norm: 1.2408431768417358)
Step... (23750 | Loss: 0.038368966430425644, Learning Rate: 5.303232683218084e-05, Gradient Norm: 0.5889857411384583)
Step... (23775 | Loss: 0.01400932390242815, Learning Rate: 5.298181713442318e-05, Gradient Norm: 0.4426516890525818)
Step... (23800 | Loss: 0.05961623042821884, Learning Rate: 5.2931314712623134e-05, Gradient Norm: 1.1659512519836426)
Step... (23825 | Loss: 0.040833793580532074, Learning Rate: 5.288080865284428e-05, Gradient Norm: 0.7382959127426147)
Step... (23850 | Loss: 0.033293217420578, Learning Rate: 5.2830302593065426e-05, Gradient Norm: 0.4454752206802368)
Step... (23875 | Loss: 0.025673164054751396, Learning Rate: 5.277980017126538e-05, Gradient Norm: 0.6763787269592285)
Step... (23900 | Loss: 0.04559862241148949, Learning Rate: 5.2729294111486524e-05, Gradient Norm: 0.5629760026931763)
Step... (23925 | Loss: 0.025915157049894333, Learning Rate: 5.267878805170767e-05, Gradient Norm: 0.5743651986122131)
Step... (23950 | Loss: 0.057345353066921234, Learning Rate: 5.262827835395001e-05, Gradient Norm: 0.6278166174888611)
Step... (23975 | Loss: 0.05548808351159096, Learning Rate: 5.257777957012877e-05, Gradient Norm: 0.9802259206771851)
Step... (24000 | Loss: 0.02755018323659897, Learning Rate: 5.252726987237111e-05, Gradient Norm: 0.391197144985199)
Step... (24025 | Loss: 0.022437583655118942, Learning Rate: 5.247676381259225e-05, Gradient Norm: 0.6803308129310608)
Step... (24050 | Loss: 0.031281664967536926, Learning Rate: 5.242626502877101e-05, Gradient Norm: 0.41850608587265015)
Step... (24075 | Loss: 0.025335706770420074, Learning Rate: 5.237575533101335e-05, Gradient Norm: 0.6299832463264465)
Step... (24100 | Loss: 0.03348083049058914, Learning Rate: 5.232524563325569e-05, Gradient Norm: 0.4491988718509674)
Step... (24125 | Loss: 0.07077561318874359, Learning Rate: 5.227475048741326e-05, Gradient Norm: 1.3639296293258667)
Step... (24150 | Loss: 0.04246811196208, Learning Rate: 5.2224240789655596e-05, Gradient Norm: 0.5449526906013489)
Step... (24175 | Loss: 0.03945107012987137, Learning Rate: 5.2173731091897935e-05, Gradient Norm: 0.898476243019104)
Step... (24200 | Loss: 0.06126975268125534, Learning Rate: 5.21232359460555e-05, Gradient Norm: 0.6534883975982666)
Step... (24225 | Loss: 0.05774042010307312, Learning Rate: 5.207272624829784e-05, Gradient Norm: 1.2000446319580078)
Step... (24250 | Loss: 0.0397103987634182, Learning Rate: 5.202221655054018e-05, Gradient Norm: 0.5282150506973267)
Step... (24275 | Loss: 0.056497830897569656, Learning Rate: 5.1971721404697746e-05, Gradient Norm: 0.913432240486145)
Step... (24300 | Loss: 0.05069912597537041, Learning Rate: 5.1921211706940085e-05, Gradient Norm: 0.6786842346191406)
Step... (24325 | Loss: 0.03707053139805794, Learning Rate: 5.187070200918242e-05, Gradient Norm: 0.8044134974479675)
Step... (24350 | Loss: 0.02937631495296955, Learning Rate: 5.1820206863339Step... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:50:27<28:07:54, 9206.81s/it]
99e-05, Gradient Norm: 0.4007132649421692)
Step... (24375 | Loss: 0.027000894770026207, Learning Rate: 5.176969716558233e-05, Gradient Norm: 0.7833024859428406)
Step... (24400 | Loss: 0.07639990746974945, Learning Rate: 5.171918746782467e-05, Gradient Norm: 0.7733638882637024)
Step... (24425 | Loss: 0.021407289430499077, Learning Rate: 5.166868504602462e-05, Gradient Norm: 0.5047672390937805)
Step... (24450 | Loss: 0.052048955112695694, Learning Rate: 5.161818262422457e-05, Gradient Norm: 0.621393620967865)
Step... (24475 | Loss: 0.04163828492164612, Learning Rate: 5.156767292646691e-05, Gradient Norm: 0.8381457328796387)
Step... (24500 | Loss: 0.0584106370806694, Learning Rate: 5.1517170504666865e-05, Gradient Norm: 0.6625808477401733)
Step... (24525 | Loss: 0.016019552946090698, Learning Rate: 5.146666808286682e-05, Gradient Norm: 0.5661759972572327)
Step... (24550 | Loss: 0.026192395016551018, Learning Rate: 5.1416158385109156e-05, Gradient Norm: 0.3967042863368988)
Step... (24575 | Loss: 0.019160401076078415, Learning Rate: 5.136565596330911e-05, Gradient Norm: 0.585252046585083)
Step... (24600 | Loss: 0.05129699036478996, Learning Rate: 5.1315149903530255e-05, Gradient Norm: 0.5836882591247559)
Step... (24625 | Loss: 0.023714186623692513, Learning Rate: 5.12646438437514e-05, Gradient Norm: 0.6970644593238831)
Step... (24650 | Loss: 0.042564257979393005, Learning Rate: 5.1214137783972546e-05, Gradient Norm: 0.5652332901954651)
Step... (24675 | Loss: 0.014023654162883759, Learning Rate: 5.11636353621725e-05, Gradient Norm: 0.5129518508911133)
Step... (24700 | Loss: 0.048438820987939835, Learning Rate: 5.111312566441484e-05, Gradient Norm: 0.5138607025146484)
Step... (24725 | Loss: 0.036813732236623764, Learning Rate: 5.106262324261479e-05, Gradient Norm: 0.8186237812042236)
Step... (24750 | Loss: 0.03594829514622688, Learning Rate: 5.1012120820814744e-05, Gradient Norm: 0.4481525719165802)
Step... (24775 | Loss: 0.028832711279392242, Learning Rate: 5.096161112305708e-05, Gradient Norm: 0.834063708782196)
Step... (24800 | Loss: 0.05307643860578537, Learning Rate: 5.0911108701257035e-05, Gradient Norm: 0.6571087837219238)
Step... (24825 | Loss: 0.02713094651699066, Learning Rate: 5.086060627945699e-05, Gradient Norm: 0.6756970286369324)
Step... (24850 | Loss: 0.02835809253156185, Learning Rate: 5.081009658169933e-05, Gradient Norm: 0.3989969789981842)
Step... (24875 | Loss: 0.028226478025317192, Learning Rate: 5.075959415989928e-05, Gradient Norm: 0.8248789310455322)
Step... (24900 | Loss: 0.05128546059131622, Learning Rate: 5.070909173809923e-05, Gradient Norm: 0.5725082755088806)
Step... (24925 | Loss: 0.03210790827870369, Learning Rate: 5.065858204034157e-05, Gradient Norm: 0.7152820825576782)
Step... (24950 | Loss: 0.03679102659225464, Learning Rate: 5.0608079618541524e-05, Gradient Norm: 0.5011966824531555)
Step... (24975 | Loss: 0.014874524436891079, Learning Rate: 5.055757719674148e-05, Gradient Norm: 0.46932628750801086)
Step... (25000 | Loss: 0.03042890504002571, Learning Rate: 5.0507067498983815e-05, Gradient Norm: 0.4293309450149536)
Step... (25025 | Loss: 0.017151065170764923, Learning Rate: 5.045656507718377e-05, Gradient Norm: 0.5588628649711609)
Step... (25050 | Loss: 0.06243020296096802, Learning Rate: 5.040606265538372e-05, Gradient Norm: 0.6562609672546387)
Step... (25075 | Loss: 0.03125835955142975, Learning Rate: 5.035555295762606e-05, Gradient Norm: 0.7315642833709717)
Step... (25100 | Loss: 0.05424482375383377, Learning Rate: 5.030505053582601e-05, Gradient Norm: 0.6221727132797241)
Step... (25125 | Loss: 0.026740210130810738, Learning Rate: 5.0254548114025965e-05, Gradient Norm: 0.6765328049659729)
Step... (25150 | Loss: 0.035001903772354126, Learning Rate: 5.0204038416268304e-05, Gradient Norm: 0.4734821021556854)
Step... (25175 | Loss: 0.03684353083372116, Learning Rate: 5.015353599446826e-05, Gradient Norm: 0.7282773852348328)
Step... (25200 | Loss: 0.0689387246966362, Learning Rate: 5.01030299346894e-05, Gradient Norm: 0.7257535457611084)
Training...:  67% 1743/2609 [1:39:48<26:47,  1.86s/it][A
Training...:  67% 1744/2609 [1:39:48<26:49,  1.86s/it][A
Training...:  67% 1745/2609 [1:39:50<25:03,  1.74s/it][A
Training...:  67% 1746/2609 [1:39:51<23:04,  1.60s/it][A
Training...:  67% 1747/2609 [1:39:52<21:01,  1.46s/it][A
Training...:  67% 1748/2609 [1:39:53<18:48,  1.31s/it][A
Training...:  67% 1749/2609 [1:39:54<16:29,  1.15s/it][A
Training...:  67% 1750/2609 [1:39:54<13:50,  1.03it/s][A
Training...:  67% 1751/2609 [1:40:01<40:17,  2.82s/it][A
Training...:  67% 1752/2609 [1:40:08<58:23,  4.09s/it][A
Training...:  67% 1753/2609 [1:40:15<1:08:49,  4.82s/it][A
Training...:  67% 1754/2609 [1:40:21<1:14:30,  5.23s/it][A
Training...:  67% 1755/2609 [1:40:27<1:17:40,  5.46s/it][A
Training...:  67% 1756/2609 [1:40:33<1:18:41,  5.54s/it][A
Training...:  67% 1757/2609 [1:40:38<1:18:23,  5.52s/it][A
Training...:  67% 1758/2609 [1:40:43<1:16:50,  5.42s/it][A
Training...:  67% 1759/2609 [1:40:49<1:15:17,  5.31s/it][A
Training...:  67% 1760/2609 [1:40:53<1:13:06,  5.17s/it][A
Training...:  67% 1761/2609 [1:40:58<1:11:15,  5.04s/it][A
Training...:  68% 1762/2609 [1:41:03<1:09:20,  4.91s/it][A
Training...:  68% 1763/2609 [1:41:07<1:07:33,  4.79s/it][A
Training...:  68% 1764/2609 [1:41:12<1:05:36,  4.66s/it][A
Training...:  68% 1765/2609 [1:41:16<1:03:49,  4.54s/it][A
Training...:  68% 1766/2609 [1:41:20<1:01:40,  4.39s/it][A
Training...:  68% 1767/2609 [1:41:24<59:59,  4.28s/it]  [A
Training...:  68% 1768/2609 [1:41:28<58:14,  4.16s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:52:11<28:07:54, 9206.81s/it]
Training...:  68% 1768/2609 [1:41:32<58:14,  4.16s/it][A
Training...:  68% 1769/2609 [1:41:32<59:49,  4.27s/it][A
Training...:  68% 1770/2609 [1:41:36<57:44,  4.13s/it][A
Training...:  68% 1771/2609 [1:41:40<55:42,  3.99s/it][A
Training...:  68% 1772/2609 [1:41:43<53:28,  3.83s/it][A
Training...:  68% 1773/2609 [1:41:47<51:41,  3.71s/it][A
Training...:  68% 1774/2609 [1:41:50<50:09,  3.60s/it][A
Training...:  68% 1775/2609 [1:41:53<48:35,  3.50s/it][A
Training...:  68% 1776/2609 [1:41:56<46:56,  3.38s/it][A
Training...:  68% 1777/2609 [1:41:59<45:36,  3.29s/it][A
Training...:  68% 1778/2609 [1:42:02<44:15,  3.20s/it][A
Training...:  68% 1779/2609 [1:42:05<43:00,  3.11s/it][A
Training...:  68% 1780/2609 [1:42:08<41:32,  3.01s/it][A
Training...:  68% 1781/2609 [1:42:11<40:22,  2.93s/it][A
Training...:  68% 1782/2609 [1:42:13<38:55,  2.82s/it][A
Training...:  68% 1783/2609 [1:42:16<37:37,  2.73s/it][A
Training...:  68% 1784/2609 [1:42:18<36:17,  2.64s/it][A
Training...:  68% 1785/2609 [1:42:21<35:05,  2.56s/it][A
Training...:  68% 1786/2609 [1:42:23<33:47,  2.46s/it][A
Training...:  68% 1787/2609 [1:42:25<32:43,  2.39s/it][A
Training...:  69% 1788/2609 [1:42:27<31:26,  2.30s/it][A
Training...:  69% 1789/2609 [1:42:29<30:12,  2.21s/it][A
Training...:  69% 1790/2609 [1:42:31<28:53,  2.12s/it][A
Training...:  69% 1791/2609 [1:42:33<27:33,  2.02s/it][A
Training...:  69% 1792/2609 [1:42:35<26:14,  1.93s/it][A
Training...:  69% 1793/2609 [1:42:36<24:57,  1.84s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:53:17<28:07:54, 9206.81s/it]
Training...:  69% 1793/2609 [1:42:38<24:57,  1.84s/it][A
Training...:  69% 1794/2609 [1:42:38<24:53,  1.83s/it][A
Training...:  69% 1795/2609 [1:42:40<23:15,  1.71s/it][A
Training...:  69% 1796/2609 [1:42:41<21:33,  1.59s/it][A
Training...:  69% 1797/2609 [1:42:42<19:55,  1.47s/it][A
Training...:  69% 1798/2609 [1:42:43<18:07,  1.34s/it][A
Training...:  69% 1799/2609 [1:42:44<15:59,  1.18s/it][A
Training...:  69% 1800/2609 [1:42:44<13:24,  1.01it/s][A
Training...:  69% 1801/2609 [1:42:52<38:20,  2.85s/it][A
Training...:  69% 1802/2609 [1:42:59<55:06,  4.10s/it][A
Training...:  69% 1803/2609 [1:43:05<1:05:07,  4.85s/it][A
Training...:  69% 1804/2609 [1:43:12<1:10:49,  5.28s/it][A
Training...:  69% 1805/2609 [1:43:18<1:13:40,  5.50s/it][A
Training...:  69% 1806/2609 [1:43:23<1:14:34,  5.57s/it][A
Training...:  69% 1807/2609 [1:43:29<1:14:54,  5.60s/it][A
Training...:  69% 1808/2609 [1:43:34<1:13:45,  5.52s/it][A
Training...:  69% 1809/2609 [1:43:40<1:12:32,  5.44s/it][A
Training...:  69% 1810/2609 [1:43:45<1:10:27,  5.29s/it][A
Training...:  69% 1811/2609 [1:43:49<1:08:45,  5.17s/it][A
Training...:  69% 1812/2609 [1:43:54<1:06:18,  4.99s/it][A
Training...:  69% 1813/2609 [1:43:59<1:04:37,  4.87s/it][A
Training...:  70% 1814/2609 [1:44:03<1:02:31,  4.72s/it][A
Training...:  70% 1815/2609 [1:44:07<1:01:07,  4.62s/it][A
Training...:  70% 1816/2609 [1:44:11<59:03,  4.47s/it]  [A
Training...:  70% 1817/2609 [1:44:15<57:16,  4.34s/it][A
Training...:  70% 1818/2609 [1:44:19<55:14,  4.19s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:55:03<28:07:54, 9206.81s/it]
Training...:  70% 1818/2609 [1:44:24<55:14,  4.19s/it][A
Training...:  70% 1819/2609 [1:44:24<55:49,  4.24s/it][A
Training...:  70% 1820/2609 [1:44:27<53:25,  4.06s/it][A
Training...:  70% 1821/2609 [1:44:31<51:30,  3.92s/it][A
Training...:  70% 1822/2609 [1:44:34<49:39,  3.79s/it][A
Training...:  70% 1823/2609 [1:44:38<48:01,  3.67s/it][A
Training...:  70% 1824/2609 [1:44:41<46:32,  3.56s/it][A
Training...:  70% 1825/2609 [1:44:44<45:05,  3.45s/it][A
Training...:  70% 1826/2609 [1:44:47<43:37,  3.34s/it][A
Training...:  70% 1827/2609 [1:44:50<42:26,  3.26s/it][A
Training...:  70% 1828/2609 [1:44:53<41:05,  3.16s/it][A
Training...:  70% 1829/2609 [1:44:56<39:56,  3.07s/it][A
Training...:  70% 1830/2609 [1:44:59<38:52,  2.99s/it][A
Training...:  70% 1831/2609 [1:45:02<37:51,  2.92s/it][A
Training...:  70% 1832/2609 [1:45:04<36:31,  2.82s/it][A
Training...:  70% 1833/2609 [1:45:07<35:26,  2.74s/it][A
Training...:  70% 1834/2609 [1:45:09<34:12,  2.65s/it][A
Training...:  70% 1835/2609 [1:45:12<33:04,  2.56s/it][A
Training...:  70% 1836/2609 [1:45:14<31:55,  2.48s/it][A
Training...:  70% 1837/2609 [1:45:16<30:49,  2.40s/it][A
Training...:  70% 1838/2609 [1:45:18<29:34,  2.30s/it][A
Training...:  70% 1839/2609 [1:45:20<28:24,  2.21s/it][A
Training...:  71% 1840/2609 [1:45:22<27:16,  2.13s/it][A
Training...:  71% 1841/2609 [1:45:24<26:07,  2.04s/it][A
Training...:  71% 1842/2609 [1:45:26<24:52,  1.95s/it][A
Training...:  71% 1843/2609 [1:45:27<23:42,  1.86s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:56:08<28:07:54, 9206.81s/it]
Training...:  71% 1843/2609 [1:45:29<23:42,  1.86s/it][A
Training...:  71% 1844/2609 [1:45:29<23:35,  1.85s/it][A
Training...:  71% 1845/2609 [1:45:31<21:48,  1.71s/it][A
Training...:  71% 1846/2609 [1:45:32<20:00,  1.57s/it][A
Training...:  71% 1847/2609 [1:45:33<18:20,  1.44s/it][A
Training...:  71% 1848/2609 [1:45:34<16:28,  1.30s/it][A
Training...:  71% 1849/2609 [1:45:35<14:30,  1.14s/it][A
Training...:  71% 1850/2609 [1:45:35<12:11,  1.04it/s][A
Training...:  71% 1851/2609 [1:45:42<35:13,  2.79s/it][A
Training...:  71% 1852/2609 [1:45:49<51:09,  4.05s/it][A
Training...:  71% 1853/2609 [1:45:56<1:00:27,  4.80s/it][A
Training...:  71% 1854/2609 [1:46:02<1:05:42,  5.22s/it][A
Training...:  71% 1855/2609 [1:46:08<1:08:00,  5.41s/it][A
Training...:  71% 1856/2609 [1:46:14<1:08:36,  5.47s/it][A
Training...:  71% 1857/2609 [1:46:19<1:08:17,  5.45s/it][A
Training...:  71% 1858/2609 [1:46:24<1:07:21,  5.38s/it][A
Training...:  71% 1859/2609 [1:46:29<1:06:05,  5.29s/it][A
Training...:  71% 1860/2609 [1:46:34<1:04:13,  5.15s/it][A
Training...:  71% 1861/2609 [1:46:39<1:02:48,  5.04s/it][A
Training...:  71% 1862/2609 [1:46:44<1:01:10,  4.91s/it][A
Training...:  71% 1863/2609 [1:46:48<59:29,  4.79s/it]  [A
Training...:  71% 1864/2609 [1:46:52<57:17,  4.61s/it][A
Training...:  71% 1865/2609 [1:46:56<55:18,  4.46s/it][A
Training...:  72% 1866/2609 [1:47:00<53:30,  4.32s/it][A
Training...:  72% 1867/2609 [1:47:04<52:06,  4.21s/it][A
Training...:  72% 1868/2609 [1:47:08<50:26,  4.08s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:57:51<28:07:54, 9206.81s/it]
Training...:  72% 1868/2609 [1:47:12<50:26,  4.08s/it][A
Training...:  72% 1869/2609 [1:47:12<51:20,  4.16s/it][A
Training...:  72% 1870/2609 [1:47:16<49:37,  4.03s/it][A
Training...:  72% 1871/2609 [1:47:20<47:58,  3.90s/it][A
Training...:  72% 1872/2609 [1:47:23<46:38,  3.80s/it][A
Training...:  72% 1873/2609 [1:47:27<45:10,  3.68s/it][A
Training...:  72% 1874/2609 [1:47:30<43:34,  3.56s/it][A
Training...:  72% 1875/2609 [1:47:33<42:14,  3.45s/it][A
Training...:  72% 1876/2609 [1:47:36<40:52,  3.35s/it][A
Training...:  72% 1877/2609 [1:47:39<39:39,  3.25s/it][A
Training...:  72% 1878/2609 [1:47:42<38:28,  3.16s/it][A
Training...:  72% 1879/2609 [1:47:45<37:21,  3.07s/it][A
Training...:  72% 1880/2609 [1:47:48<36:15,  2.98s/it][A
Training...:  72% 1881/2609 [1:47:51<35:08,  2.90s/it][A
Training...:  72% 1882/2609 [1:47:53<34:07,  2.82s/it][A
Training...:  72% 1883/2609 [1:47:56<33:09,  2.74s/it][A
Training...:  72% 1884/2609 [1:47:58<32:02,  2.65s/it][A
Training...:  72% 1885/2609 [1:48:01<31:03,  2.57s/it][A
Training...:  72% 1886/2609 [1:48:03<29:57,  2.49s/it][A
Training...:  72% 1887/2609 [1:48:05<29:04,  2.42s/it][A
Training...:  72% 1888/2609 [1:48:07<27:54,  2.32s/it][A
Training...:  72% 1889/2609 [1:48:09<26:42,  2.23s/it][A
Training...:  72% 1890/2609 [1:48:11<25:31,  2.13s/it][A
Training...:  72% 1891/2609 [1:48:13<24:22,  2.04s/it][A
Training...:  73% 1892/2609 [1:48:15<23:10,  1.94s/it][A
Training...:  73% 1893/2609 [1:48:16<22:03,  1.85s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [24:58:57<28:07:54, 9206.81s/it]
Training...:  73% 1893/2609 [1:48:18<22:03,  1.85s/it][A
Training...:  73% 1894/2609 [1:48:18<22:00,  1.85s/it][A
Training...:  73% 1895/2609 [1:48:20<20:21,  1.71s/it][A
Training...:  73% 1896/2609 [1:48:21<18:40,  1.57s/it][A
Training...:  73% 1897/2609 [1:48:22<17:02,  1.44s/it][A
Training...:  73% 1898/2609 [1:48:23<15:16,  1.29s/it][A
Training...:  73% 1899/2609 [1:48:24<13:35,  1.15s/it][A
Training...:  73% 1900/2609 [1:48:24<11:24,  1.04it/s][A
Training...:  73% 1901/2609 [1:48:31<32:57,  2.79s/it][A
Training...:  73% 1902/2609 [1:48:38<48:23,  4.11s/it][A
Training...:  73% 1903/2609 [1:48:45<57:19,  4.87s/it][A
Training...:  73% 1904/2609 [1:48:51<1:02:21,  5.31s/it][A
Training...:  73% 1905/2609 [1:48:57<1:04:47,  5.52s/it][A
Training...:  73% 1906/2609 [1:49:03<1:06:06,  5.64s/it][A
Training...:  73% 1907/2609 [1:49:09<1:06:04,  5.65s/it][A
Training...:  73% 1908/2609 [1:49:14<1:04:51,  5.55s/it][A
Training...:  73% 1909/2609 [1:49:20<1:03:32,  5.45s/it][A
Training...:  73% 1910/2609 [1:49:25<1:02:00,  5.32s/it][A
Training...:  73% 1911/2609 [1:49:30<1:00:33,  5.20s/it][A
Training...:  73% 1912/2609 [1:49:34<58:49,  5.06s/it]  [A
Training...:  73% 1913/2609 [1:49:39<57:08,  4.93s/it][A
Training...:  73% 1914/2609 [1:49:43<55:10,  4.76s/it][A
Training...:  73% 1915/2609 [1:49:48<53:30,  4.63s/it][A
Training...:  73% 1916/2609 [1:49:52<51:46,  4.48s/it][A
Training...:  73% 1917/2609 [1:49:56<50:32,  4.38s/it][A
Training...:  74% 1918/2609 [1:50:00<49:14,  4.28s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:00:43<28:07:54, 9206.81s/it]
Training...:  74% 1918/2609 [1:50:04<49:14,  4.28s/it][A
Training...:  74% 1919/2609 [1:50:04<50:03,  4.35s/it][A
Training...:  74% 1920/2609 [1:50:08<47:47,  4.16s/it][A
Training...:  74% 1921/2609 [1:50:12<46:01,  4.01s/it][A
Training...:  74% 1922/2609 [1:50:15<44:18,  3.87s/it][A
Training...:  74% 1923/2609 [1:50:19<42:47,  3.74s/it][A
Training...:  74% 1924/2609 [1:50:22<41:12,  3.61s/it][A
Training...:  74% 1925/2609 [1:50:25<40:03,  3.51s/it][A
Training...:  74% 1926/2609 [1:50:28<38:41,  3.40s/it][A
Training...:  74% 1927/2609 [1:50:32<37:34,  3.31s/it][A
Training...:  74% 1928/2609 [1:50:35<36:21,  3.20s/it][A
Training...:  74% 1929/2609 [1:50:37<35:24,  3.12s/it][A
Training...:  74% 1930/2609 [1:50:40<34:07,  3.02s/it][A
Training...:  74% 1931/2609 [1:50:43<32:51,  2.91s/it][A
Training...:  74% 1932/2609 [1:50:45<31:35,  2.80s/it][A
Training...:  74% 1933/2609 [1:50:48<30:29,  2.71s/it][A
Training...:  74% 1934/2609 [1:50:50<29:29,  2.62s/it][A
Training...:  74% 1935/2609 [1:50:53<28:34,  2.54s/it][A
Training...:  74% 1936/2609 [1:50:55<27:35,  2.46s/it][A
Training...:  74% 1937/2609 [1:50:57<26:38,  2.38s/it][A
Training...:  74% 1938/2609 [1:50:59<25:30,  2.28s/it][A
Training...:  74% 1939/2609 [1:51:01<24:38,  2.21s/it][A
Training...:  74% 1940/2609 [1:51:03<23:35,  2.12s/it][A
Training...:  74% 1941/2609 [1:51:05<22:40,  2.04s/it][A
Training...:  74% 1942/2609 [1:51:07<21:39,  1.95s/it][A
Training...:  74% 1943/2609 [1:51:08<20:40,  1.86s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:01:49<28:07:54, 9206.81s/it]
Training...:  74% 1943/2609 [1:51:10<20:40,  1.86s/it][A
Training...:  75% 1944/2609 [1:51:10<20:29,  1.85s/it][A
Training...:  75% 1945/2609 [1:51:12<18:55,  1.71s/it][A
Training...:  75% 1946/2609 [1:51:13<17:20,  1.57s/it][A
Training...:  75% 1947/2609 [1:51:14<15:53,  1.44s/it][A
Training...:  75% 1948/2609 [1:51:15<14:11,  1.29s/it][A
Training...:  75% 1949/2609 [1:51:16<12:25,  1.13s/it][A
Training...:  75% 1950/2609 [1:51:16<10:25,  1.05it/s][A
Training...:  75% 1951/2609 [1:51:24<31:49,  2.90s/it][A
Training...:  75% 1952/2609 [1:51:31<45:49,  4.19s/it][A
Training...:  75% 1953/2609 [1:51:37<53:39,  4.91s/it][A
Training...:  75% 1954/2609 [1:51:44<58:08,  5.33s/it][A
Training...:  75% 1955/2609 [1:51:50<1:00:04,  5.51s/it][A
Training...:  75% 1956/2609 [1:51:55<1:00:47,  5.59s/it][A
Training...:  75% 1957/2609 [1:52:01<1:00:56,  5.61s/it][A
Training...:  75% 1958/2609 [1:52:07<1:00:19,  5.56s/it][A
Training...:  75% 1959/2609 [1:52:12<58:59,  5.45s/it]  [A
Training...:  75% 1960/2609 [1:52:17<57:18,  5.30s/it][A
Training...:  75% 1961/2609 [1:52:22<55:53,  5.17s/it][A
Training...:  75% 1962/2609 [1:52:26<54:13,  5.03s/it][A
Training...:  75% 1963/2609 [1:52:31<52:39,  4.89s/it][A
Training...:  75% 1964/2609 [1:52:35<50:57,  4.74s/it][A
Training...:  75% 1965/2609 [1:52:40<49:20,  4.60s/it][A
Training...:  75% 1966/2609 [1:52:44<47:51,  4.47s/it][A
Training...:  75% 1967/2609 [1:52:48<46:37,  4.36s/it][A
Training...:  75% 1968/2609 [1:52:52<45:09,  4.23s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:03:35<28:07:54, 9206.81s/it]
Training...:  75% 1968/2609 [1:52:56<45:09,  4.23s/it][A
Training...:  75% 1969/2609 [1:52:56<45:51,  4.30s/it][A
Training...:  76% 1970/2609 [1:53:00<43:54,  4.12s/it][A
Training...:  76% 1971/2609 [1:53:04<42:17,  3.98s/it][A
Training...:  76% 1972/2609 [1:53:07<40:52,  3.85s/it][A
Training...:  76% 1973/2609 [1:53:11<39:56,  3.77s/it][A
Training...:  76% 1974/2609 [1:53:14<38:31,  3.64s/it][A
Training...:  76% 1975/2609 [1:53:17<37:01,  3.50s/it][A
Training...:  76% 1976/2609 [1:53:20<35:43,  3.39s/it][A
Training...:  76% 1977/2609 [1:53:23<34:34,  3.28s/it][A
Training...:  76% 1978/2609 [1:53:26<33:24,  3.18s/it][A
Training...:  76% 1979/2609 [1:53:29<32:26,  3.09s/it][A
Training...:  76% 1980/2609 [1:53:32<31:31,  3.01s/it][A
Training...:  76% 1981/2609 [1:53:35<30:39,  2.93s/it][A
Training...:  76% 1982/2609 [1:53:37<29:32,  2.83s/it][A
Training...:  76% 1983/2609 [1:53:40<28:47,  2.76s/it][A
Training...:  76% 1984/2609 [1:53:42<27:47,  2.67s/it][A
Training...:  76% 1985/2609 [1:53:45<27:00,  2.60s/it][A
Training...:  76% 1986/2609 [1:53:47<26:00,  2.50s/it][A
Training...:  76% 1987/2609 [1:53:49<25:00,  2.41s/it][A
Training...:  76% 1988/2609 [1:53:51<23:53,  2.31s/it][A
Training...:  76% 1989/2609 [1:53:53<22:51,  2.21s/it][A
Training...:  76% 1990/2609 [1:53:55<21:49,  2.11s/it][A
Training...:  76% 1991/2609 [1:53:57<20:52,  2.03s/it][A
Training...:  76% 1992/2609 [1:53:59<19:51,  1.93s/it][A
Training...:  76% 1993/2609 [1:54:00<18:55,  1.84s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:04:41<28:07:54, 9206.81s/it]
Training...:  76% 1993/2609 [1:54:02<18:55,  1.84s/it][A
Training...:  76% 1994/2609 [1:54:02<19:03,  1.86s/it][A
Training...:  76% 1995/2609 [1:54:04<17:41,  1.73s/it][A
Training...:  77% 1996/2609 [1:54:05<16:16,  1.59s/it][A
Training...:  77% 1997/2609 [1:54:06<14:53,  1.46s/it][A
Training...:  77% 1998/2609 [1:54:07<13:21,  1.31s/it][A
Training...:  77% 1999/2609 [1:54:08<11:49,  1.16s/it][A
Training...:  77% 2000/2609 [1:54:08<09:58,  1.02it/s][A
Training...:  77% 2001/2609 [1:54:16<28:22,  2.80s/it][A
Training...:  77% 2002/2609 [1:54:22<41:02,  4.06s/it][A
Training...:  77% 2003/2609 [1:54:29<48:35,  4.81s/it][A
Training...:  77% 2004/2609 [1:54:35<52:57,  5.25s/it][A
Training...:  77% 2005/2609 [1:54:42<55:37,  5.53s/it][A
Training...:  77% 2006/2609 [1:54:47<56:03,  5.58s/it][A
Training...:  77% 2007/2609 [1:54:53<55:53,  5.57s/it][A
Training...:  77% 2008/2609 [1:54:58<54:48,  5.47s/it][A
Training...:  77% 2009/2609 [1:55:03<53:32,  5.35s/it][A
Training...:  77% 2010/2609 [1:55:08<52:16,  5.24s/it][A
Training...:  77% 2011/2609 [1:55:13<51:11,  5.14s/it][A
Training...:  77% 2012/2609 [1:55:17<49:20,  4.96s/it][A
Training...:  77% 2013/2609 [1:55:22<48:00,  4.83s/it][A
Training...:  77% 2014/2609 [1:55:26<46:35,  4.70s/it][A
Training...:  77% 2015/2609 [1:55:31<45:13,  4.57s/it][A
Training...:  77% 2016/2609 [1:55:35<43:42,  4.42s/it][A
Training...:  77% 2017/2609 [1:55:39<42:43,  4.33s/it][A
Training...:  77% 2018/2609 [1:55:43<41:18,  4.19s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:06:26<28:07:54, 9206.81s/it]
Training...:  77% 2018/2609 [1:55:47<41:18,  4.19s/it][A
Training...:  77% 2019/2609 [1:55:47<41:59,  4.27s/it][A
Training...:  77% 2020/2609 [1:55:51<40:14,  4.10s/it][A
Training...:  77% 2021/2609 [1:55:55<38:48,  3.96s/it][A
Training...:  78% 2022/2609 [1:55:58<37:24,  3.82s/it][A
Training...:  78% 2023/2609 [1:56:02<36:23,  3.73s/it][A
Training...:  78% 2024/2609 [1:56:05<35:23,  3.63s/it][A
Training...:  78% 2025/2609 [1:56:08<34:19,  3.53s/it][A
Training...:  78% 2026/2609 [1:56:11<33:12,  3.42s/it][A
Training...:  78% 2027/2609 [1:56:15<32:14,  3.32s/it][A
Training...:  78% 2028/2609 [1:56:18<31:19,  3.23s/it][A
Training...:  78% 2029/2609 [1:56:20<30:24,  3.15s/it][A
Training...:  78% 2030/2609 [1:56:23<29:26,  3.05s/it][A
Training...:  78% 2031/2609 [1:56:26<28:37,  2.97s/it][A
Training...:  78% 2032/2609 [1:56:29<27:42,  2.88s/it][A
Training...:  78% 2033/2609 [1:56:31<26:47,  2.79s/it][A
Training...:  78% 2034/2609 [1:56:34<25:46,  2.69s/it][A
Training...:  78% 2035/2609 [1:56:36<24:54,  2.60s/it][A
Training...:  78% 2036/2609 [1:56:39<24:02,  2.52s/it][A
Training...:  78% 2037/2609 [1:56:41<23:12,  2.43s/it][A
Training...:  78% 2038/2609 [1:56:43<22:16,  2.34s/it][A
Training...:  78% 2039/2609 [1:56:45<21:21,  2.25s/it][A
Training...:  78% 2040/2609 [1:56:47<20:25,  2.15s/it][A
Training...:  78% 2041/2609 [1:56:49<19:40,  2.08s/it][A
Training...:  78% 2042/2609 [1:56:51<18:45,  1.99s/it][A
Training...:  78% 2043/2609 [1:56:52<17:50,  1.89s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:07:33<28:07:54, 9206.81s/it]
Training...:  78% 2043/2609 [1:56:54<17:50,  1.89s/it][A
Training...:  78% 2044/2609 [1:56:54<17:43,  1.88s/it][A
Training...:  78% 2045/2609 [1:56:55<16:28,  1.75s/it][A
Training...:  78% 2046/2609 [1:56:57<15:10,  1.62s/it][A
Training...:  78% 2047/2609 [1:56:58<13:53,  1.48s/it][A
Training...:  78% 2048/2609 [1:56:59<12:31,  1.34s/it][A
Training...:  79% 2049/2609 [1:57:00<11:00,  1.18s/it][A
Training...:  79% 2050/2609 [1:57:00<09:16,  1.00it/s][A
Training...:  79% 2051/2609 [1:57:08<26:42,  2.87s/it][A
Training...:  79% 2052/2609 [1:57:14<37:50,  4.08s/it][A
Training...:  79% 2053/2609 [1:57:21<44:33,  4.81s/it][A
Training...:  79% 2054/2609 [1:57:27<48:19,  5.23s/it][A
Training...:  79% 2055/2609 [1:57:33<50:02,  5.42s/it][A
Training...:  79% 2056/2609 [1:57:39<50:17,  5.46s/it][A
Training...:  79% 2057/2609 [1:57:44<50:09,  5.45s/it][A
Training...:  79% 2058/2609 [1:57:49<49:24,  5.38s/it][A
Training...:  79% 2059/2609 [1:57:54<48:27,  5.29s/it][A
Training...:  79% 2060/2609 [1:57:59<47:04,  5.14s/it][A
Training...:  79% 2061/2609 [1:58:04<46:15,  5.06s/it][A
Training...:  79% 2062/2609 [1:58:09<45:02,  4.94s/it][A
Training...:  79% 2063/2609 [1:58:13<43:53,  4.82s/it][A
Training...:  79% 2064/2609 [1:58:18<42:33,  4.69s/it][A
Training...:  79% 2065/2609 [1:58:22<41:19,  4.56s/it][A
Training...:  79% 2066/2609 [1:58:26<40:08,  4.43s/it][A
Training...:  79% 2067/2609 [1:58:30<39:03,  4.32s/it][A
Training...:  79% 2068/2609 [1:58:34<37:51,  4.20s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:09:17<28:07:54, 9206.81s/it]
Training...:  79% 2068/2609 [1:58:39<37:51,  4.20s/it][A
Training...:  79% 2069/2609 [1:58:39<38:51,  4.32s/it][A
Training...:  79% 2070/2609 [1:58:42<37:15,  4.15s/it][A
Training...:  79% 2071/2609 [1:58:46<35:46,  3.99s/it][A
Training...:  79% 2072/2609 [1:58:49<34:20,  3.84s/it][A
Training...:  79% 2073/2609 [1:58:53<33:05,  3.71s/it][A
Training...:  79% 2074/2609 [1:58:56<32:01,  3.59s/it][A
Training...:  80% 2075/2609 [1:58:59<31:01,  3.49s/it][A
Training...:  80% 2076/2609 [1:59:02<30:01,  3.38s/it][A
Training...:  80% 2077/2609 [1:59:06<29:10,  3.29s/it][A
Training...:  80% 2078/2609 [1:59:09<28:14,  3.19s/it][A
Training...:  80% 2079/2609 [1:59:11<27:28,  3.11s/it][A
Training...:  80% 2080/2609 [1:59:14<26:28,  3.00s/it][A
Training...:  80% 2081/2609 [1:59:17<25:35,  2.91s/it][A
Training...:  80% 2082/2609 [1:59:20<24:45,  2.82s/it][A
Training...:  80% 2083/2609 [1:59:22<24:00,  2.74s/it][A
Training...:  80% 2084/2609 [1:59:25<23:15,  2.66s/it][A
Training...:  80% 2085/2609 [1:59:27<22:27,  2.57s/it][A
Training...:  80% 2086/2609 [1:59:29<21:40,  2.49s/it][A
Training...:  80% 2087/2609 [1:59:31<21:00,  2.41s/it][A
Training...:  80% 2088/2609 [1:59:34<20:12,  2.33s/it][A
Training...:  80% 2089/2609 [1:59:36<19:19,  2.23s/it][A
Training...:  80% 2090/2609 [1:59:37<18:25,  2.13s/it][A
Training...:  80% 2091/2609 [1:59:39<17:36,  2.04s/it][A
Training...:  80% 2092/2609 [1:59:41<16:43,  1.94s/it][A
Training...:  80% 2093/2609 [1:59:43<15:50,  1.84s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:10:23<28:07:54, 9206.81s/it]
Training...:  80% 2093/2609 [1:59:44<15:50,  1.84s/it][A
Training...:  80% 2094/2609 [1:59:44<15:44,  1.83s/it][A
Training...:  80% 2095/2609 [1:59:46<14:28,  1.69s/it][A
Training...:  80% 2096/2609 [1:59:47<13:14,  1.55s/it][A
Training...:  80% 2097/2609 [1:59:48<12:00,  1.41s/it][A
Training...:  80% 2098/2609 [1:59:49<10:44,  1.26s/it][A
Training...:  80% 2099/2609 [1:59:50<09:26,  1.11s/it][A
Training...:  80% 2100/2609 [1:59:50<07:57,  1.07it/s][A
Training...:  81% 2101/2609 [1:59:57<23:32,  2.78s/it][A
Training...:  81% 2102/2609 [2:00:04<34:05,  4.03s/it][A
Training...:  81% 2103/2609 [2:00:11<40:30,  4.80s/it][A
Training...:  81% 2104/2609 [2:00:17<44:00,  5.23s/it][A
Training...:  81% 2105/2609 [2:00:23<45:37,  5.43s/it][A
Training...:  81% 2106/2609 [2:00:29<46:05,  5.50s/it][A
Training...:  81% 2107/2609 [2:00:34<46:36,  5.57s/it][A
Training...:  81% 2108/2609 [2:00:40<45:44,  5.48s/it][A
Training...:  81% 2109/2609 [2:00:45<44:56,  5.39s/it][A
Training...:  81% 2110/2609 [2:00:50<43:31,  5.23s/it][A
Training...:  81% 2111/2609 [2:00:55<42:17,  5.09s/it][A
Training...:  81% 2112/2609 [2:00:59<41:02,  4.95s/it][A
Training...:  81% 2113/2609 [2:01:04<40:00,  4.84s/it][A
Training...:  81% 2114/2609 [2:01:08<38:43,  4.69s/it][A
Training...:  81% 2115/2609 [2:01:12<37:46,  4.59s/it][A
Training...:  81% 2116/2609 [2:01:17<36:29,  4.44s/it][A
Training...:  81% 2117/2609 [2:01:21<35:27,  4.32s/it][A
Training...:  81% 2118/2609 [2:01:24<34:16,  4.19s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:12:08<28:07:54, 9206.81s/it]
Training...:  81% 2118/2609 [2:01:29<34:16,  4.19s/it][A
Training...:  81% 2119/2609 [2:01:29<34:50,  4.27s/it][A
Training...:  81% 2120/2609 [2:01:33<33:24,  4.10s/it][A
Training...:  81% 2121/2609 [2:01:36<32:13,  3.96s/it][A
Training...:  81% 2122/2609 [2:01:40<31:01,  3.82s/it][A
Training...:  81% 2123/2609 [2:01:43<30:09,  3.72s/it][A
Training...:  81% 2124/2609 [2:01:47<29:08,  3.61s/it][A
Training...:  81% 2125/2609 [2:01:50<28:19,  3.51s/it][A
Training...:  81% 2126/2609 [2:01:53<27:22,  3.40s/it][A
Training...:  82% 2127/2609 [2:01:56<26:38,  3.32s/it][A
Training...:  82% 2128/2609 [2:01:59<25:46,  3.21s/it][A
Training...:  82% 2129/2609 [2:02:02<25:01,  3.13s/it][A
Training...:  82% 2130/2609 [2:02:05<24:14,  3.04s/it][A
Training...:  82% 2131/2609 [2:02:08<23:29,  2.95s/it][A
Training...:  82% 2132/2609 [2:02:10<22:39,  2.85s/it][A
Training...:  82% 2133/2609 [2:02:13<21:57,  2.77s/it][A
Training...:  82% 2134/2609 [2:02:15<21:08,  2.67s/it][A
Training...:  82% 2135/2609 [2:02:18<20:26,  2.59s/it][A
Training...:  82% 2136/2609 [2:02:20<19:40,  2.49s/it][A
Training...:  82% 2137/2609 [2:02:22<19:00,  2.42s/it][A
Training...:  82% 2138/2609 [2:02:24<18:12,  2.32s/it][A
Training...:  82% 2139/2609 [2:02:26<17:32,  2.24s/it][A
Training...:  82% 2140/2609 [2:02:28<16:50,  2.15s/it][A
Training...:  82% 2141/2609 [2:02:30<16:06,  2.07s/it][A
Training...:  82% 2142/2609 [2:02:32<15:19,  1.97s/it][A
Training...:  82% 2143/2609 [2:02:33<14:25,  1.86s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:13:14<28:07:54, 9206.81s/it]
Training...:  82% 2143/2609 [2:02:35<14:25,  1.86s/it][A
Training...:  82% 2144/2609 [2:02:35<14:18,  1.85s/it][A
Training...:  82% 2145/2609 [2:02:37<13:11,  1.71s/it][A
Training...:  82% 2146/2609 [2:02:38<12:05,  1.57s/it][A
Training...:  82% 2147/2609 [2:02:39<11:00,  1.43s/it][A
Training...:  82% 2148/2609 [2:02:40<09:53,  1.29s/it][A
Training...:  82% 2149/2609 [2:02:41<08:42,  1.14s/it][A
Training...:  82% 2150/2609 [2:02:41<07:22,  1.04it/s][A
Training...:  82% 2151/2609 [2:02:49<21:47,  2.86s/it][A
Training...:  82% 2152/2609 [2:02:56<31:22,  4.12s/it][A
Training...:  83% 2153/2609 [2:03:02<36:49,  4.85s/it][A
Training...:  83% 2154/2609 [2:03:08<39:57,  5.27s/it][A
Training...:  83% 2155/2609 [2:03:15<41:47,  5.52s/it][A
Training...:  83% 2156/2609 [2:03:20<42:11,  5.59s/it][A
Training...:  83% 2157/2609 [2:03:26<42:13,  5.61s/it][A
Training...:  83% 2158/2609 [2:03:31<41:38,  5.54s/it][A
Training...:  83% 2159/2609 [2:03:37<40:45,  5.43s/it][A
Training...:  83% 2160/2609 [2:03:41<39:30,  5.28s/it][A
Training...:  83% 2161/2609 [2:03:46<38:37,  5.17s/it][A
Training...:  83% 2162/2609 [2:03:51<37:18,  5.01s/it][A
Training...:  83% 2163/2609 [2:03:56<36:25,  4.90s/it][A
Training...:  83% 2164/2609 [2:04:00<35:21,  4.77s/it][A
Training...:  83% 2165/2609 [2:04:04<34:26,  4.65s/it][A
Training...:  83% 2166/2609 [2:04:09<33:15,  4.50s/it][A
Training...:  83% 2167/2609 [2:04:13<32:21,  4.39s/it][A
Training...:  83% 2168/2609 [2:04:17<31:22,  4.27s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:15:00<28:07:54, 9206.81s/it]
Training...:  83% 2168/2609 [2:04:21<31:22,  4.27s/it][A
Training...:  83% 2169/2609 [2:04:21<31:48,  4.34s/it][A
Training...:  83% 2170/2609 [2:04:25<30:20,  4.15s/it][A
Training...:  83% 2171/2609 [2:04:29<29:17,  4.01s/it][A
Training...:  83% 2172/2609 [2:04:32<28:15,  3.88s/it][A
Training...:  83% 2173/2609 [2:04:36<27:27,  3.78s/it][A
Training...:  83% 2174/2609 [2:04:39<26:29,  3.65s/it][A
Training...:  83% 2175/2609 [2:04:42<25:32,  3.53s/it][A
Training...:  83% 2176/2609 [2:04:46<24:45,  3.43s/it][A
Training...:  83% 2177/2609 [2:04:49<23:56,  3.32s/it][A
Training...:  83% 2178/2609 [2:04:52<23:11,  3.23s/it][A
Training...:  84% 2179/2609 [2:04:55<22:30,  3.14s/it][A
Training...:  84% 2180/2609 [2:04:57<21:43,  3.04s/it][A
Training...:  84% 2181/2609 [2:05:00<21:00,  2.94s/it][A
Training...:  84% 2182/2609 [2:05:03<20:14,  2.84s/it][A
Training...:  84% 2183/2609 [2:05:05<19:28,  2.74s/it][A
Training...:  84% 2184/2609 [2:05:08<19:33,  2.76s/it][A
Training...:  84% 2185/2609 [2:05:10<18:52,  2.67s/it][A
Training...:  84% 2186/2609 [2:05:13<18:03,  2.56s/it][A
Training...:  84% 2187/2609 [2:05:15<17:23,  2.47s/it][A
Training...:  84% 2188/2609 [2:05:17<16:37,  2.37s/it][A
Training...:  84% 2189/2609 [2:05:19<15:57,  2.28s/it][A
Training...:  84% 2190/2609 [2:05:21<15:17,  2.19s/it][A
Training...:  84% 2191/2609 [2:05:23<14:33,  2.09s/it][A
Training...:  84% 2192/2609 [2:05:25<13:46,  1.98s/it][A
Training...:  84% 2193/2609 [2:05:26<13:03,  1.88s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:16:07<28:07:54, 9206.81s/it]
Training...:  84% 2193/2609 [2:05:28<13:03,  1.88s/it][A
Training...:  84% 2194/2609 [2:05:28<13:03,  1.89s/it][A
Training...:  84% 2195/2609 [2:05:30<12:06,  1.76s/it][A
Training...:  84% 2196/2609 [2:05:31<11:11,  1.63s/it][A
Training...:  84% 2197/2609 [2:05:32<10:14,  1.49s/it][A
Training...:  84% 2198/2609 [2:05:33<09:14,  1.35s/it][A
Training...:  84% 2199/2609 [2:05:34<08:10,  1.20s/it][A
Training...:  84% 2200/2609 [2:05:35<06:55,  1.02s/it][A
Training...:  84% 2201/2609 [2:05:42<19:29,  2.87s/it][A
Training...:  84% 2202/2609 [2:05:49<28:04,  4.14s/it][A
Training...:  84% 2203/2609 [2:05:56<32:56,  4.87s/it][A
Training...:  84% 2204/2609 [2:06:02<35:36,  5.27s/it][A
Training...:  85% 2205/2609 [2:06:08<37:04,  5.51s/it][A
Training...:  85% 2206/2609 [2:06:14<37:33,  5.59s/it][A
Training...:  85% 2207/2609 [2:06:19<37:37,  5.62s/it][A
Training...:  85% 2208/2609 [2:06:25<36:52,  5.52s/it][A
Training...:  85% 2209/2609 [2:06:30<36:14,  5.44s/it][A
Training...:  85% 2210/2609 [2:06:35<35:28,  5.34s/it][A
Training...:  85% 2211/2609 [2:06:40<34:27,  5.20s/it][A
Training...:  85% 2212/2609 [2:06:45<33:21,  5.04s/it][A
Training...:  85% 2213/2609 [2:06:49<32:28,  4.92s/it][A
Training...:  85% 2214/2609 [2:06:54<31:22,  4.77s/it][A
Training...:  85% 2215/2609 [2:06:58<30:32,  4.65s/it][A
Training...:  85% 2216/2609 [2:07:02<29:31,  4.51s/it][A
Training...:  85% 2217/2609 [2:07:06<28:39,  4.39s/it][A
Training...:  85% 2218/2609 [2:07:10<27:43,  4.25s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:17:54<28:07:54, 9206.81s/it]
Training...:  85% 2218/2609 [2:07:15<27:43,  4.25s/it][A
Training...:  85% 2219/2609 [2:07:15<28:05,  4.32s/it][A
Training...:  85% 2220/2609 [2:07:18<26:54,  4.15s/it][A
Training...:  85% 2221/2609 [2:07:22<25:53,  4.00s/it][A
Training...:  85% 2222/2609 [2:07:26<24:53,  3.86s/it][A
Training...:  85% 2223/2609 [2:07:29<24:09,  3.76s/it][A
Training...:  85% 2224/2609 [2:07:32<23:19,  3.64s/it][A
Training...:  85% 2225/2609 [2:07:36<22:41,  3.55s/it][A
Training...:  85% 2226/2609 [2:07:39<21:55,  3.43s/it][A
Training...:  85% 2227/2609 [2:07:42<21:14,  3.34s/it][A
Training...:  85% 2228/2609 [2:07:45<20:29,  3.23s/it][A
Training...:  85% 2229/2609 [2:07:48<19:55,  3.15s/it][A
Training...:  85% 2230/2609 [2:07:51<19:15,  3.05s/it][A
Training...:  86% 2231/2609 [2:07:54<18:42,  2.97s/it][A
Training...:  86% 2232/2609 [2:07:56<18:03,  2.87s/it][A
Training...:  86% 2233/2609 [2:07:59<17:29,  2.79s/it][A
Training...:  86% 2234/2609 [2:08:01<16:51,  2.70s/it][A
Training...:  86% 2235/2609 [2:08:04<16:21,  2.62s/it][A
Training...:  86% 2236/2609 [2:08:06<15:43,  2.53s/it][A
Training...:  86% 2237/2609 [2:08:08<15:13,  2.46s/it][A
Training...:  86% 2238/2609 [2:08:10<14:31,  2.35s/it][A
Training...:  86% 2239/2609 [2:08:13<13:54,  2.25s/it][A
Training...:  86% 2240/2609 [2:08:14<13:16,  2.16s/it][A
Training...:  86% 2241/2609 [2:08:16<12:41,  2.07s/it][A
Training...:  86% 2242/2609 [2:08:18<12:02,  1.97s/it][A
Training...:  86% 2243/2609 [2:08:20<11:31,  1.89s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:19:00<28:07:54, 9206.81s/it]
Training...:  86% 2243/2609 [2:08:22<11:31,  1.89s/it][A
Training...:  86% 2244/2609 [2:08:22<11:25,  1.88s/it][A
Training...:  86% 2245/2609 [2:08:23<10:32,  1.74s/it][A
Training...:  86% 2246/2609 [2:08:24<09:40,  1.60s/it][A
Training...:  86% 2247/2609 [2:08:25<08:46,  1.45s/it][A
Training...:  86% 2248/2609 [2:08:26<07:51,  1.31s/it][A
Training...:  86% 2249/2609 [2:08:27<06:54,  1.15s/it][A
Training...:  86% 2250/2609 [2:08:28<05:49,  1.03it/s][A
Training...:  86% 2251/2609 [2:08:35<17:00,  2.85s/it][A
Training...:  86% 2252/2609 [2:08:42<24:24,  4.10s/it][A
Training...:  86% 2253/2609 [2:08:49<29:01,  4.89s/it][A
Training...:  86% 2254/2609 [2:08:55<31:33,  5.33s/it][A
Training...:  86% 2255/2609 [2:09:01<32:41,  5.54s/it][A
Training...:  86% 2256/2609 [2:09:07<32:52,  5.59s/it][A
Training...:  87% 2257/2609 [2:09:12<32:27,  5.53s/it][A
Training...:  87% 2258/2609 [2:09:18<31:57,  5.46s/it][A
Training...:  87% 2259/2609 [2:09:23<31:26,  5.39s/it][A
Training...:  87% 2260/2609 [2:09:28<30:38,  5.27s/it][A
Training...:  87% 2261/2609 [2:09:32<29:43,  5.12s/it][A
Training...:  87% 2262/2609 [2:09:37<28:41,  4.96s/it][A
Training...:  87% 2263/2609 [2:09:42<27:56,  4.84s/it][A
Training...:  87% 2264/2609 [2:09:46<27:01,  4.70s/it][A
Training...:  87% 2265/2609 [2:09:50<26:19,  4.59s/it][A
Training...:  87% 2266/2609 [2:09:54<25:24,  4.45s/it][A
Training...:  87% 2267/2609 [2:09:58<24:35,  4.31s/it][A
Training...:  87% 2268/2609 [2:10:02<23:47,  4.19s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:20:46<28:07:54, 9206.81s/it]
Training...:  87% 2268/2609 [2:10:07<23:47,  4.19s/it][A
Training...:  87% 2269/2609 [2:10:07<24:07,  4.26s/it][A
Training...:  87% 2270/2609 [2:10:11<23:12,  4.11s/it][A
Training...:  87% 2271/2609 [2:10:14<22:29,  3.99s/it][A
Training...:  87% 2272/2609 [2:10:18<21:42,  3.86s/it][A
Training...:  87% 2273/2609 [2:10:21<20:59,  3.75s/it][A
Training...:  87% 2274/2609 [2:10:25<20:11,  3.62s/it][A
Training...:  87% 2275/2609 [2:10:28<19:33,  3.51s/it][A
Training...:  87% 2276/2609 [2:10:31<18:51,  3.40s/it][A
Training...:  87% 2277/2609 [2:10:34<18:19,  3.31s/it][A
Training...:  87% 2278/2609 [2:10:37<17:42,  3.21s/it][A
Training...:  87% 2279/2609 [2:10:40<17:10,  3.12s/it][A
Training...:  87% 2280/2609 [2:10:43<16:36,  3.03s/it][A
Training...:  87% 2281/2609 [2:10:46<16:04,  2.94s/it][A
Training...:  87% 2282/2609 [2:10:48<15:31,  2.85s/it][A
Training...:  88% 2283/2609 [2:10:51<14:59,  2.76s/it][A
Training...:  88% 2284/2609 [2:10:53<14:27,  2.67s/it][A
Training...:  88% 2285/2609 [2:10:56<13:59,  2.59s/it][A
Training...:  88% 2286/2609 [2:10:58<13:25,  2.49s/it][A
Training...:  88% 2287/2609 [2:11:00<12:56,  2.41s/it][A
Training...:  88% 2288/2609 [2:11:02<12:22,  2.31s/it][A
Training...:  88% 2289/2609 [2:11:04<11:50,  2.22s/it][A
Training...:  88% 2290/2609 [2:11:06<11:21,  2.14s/it][A
Training...:  88% 2291/2609 [2:11:08<10:50,  2.04s/it][A
Training...:  88% 2292/2609 [2:11:10<10:17,  1.95s/it][A
Training...:  88% 2293/2609 [2:11:11<09:50,  1.87s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:21:52<28:07:54, 9206.81s/it]
Training...:  88% 2293/2609 [2:11:13<09:50,  1.87s/it][A
Training...:  88% 2294/2609 [2:11:13<09:44,  1.86s/it][A
Training...:  88% 2295/2609 [2:11:15<09:01,  1.72s/it][A
Training...:  88% 2296/2609 [2:11:16<08:19,  1.60s/it][A
Training...:  88% 2297/2609 [2:11:17<07:41,  1.48s/it][A
Training...:  88% 2298/2609 [2:11:18<06:58,  1.34s/it][A
Training...:  88% 2299/2609 [2:11:19<06:08,  1.19s/it][A
Training...:  88% 2300/2609 [2:11:20<05:09,  1.00s/it][A
Training...:  88% 2301/2609 [2:11:27<14:29,  2.82s/it][A
Training...:  88% 2302/2609 [2:11:34<20:56,  4.09s/it][A
Training...:  88% 2303/2609 [2:11:40<24:42,  4.85s/it][A
Training...:  88% 2304/2609 [2:11:46<26:34,  5.23s/it][A
Training...:  88% 2305/2609 [2:11:52<27:35,  5.45s/it][A
Training...:  88% 2306/2609 [2:11:58<27:52,  5.52s/it][A
Training...:  88% 2307/2609 [2:12:04<27:47,  5.52s/it][A
Training...:  88% 2308/2609 [2:12:09<27:26,  5.47s/it][A
Training...:  89% 2309/2609 [2:12:14<26:56,  5.39s/it][A
Training...:  89% 2310/2609 [2:12:19<26:06,  5.24s/it][A
Training...:  89% 2311/2609 [2:12:24<25:34,  5.15s/it][A
Training...:  89% 2312/2609 [2:12:29<24:45,  5.00s/it][A
Training...:  89% 2313/2609 [2:12:33<24:06,  4.89s/it][A
Training...:  89% 2314/2609 [2:12:38<23:41,  4.82s/it][A
Training...:  89% 2315/2609 [2:12:42<23:07,  4.72s/it][A
Training...:  89% 2316/2609 [2:12:47<22:20,  4.57s/it][A
Training...:  89% 2317/2609 [2:12:51<21:40,  4.45s/it][A
Training...:  89% 2318/2609 [2:12:55<20:58,  4.32s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:23:38<28:07:54, 9206.81s/it]
Training...:  89% 2318/2609 [2:12:59<20:58,  4.32s/it][A
Training...:  89% 2319/2609 [2:12:59<21:11,  4.38s/it][A
Training...:  89% 2320/2609 [2:13:03<20:13,  4.20s/it][A
Training...:  89% 2321/2609 [2:13:07<19:24,  4.04s/it][A
Training...:  89% 2322/2609 [2:13:10<18:37,  3.89s/it][A
Training...:  89% 2323/2609 [2:13:14<17:56,  3.76s/it][A
Training...:  89% 2324/2609 [2:13:17<17:15,  3.63s/it][A
Training...:  89% 2325/2609 [2:13:20<16:46,  3.54s/it][A
Training...:  89% 2326/2609 [2:13:24<16:09,  3.43s/it][A
Training...:  89% 2327/2609 [2:13:27<15:37,  3.32s/it][A
Training...:  89% 2328/2609 [2:13:30<15:07,  3.23s/it][A
Training...:  89% 2329/2609 [2:13:33<14:40,  3.14s/it][A
Training...:  89% 2330/2609 [2:13:35<14:08,  3.04s/it][A
Training...:  89% 2331/2609 [2:13:38<13:44,  2.97s/it][A
Training...:  89% 2332/2609 [2:13:41<13:15,  2.87s/it][A
Training...:  89% 2333/2609 [2:13:43<12:49,  2.79s/it][A
Training...:  89% 2334/2609 [2:13:46<12:20,  2.69s/it][A
Training...:  89% 2335/2609 [2:13:48<11:55,  2.61s/it][A
Training...:  90% 2336/2609 [2:13:51<11:29,  2.53s/it][A
Training...:  90% 2337/2609 [2:13:53<11:04,  2.44s/it][A
Training...:  90% 2338/2609 [2:13:55<10:36,  2.35s/it][A
Training...:  90% 2339/2609 [2:13:57<10:11,  2.27s/it][A
Training...:  90% 2340/2609 [2:13:59<09:44,  2.17s/it][A
Training...:  90% 2341/2609 [2:14:01<09:17,  2.08s/it][A
Training...:  90% 2342/2609 [2:14:03<08:50,  1.99s/it][A
Training...:  90% 2343/2609 [2:14:04<08:23,  1.89s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:24:45<28:07:54, 9206.81s/it]
Training...:  90% 2343/2609 [2:14:06<08:23,  1.89s/it][A
Training...:  90% 2344/2609 [2:14:06<08:19,  1.88s/it][A
Training...:  90% 2345/2609 [2:14:08<07:43,  1.76s/it][A
Training...:  90% 2346/2609 [2:14:09<07:07,  1.62s/it][A
Training...:  90% 2347/2609 [2:14:10<06:30,  1.49s/it][A
Training...:  90% 2348/2609 [2:14:11<05:52,  1.35s/it][A
Training...:  90% 2349/2609 [2:14:12<05:10,  1.20s/it][A
Training...:  90% 2350/2609 [2:14:13<04:18,  1.00it/s][A
Training...:  90% 2351/2609 [2:14:20<12:04,  2.81s/it][A
Training...:  90% 2352/2609 [2:14:27<17:21,  4.05s/it][A
Training...:  90% 2353/2609 [2:14:33<20:27,  4.80s/it][A
Training...:  90% 2354/2609 [2:14:39<22:11,  5.22s/it][A
Training...:  90% 2355/2609 [2:14:45<22:57,  5.42s/it][A
Training...:  90% 2356/2609 [2:14:51<23:06,  5.48s/it][A
Training...:  90% 2357/2609 [2:14:56<23:02,  5.49s/it][A
Training...:  90% 2358/2609 [2:15:02<22:42,  5.43s/it][A
Training...:  90% 2359/2609 [2:15:07<22:21,  5.36s/it][A
Training...:  90% 2360/2609 [2:15:12<21:44,  5.24s/it][A
Training...:  90% 2361/2609 [2:15:17<21:03,  5.09s/it][A
Training...:  91% 2362/2609 [2:15:21<20:24,  4.96s/it][A
Training...:  91% 2363/2609 [2:15:26<19:47,  4.83s/it][A
Training...:  91% 2364/2609 [2:15:30<19:04,  4.67s/it][A
Training...:  91% 2365/2609 [2:15:34<18:31,  4.56s/it][A
Training...:  91% 2366/2609 [2:15:38<17:54,  4.42s/it][A
Training...:  91% 2367/2609 [2:15:43<17:26,  4.32s/it][A
Training...:  91% 2368/2609 [2:15:46<16:46,  4.18s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:26:30<28:07:54, 9206.81s/it]
Training...:  91% 2368/2609 [2:15:51<16:46,  4.18s/it][A
Training...:  91% 2369/2609 [2:15:51<16:56,  4.24s/it][A
Training...:  91% 2370/2609 [2:15:54<16:10,  4.06s/it][A
Training...:  91% 2371/2609 [2:15:58<15:29,  3.90s/it][A
Training...:  91% 2372/2609 [2:16:01<14:52,  3.77s/it][A
Training...:  91% 2373/2609 [2:16:05<14:19,  3.64s/it][A
Training...:  91% 2374/2609 [2:16:08<13:47,  3.52s/it][A
Training...:  91% 2375/2609 [2:16:11<13:22,  3.43s/it][A
Training...:  91% 2376/2609 [2:16:14<12:53,  3.32s/it][A
Training...:  91% 2377/2609 [2:16:17<12:31,  3.24s/it][A
Training...:  91% 2378/2609 [2:16:20<12:05,  3.14s/it][A
Training...:  91% 2379/2609 [2:16:23<11:45,  3.07s/it][A
Training...:  91% 2380/2609 [2:16:26<11:21,  2.98s/it][A
Training...:  91% 2381/2609 [2:16:29<10:58,  2.89s/it][A
Training...:  91% 2382/2609 [2:16:31<10:32,  2.79s/it][A
Training...:  91% 2383/2609 [2:16:34<10:10,  2.70s/it][A
Training...:  91% 2384/2609 [2:16:36<09:47,  2.61s/it][A
Training...:  91% 2385/2609 [2:16:38<09:29,  2.54s/it][A
Training...:  91% 2386/2609 [2:16:41<09:11,  2.47s/it][A
Training...:  91% 2387/2609 [2:16:43<08:51,  2.39s/it][A
Training...:  92% 2388/2609 [2:16:45<08:29,  2.30s/it][A
Training...:  92% 2389/2609 [2:16:47<08:06,  2.21s/it][A
Training...:  92% 2390/2609 [2:16:49<07:43,  2.12s/it][A
Training...:  92% 2391/2609 [2:16:51<07:23,  2.04s/it][A
Training...:  92% 2392/2609 [2:16:52<07:03,  1.95s/it][A
Training...:  92% 2393/2609 [2:16:54<06:43,  1.87s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:27:35<28:07:54, 9206.81s/it]
Training...:  92% 2393/2609 [2:16:56<06:43,  1.87s/it][A
Training...:  92% 2394/2609 [2:16:56<06:41,  1.87s/it][A
Training...:  92% 2395/2609 [2:16:57<06:11,  1.74s/it][A
Training...:  92% 2396/2609 [2:16:59<05:41,  1.60s/it][A
Training...:  92% 2397/2609 [2:17:00<05:13,  1.48s/it][A
Training...:  92% 2398/2609 [2:17:01<04:41,  1.34s/it][A
Training...:  92% 2399/2609 [2:17:02<04:06,  1.17s/it][A
Training...:  92% 2400/2609 [2:17:02<03:26,  1.01it/s][A
Training...:  92% 2401/2609 [2:17:09<09:49,  2.83s/it][A
Training...:  92% 2402/2609 [2:17:16<14:05,  4.08s/it][A
Training...:  92% 2403/2609 [2:17:23<16:51,  4.91s/it][A
Training...:  92% 2404/2609 [2:17:30<18:26,  5.40s/it][A
Training...:  92% 2405/2609 [2:17:36<18:56,  5.57s/it][A
Training...:  92% 2406/2609 [2:17:41<18:54,  5.59s/it][A
Training...:  92% 2407/2609 [2:17:47<18:43,  5.56s/it][A
Training...:  92% 2408/2609 [2:17:52<18:20,  5.47s/it][A
Training...:  92% 2409/2609 [2:17:57<17:51,  5.36s/it][A
Training...:  92% 2410/2609 [2:18:02<17:19,  5.22s/it][A
Training...:  92% 2411/2609 [2:18:07<16:48,  5.09s/it][A
Training...:  92% 2412/2609 [2:18:12<16:16,  4.96s/it][A
Training...:  92% 2413/2609 [2:18:16<15:48,  4.84s/it][A
Training...:  93% 2414/2609 [2:18:21<15:18,  4.71s/it][A
Training...:  93% 2415/2609 [2:18:25<14:47,  4.57s/it][A
Training...:  93% 2416/2609 [2:18:29<14:18,  4.45s/it][A
Training...:  93% 2417/2609 [2:18:33<13:59,  4.37s/it][A
Training...:  93% 2418/2609 [2:18:37<13:29,  4.24s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:29:21<28:07:54, 9206.81s/it]
Training...:  93% 2418/2609 [2:18:42<13:29,  4.24s/it][A
Training...:  93% 2419/2609 [2:18:42<13:41,  4.32s/it][A
Training...:  93% 2420/2609 [2:18:45<13:03,  4.14s/it][A
Training...:  93% 2421/2609 [2:18:49<12:32,  4.00s/it][A
Training...:  93% 2422/2609 [2:18:53<12:05,  3.88s/it][A
Training...:  93% 2423/2609 [2:18:56<11:47,  3.81s/it][A
Training...:  93% 2424/2609 [2:19:00<11:18,  3.67s/it][A
Training...:  93% 2425/2609 [2:19:03<10:55,  3.56s/it][A
Training...:  93% 2426/2609 [2:19:06<10:31,  3.45s/it][A
Training...:  93% 2427/2609 [2:19:09<10:13,  3.37s/it][A
Training...:  93% 2428/2609 [2:19:12<09:51,  3.27s/it][A
Training...:  93% 2429/2609 [2:19:15<09:29,  3.16s/it][A
Training...:  93% 2430/2609 [2:19:18<09:07,  3.06s/it][A
Training...:  93% 2431/2609 [2:19:21<08:50,  2.98s/it][A
Training...:  93% 2432/2609 [2:19:24<08:30,  2.88s/it][A
Training...:  93% 2433/2609 [2:19:26<08:11,  2.79s/it][A
Training...:  93% 2434/2609 [2:19:29<07:53,  2.71s/it][A
Training...:  93% 2435/2609 [2:19:31<07:36,  2.62s/it][A
Training...:  93% 2436/2609 [2:19:33<07:19,  2.54s/it][A
Training...:  93% 2437/2609 [2:19:36<07:03,  2.46s/it][A
Training...:  93% 2438/2609 [2:19:38<06:45,  2.37s/it][A
Training...:  93% 2439/2609 [2:19:40<06:30,  2.30s/it][A
Training...:  94% 2440/2609 [2:19:42<06:14,  2.21s/it][A
Training...:  94% 2441/2609 [2:19:44<05:55,  2.11s/it][A
Training...:  94% 2442/2609 [2:19:46<05:37,  2.02s/it][A
Training...:  94% 2443/2609 [2:19:47<05:19,  1.93s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:30:28<28:07:54, 9206.81s/it]
Training...:  94% 2443/2609 [2:19:49<05:19,  1.93s/it][A
Training...:  94% 2444/2609 [2:19:49<05:16,  1.92s/it][A
Training...:  94% 2445/2609 [2:19:51<04:53,  1.79s/it][A
Training...:  94% 2446/2609 [2:19:52<04:28,  1.65s/it][A
Training...:  94% 2447/2609 [2:19:53<04:03,  1.50s/it][A
Training...:  94% 2448/2609 [2:19:54<03:36,  1.35s/it][A
Training...:  94% 2449/2609 [2:19:55<03:10,  1.19s/it][A
Training...:  94% 2450/2609 [2:19:56<02:39,  1.00s/it][A
Training...:  94% 2451/2609 [2:20:03<07:27,  2.83s/it][A
Training...:  94% 2452/2609 [2:20:10<10:38,  4.06s/it][A
Training...:  94% 2453/2609 [2:20:16<12:29,  4.80s/it][A
Training...:  94% 2454/2609 [2:20:22<13:27,  5.21s/it][A
Training...:  94% 2455/2609 [2:20:28<13:56,  5.43s/it][A
Training...:  94% 2456/2609 [2:20:34<14:14,  5.59s/it][A
Training...:  94% 2457/2609 [2:20:40<14:09,  5.59s/it][A
Training...:  94% 2458/2609 [2:20:45<13:45,  5.47s/it][A
Training...:  94% 2459/2609 [2:20:50<13:20,  5.34s/it][A
Training...:  94% 2460/2609 [2:20:55<12:50,  5.17s/it][A
Training...:  94% 2461/2609 [2:21:00<12:27,  5.05s/it][A
Training...:  94% 2462/2609 [2:21:04<12:00,  4.90s/it][A
Training...:  94% 2463/2609 [2:21:09<11:38,  4.79s/it][A
Training...:  94% 2464/2609 [2:21:13<11:12,  4.64s/it][A
Training...:  94% 2465/2609 [2:21:17<10:51,  4.52s/it][A
Training...:  95% 2466/2609 [2:21:21<10:27,  4.39s/it][A
Training...:  95% 2467/2609 [2:21:25<10:06,  4.27s/it][A
Training...:  95% 2468/2609 [2:21:29<09:44,  4.15s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:32:12<28:07:54, 9206.81s/it]
Training...:  95% 2468/2609 [2:21:33<09:44,  4.15s/it][A
Training...:  95% 2469/2609 [2:21:33<09:48,  4.21s/it][A
Training...:  95% 2470/2609 [2:21:37<09:23,  4.05s/it][A
Training...:  95% 2471/2609 [2:21:41<09:01,  3.92s/it][A
Training...:  95% 2472/2609 [2:21:44<08:39,  3.79s/it][A
Training...:  95% 2473/2609 [2:21:48<08:20,  3.68s/it][A
Training...:  95% 2474/2609 [2:21:51<08:02,  3.57s/it][A
Training...:  95% 2475/2609 [2:21:54<07:45,  3.48s/it][A
Training...:  95% 2476/2609 [2:21:57<07:28,  3.37s/it][A
Training...:  95% 2477/2609 [2:22:00<07:13,  3.28s/it][A
Training...:  95% 2478/2609 [2:22:03<06:58,  3.19s/it][A
Training...:  95% 2479/2609 [2:22:06<06:43,  3.10s/it][A
Training...:  95% 2480/2609 [2:22:09<06:29,  3.02s/it][A
Training...:  95% 2481/2609 [2:22:12<06:15,  2.93s/it][A
Training...:  95% 2482/2609 [2:22:15<06:03,  2.86s/it][A
Training...:  95% 2483/2609 [2:22:17<05:52,  2.80s/it][A
Training...:  95% 2484/2609 [2:22:20<05:38,  2.71s/it][A
Training...:  95% 2485/2609 [2:22:22<05:23,  2.61s/it][A
Training...:  95% 2486/2609 [2:22:24<05:09,  2.52s/it][A
Training...:  95% 2487/2609 [2:22:27<04:55,  2.42s/it][A
Training...:  95% 2488/2609 [2:22:29<04:41,  2.33s/it][A
Training...:  95% 2489/2609 [2:22:31<04:27,  2.23s/it][A
Training...:  95% 2490/2609 [2:22:33<04:13,  2.13s/it][A
Training...:  95% 2491/2609 [2:22:34<03:59,  2.03s/it][A
Training...:  96% 2492/2609 [2:22:36<03:47,  1.94s/it][A
Training...:  96% 2493/2609 [2:22:38<03:34,  1.85s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:33:18<28:07:54, 9206.81s/it]
Training...:  96% 2493/2609 [2:22:40<03:34,  1.85s/it][A
Training...:  96% 2494/2609 [2:22:40<03:32,  1.85s/it][A
Training...:  96% 2495/2609 [2:22:41<03:15,  1.71s/it][A
Training...:  96% 2496/2609 [2:22:42<02:59,  1.58s/it][A
Training...:  96% 2497/2609 [2:22:43<02:42,  1.45s/it][A
Training...:  96% 2498/2609 [2:22:44<02:24,  1.30s/it][A
Training...:  96% 2499/2609 [2:22:45<02:06,  1.15s/it][A
Training...:  96% 2500/2609 [2:22:46<01:45,  1.03it/s][A
Training...:  96% 2501/2609 [2:22:53<05:04,  2.82s/it][A
Training...:  96% 2502/2609 [2:23:00<07:15,  4.07s/it][A
Training...:  96% 2503/2609 [2:23:06<08:30,  4.82s/it][A
Training...:  96% 2504/2609 [2:23:13<09:07,  5.22s/it][A
Training...:  96% 2505/2609 [2:23:18<09:23,  5.41s/it][A
Training...:  96% 2506/2609 [2:23:24<09:23,  5.47s/it][A
Training...:  96% 2507/2609 [2:23:30<09:20,  5.49s/it][A
Training...:  96% 2508/2609 [2:23:35<09:06,  5.41s/it][A
Training...:  96% 2509/2609 [2:23:40<08:54,  5.34s/it][A
Training...:  96% 2510/2609 [2:23:45<08:36,  5.22s/it][A
Training...:  96% 2511/2609 [2:23:50<08:19,  5.10s/it][A
Training...:  96% 2512/2609 [2:23:54<07:59,  4.95s/it][A
Training...:  96% 2513/2609 [2:23:59<07:43,  4.83s/it][A
Training...:  96% 2514/2609 [2:24:03<07:24,  4.68s/it][A
Training...:  96% 2515/2609 [2:24:07<07:08,  4.56s/it][A
Training...:  96% 2516/2609 [2:24:12<06:51,  4.42s/it][A
Training...:  96% 2517/2609 [2:24:16<06:39,  4.34s/it][A
Training...:  97% 2518/2609 [2:24:20<06:27,  4.25s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:35:03<28:07:54, 9206.81s/it]
Training...:  97% 2518/2609 [2:24:24<06:27,  4.25s/it][A
Training...:  97% 2519/2609 [2:24:24<06:28,  4.31s/it][A
Training...:  97% 2520/2609 [2:24:28<06:07,  4.13s/it][A
Training...:  97% 2521/2609 [2:24:32<05:50,  3.98s/it][A
Training...:  97% 2522/2609 [2:24:35<05:35,  3.85s/it][A
Training...:  97% 2523/2609 [2:24:39<05:20,  3.73s/it][A
Training...:  97% 2524/2609 [2:24:42<05:06,  3.60s/it][A
Training...:  97% 2525/2609 [2:24:45<04:54,  3.50s/it][A
Training...:  97% 2526/2609 [2:24:48<04:43,  3.41s/it][A
Training...:  97% 2527/2609 [2:24:51<04:32,  3.32s/it][A
Training...:  97% 2528/2609 [2:24:54<04:20,  3.21s/it][A
Training...:  97% 2529/2609 [2:24:57<04:11,  3.14s/it][A
Training...:  97% 2530/2609 [2:25:00<04:01,  3.05s/it][A
Training...:  97% 2531/2609 [2:25:03<03:52,  2.98s/it][A
Training...:  97% 2532/2609 [2:25:06<03:43,  2.90s/it][A
Training...:  97% 2533/2609 [2:25:08<03:33,  2.81s/it][A
Training...:  97% 2534/2609 [2:25:11<03:24,  2.72s/it][A
Training...:  97% 2535/2609 [2:25:13<03:15,  2.64s/it][A
Training...:  97% 2536/2609 [2:25:16<03:05,  2.54s/it][A
Training...:  97% 2537/2609 [2:25:18<02:56,  2.45s/it][A
Training...:  97% 2538/2609 [2:25:20<02:47,  2.35s/it][A
Training...:  97% 2539/2609 [2:25:22<02:38,  2.26s/it][A
Training...:  97% 2540/2609 [2:25:24<02:29,  2.17s/it][A
Training...:  97% 2541/2609 [2:25:26<02:20,  2.06s/it][A
Training...:  97% 2542/2609 [2:25:28<02:11,  1.96s/it][A
Training...:  97% 2543/2609 [2:25:29<02:03,  1.87s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:36:10<28:07:54, 9206.81s/it]
Training...:  97% 2543/2609 [2:25:31<02:03,  1.87s/it][A
Training...:  98% 2544/2609 [2:25:31<02:01,  1.87s/it][A
Training...:  98% 2545/2609 [2:25:32<01:51,  1.74s/it][A
Training...:  98% 2546/2609 [2:25:34<01:40,  1.60s/it][A
Training...:  98% 2547/2609 [2:25:35<01:31,  1.47s/it][A
Training...:  98% 2548/2609 [2:25:36<01:21,  1.33s/it][A
Training...:  98% 2549/2609 [2:25:37<01:10,  1.18s/it][A
Training...:  98% 2550/2609 [2:25:37<00:58,  1.02it/s][A
Training...:  98% 2551/2609 [2:25:44<02:42,  2.81s/it][A
Training...:  98% 2552/2609 [2:25:51<03:52,  4.07s/it][A
Training...:  98% 2553/2609 [2:25:58<04:30,  4.82s/it][A
Training...:  98% 2554/2609 [2:26:04<04:47,  5.23s/it][A
Training...:  98% 2555/2609 [2:26:10<04:53,  5.43s/it][A
Training...:  98% 2556/2609 [2:26:16<04:52,  5.52s/it][A
Training...:  98% 2557/2609 [2:26:21<04:49,  5.57s/it][A
Training...:  98% 2558/2609 [2:26:27<04:43,  5.55s/it][A
Training...:  98% 2559/2609 [2:26:32<04:31,  5.43s/it][A
Training...:  98% 2560/2609 [2:26:37<04:18,  5.28s/it][A
Training...:  98% 2561/2609 [2:26:42<04:06,  5.14s/it][A
Training...:  98% 2562/2609 [2:26:46<03:54,  4.99s/it][A
Training...:  98% 2563/2609 [2:26:51<03:44,  4.88s/it][A
Training...:  98% 2564/2609 [2:26:55<03:32,  4.73s/it][A
Training...:  98% 2565/2609 [2:27:00<03:22,  4.59s/it][A
Training...:  98% 2566/2609 [2:27:04<03:11,  4.45s/it][A
Training...:  98% 2567/2609 [2:27:08<03:02,  4.34s/it][A
Training...:  98% 2568/2609 [2:27:12<02:53,  4.22s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:37:55<28:07:54, 9206.81s/it]
Training...:  98% 2568/2609 [2:27:16<02:53,  4.22s/it][A
Training...:  98% 2569/2609 [2:27:16<02:52,  4.31s/it][A
Training...:  99% 2570/2609 [2:27:20<02:41,  4.13s/it][A
Training...:  99% 2571/2609 [2:27:24<02:31,  3.99s/it][A
Training...:  99% 2572/2609 [2:27:27<02:22,  3.84s/it][A
Training...:  99% 2573/2609 [2:27:31<02:14,  3.73s/it][A
Training...:  99% 2574/2609 [2:27:34<02:06,  3.61s/it][A
Training...:  99% 2575/2609 [2:27:37<01:59,  3.50s/it][A
Training...:  99% 2576/2609 [2:27:41<01:52,  3.40s/it][A
Training...:  99% 2577/2609 [2:27:44<01:45,  3.31s/it][A
Training...:  99% 2578/2609 [2:27:47<01:39,  3.20s/it][A
Training...:  99% 2579/2609 [2:27:49<01:33,  3.11s/it][A
Training...:  99% 2580/2609 [2:27:52<01:27,  3.02s/it][A
Training...:  99% 2581/2609 [2:27:55<01:22,  2.94s/it][A
Training...:  99% 2582/2609 [2:27:58<01:16,  2.85s/it][A
Training...:  99% 2583/2609 [2:28:00<01:12,  2.77s/it][A
Training...:  99% 2584/2609 [2:28:03<01:06,  2.68s/it][A
Training...:  99% 2585/2609 [2:28:05<01:02,  2.59s/it][A
Training...:  99% 2586/2609 [2:28:07<00:57,  2.52s/it][A
Training...:  99% 2587/2609 [2:28:10<00:53,  2.43s/it][A
Training...:  99% 2588/2609 [2:28:12<00:48,  2.33s/it][A
Training...:  99% 2589/2609 [2:28:14<00:44,  2.25s/it][A
Training...:  99% 2590/2609 [2:28:16<00:40,  2.16s/it][A
Training...:  99% 2591/2609 [2:28:18<00:37,  2.07s/it][A
Training...:  99% 2592/2609 [2:28:19<00:33,  1.98s/it][A
Training...:  99% 2593/2609 [2:28:21<00:30,  1.89s/it][A                                                                                                                                                                  
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  45% 9/20 [25:39:02<28:07:54, 9206.81s/it]
Training...:  99% 2593/2609 [2:28:23<00:30,  1.89s/it][A
Training...:  99% 2594/2609 [2:28:23<00:28,  1.88s/it][A
Training...:  99% 2595/2609 [2:28:24<00:24,  1.75s/it][A
Training...: 100% 2596/2609 [2:28:26<00:20,  1.61s/it][A
Training...: 100% 2597/2609 [2:28:27<00:17,  1.47s/it][A
Training...: 100% 2598/2609 [2:28:28<00:14,  1.33s/it][A
Training...: 100% 2599/2609 [2:28:29<00:11,  1.17s/it][A
Training...: 100% 2600/2609 [2:28:29<00:08,  1.01it/s][A
Training...: 100% 2601/2609 [2:28:36<00:21,  2.67s/it][A
Training...: 100% 2602/2609 [2:28:41<00:24,  3.52s/it][A
Training...: 100% 2603/2609 [2:28:46<00:23,  3.87s/it][A
Training...: 100% 2604/2609 [2:28:50<00:19,  3.92s/it][A
Training...: 100% 2605/2609 [2:28:53<00:15,  3.78s/it][A
Training...: 100% 2606/2609 [2:28:56<00:10,  3.53s/it][A
Training...: 100% 2607/2609 [2:28:59<00:06,  3.23s/it][A
Training...: 100% 2608/2609 [2:29:01<00:02,  2.89s/it][A
Training...: 100% 2609/2609 [2:29:03<00:00,  2.49s/it][ATraining...: 100% 2609/2609 [2:29:03<00:00,  3.43s/it]
Step... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [25:39:41<25:20:58, 9125.80s/it]Step... (25225 | Loss: 0.043089527636766434, Learning Rate: 5.005252387491055e-05, Gradient Norm: 0.9990555047988892)
Step... (25250 | Loss: 0.04386145994067192, Learning Rate: 5.0002017815131694e-05, Gradient Norm: 0.9225373864173889)
Step... (25275 | Loss: 0.02643551491200924, Learning Rate: 4.995151539333165e-05, Gradient Norm: 0.7123693823814392)
Step... (25300 | Loss: 0.04341704770922661, Learning Rate: 4.9901005695573986e-05, Gradient Norm: 0.4753371775150299)
Step... (25325 | Loss: 0.01590672880411148, Learning Rate: 4.985050327377394e-05, Gradient Norm: 0.5927349925041199)
Step... (25350 | Loss: 0.11168953776359558, Learning Rate: 4.980000085197389e-05, Gradient Norm: 0.9133867621421814)
Step... (25375 | Loss: 0.05331034958362579, Learning Rate: 4.974949115421623e-05, Gradient Norm: 0.9575597643852234)
Step... (25400 | Loss: 0.056944601237773895, Learning Rate: 4.969898873241618e-05, Gradient Norm: 0.6132839322090149)
Step... (25425 | Loss: 0.024155505001544952, Learning Rate: 4.9648486310616136e-05, Gradient Norm: 0.5926832556724548)
Step... (25450 | Loss: 0.05956168472766876, Learning Rate: 4.9597976612858474e-05, Gradient Norm: 0.7651646137237549)
Step... (25475 | Loss: 0.023126335814595222, Learning Rate: 4.954747419105843e-05, Gradient Norm: 0.5416886210441589)
Step... (25500 | Loss: 0.039899375289678574, Learning Rate: 4.949697176925838e-05, Gradient Norm: 0.6225645542144775)
Step... (25525 | Loss: 0.025391509756445885, Learning Rate: 4.944646207150072e-05, Gradient Norm: 0.64057856798172)
Step... (25550 | Loss: 0.026975419372320175, Learning Rate: 4.939595964970067e-05, Gradient Norm: 0.4424174427986145)
Step... (25575 | Loss: 0.037820134311914444, Learning Rate: 4.9345457227900624e-05, Gradient Norm: 0.7296574711799622)
Step... (25600 | Loss: 0.04086103290319443, Learning Rate: 4.929494753014296e-05, Gradient Norm: 0.4835807681083679)
Step... (25625 | Loss: 0.016330495476722717, Learning Rate: 4.9244445108342916e-05, Gradient Norm: 0.6639712452888489)
Step... (25650 | Loss: 0.02861635759472847, Learning Rate: 4.919394268654287e-05, Gradient Norm: 0.5457454323768616)
Step... (25675 | Loss: 0.02299381047487259, Learning Rate: 4.914343298878521e-05, Gradient Norm: 0.49527227878570557)
Step... (25700 | Loss: 0.0474751815199852, Learning Rate: 4.909293056698516e-05, Gradient Norm: 0.8664931058883667)
Step... (25725 | Loss: 0.015273903496563435, Learning Rate: 4.90424208692275e-05, Gradient Norm: 0.4051102101802826)
Step... (25750 | Loss: 0.040312930941581726, Learning Rate: 4.899191844742745e-05, Gradient Norm: 0.5548062920570374)
Step... (25775 | Loss: 0.024740293622016907, Learning Rate: 4.8941416025627404e-05, Gradient Norm: 0.49779462814331055)
Step... (25800 | Loss: 0.059162091463804245, Learning Rate: 4.889090632786974e-05, Gradient Norm: 0.554720938205719)
Step... (25825 | Loss: 0.03422016650438309, Learning Rate: 4.8840403906069696e-05, Gradient Norm: 1.0356727838516235)
Step... (25850 | Loss: 0.05667005851864815, Learning Rate: 4.878989784629084e-05, Gradient Norm: 0.5595343708992004)
Step... (25875 | Loss: 0.040819503366947174, Learning Rate: 4.873939178651199e-05, Gradient Norm: 0.8034018278121948)
Step... (25900 | Loss: 0.053526777774095535, Learning Rate: 4.868888572673313e-05, Gradient Norm: 0.6865339875221252)
Step... (25925 | Loss: 0.018858687952160835, Learning Rate: 4.8638383304933086e-05, Gradient Norm: 0.565175473690033)
Step... (25950 | Loss: 0.042271409183740616, Learning Rate: 4.8587873607175425e-05, Gradient Norm: 0.6057544946670532)
Step... (25975 | Loss: 0.058105532079935074, Learning Rate: 4.853737118537538e-05, Gradient Norm: 1.07001793384552)
Step... (26000 | Loss: 0.032637547701597214, Learning Rate: 4.848686876357533e-05, Gradient Norm: 0.6786144971847534)
Step... (26025 | Loss: 0.04313516616821289, Learning Rate: 4.843635906581767e-05, Gradient Norm: 0.9872771501541138)
Step... (26050 | Loss: 0.035160377621650696, Learning Rate: 4.838585664401762e-05, Gradient Norm: 0.4596474766731262)
Step... (26075 | Loss: 0.031464628875255585, Learning Rate:
Training...:   0% 0/2609 [00:00<?, ?it/s][A 4.8335354222217575e-05, Gradient Norm: 0.7845022082328796)

Training...:   0% 1/2609 [00:07<5:18:20,  7.32s/it][A
Training...:   0% 2/2609 [00:14<5:11:34,  7.17s/it][A
Training...:   0% 3/2609 [00:20<4:57:21,  6.85s/it][A
Training...:   0% 4/2609 [00:27<4:45:26,  6.57s/it][A
Training...:   0% 5/2609 [00:32<4:34:22,  6.32s/it][A
Training...:   0% 6/2609 [00:38<4:23:21,  6.07s/it][A
Training...:   0% 7/2609 [00:43<4:13:15,  5.84s/it][A
Training...:   0% 8/2609 [00:48<4:03:22,  5.61s/it][A
Training...:   0% 9/2609 [00:53<3:55:01,  5.42s/it][A                                                                                                                                                                   
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [25:40:42<25:20:58, 9125.80s/it]
Training...:   0% 9/2609 [00:59<3:55:01,  5.42s/it][A
Training...:   0% 10/2609 [00:59<3:56:34,  5.46s/it][A
Training...:   0% 11/2609 [01:04<3:47:16,  5.25s/it][A
Training...:   0% 12/2609 [01:08<3:38:27,  5.05s/it][A
Training...:   0% 13/2609 [01:13<3:30:26,  4.86s/it][A
Training...:   1% 14/2609 [01:17<3:23:30,  4.71s/it][A
Training...:   1% 15/2609 [01:21<3:17:10,  4.56s/it][A
Training...:   1% 16/2609 [01:25<3:10:44,  4.41s/it][A
Training...:   1% 17/2609 [01:29<3:04:52,  4.28s/it][A
Training...:   1% 18/2609 [01:33<2:58:47,  4.14s/it][A
Training...:   1% 19/2609 [01:37<2:53:21,  4.02s/it][A
Training...:   1% 20/2609 [01:41<2:48:25,  3.90s/it][A
Training...:   1% 21/2609 [01:44<2:43:39,  3.79s/it][A
Training...:   1% 22/2609 [01:48<2:38:08,  3.67s/it][A
Training...:   1% 23/2609 [01:51<2:32:57,  3.55s/it][A
Training...:   1% 24/2609 [01:54<2:28:11,  3.44s/it][A
Training...:   1% 25/2609 [01:57<2:24:15,  3.35s/it][A
Training...:   1% 26/2609 [02:00<2:20:57,  3.27s/it][A
Training...:   1% 27/2609 [02:03<2:18:22,  3.22s/it][A
Training...:   1% 28/2609 [02:06<2:15:05,  3.14s/it][A
Training...:   1% 29/2609 [02:09<2:11:08,  3.05s/it][A
Training...:   1% 30/2609 [02:12<2:07:42,  2.97s/it][A
Training...:   1% 31/2609 [02:15<2:03:33,  2.88s/it][A
Training...:   1% 32/2609 [02:17<2:00:32,  2.81s/it][A
Training...:   1% 33/2609 [02:20<1:56:22,  2.71s/it][A
Training...:   1% 34/2609 [02:22<1:52:53,  2.63s/it][A                                                                                                                                                                   
                                                    [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [25:42:08<25:20:58, 9125.80s/it]
Training...:   1% 34/2609 [02:25<1:52:53,  2.63s/it][A
Training...:   1% 35/2609 [02:25<1:55:18,  2.69s/it][A
Training...:   1% 36/2609 [02:27<1:50:34,  2.58s/it][A
Training...:   1% 37/2609 [02:29<1:46:06,  2.48s/it][A
Training...:   1% 38/2609 [02:32<1:41:11,  2.36s/it][A
Training...:   1% 39/2609 [02:34<1:36:40,  2.26s/it][A
Training...:   2% 40/2609 [02:36<1:33:14,  2.18s/it][A
Training...:   2% 41/2609 [02:37<1:29:14,  2.09s/it][A
Training...:   2% 42/2609 [02:39<1:25:00,  1.99s/it][A
Training...:   2% 43/2609 [02:41<1:20:51,  1.89s/it][A
Training...:   2% 44/2609 [02:42<1:16:30,  1.79s/it][A
Training...:   2% 45/2609 [02:44<1:11:13,  1.67s/it][A
Training...:   2% 46/2609 [02:45<1:06:24,  1.55s/it][A
Training...:   2% 47/2609 [02:46<1:01:08,  1.43s/it][A
Training...:   2% 48/2609 [02:47<55:04,  1.29s/it]  [A
Training...:   2% 49/2609 [02:48<48:22,  1.13s/it][A
Training...:   2% 50/2609 [02:49<40:59,  1.04it/s][A
Training...:   2% 51/2609 [02:56<1:59:49,  2.81s/it][A
Training...:   2% 52/2609 [03:03<2:53:36,  4.07s/it][A
Training...:   2% 53/2609 [03:09<3:25:11,  4.82s/it][A
Training...:   2% 54/2609 [03:15<3:42:38,  5.23s/it][A
Training...:   2% 55/2609 [03:21<3:53:11,  5.48s/it][A
Training...:   2% 56/2609 [03:27<3:55:08,  5.53s/it][A
Training...:   2% 57/2609 [03:33<3:54:48,  5.52s/it][A
Training...:   2% 58/2609 [03:38<3:51:54,  5.45s/it][A
Training...:   2% 59/2609 [03:43<3:48:34,  5.38s/it][A                                                                                                                                                                   
                                                    [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [25:43:32<25:20:58, 9125.80s/it]
Training...:   2% 59/2609 [03:49<3:48:34,  5.38s/it][A
Training...:   2% 60/2609 [03:49<3:53:18,  5.49s/it][A
Training...:   2% 61/2609 [03:54<3:46:49,  5.34s/it][A
Training...:   2% 62/2609 [03:59<3:41:02,  5.21s/it][A
Training...:   2% 63/2609 [04:03<3:33:07,  5.02s/it][A
Training...:   2% 64/2609 [04:08<3:24:38,  4.82s/it][A
Training...:   2% 65/2609 [04:12<3:17:46,  4.66s/it][A
Training...:   3% 66/2609 [04:16<3:10:31,  4.50s/it][A
Training...:   3% 67/2609 [04:20<3:04:25,  4.35s/it][A
Training...:   3% 68/2609 [04:24<2:58:41,  4.22s/it][A
Training...:   3% 69/2609 [04:28<2:53:32,  4.10s/it][A
Training...:   3% 70/2609 [04:32<2:48:32,  3.98s/it][A
Training...:   3% 71/2609 [04:35<2:44:14,  3.88s/it][A
Training...:   3% 72/2609 [04:39<2:39:35,  3.77s/it][A
Training...:   3% 73/2609 [04:42<2:35:54,  3.69s/it][A
Training...:   3% 74/2609 [04:46<2:31:34,  3.59s/it][A
Training...:   3% 75/2609 [04:49<2:28:45,  3.52s/it][A
Training...:   3% 76/2609 [04:52<2:24:10,  3.42s/it][A
Training...:   3% 77/2609 [04:55<2:19:35,  3.31s/it][A
Training...:   3% 78/2609 [04:58<2:15:28,  3.21s/it][A
Training...:   3% 79/2609 [05:01<2:11:41,  3.12s/it][A
Training...:   3% 80/2609 [05:04<2:07:38,  3.03s/it][A
Training...:   3% 81/2609 [05:07<2:04:07,  2.95s/it][A
Training...:   3% 82/2609 [05:09<1:59:59,  2.85s/it][A
Training...:   3% 83/2609 [05:12<1:56:01,  2.76s/it][A
Training...:   3% 84/2609 [05:14<1:52:35,  2.68s/it][A                                                                                                                                                                   
                                                    [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [25:45:00<25:20:58, 9125.80s/it]
Training...:   3% 84/2609 [05:17<1:52:35,  2.68s/it][A
Training...:   3% 85/2609 [05:17<1:54:28,  2.72s/it][A
Training...:   3% 86/2609 [05:19<1:49:34,  2.61s/it][A
Training...:   3% 87/2609 [05:22<1:44:32,  2.49s/it][A
Training...:   3% 88/2609 [05:24<1:40:08,  2.38s/it][A
Training...:   3% 89/2609 [05:26<1:35:55,  2.28s/it][A
Training...:   3% 90/2609 [05:28<1:31:39,  2.18s/it][A
Training...:   3% 91/2609 [05:30<1:27:27,  2.08s/it][A
Training...:   4% 92/2609 [05:31<1:23:23,  1.99s/it][A
Training...:   4% 93/2609 [05:33<1:19:33,  1.90s/it][A
Training...:   4% 94/2609 [05:35<1:15:30,  1.80s/it][A
Training...:   4% 95/2609 [05:36<1:11:18,  1.70s/it][A
Training...:   4% 96/2609 [05:38<1:06:57,  1.60s/it][A
Training...:   4% 97/2609 [05:39<1:02:00,  1.48s/it][A
Training...:   4% 98/2609 [05:40<56:18,  1.35s/it]  [A
Training...:   4% 99/2609 [05:41<49:57,  1.19s/it][A
Training...:   4% 100/2609 [05:41<42:27,  1.02s/it][A
Training...:   4% 101/2609 [05:48<1:58:17,  2.83s/it][A
Training...:   4% 102/2609 [05:55<2:50:24,  4.08s/it][A
Training...:   4% 103/2609 [06:02<3:20:57,  4.81s/it][A
Training...:   4% 104/2609 [06:08<3:40:32,  5.28s/it][A
Training...:   4% 105/2609 [06:14<3:51:55,  5.56s/it][A
Training...:   4% 106/2609 [06:20<3:53:32,  5.60s/it][A
Training...:   4% 107/2609 [06:26<3:52:21,  5.57s/it][A
Training...:   4% 108/2609 [06:31<3:47:26,  5.46s/it][A
Training...:   4% 109/2609 [06:36<3:43:18,  5.36s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [25:46:25<25:20:58, 9125.80s/it]
Training...:   4% 109/2609 [06:42<3:43:18,  5.36s/it][A
Training...:   4% 110/2609 [06:42<3:48:56,  5.50s/it][A
Training...:   4% 111/2609 [06:47<3:40:47,  5.30s/it][A
Training...:   4% 112/2609 [06:51<3:32:25,  5.10s/it][A
Training...:   4% 113/2609 [06:56<3:25:43,  4.95s/it][A
Training...:   4% 114/2609 [07:00<3:18:55,  4.78s/it][A
Training...:   4% 115/2609 [07:04<3:13:03,  4.64s/it][A
Training...:   4% 116/2609 [07:09<3:06:31,  4.49s/it][A
Training...:   4% 117/2609 [07:13<3:01:53,  4.38s/it][A
Training...:   5% 118/2609 [07:17<2:56:10,  4.24s/it][A
Training...:   5% 119/2609 [07:21<2:51:40,  4.14s/it][A
Training...:   5% 120/2609 [07:24<2:46:48,  4.02s/it][A
Training...:   5% 121/2609 [07:28<2:42:17,  3.91s/it][A
Training...:   5% 122/2609 [07:32<2:37:43,  3.81s/it][A
Training...:   5% 123/2609 [07:35<2:33:46,  3.71s/it][A
Training...:   5% 124/2609 [07:38<2:29:07,  3.60s/it][A
Training...:   5% 125/2609 [07:42<2:24:56,  3.50s/it][A
Training...:   5% 126/2609 [07:45<2:21:04,  3.41s/it][A
Training...:   5% 127/2609 [07:48<2:17:34,  3.33s/it][A
Training...:   5% 128/2609 [07:51<2:14:38,  3.26s/it][A
Training...:   5% 129/2609 [07:54<2:11:19,  3.18s/it][A
Training...:   5% 130/2609 [07:57<2:07:11,  3.08s/it][A
Training...:   5% 131/2609 [08:00<2:04:35,  3.02s/it][A
Training...:   5% 132/2609 [08:02<2:00:33,  2.92s/it][A
Training...:   5% 133/2609 [08:05<1:56:19,  2.82s/it][A
Training...:   5% 134/2609 [08:08<1:52:11,  2.72s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [25:47:54<25:20:58, 9125.80s/it]
Training...:   5% 134/2609 [08:10<1:52:11,  2.72s/it][A
Training...:   5% 135/2609 [08:10<1:53:50,  2.76s/it][A
Training...:   5% 136/2609 [08:13<1:48:01,  2.62s/it][A
Training...:   5% 137/2609 [08:15<1:43:08,  2.50s/it][A
Training...:   5% 138/2609 [08:17<1:38:08,  2.38s/it][A
Training...:   5% 139/2609 [08:19<1:33:45,  2.28s/it][A
Training...:   5% 140/2609 [08:21<1:29:17,  2.17s/it][A
Training...:   5% 141/2609 [08:23<1:24:59,  2.07s/it][A
Training...:   5% 142/2609 [08:25<1:20:52,  1.97s/it][A
Training...:   5% 143/2609 [08:26<1:16:38,  1.86s/it][A
Training...:   6% 144/2609 [08:28<1:12:18,  1.76s/it][A
Training...:   6% 145/2609 [08:29<1:07:58,  1.66s/it][A
Training...:   6% 146/2609 [08:30<1:03:18,  1.54s/it][A
Training...:   6% 147/2609 [08:32<58:36,  1.43s/it]  [A
Training...:   6% 148/2609 [08:32<52:56,  1.29s/it][A
Training...:   6% 149/2609 [08:33<46:41,  1.14s/it][A
Training...:   6% 150/2609 [08:34<39:14,  1.04it/s][A
Training...:   6% 151/2609 [08:41<1:55:08,  2.81s/it][A
Training...:   6% 152/2609 [08:48<2:46:45,  4.07s/it][A
Training...:   6% 153/2609 [08:55<3:17:21,  4.82s/it][A
Training...:   6% 154/2609 [09:01<3:34:38,  5.25s/it][A
Training...:   6% 155/2609 [09:07<3:43:47,  5.47s/it][A
Training...:   6% 156/2609 [09:12<3:44:55,  5.50s/it][A
Training...:   6% 157/2609 [09:18<3:44:37,  5.50s/it][A
Training...:   6% 158/2609 [09:23<3:41:24,  5.42s/it][A
Training...:   6% 159/2609 [09:28<3:38:30,  5.35s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [25:49:17<25:20:58, 9125.80s/it]
Training...:   6% 159/2609 [09:34<3:38:30,  5.35s/it][A
Training...:   6% 160/2609 [09:34<3:41:33,  5.43s/it][A
Training...:   6% 161/2609 [09:39<3:34:11,  5.25s/it][A
Training...:   6% 162/2609 [09:43<3:26:18,  5.06s/it][A
Training...:   6% 163/2609 [09:48<3:20:04,  4.91s/it][A
Training...:   6% 164/2609 [09:52<3:13:14,  4.74s/it][A
Training...:   6% 165/2609 [09:56<3:06:37,  4.58s/it][A
Training...:   6% 166/2609 [10:01<3:00:43,  4.44s/it][A
Training...:   6% 167/2609 [10:05<2:55:55,  4.32s/it][A
Training...:   6% 168/2609 [10:08<2:50:50,  4.20s/it][A
Training...:   6% 169/2609 [10:12<2:47:01,  4.11s/it][A
Training...:   7% 170/2609 [10:16<2:42:58,  4.01s/it][A
Training...:   7% 171/2609 [10:20<2:39:38,  3.93s/it][A
Training...:   7% 172/2609 [10:23<2:34:44,  3.81s/it][A
Training...:   7% 173/2609 [10:27<2:29:54,  3.69s/it][A
Training...:   7% 174/2609 [10:30<2:24:48,  3.57s/it][A
Training...:   7% 175/2609 [10:33<2:20:21,  3.46s/it][A
Training...:   7% 176/2609 [10:36<2:15:56,  3.35s/it][A
Training...:   7% 177/2609 [10:39<2:11:58,  3.26s/it][A
Training...:   7% 178/2609 [10:42<2:07:34,  3.15s/it][A
Training...:   7% 179/2609 [10:45<2:03:56,  3.06s/it][A
Training...:   7% 180/2609 [10:48<2:00:09,  2.97s/it][A
Training...:   7% 181/2609 [10:51<1:56:47,  2.89s/it][A
Training...:   7% 182/2609 [10:53<1:53:18,  2.80s/it][A
Training...:   7% 183/2609 [10:56<1:49:32,  2.71s/it][A
Training...:   7% 184/2609 [10:58<1:45:34,  2.61s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [25:50:44<25:20:58, 9125.80s/it]
Training...:   7% 184/2609 [11:01<1:45:34,  2.61s/it][A
Training...:   7% 185/2609 [11:01<1:47:47,  2.67s/it][A
Training...:   7% 186/2609 [11:03<1:42:48,  2.55s/it][A
Training...:   7% 187/2609 [11:05<1:38:04,  2.43s/it][A
Training...:   7% 188/2609 [11:07<1:33:55,  2.33s/it][A
Training...:   7% 189/2609 [11:09<1:30:10,  2.24s/it][A
Training...:   7% 190/2609 [11:11<1:25:48,  2.13s/it][A
Training...:   7% 191/2609 [11:13<1:21:59,  2.03s/it][A
Training...:   7% 192/2609 [11:15<1:18:14,  1.94s/it][A
Training...:   7% 193/2609 [11:16<1:14:01,  1.84s/it][A
Training...:   7% 194/2609 [11:18<1:09:52,  1.74s/it][A
Training...:   7% 195/2609 [11:19<1:05:47,  1.64s/it][A
Training...:   8% 196/2609 [11:21<1:01:07,  1.52s/it][A
Training...:   8% 197/2609 [11:22<56:08,  1.40s/it]  [A
Training...:   8% 198/2609 [11:23<50:41,  1.26s/it][A
Training...:   8% 199/2609 [11:23<45:03,  1.12s/it][A
Training...:   8% 200/2609 [11:24<38:22,  1.05it/s][A
Training...:   8% 201/2609 [11:31<1:52:38,  2.81s/it][A
Training...:   8% 202/2609 [11:38<2:43:33,  4.08s/it][A
Training...:   8% 203/2609 [11:45<3:14:05,  4.84s/it][A
Training...:   8% 204/2609 [11:51<3:30:49,  5.26s/it][A
Training...:   8% 205/2609 [11:57<3:38:58,  5.47s/it][A
Training...:   8% 206/2609 [12:03<3:42:20,  5.55s/it][A
Training...:   8% 207/2609 [12:08<3:44:00,  5.60s/it][A
Training...:   8% 208/2609 [12:14<3:41:02,  5.52s/it][A
Training...:   8% 209/2609 [12:19<3:37:03,  5.43s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [25:52:08<25:20:58, 9125.80s/it]
Training...:   8% 209/2609 [12:25<3:37:03,  5.43s/it][A
Training...:   8% 210/2609 [12:25<3:40:32,  5.52s/it][A
Training...:   8% 211/2609 [12:30<3:32:55,  5.33s/it][A
Training...:   8% 212/2609 [12:34<3:25:00,  5.13s/it][A
Training...:   8% 213/2609 [12:39<3:18:51,  4.98s/it][A
Training...:   8% 214/2609 [12:43<3:11:33,  4.80s/it][A
Training...:   8% 215/2609 [12:48<3:06:22,  4.67s/it][A
Training...:   8% 216/2609 [12:52<3:01:46,  4.56s/it][A
Training...:   8% 217/2609 [12:56<2:57:09,  4.44s/it][A
Training...:   8% 218/2609 [13:00<2:51:20,  4.30s/it][A
Training...:   8% 219/2609 [13:04<2:46:15,  4.17s/it][A
Training...:   8% 220/2609 [13:08<2:40:56,  4.04s/it][A
Training...:   8% 221/2609 [13:11<2:35:53,  3.92s/it][A
Training...:   9% 222/2609 [13:15<2:31:11,  3.80s/it][A
Training...:   9% 223/2609 [13:18<2:26:21,  3.68s/it][A
Training...:   9% 224/2609 [13:22<2:21:51,  3.57s/it][A
Training...:   9% 225/2609 [13:25<2:17:35,  3.46s/it][A
Training...:   9% 226/2609 [13:28<2:13:35,  3.36s/it][A
Training...:   9% 227/2609 [13:31<2:10:40,  3.29s/it][A
Training...:   9% 228/2609 [13:34<2:06:58,  3.20s/it][A
Training...:   9% 229/2609 [13:37<2:03:41,  3.12s/it][A
Training...:   9% 230/2609 [13:40<2:00:05,  3.03s/it][A
Training...:   9% 231/2609 [13:43<1:56:47,  2.95s/it][A
Training...:   9% 232/2609 [13:45<1:52:58,  2.85s/it][A
Training...:   9% 233/2609 [13:48<1:49:42,  2.77s/it][A
Training...:   9% 234/2609 [13:50<1:45:56,  2.68s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [25:53:36<25:20:58, 9125.80s/it]
Training...:   9% 234/2609 [13:53<1:45:56,  2.68s/it][A
Training...:   9% 235/2609 [13:53<1:47:59,  2.73s/it][A
Training...:   9% 236/2609 [13:55<1:42:21,  2.59s/it][A
Training...:   9% 237/2609 [13:58<1:37:45,  2.47s/it][A
Training...:   9% 238/2609 [14:00<1:33:32,  2.37s/it][A
Training...:   9% 239/2609 [14:02<1:29:49,  2.27s/it][A
Training...:   9% 240/2609 [14:04<1:25:42,  2.17s/it][A
Training...:   9% 241/2609 [14:05<1:21:38,  2.07s/it][A
Training...:   9% 242/2609 [14:07<1:18:13,  1.98s/it][A
Training...:   9% 243/2609 [14:09<1:14:47,  1.90s/it][A
Training...:   9% 244/2609 [14:11<1:10:46,  1.80s/it][A
Training...:   9% 245/2609 [14:12<1:06:28,  1.69s/it][A
Training...:   9% 246/2609 [14:13<1:02:06,  1.58s/it][A
Training...:   9% 247/2609 [14:14<56:52,  1.44s/it]  [A
Training...:  10% 248/2609 [14:15<51:13,  1.30s/it][A
Training...:  10% 249/2609 [14:16<45:06,  1.15s/it][A
Training...:  10% 250/2609 [14:17<38:12,  1.03it/s][A
Training...:  10% 251/2609 [14:24<1:50:55,  2.82s/it][A
Training...:  10% 252/2609 [14:31<2:42:15,  4.13s/it][A
Training...:  10% 253/2609 [14:38<3:11:24,  4.87s/it][A
Training...:  10% 254/2609 [14:44<3:27:46,  5.29s/it][A
Training...:  10% 255/2609 [14:50<3:38:03,  5.56s/it][A
Training...:  10% 256/2609 [14:56<3:42:35,  5.68s/it][A
Training...:  10% 257/2609 [15:02<3:41:30,  5.65s/it][A
Training...:  10% 258/2609 [15:07<3:37:35,  5.55s/it][A
Training...:  10% 259/2609 [15:12<3:33:10,  5.44s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [25:55:01<25:20:58, 9125.80s/it]
Training...:  10% 259/2609 [15:18<3:33:10,  5.44s/it][A
Training...:  10% 260/2609 [15:18<3:36:50,  5.54s/it][A
Training...:  10% 261/2609 [15:23<3:28:49,  5.34s/it][A
Training...:  10% 262/2609 [15:27<3:20:40,  5.13s/it][A
Training...:  10% 263/2609 [15:32<3:14:05,  4.96s/it][A
Training...:  10% 264/2609 [15:36<3:07:40,  4.80s/it][A
Training...:  10% 265/2609 [15:41<3:01:58,  4.66s/it][A
Training...:  10% 266/2609 [15:45<2:55:51,  4.50s/it][A
Training...:  10% 267/2609 [15:49<2:50:48,  4.38s/it][A
Training...:  10% 268/2609 [15:53<2:45:40,  4.25s/it][A
Training...:  10% 269/2609 [15:57<2:41:10,  4.13s/it][A
Training...:  10% 270/2609 [16:01<2:36:13,  4.01s/it][A
Training...:  10% 271/2609 [16:04<2:32:14,  3.91s/it][A
Training...:  10% 272/2609 [16:08<2:28:13,  3.81s/it][A
Training...:  10% 273/2609 [16:11<2:24:33,  3.71s/it][A
Training...:  11% 274/2609 [16:15<2:20:58,  3.62s/it][A
Training...:  11% 275/2609 [16:18<2:17:18,  3.53s/it][A
Training...:  11% 276/2609 [16:21<2:13:22,  3.43s/it][A
Training...:  11% 277/2609 [16:24<2:10:38,  3.36s/it][A
Training...:  11% 278/2609 [16:27<2:06:16,  3.25s/it][A
Training...:  11% 279/2609 [16:30<2:02:32,  3.16s/it][A
Training...:  11% 280/2609 [16:33<1:59:13,  3.07s/it][A
Training...:  11% 281/2609 [16:36<1:56:45,  3.01s/it][A
Training...:  11% 282/2609 [16:39<1:53:27,  2.93s/it][A
Training...:  11% 283/2609 [16:41<1:49:30,  2.83s/it][A
Training...:  11% 284/2609 [16:44<1:45:37,  2.73s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [25:56:30<25:20:58, 9125.80s/it]
Training...:  11% 284/2609 [16:47<1:45:37,  2.73s/it][A
Training...:  11% 285/2609 [16:47<1:47:07,  2.77s/it][A
Training...:  11% 286/2609 [16:49<1:41:45,  2.63s/it][A
Training...:  11% 287/2609 [16:51<1:36:50,  2.50s/it][A
Training...:  11% 288/2609 [16:53<1:32:10,  2.38s/it][A
Training...:  11% 289/2609 [16:55<1:28:05,  2.28s/it][A
Training...:  11% 290/2609 [16:57<1:23:42,  2.17s/it][A
Training...:  11% 291/2609 [16:59<1:19:39,  2.06s/it][A
Training...:  11% 292/2609 [17:01<1:15:44,  1.96s/it][A
Training...:  11% 293/2609 [17:02<1:12:04,  1.87s/it][A
Training...:  11% 294/2609 [17:04<1:08:02,  1.76s/it][A
Training...:  11% 295/2609 [17:05<1:04:05,  1.66s/it][A
Training...:  11% 296/2609 [17:07<59:27,  1.54s/it]  [A
Training...:  11% 297/2609 [17:08<54:42,  1.42s/it][A
Training...:  11% 298/2609 [17:09<50:00,  1.30s/it][A
Training...:  11% 299/2609 [17:10<44:45,  1.16s/it][A
Training...:  11% 300/2609 [17:10<37:57,  1.01it/s][A
Training...:  12% 301/2609 [17:18<1:52:02,  2.91s/it][A
Training...:  12% 302/2609 [17:25<2:42:42,  4.23s/it][A
Training...:  12% 303/2609 [17:32<3:12:52,  5.02s/it][A
Training...:  12% 304/2609 [17:38<3:29:04,  5.44s/it][A
Training...:  12% 305/2609 [17:44<3:37:11,  5.66s/it][A
Training...:  12% 306/2609 [17:50<3:39:52,  5.73s/it][A
Training...:  12% 307/2609 [17:56<3:40:08,  5.74s/it][A
Training...:  12% 308/2609 [18:02<3:37:02,  5.66s/it][A
Training...:  12% 309/2609 [18:07<3:33:09,  5.56s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [25:57:56<25:20:58, 9125.80s/it]
Training...:  12% 309/2609 [18:13<3:33:09,  5.56s/it][A
Training...:  12% 310/2609 [18:13<3:36:55,  5.66s/it][A
Training...:  12% 311/2609 [18:18<3:27:31,  5.42s/it][A
Training...:  12% 312/2609 [18:22<3:18:07,  5.18s/it][A
Training...:  12% 313/2609 [18:27<3:10:40,  4.98s/it][A
Training...:  12% 314/2609 [18:31<3:03:59,  4.81s/it][A
Training...:  12% 315/2609 [18:36<2:59:27,  4.69s/it][A
Training...:  12% 316/2609 [18:40<2:53:53,  4.55s/it][A
Training...:  12% 317/2609 [18:44<2:47:42,  4.39s/it][A
Training...:  12% 318/2609 [18:48<2:41:44,  4.24s/it][A
Training...:  12% 319/2609 [18:51<2:36:44,  4.11s/it][A
Training...:  12% 320/2609 [18:55<2:31:37,  3.97s/it][A
Training...:  12% 321/2609 [18:59<2:26:59,  3.85s/it][A
Training...:  12% 322/2609 [19:02<2:22:36,  3.74s/it][A
Training...:  12% 323/2609 [19:06<2:18:36,  3.64s/it][A
Training...:  12% 324/2609 [19:09<2:14:40,  3.54s/it][A
Training...:  12% 325/2609 [19:12<2:10:44,  3.43s/it][A
Training...:  12% 326/2609 [19:15<2:07:18,  3.35s/it][A
Training...:  13% 327/2609 [19:18<2:03:55,  3.26s/it][A
Training...:  13% 328/2609 [19:21<2:00:32,  3.17s/it][A
Training...:  13% 329/2609 [19:24<1:57:26,  3.09s/it][A
Training...:  13% 330/2609 [19:27<1:54:20,  3.01s/it][A
Training...:  13% 331/2609 [19:30<1:51:33,  2.94s/it][A
Training...:  13% 332/2609 [19:32<1:48:19,  2.85s/it][A
Training...:  13% 333/2609 [19:35<1:45:04,  2.77s/it][A
Training...:  13% 334/2609 [19:37<1:41:33,  2.68s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [25:59:24<25:20:58, 9125.80s/it]
Training...:  13% 334/2609 [19:40<1:41:33,  2.68s/it][A
Training...:  13% 335/2609 [19:40<1:43:03,  2.72s/it][A
Training...:  13% 336/2609 [19:43<1:38:09,  2.59s/it][A
Training...:  13% 337/2609 [19:45<1:33:45,  2.48s/it][A
Training...:  13% 338/2609 [19:47<1:29:30,  2.36s/it][A
Training...:  13% 339/2609 [19:49<1:25:33,  2.26s/it][A
Training...:  13% 340/2609 [19:51<1:21:31,  2.16s/it][A
Training...:  13% 341/2609 [19:53<1:18:01,  2.06s/it][A
Training...:  13% 342/2609 [19:54<1:14:30,  1.97s/it][A
Training...:  13% 343/2609 [19:56<1:11:19,  1.89s/it][A
Training...:  13% 344/2609 [19:58<1:07:49,  1.80s/it][A
Training...:  13% 345/2609 [19:59<1:04:00,  1.70s/it][A
Training...:  13% 346/2609 [20:01<1:00:02,  1.59s/it][A
Training...:  13% 347/2609 [20:02<55:41,  1.48s/it]  [A
Training...:  13% 348/2609 [20:03<50:45,  1.35s/it][A
Training...:  13% 349/2609 [20:04<44:51,  1.19s/it][A
Training...:  13% 350/2609 [20:04<37:58,  1.01s/it][A
Training...:  13% 351/2609 [20:12<1:49:46,  2.92s/it][A
Training...:  13% 352/2609 [20:19<2:39:33,  4.24s/it][A
Training...:  14% 353/2609 [20:26<3:07:25,  4.98s/it][A
Training...:  14% 354/2609 [20:32<3:22:34,  5.39s/it][A
Training...:  14% 355/2609 [20:38<3:33:22,  5.68s/it][A
Training...:  14% 356/2609 [20:44<3:35:56,  5.75s/it][A
Training...:  14% 357/2609 [20:50<3:34:36,  5.72s/it][A
Training...:  14% 358/2609 [20:55<3:30:10,  5.60s/it][A
Training...:  14% 359/2609 [21:00<3:26:29,  5.51s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:00:50<25:20:58, 9125.80s/it]
Training...:  14% 359/2609 [21:06<3:26:29,  5.51s/it][A
Training...:  14% 360/2609 [21:06<3:29:49,  5.60s/it][A
Training...:  14% 361/2609 [21:11<3:20:31,  5.35s/it][A
Training...:  14% 362/2609 [21:16<3:11:30,  5.11s/it][A
Training...:  14% 363/2609 [21:20<3:04:58,  4.94s/it][A
Training...:  14% 364/2609 [21:24<2:58:11,  4.76s/it][A
Training...:  14% 365/2609 [21:29<2:52:20,  4.61s/it][A
Training...:  14% 366/2609 [21:33<2:47:27,  4.48s/it][A
Training...:  14% 367/2609 [21:37<2:42:39,  4.35s/it][A
Training...:  14% 368/2609 [21:41<2:37:48,  4.23s/it][A
Training...:  14% 369/2609 [21:45<2:33:01,  4.10s/it][A
Training...:  14% 370/2609 [21:48<2:27:54,  3.96s/it][A
Training...:  14% 371/2609 [21:52<2:23:54,  3.86s/it][A
Training...:  14% 372/2609 [21:55<2:19:34,  3.74s/it][A
Training...:  14% 373/2609 [21:59<2:15:23,  3.63s/it][A
Training...:  14% 374/2609 [22:02<2:11:23,  3.53s/it][A
Training...:  14% 375/2609 [22:05<2:08:06,  3.44s/it][A
Training...:  14% 376/2609 [22:08<2:04:37,  3.35s/it][A
Training...:  14% 377/2609 [22:12<2:01:26,  3.26s/it][A
Training...:  14% 378/2609 [22:14<1:58:03,  3.18s/it][A
Training...:  15% 379/2609 [22:17<1:54:51,  3.09s/it][A
Training...:  15% 380/2609 [22:20<1:51:23,  3.00s/it][A
Training...:  15% 381/2609 [22:23<1:48:18,  2.92s/it][A
Training...:  15% 382/2609 [22:25<1:44:40,  2.82s/it][A
Training...:  15% 383/2609 [22:28<1:41:45,  2.74s/it][A
Training...:  15% 384/2609 [22:31<1:38:24,  2.65s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:02:17<25:20:58, 9125.80s/it]
Training...:  15% 384/2609 [22:33<1:38:24,  2.65s/it][A
Training...:  15% 385/2609 [22:33<1:40:38,  2.72s/it][A
Training...:  15% 386/2609 [22:36<1:36:10,  2.60s/it][A
Training...:  15% 387/2609 [22:38<1:32:19,  2.49s/it][A
Training...:  15% 388/2609 [22:40<1:28:34,  2.39s/it][A
Training...:  15% 389/2609 [22:42<1:25:18,  2.31s/it][A
Training...:  15% 390/2609 [22:44<1:21:17,  2.20s/it][A
Training...:  15% 391/2609 [22:46<1:17:35,  2.10s/it][A
Training...:  15% 392/2609 [22:48<1:14:07,  2.01s/it][A
Training...:  15% 393/2609 [22:50<1:10:52,  1.92s/it][A
Training...:  15% 394/2609 [22:51<1:08:15,  1.85s/it][A
Training...:  15% 395/2609 [22:53<1:04:44,  1.75s/it][A
Training...:  15% 396/2609 [22:54<1:00:59,  1.65s/it][A
Training...:  15% 397/2609 [22:55<56:49,  1.54s/it]  [A
Training...:  15% 398/2609 [22:57<52:10,  1.42s/it][A
Training...:  15% 399/2609 [22:57<46:36,  1.27s/it][A
Training...:  15% 400/2609 [22:58<39:42,  1.08s/it][A
Training...:  15% 401/2609 [23:06<1:51:01,  3.02s/it][A
Training...:  15% 402/2609 [23:13<2:36:31,  4.26s/it][A
Training...:  15% 403/2609 [23:20<3:03:50,  5.00s/it][A
Training...:  15% 404/2609 [23:26<3:19:27,  5.43s/it][A
Training...:  16% 405/2609 [23:32<3:28:06,  5.67s/it][A
Training...:  16% 406/2609 [23:38<3:30:41,  5.74s/it][A
Training...:  16% 407/2609 [23:44<3:31:23,  5.76s/it][A
Training...:  16% 408/2609 [23:49<3:27:09,  5.65s/it][A
Training...:  16% 409/2609 [23:55<3:23:00,  5.54s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:03:44<25:20:58, 9125.80s/it]
Training...:  16% 409/2609 [24:00<3:23:00,  5.54s/it][A
Training...:  16% 410/2609 [24:00<3:25:59,  5.62s/it][A
Training...:  16% 411/2609 [24:05<3:17:08,  5.38s/it][A
Training...:  16% 412/2609 [24:10<3:08:10,  5.14s/it][A
Training...:  16% 413/2609 [24:14<3:01:40,  4.96s/it][A
Training...:  16% 414/2609 [24:19<2:54:56,  4.78s/it][A
Training...:  16% 415/2609 [24:23<2:49:21,  4.63s/it][A
Training...:  16% 416/2609 [24:27<2:43:04,  4.46s/it][A
Training...:  16% 417/2609 [24:31<2:38:17,  4.33s/it][A
Training...:  16% 418/2609 [24:35<2:34:02,  4.22s/it][A
Training...:  16% 419/2609 [24:39<2:29:56,  4.11s/it][A
Training...:  16% 420/2609 [24:43<2:25:28,  3.99s/it][A
Training...:  16% 421/2609 [24:46<2:20:48,  3.86s/it][A
Training...:  16% 422/2609 [24:50<2:16:40,  3.75s/it][A
Training...:  16% 423/2609 [24:53<2:12:59,  3.65s/it][A
Training...:  16% 424/2609 [24:56<2:09:19,  3.55s/it][A
Training...:  16% 425/2609 [25:00<2:05:35,  3.45s/it][A
Training...:  16% 426/2609 [25:03<2:01:44,  3.35s/it][A
Training...:  16% 427/2609 [25:06<1:58:43,  3.26s/it][A
Training...:  16% 428/2609 [25:09<1:56:10,  3.20s/it][A
Training...:  16% 429/2609 [25:12<1:53:05,  3.11s/it][A
Training...:  16% 430/2609 [25:15<1:49:32,  3.02s/it][A
Training...:  17% 431/2609 [25:17<1:45:45,  2.91s/it][A
Training...:  17% 432/2609 [25:20<1:42:10,  2.82s/it][A
Training...:  17% 433/2609 [25:22<1:38:58,  2.73s/it][A
Training...:  17% 434/2609 [25:25<1:35:56,  2.65s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:05:11<25:20:58, 9125.80s/it]
Training...:  17% 434/2609 [25:28<1:35:56,  2.65s/it][A
Training...:  17% 435/2609 [25:28<1:37:28,  2.69s/it][A
Training...:  17% 436/2609 [25:30<1:32:41,  2.56s/it][A
Training...:  17% 437/2609 [25:32<1:28:40,  2.45s/it][A
Training...:  17% 438/2609 [25:34<1:24:50,  2.34s/it][A
Training...:  17% 439/2609 [25:36<1:21:26,  2.25s/it][A
Training...:  17% 440/2609 [25:38<1:17:31,  2.14s/it][A
Training...:  17% 441/2609 [25:40<1:14:10,  2.05s/it][A
Training...:  17% 442/2609 [25:42<1:10:22,  1.95s/it][A
Training...:  17% 443/2609 [25:43<1:07:02,  1.86s/it][A
Training...:  17% 444/2609 [25:45<1:03:14,  1.75s/it][A
Training...:  17% 445/2609 [25:46<59:45,  1.66s/it]  [A
Training...:  17% 446/2609 [25:47<55:26,  1.54s/it][A
Training...:  17% 447/2609 [25:49<50:59,  1.41s/it][A
Training...:  17% 448/2609 [25:49<45:58,  1.28s/it][A
Training...:  17% 449/2609 [25:50<40:50,  1.13s/it][A
Training...:  17% 450/2609 [25:51<34:26,  1.04it/s][A
Training...:  17% 451/2609 [25:58<1:43:32,  2.88s/it][A
Training...:  17% 452/2609 [26:05<2:29:54,  4.17s/it][A
Training...:  17% 453/2609 [26:12<2:57:43,  4.95s/it][A
Training...:  17% 454/2609 [26:19<3:13:19,  5.38s/it][A
Training...:  17% 455/2609 [26:25<3:22:29,  5.64s/it][A
Training...:  17% 456/2609 [26:31<3:24:25,  5.70s/it][A
Training...:  18% 457/2609 [26:36<3:25:23,  5.73s/it][A
Training...:  18% 458/2609 [26:42<3:22:31,  5.65s/it][A
Training...:  18% 459/2609 [26:47<3:19:48,  5.58s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:06:37<25:20:58, 9125.80s/it]
Training...:  18% 459/2609 [26:53<3:19:48,  5.58s/it][A
Training...:  18% 460/2609 [26:53<3:23:28,  5.68s/it][A
Training...:  18% 461/2609 [26:58<3:15:09,  5.45s/it][A
Training...:  18% 462/2609 [27:03<3:06:48,  5.22s/it][A
Training...:  18% 463/2609 [27:07<2:59:46,  5.03s/it][A
Training...:  18% 464/2609 [27:12<2:52:48,  4.83s/it][A
Training...:  18% 465/2609 [27:16<2:47:03,  4.67s/it][A
Training...:  18% 466/2609 [27:20<2:41:09,  4.51s/it][A
Training...:  18% 467/2609 [27:24<2:36:47,  4.39s/it][A
Training...:  18% 468/2609 [27:28<2:31:28,  4.24s/it][A
Training...:  18% 469/2609 [27:32<2:27:25,  4.13s/it][A
Training...:  18% 470/2609 [27:36<2:22:51,  4.01s/it][A
Training...:  18% 471/2609 [27:40<2:19:38,  3.92s/it][A
Training...:  18% 472/2609 [27:43<2:16:30,  3.83s/it][A
Training...:  18% 473/2609 [27:47<2:13:25,  3.75s/it][A
Training...:  18% 474/2609 [27:50<2:09:43,  3.65s/it][A
Training...:  18% 475/2609 [27:53<2:06:24,  3.55s/it][A
Training...:  18% 476/2609 [27:57<2:02:15,  3.44s/it][A
Training...:  18% 477/2609 [28:00<1:58:38,  3.34s/it][A
Training...:  18% 478/2609 [28:03<1:55:12,  3.24s/it][A
Training...:  18% 479/2609 [28:06<1:52:12,  3.16s/it][A
Training...:  18% 480/2609 [28:09<1:48:28,  3.06s/it][A
Training...:  18% 481/2609 [28:11<1:45:18,  2.97s/it][A
Training...:  18% 482/2609 [28:14<1:41:57,  2.88s/it][A
Training...:  19% 483/2609 [28:16<1:38:30,  2.78s/it][A
Training...:  19% 484/2609 [28:19<1:34:56,  2.68s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:08:05<25:20:58, 9125.80s/it]
Training...:  19% 484/2609 [28:22<1:34:56,  2.68s/it][A
Training...:  19% 485/2609 [28:22<1:36:33,  2.73s/it][A
Training...:  19% 486/2609 [28:24<1:32:14,  2.61s/it][A
Training...:  19% 487/2609 [28:26<1:28:08,  2.49s/it][A
Training...:  19% 488/2609 [28:28<1:23:56,  2.37s/it][A
Training...:  19% 489/2609 [28:30<1:20:26,  2.28s/it][A
Training...:  19% 490/2609 [28:32<1:17:32,  2.20s/it][A
Training...:  19% 491/2609 [28:34<1:14:43,  2.12s/it][A
Training...:  19% 492/2609 [28:36<1:11:04,  2.01s/it][A
Training...:  19% 493/2609 [28:38<1:07:32,  1.92s/it][A
Training...:  19% 494/2609 [28:39<1:03:35,  1.80s/it][A
Training...:  19% 495/2609 [28:41<59:22,  1.69s/it]  [A
Training...:  19% 496/2609 [28:42<54:56,  1.56s/it][A
Training...:  19% 497/2609 [28:43<50:15,  1.43s/it][A
Training...:  19% 498/2609 [28:44<45:18,  1.29s/it][A
Training...:  19% 499/2609 [28:45<40:07,  1.14s/it][A
Training...:  19% 500/2609 [28:46<34:00,  1.03it/s][A
Training...:  19% 501/2609 [28:53<1:39:04,  2.82s/it][A
Training...:  19% 502/2609 [29:00<2:23:16,  4.08s/it][A
Training...:  19% 503/2609 [29:06<2:48:47,  4.81s/it][A
Training...:  19% 504/2609 [29:12<3:02:51,  5.21s/it][A
Training...:  19% 505/2609 [29:18<3:10:28,  5.43s/it][A
Training...:  19% 506/2609 [29:24<3:11:51,  5.47s/it][A
Training...:  19% 507/2609 [29:29<3:11:48,  5.48s/it][A
Training...:  19% 508/2609 [29:35<3:09:21,  5.41s/it][A
Training...:  20% 509/2609 [29:40<3:06:55,  5.34s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:09:29<25:20:58, 9125.80s/it]
Training...:  20% 509/2609 [29:46<3:06:55,  5.34s/it][A
Training...:  20% 510/2609 [29:46<3:11:31,  5.47s/it][A
Training...:  20% 511/2609 [29:50<3:04:53,  5.29s/it][A
Training...:  20% 512/2609 [29:55<2:58:01,  5.09s/it][A
Training...:  20% 513/2609 [30:00<2:52:26,  4.94s/it][A
Training...:  20% 514/2609 [30:04<2:46:52,  4.78s/it][A
Training...:  20% 515/2609 [30:08<2:41:35,  4.63s/it][A
Training...:  20% 516/2609 [30:12<2:35:31,  4.46s/it][A
Training...:  20% 517/2609 [30:16<2:31:20,  4.34s/it][A
Training...:  20% 518/2609 [30:20<2:27:47,  4.24s/it][A
Training...:  20% 519/2609 [30:24<2:23:44,  4.13s/it][A
Training...:  20% 520/2609 [30:28<2:18:59,  3.99s/it][A
Training...:  20% 521/2609 [30:32<2:15:09,  3.88s/it][A
Training...:  20% 522/2609 [30:35<2:10:53,  3.76s/it][A
Training...:  20% 523/2609 [30:39<2:07:02,  3.65s/it][A
Training...:  20% 524/2609 [30:42<2:03:02,  3.54s/it][A
Training...:  20% 525/2609 [30:45<2:00:08,  3.46s/it][A
Training...:  20% 526/2609 [30:48<1:56:48,  3.36s/it][A
Training...:  20% 527/2609 [30:51<1:53:34,  3.27s/it][A
Training...:  20% 528/2609 [30:54<1:50:17,  3.18s/it][A
Training...:  20% 529/2609 [30:57<1:47:11,  3.09s/it][A
Training...:  20% 530/2609 [31:00<1:44:14,  3.01s/it][A
Training...:  20% 531/2609 [31:03<1:41:15,  2.92s/it][A
Training...:  20% 532/2609 [31:05<1:37:41,  2.82s/it][A
Training...:  20% 533/2609 [31:08<1:34:28,  2.73s/it][A
Training...:  20% 534/2609 [31:10<1:31:33,  2.65s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:10:56<25:20:58, 9125.80s/it]
Training...:  20% 534/2609 [31:13<1:31:33,  2.65s/it][A
Training...:  21% 535/2609 [31:13<1:33:10,  2.70s/it][A
Training...:  21% 536/2609 [31:15<1:28:47,  2.57s/it][A
Training...:  21% 537/2609 [31:17<1:24:45,  2.45s/it][A
Training...:  21% 538/2609 [31:20<1:20:55,  2.34s/it][A
Training...:  21% 539/2609 [31:22<1:17:22,  2.24s/it][A
Training...:  21% 540/2609 [31:23<1:13:45,  2.14s/it][A
Training...:  21% 541/2609 [31:25<1:11:11,  2.07s/it][A
Training...:  21% 542/2609 [31:27<1:08:05,  1.98s/it][A
Training...:  21% 543/2609 [31:29<1:04:23,  1.87s/it][A
Training...:  21% 544/2609 [31:30<1:00:33,  1.76s/it][A
Training...:  21% 545/2609 [31:32<56:54,  1.65s/it]  [A
Training...:  21% 546/2609 [31:33<53:05,  1.54s/it][A
Training...:  21% 547/2609 [31:34<49:00,  1.43s/it][A
Training...:  21% 548/2609 [31:35<44:22,  1.29s/it][A
Training...:  21% 549/2609 [31:36<39:28,  1.15s/it][A
Training...:  21% 550/2609 [31:36<33:38,  1.02it/s][A
Training...:  21% 551/2609 [31:44<1:36:46,  2.82s/it][A
Training...:  21% 552/2609 [31:51<2:20:38,  4.10s/it][A
Training...:  21% 553/2609 [31:57<2:47:00,  4.87s/it][A
Training...:  21% 554/2609 [32:04<3:01:28,  5.30s/it][A
Training...:  21% 555/2609 [32:10<3:09:31,  5.54s/it][A
Training...:  21% 556/2609 [32:16<3:12:51,  5.64s/it][A
Training...:  21% 557/2609 [32:21<3:12:50,  5.64s/it][A
Training...:  21% 558/2609 [32:27<3:09:32,  5.54s/it][A
Training...:  21% 559/2609 [32:32<3:05:30,  5.43s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:12:21<25:20:58, 9125.80s/it]
Training...:  21% 559/2609 [32:38<3:05:30,  5.43s/it][A
Training...:  21% 560/2609 [32:38<3:10:43,  5.58s/it][A
Training...:  22% 561/2609 [32:43<3:03:23,  5.37s/it][A
Training...:  22% 562/2609 [32:47<2:55:27,  5.14s/it][A
Training...:  22% 563/2609 [32:52<2:49:37,  4.97s/it][A
Training...:  22% 564/2609 [32:56<2:43:43,  4.80s/it][A
Training...:  22% 565/2609 [33:00<2:37:58,  4.64s/it][A
Training...:  22% 566/2609 [33:05<2:32:50,  4.49s/it][A
Training...:  22% 567/2609 [33:09<2:28:21,  4.36s/it][A
Training...:  22% 568/2609 [33:12<2:23:14,  4.21s/it][A
Training...:  22% 569/2609 [33:16<2:19:31,  4.10s/it][A
Training...:  22% 570/2609 [33:20<2:15:31,  3.99s/it][A
Training...:  22% 571/2609 [33:24<2:12:49,  3.91s/it][A
Training...:  22% 572/2609 [33:27<2:09:02,  3.80s/it][A
Training...:  22% 573/2609 [33:31<2:05:20,  3.69s/it][A
Training...:  22% 574/2609 [33:34<2:01:27,  3.58s/it][A
Training...:  22% 575/2609 [33:37<1:58:11,  3.49s/it][A
Training...:  22% 576/2609 [33:41<1:54:57,  3.39s/it][A
Training...:  22% 577/2609 [33:44<1:51:42,  3.30s/it][A
Training...:  22% 578/2609 [33:47<1:48:25,  3.20s/it][A
Training...:  22% 579/2609 [33:49<1:45:21,  3.11s/it][A
Training...:  22% 580/2609 [33:52<1:42:16,  3.02s/it][A
Training...:  22% 581/2609 [33:55<1:39:41,  2.95s/it][A
Training...:  22% 582/2609 [33:58<1:36:41,  2.86s/it][A
Training...:  22% 583/2609 [34:00<1:33:39,  2.77s/it][A
Training...:  22% 584/2609 [34:03<1:30:38,  2.69s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:13:49<25:20:58, 9125.80s/it]
Training...:  22% 584/2609 [34:06<1:30:38,  2.69s/it][A
Training...:  22% 585/2609 [34:06<1:32:53,  2.75s/it][A
Training...:  22% 586/2609 [34:08<1:28:36,  2.63s/it][A
Training...:  22% 587/2609 [34:10<1:24:33,  2.51s/it][A
Training...:  23% 588/2609 [34:12<1:20:22,  2.39s/it][A
Training...:  23% 589/2609 [34:14<1:16:43,  2.28s/it][A
Training...:  23% 590/2609 [34:16<1:13:15,  2.18s/it][A
Training...:  23% 591/2609 [34:18<1:09:45,  2.07s/it][A
Training...:  23% 592/2609 [34:20<1:05:59,  1.96s/it][A
Training...:  23% 593/2609 [34:22<1:02:58,  1.87s/it][A
Training...:  23% 594/2609 [34:23<59:40,  1.78s/it]  [A
Training...:  23% 595/2609 [34:25<56:13,  1.68s/it][A
Training...:  23% 596/2609 [34:26<52:12,  1.56s/it][A
Training...:  23% 597/2609 [34:27<47:55,  1.43s/it][A
Training...:  23% 598/2609 [34:28<43:22,  1.29s/it][A
Training...:  23% 599/2609 [34:29<38:20,  1.14s/it][A
Training...:  23% 600/2609 [34:29<32:10,  1.04it/s][A
Training...:  23% 601/2609 [34:37<1:35:48,  2.86s/it][A
Training...:  23% 602/2609 [34:44<2:17:16,  4.10s/it][A
Training...:  23% 603/2609 [34:50<2:41:18,  4.82s/it][A
Training...:  23% 604/2609 [34:56<2:55:24,  5.25s/it][A
Training...:  23% 605/2609 [35:02<3:03:43,  5.50s/it][A
Training...:  23% 606/2609 [35:08<3:06:13,  5.58s/it][A
Training...:  23% 607/2609 [35:14<3:04:30,  5.53s/it][A
Training...:  23% 608/2609 [35:19<3:01:12,  5.43s/it][A
Training...:  23% 609/2609 [35:24<2:58:00,  5.34s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:15:13<25:20:58, 9125.80s/it]
Training...:  23% 609/2609 [35:30<2:58:00,  5.34s/it][A
Training...:  23% 610/2609 [35:30<3:00:51,  5.43s/it][A
Training...:  23% 611/2609 [35:34<2:54:16,  5.23s/it][A
Training...:  23% 612/2609 [35:39<2:47:22,  5.03s/it][A
Training...:  23% 613/2609 [35:43<2:42:15,  4.88s/it][A
Training...:  24% 614/2609 [35:48<2:36:07,  4.70s/it][A
Training...:  24% 615/2609 [35:52<2:31:26,  4.56s/it][A
Training...:  24% 616/2609 [35:56<2:26:34,  4.41s/it][A
Training...:  24% 617/2609 [36:00<2:22:31,  4.29s/it][A
Training...:  24% 618/2609 [36:04<2:18:28,  4.17s/it][A
Training...:  24% 619/2609 [36:08<2:15:06,  4.07s/it][A
Training...:  24% 620/2609 [36:11<2:10:55,  3.95s/it][A
Training...:  24% 621/2609 [36:15<2:07:41,  3.85s/it][A
Training...:  24% 622/2609 [36:18<2:04:01,  3.75s/it][A
Training...:  24% 623/2609 [36:22<2:01:19,  3.67s/it][A
Training...:  24% 624/2609 [36:25<1:58:24,  3.58s/it][A
Training...:  24% 625/2609 [36:29<1:55:15,  3.49s/it][A
Training...:  24% 626/2609 [36:32<1:52:06,  3.39s/it][A
Training...:  24% 627/2609 [36:35<1:49:27,  3.31s/it][A
Training...:  24% 628/2609 [36:38<1:46:51,  3.24s/it][A
Training...:  24% 629/2609 [36:41<1:44:45,  3.17s/it][A
Training...:  24% 630/2609 [36:44<1:41:17,  3.07s/it][A
Training...:  24% 631/2609 [36:47<1:38:34,  2.99s/it][A
Training...:  24% 632/2609 [36:49<1:35:10,  2.89s/it][A
Training...:  24% 633/2609 [36:52<1:32:26,  2.81s/it][A
Training...:  24% 634/2609 [36:54<1:29:26,  2.72s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:16:41<25:20:58, 9125.80s/it]
Training...:  24% 634/2609 [36:57<1:29:26,  2.72s/it][A
Training...:  24% 635/2609 [36:57<1:30:36,  2.75s/it][A
Training...:  24% 636/2609 [37:00<1:26:04,  2.62s/it][A
Training...:  24% 637/2609 [37:02<1:22:12,  2.50s/it][A
Training...:  24% 638/2609 [37:04<1:18:24,  2.39s/it][A
Training...:  24% 639/2609 [37:06<1:14:57,  2.28s/it][A
Training...:  25% 640/2609 [37:08<1:11:25,  2.18s/it][A
Training...:  25% 641/2609 [37:10<1:08:16,  2.08s/it][A
Training...:  25% 642/2609 [37:11<1:04:50,  1.98s/it][A
Training...:  25% 643/2609 [37:13<1:01:37,  1.88s/it][A
Training...:  25% 644/2609 [37:15<58:33,  1.79s/it]  [A
Training...:  25% 645/2609 [37:16<55:12,  1.69s/it][A
Training...:  25% 646/2609 [37:17<51:32,  1.58s/it][A
Training...:  25% 647/2609 [37:19<47:33,  1.45s/it][A
Training...:  25% 648/2609 [37:20<43:03,  1.32s/it][A
Training...:  25% 649/2609 [37:20<38:11,  1.17s/it][A
Training...:  25% 650/2609 [37:21<32:25,  1.01it/s][A
Training...:  25% 651/2609 [37:28<1:32:49,  2.84s/it][A
Training...:  25% 652/2609 [37:35<2:14:42,  4.13s/it][A
Training...:  25% 653/2609 [37:42<2:39:51,  4.90s/it][A
Training...:  25% 654/2609 [37:48<2:53:41,  5.33s/it][A
Training...:  25% 655/2609 [37:54<2:59:46,  5.52s/it][A
Training...:  25% 656/2609 [38:00<3:02:00,  5.59s/it][A
Training...:  25% 657/2609 [38:06<3:01:45,  5.59s/it][A
Training...:  25% 658/2609 [38:11<2:59:18,  5.51s/it][A
Training...:  25% 659/2609 [38:16<2:55:43,  5.41s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:18:05<25:20:58, 9125.80s/it]
Training...:  25% 659/2609 [38:22<2:55:43,  5.41s/it][A
Training...:  25% 660/2609 [38:22<2:58:52,  5.51s/it][A
Training...:  25% 661/2609 [38:27<2:52:08,  5.30s/it][A
Training...:  25% 662/2609 [38:31<2:45:28,  5.10s/it][A
Training...:  25% 663/2609 [38:36<2:40:04,  4.94s/it][A
Training...:  25% 664/2609 [38:40<2:35:05,  4.78s/it][A
Training...:  25% 665/2609 [38:45<2:30:13,  4.64s/it][A
Training...:  26% 666/2609 [38:49<2:25:21,  4.49s/it][A
Training...:  26% 667/2609 [38:53<2:21:27,  4.37s/it][A
Training...:  26% 668/2609 [38:57<2:18:36,  4.28s/it][A
Training...:  26% 669/2609 [39:01<2:14:39,  4.16s/it][A
Training...:  26% 670/2609 [39:05<2:10:58,  4.05s/it][A
Training...:  26% 671/2609 [39:08<2:07:04,  3.93s/it][A
Training...:  26% 672/2609 [39:12<2:03:17,  3.82s/it][A
Training...:  26% 673/2609 [39:15<1:59:43,  3.71s/it][A
Training...:  26% 674/2609 [39:19<1:55:52,  3.59s/it][A
Training...:  26% 675/2609 [39:22<1:52:54,  3.50s/it][A
Training...:  26% 676/2609 [39:25<1:49:07,  3.39s/it][A
Training...:  26% 677/2609 [39:28<1:45:57,  3.29s/it][A
Training...:  26% 678/2609 [39:31<1:42:55,  3.20s/it][A
Training...:  26% 679/2609 [39:34<1:39:59,  3.11s/it][A
Training...:  26% 680/2609 [39:37<1:36:52,  3.01s/it][A
Training...:  26% 681/2609 [39:39<1:34:07,  2.93s/it][A
Training...:  26% 682/2609 [39:42<1:31:09,  2.84s/it][A
Training...:  26% 683/2609 [39:45<1:28:53,  2.77s/it][A
Training...:  26% 684/2609 [39:47<1:26:21,  2.69s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:19:33<25:20:58, 9125.80s/it]
Training...:  26% 684/2609 [39:50<1:26:21,  2.69s/it][A
Training...:  26% 685/2609 [39:50<1:28:15,  2.75s/it][A
Training...:  26% 686/2609 [39:53<1:24:30,  2.64s/it][A
Training...:  26% 687/2609 [39:55<1:21:05,  2.53s/it][A
Training...:  26% 688/2609 [39:57<1:17:16,  2.41s/it][A
Training...:  26% 689/2609 [39:59<1:13:59,  2.31s/it][A
Training...:  26% 690/2609 [40:01<1:11:34,  2.24s/it][A
Training...:  26% 691/2609 [40:03<1:09:00,  2.16s/it][A
Training...:  27% 692/2609 [40:05<1:06:17,  2.07s/it][A
Training...:  27% 693/2609 [40:07<1:03:00,  1.97s/it][A
Training...:  27% 694/2609 [40:08<59:22,  1.86s/it]  [A
Training...:  27% 695/2609 [40:10<55:54,  1.75s/it][A
Training...:  27% 696/2609 [40:11<52:00,  1.63s/it][A
Training...:  27% 697/2609 [40:12<48:00,  1.51s/it][A
Training...:  27% 698/2609 [40:13<43:40,  1.37s/it][A
Training...:  27% 699/2609 [40:14<38:34,  1.21s/it][A
Training...:  27% 700/2609 [40:15<32:47,  1.03s/it][A
Training...:  27% 701/2609 [40:22<1:32:03,  2.90s/it][A
Training...:  27% 702/2609 [40:29<2:12:44,  4.18s/it][A
Training...:  27% 703/2609 [40:36<2:36:20,  4.92s/it][A
Training...:  27% 704/2609 [40:42<2:48:42,  5.31s/it][A
Training...:  27% 705/2609 [40:48<2:55:15,  5.52s/it][A
Training...:  27% 706/2609 [40:54<2:57:19,  5.59s/it][A
Training...:  27% 707/2609 [40:59<2:57:23,  5.60s/it][A
Training...:  27% 708/2609 [41:05<2:54:36,  5.51s/it][A
Training...:  27% 709/2609 [41:10<2:51:51,  5.43s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:20:59<25:20:58, 9125.80s/it]
Training...:  27% 709/2609 [41:16<2:51:51,  5.43s/it][A
Training...:  27% 710/2609 [41:16<2:54:49,  5.52s/it][A
Training...:  27% 711/2609 [41:21<2:48:37,  5.33s/it][A
Training...:  27% 712/2609 [41:25<2:42:20,  5.13s/it][A
Training...:  27% 713/2609 [41:30<2:36:59,  4.97s/it][A
Training...:  27% 714/2609 [41:34<2:31:31,  4.80s/it][A
Training...:  27% 715/2609 [41:39<2:26:47,  4.65s/it][A
Training...:  27% 716/2609 [41:43<2:22:09,  4.51s/it][A
Training...:  27% 717/2609 [41:47<2:18:30,  4.39s/it][A
Training...:  28% 718/2609 [41:51<2:13:51,  4.25s/it][A
Training...:  28% 719/2609 [41:55<2:09:47,  4.12s/it][A
Training...:  28% 720/2609 [41:58<2:06:21,  4.01s/it][A
Training...:  28% 721/2609 [42:02<2:03:25,  3.92s/it][A
Training...:  28% 722/2609 [42:06<1:59:36,  3.80s/it][A
Training...:  28% 723/2609 [42:09<1:55:58,  3.69s/it][A
Training...:  28% 724/2609 [42:12<1:52:22,  3.58s/it][A
Training...:  28% 725/2609 [42:16<1:49:39,  3.49s/it][A
Training...:  28% 726/2609 [42:19<1:46:11,  3.38s/it][A
Training...:  28% 727/2609 [42:22<1:43:20,  3.29s/it][A
Training...:  28% 728/2609 [42:25<1:40:45,  3.21s/it][A
Training...:  28% 729/2609 [42:28<1:37:41,  3.12s/it][A
Training...:  28% 730/2609 [42:31<1:35:04,  3.04s/it][A
Training...:  28% 731/2609 [42:33<1:32:43,  2.96s/it][A
Training...:  28% 732/2609 [42:36<1:29:33,  2.86s/it][A
Training...:  28% 733/2609 [42:39<1:26:50,  2.78s/it][A
Training...:  28% 734/2609 [42:41<1:24:19,  2.70s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:22:27<25:20:58, 9125.80s/it]
Training...:  28% 734/2609 [42:44<1:24:19,  2.70s/it][A
Training...:  28% 735/2609 [42:44<1:26:13,  2.76s/it][A
Training...:  28% 736/2609 [42:46<1:22:39,  2.65s/it][A
Training...:  28% 737/2609 [42:49<1:19:01,  2.53s/it][A
Training...:  28% 738/2609 [42:51<1:16:02,  2.44s/it][A
Training...:  28% 739/2609 [42:53<1:13:01,  2.34s/it][A
Training...:  28% 740/2609 [42:55<1:09:41,  2.24s/it][A
Training...:  28% 741/2609 [42:57<1:06:42,  2.14s/it][A
Training...:  28% 742/2609 [42:59<1:03:31,  2.04s/it][A
Training...:  28% 743/2609 [43:01<1:00:32,  1.95s/it][A
Training...:  29% 744/2609 [43:02<57:55,  1.86s/it]  [A
Training...:  29% 745/2609 [43:04<54:47,  1.76s/it][A
Training...:  29% 746/2609 [43:05<51:06,  1.65s/it][A
Training...:  29% 747/2609 [43:06<46:55,  1.51s/it][A
Training...:  29% 748/2609 [43:07<42:12,  1.36s/it][A
Training...:  29% 749/2609 [43:08<36:51,  1.19s/it][A
Training...:  29% 750/2609 [43:09<30:45,  1.01it/s][A
Training...:  29% 751/2609 [43:16<1:29:47,  2.90s/it][A
Training...:  29% 752/2609 [43:23<2:08:59,  4.17s/it][A
Training...:  29% 753/2609 [43:30<2:31:07,  4.89s/it][A
Training...:  29% 754/2609 [43:36<2:43:51,  5.30s/it][A
Training...:  29% 755/2609 [43:42<2:49:48,  5.50s/it][A
Training...:  29% 756/2609 [43:48<2:51:50,  5.56s/it][A
Training...:  29% 757/2609 [43:53<2:51:47,  5.57s/it][A
Training...:  29% 758/2609 [43:58<2:48:00,  5.45s/it][A
Training...:  29% 759/2609 [44:04<2:45:25,  5.37s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:23:52<25:20:58, 9125.80s/it]
Training...:  29% 759/2609 [44:09<2:45:25,  5.37s/it][A
Training...:  29% 760/2609 [44:09<2:47:34,  5.44s/it][A
Training...:  29% 761/2609 [44:14<2:41:09,  5.23s/it][A
Training...:  29% 762/2609 [44:19<2:35:32,  5.05s/it][A
Training...:  29% 763/2609 [44:23<2:30:35,  4.89s/it][A
Training...:  29% 764/2609 [44:27<2:25:23,  4.73s/it][A
Training...:  29% 765/2609 [44:32<2:20:44,  4.58s/it][A
Training...:  29% 766/2609 [44:36<2:15:48,  4.42s/it][A
Training...:  29% 767/2609 [44:40<2:11:47,  4.29s/it][A
Training...:  29% 768/2609 [44:44<2:08:35,  4.19s/it][A
Training...:  29% 769/2609 [44:48<2:06:03,  4.11s/it][A
Training...:  30% 770/2609 [44:51<2:02:05,  3.98s/it][A
Training...:  30% 771/2609 [44:55<1:58:01,  3.85s/it][A
Training...:  30% 772/2609 [44:58<1:53:56,  3.72s/it][A
Training...:  30% 773/2609 [45:02<1:50:38,  3.62s/it][A
Training...:  30% 774/2609 [45:05<1:47:40,  3.52s/it][A
Training...:  30% 775/2609 [45:08<1:44:16,  3.41s/it][A
Training...:  30% 776/2609 [45:11<1:41:18,  3.32s/it][A
Training...:  30% 777/2609 [45:14<1:38:19,  3.22s/it][A
Training...:  30% 778/2609 [45:17<1:35:59,  3.15s/it][A
Training...:  30% 779/2609 [45:20<1:33:21,  3.06s/it][A
Training...:  30% 780/2609 [45:23<1:30:37,  2.97s/it][A
Training...:  30% 781/2609 [45:25<1:28:09,  2.89s/it][A
Training...:  30% 782/2609 [45:28<1:25:22,  2.80s/it][A
Training...:  30% 783/2609 [45:31<1:22:46,  2.72s/it][A
Training...:  30% 784/2609 [45:33<1:19:49,  2.62s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:25:19<25:20:58, 9125.80s/it]
Training...:  30% 784/2609 [45:36<1:19:49,  2.62s/it][A
Training...:  30% 785/2609 [45:36<1:21:20,  2.68s/it][A
Training...:  30% 786/2609 [45:38<1:17:10,  2.54s/it][A
Training...:  30% 787/2609 [45:40<1:13:13,  2.41s/it][A
Training...:  30% 788/2609 [45:42<1:09:59,  2.31s/it][A
Training...:  30% 789/2609 [45:44<1:06:32,  2.19s/it][A
Training...:  30% 790/2609 [45:46<1:03:24,  2.09s/it][A
Training...:  30% 791/2609 [45:48<1:00:52,  2.01s/it][A
Training...:  30% 792/2609 [45:49<58:12,  1.92s/it]  [A
Training...:  30% 793/2609 [45:51<55:06,  1.82s/it][A
Training...:  30% 794/2609 [45:52<51:43,  1.71s/it][A
Training...:  30% 795/2609 [45:54<48:31,  1.61s/it][A
Training...:  31% 796/2609 [45:55<45:17,  1.50s/it][A
Training...:  31% 797/2609 [45:56<41:45,  1.38s/it][A
Training...:  31% 798/2609 [45:57<37:38,  1.25s/it][A
Training...:  31% 799/2609 [45:58<33:11,  1.10s/it][A
Training...:  31% 800/2609 [45:58<27:48,  1.08it/s][A
Training...:  31% 801/2609 [46:05<1:23:35,  2.77s/it][A
Training...:  31% 802/2609 [46:13<2:02:56,  4.08s/it][A
Training...:  31% 803/2609 [46:19<2:26:02,  4.85s/it][A
Training...:  31% 804/2609 [46:26<2:39:36,  5.31s/it][A
Training...:  31% 805/2609 [46:32<2:46:39,  5.54s/it][A
Training...:  31% 806/2609 [46:38<2:51:45,  5.72s/it][A
Training...:  31% 807/2609 [46:43<2:50:42,  5.68s/it][A
Training...:  31% 808/2609 [46:49<2:47:35,  5.58s/it][A
Training...:  31% 809/2609 [46:54<2:44:03,  5.47s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:26:43<25:20:58, 9125.80s/it]
Training...:  31% 809/2609 [47:00<2:44:03,  5.47s/it][A
Training...:  31% 810/2609 [47:00<2:46:47,  5.56s/it][A
Training...:  31% 811/2609 [47:05<2:40:47,  5.37s/it][A
Training...:  31% 812/2609 [47:09<2:34:38,  5.16s/it][A
Training...:  31% 813/2609 [47:14<2:29:01,  4.98s/it][A
Training...:  31% 814/2609 [47:18<2:23:26,  4.79s/it][A
Training...:  31% 815/2609 [47:23<2:18:37,  4.64s/it][A
Training...:  31% 816/2609 [47:27<2:13:57,  4.48s/it][A
Training...:  31% 817/2609 [47:31<2:09:46,  4.35s/it][A
Training...:  31% 818/2609 [47:35<2:05:44,  4.21s/it][A
Training...:  31% 819/2609 [47:39<2:02:52,  4.12s/it][A
Training...:  31% 820/2609 [47:42<1:59:23,  4.00s/it][A
Training...:  31% 821/2609 [47:46<1:56:20,  3.90s/it][A
Training...:  32% 822/2609 [47:49<1:52:38,  3.78s/it][A
Training...:  32% 823/2609 [47:53<1:49:40,  3.68s/it][A
Training...:  32% 824/2609 [47:56<1:46:19,  3.57s/it][A
Training...:  32% 825/2609 [47:59<1:43:27,  3.48s/it][A
Training...:  32% 826/2609 [48:03<1:40:32,  3.38s/it][A
Training...:  32% 827/2609 [48:06<1:38:00,  3.30s/it][A
Training...:  32% 828/2609 [48:09<1:36:01,  3.24s/it][A
Training...:  32% 829/2609 [48:12<1:33:30,  3.15s/it][A
Training...:  32% 830/2609 [48:15<1:30:04,  3.04s/it][A
Training...:  32% 831/2609 [48:17<1:27:00,  2.94s/it][A
Training...:  32% 832/2609 [48:20<1:23:47,  2.83s/it][A
Training...:  32% 833/2609 [48:22<1:21:02,  2.74s/it][A
Training...:  32% 834/2609 [48:25<1:18:21,  2.65s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:28:11<25:20:58, 9125.80s/it]
Training...:  32% 834/2609 [48:28<1:18:21,  2.65s/it][A
Training...:  32% 835/2609 [48:28<1:20:11,  2.71s/it][A
Training...:  32% 836/2609 [48:30<1:16:43,  2.60s/it][A
Training...:  32% 837/2609 [48:32<1:13:33,  2.49s/it][A
Training...:  32% 838/2609 [48:34<1:09:49,  2.37s/it][A
Training...:  32% 839/2609 [48:36<1:06:29,  2.25s/it][A
Training...:  32% 840/2609 [48:38<1:03:35,  2.16s/it][A
Training...:  32% 841/2609 [48:40<1:00:35,  2.06s/it][A
Training...:  32% 842/2609 [48:42<58:01,  1.97s/it]  [A
Training...:  32% 843/2609 [48:43<55:09,  1.87s/it][A
Training...:  32% 844/2609 [48:45<52:05,  1.77s/it][A
Training...:  32% 845/2609 [48:46<48:56,  1.66s/it][A
Training...:  32% 846/2609 [48:48<45:25,  1.55s/it][A
Training...:  32% 847/2609 [48:49<41:54,  1.43s/it][A
Training...:  33% 848/2609 [48:50<37:50,  1.29s/it][A
Training...:  33% 849/2609 [48:51<33:20,  1.14s/it][A
Training...:  33% 850/2609 [48:51<28:08,  1.04it/s][A
Training...:  33% 851/2609 [48:58<1:23:23,  2.85s/it][A
Training...:  33% 852/2609 [49:05<2:00:43,  4.12s/it][A
Training...:  33% 853/2609 [49:12<2:22:25,  4.87s/it][A
Training...:  33% 854/2609 [49:18<2:34:03,  5.27s/it][A
Training...:  33% 855/2609 [49:24<2:39:38,  5.46s/it][A
Training...:  33% 856/2609 [49:30<2:41:55,  5.54s/it][A
Training...:  33% 857/2609 [49:35<2:42:19,  5.56s/it][A
Training...:  33% 858/2609 [49:41<2:40:08,  5.49s/it][A
Training...:  33% 859/2609 [49:46<2:37:08,  5.39s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:29:35<25:20:58, 9125.80s/it]
Training...:  33% 859/2609 [49:52<2:37:08,  5.39s/it][A
Training...:  33% 860/2609 [49:52<2:39:05,  5.46s/it][A
Training...:  33% 861/2609 [49:56<2:33:18,  5.26s/it][A
Training...:  33% 862/2609 [50:01<2:28:15,  5.09s/it][A
Training...:  33% 863/2609 [50:06<2:24:05,  4.95s/it][A
Training...:  33% 864/2609 [50:10<2:20:32,  4.83s/it][A
Training...:  33% 865/2609 [50:15<2:15:36,  4.67s/it][A
Training...:  33% 866/2609 [50:19<2:10:47,  4.50s/it][A
Training...:  33% 867/2609 [50:23<2:07:01,  4.38s/it][A
Training...:  33% 868/2609 [50:27<2:03:04,  4.24s/it][A
Training...:  33% 869/2609 [50:31<1:59:32,  4.12s/it][A
Training...:  33% 870/2609 [50:34<1:55:52,  4.00s/it][A
Training...:  33% 871/2609 [50:38<1:52:37,  3.89s/it][A
Training...:  33% 872/2609 [50:41<1:49:23,  3.78s/it][A
Training...:  33% 873/2609 [50:45<1:46:15,  3.67s/it][A
Training...:  33% 874/2609 [50:48<1:43:20,  3.57s/it][A
Training...:  34% 875/2609 [50:51<1:40:08,  3.46s/it][A
Training...:  34% 876/2609 [50:54<1:37:02,  3.36s/it][A
Training...:  34% 877/2609 [50:58<1:34:51,  3.29s/it][A
Training...:  34% 878/2609 [51:01<1:32:09,  3.19s/it][A
Training...:  34% 879/2609 [51:03<1:29:37,  3.11s/it][A
Training...:  34% 880/2609 [51:06<1:26:58,  3.02s/it][A
Training...:  34% 881/2609 [51:09<1:24:34,  2.94s/it][A
Training...:  34% 882/2609 [51:12<1:22:05,  2.85s/it][A
Training...:  34% 883/2609 [51:14<1:19:18,  2.76s/it][A
Training...:  34% 884/2609 [51:17<1:16:27,  2.66s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:31:03<25:20:58, 9125.80s/it]
Training...:  34% 884/2609 [51:20<1:16:27,  2.66s/it][A
Training...:  34% 885/2609 [51:20<1:18:01,  2.72s/it][A
Training...:  34% 886/2609 [51:22<1:14:14,  2.59s/it][A
Training...:  34% 887/2609 [51:24<1:11:09,  2.48s/it][A
Training...:  34% 888/2609 [51:26<1:07:32,  2.35s/it][A
Training...:  34% 889/2609 [51:28<1:04:43,  2.26s/it][A
Training...:  34% 890/2609 [51:30<1:02:24,  2.18s/it][A
Training...:  34% 891/2609 [51:32<59:58,  2.09s/it]  [A
Training...:  34% 892/2609 [51:34<57:19,  2.00s/it][A
Training...:  34% 893/2609 [51:36<54:50,  1.92s/it][A
Training...:  34% 894/2609 [51:37<51:38,  1.81s/it][A
Training...:  34% 895/2609 [51:39<48:41,  1.70s/it][A
Training...:  34% 896/2609 [51:40<45:04,  1.58s/it][A
Training...:  34% 897/2609 [51:41<41:39,  1.46s/it][A
Training...:  34% 898/2609 [51:42<37:52,  1.33s/it][A
Training...:  34% 899/2609 [51:43<33:57,  1.19s/it][A
Training...:  34% 900/2609 [51:43<28:57,  1.02s/it][A
Training...:  35% 901/2609 [51:51<1:22:02,  2.88s/it][A
Training...:  35% 902/2609 [51:58<1:57:07,  4.12s/it][A
Training...:  35% 903/2609 [52:04<2:17:43,  4.84s/it][A
Training...:  35% 904/2609 [52:10<2:28:58,  5.24s/it][A
Training...:  35% 905/2609 [52:17<2:37:53,  5.56s/it][A
Training...:  35% 906/2609 [52:22<2:39:00,  5.60s/it][A
Training...:  35% 907/2609 [52:28<2:37:48,  5.56s/it][A
Training...:  35% 908/2609 [52:33<2:35:13,  5.48s/it][A
Training...:  35% 909/2609 [52:38<2:32:35,  5.39s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:32:27<25:20:58, 9125.80s/it]
Training...:  35% 909/2609 [52:44<2:32:35,  5.39s/it][A
Training...:  35% 910/2609 [52:44<2:34:26,  5.45s/it][A
Training...:  35% 911/2609 [52:49<2:29:09,  5.27s/it][A
Training...:  35% 912/2609 [52:53<2:23:17,  5.07s/it][A
Training...:  35% 913/2609 [52:58<2:18:03,  4.88s/it][A
Training...:  35% 914/2609 [53:02<2:13:32,  4.73s/it][A
Training...:  35% 915/2609 [53:06<2:09:05,  4.57s/it][A
Training...:  35% 916/2609 [53:11<2:05:27,  4.45s/it][A
Training...:  35% 917/2609 [53:15<2:01:37,  4.31s/it][A
Training...:  35% 918/2609 [53:18<1:57:39,  4.17s/it][A
Training...:  35% 919/2609 [53:22<1:54:12,  4.05s/it][A
Training...:  35% 920/2609 [53:26<1:51:05,  3.95s/it][A
Training...:  35% 921/2609 [53:30<1:48:00,  3.84s/it][A
Training...:  35% 922/2609 [53:33<1:44:47,  3.73s/it][A
Training...:  35% 923/2609 [53:36<1:41:49,  3.62s/it][A
Training...:  35% 924/2609 [53:40<1:38:58,  3.52s/it][A
Training...:  35% 925/2609 [53:43<1:36:05,  3.42s/it][A
Training...:  35% 926/2609 [53:46<1:33:05,  3.32s/it][A
Training...:  36% 927/2609 [53:49<1:30:42,  3.24s/it][A
Training...:  36% 928/2609 [53:52<1:27:49,  3.13s/it][A
Training...:  36% 929/2609 [53:55<1:25:24,  3.05s/it][A
Training...:  36% 930/2609 [53:57<1:22:57,  2.96s/it][A
Training...:  36% 931/2609 [54:00<1:20:26,  2.88s/it][A
Training...:  36% 932/2609 [54:03<1:17:49,  2.78s/it][A
Training...:  36% 933/2609 [54:05<1:15:28,  2.70s/it][A
Training...:  36% 934/2609 [54:08<1:12:58,  2.61s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:33:54<25:20:58, 9125.80s/it]
Training...:  36% 934/2609 [54:10<1:12:58,  2.61s/it][A
Training...:  36% 935/2609 [54:10<1:14:42,  2.68s/it][A
Training...:  36% 936/2609 [54:13<1:11:15,  2.56s/it][A
Training...:  36% 937/2609 [54:15<1:08:15,  2.45s/it][A
Training...:  36% 938/2609 [54:17<1:05:57,  2.37s/it][A
Training...:  36% 939/2609 [54:19<1:03:14,  2.27s/it][A
Training...:  36% 940/2609 [54:21<1:00:15,  2.17s/it][A
Training...:  36% 941/2609 [54:23<57:30,  2.07s/it]  [A
Training...:  36% 942/2609 [54:25<54:41,  1.97s/it][A
Training...:  36% 943/2609 [54:26<52:12,  1.88s/it][A
Training...:  36% 944/2609 [54:28<49:05,  1.77s/it][A
Training...:  36% 945/2609 [54:29<46:06,  1.66s/it][A
Training...:  36% 946/2609 [54:31<43:01,  1.55s/it][A
Training...:  36% 947/2609 [54:32<39:42,  1.43s/it][A
Training...:  36% 948/2609 [54:33<36:20,  1.31s/it][A
Training...:  36% 949/2609 [54:34<32:02,  1.16s/it][A
Training...:  36% 950/2609 [54:34<26:51,  1.03it/s][A
Training...:  36% 951/2609 [54:41<1:17:44,  2.81s/it][A
Training...:  36% 952/2609 [54:48<1:52:40,  4.08s/it][A
Training...:  37% 953/2609 [54:55<2:14:46,  4.88s/it][A
Training...:  37% 954/2609 [55:01<2:27:19,  5.34s/it][A
Training...:  37% 955/2609 [55:07<2:32:19,  5.53s/it][A
Training...:  37% 956/2609 [55:13<2:34:05,  5.59s/it][A
Training...:  37% 957/2609 [55:19<2:33:42,  5.58s/it][A
Training...:  37% 958/2609 [55:24<2:30:37,  5.47s/it][A
Training...:  37% 959/2609 [55:29<2:27:21,  5.36s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:35:18<25:20:58, 9125.80s/it]
Training...:  37% 959/2609 [55:35<2:27:21,  5.36s/it][A
Training...:  37% 960/2609 [55:35<2:29:19,  5.43s/it][A
Training...:  37% 961/2609 [55:39<2:23:16,  5.22s/it][A
Training...:  37% 962/2609 [55:44<2:17:20,  5.00s/it][A
Training...:  37% 963/2609 [55:48<2:12:26,  4.83s/it][A
Training...:  37% 964/2609 [55:52<2:07:58,  4.67s/it][A
Training...:  37% 965/2609 [55:57<2:03:33,  4.51s/it][A
Training...:  37% 966/2609 [56:01<1:59:35,  4.37s/it][A
Training...:  37% 967/2609 [56:05<1:56:55,  4.27s/it][A
Training...:  37% 968/2609 [56:09<1:53:23,  4.15s/it][A
Training...:  37% 969/2609 [56:12<1:50:29,  4.04s/it][A
Training...:  37% 970/2609 [56:16<1:47:19,  3.93s/it][A
Training...:  37% 971/2609 [56:20<1:45:01,  3.85s/it][A
Training...:  37% 972/2609 [56:23<1:41:45,  3.73s/it][A
Training...:  37% 973/2609 [56:26<1:38:38,  3.62s/it][A
Training...:  37% 974/2609 [56:30<1:36:04,  3.53s/it][A
Training...:  37% 975/2609 [56:33<1:33:28,  3.43s/it][A
Training...:  37% 976/2609 [56:36<1:31:08,  3.35s/it][A
Training...:  37% 977/2609 [56:39<1:29:37,  3.29s/it][A
Training...:  37% 978/2609 [56:42<1:27:08,  3.21s/it][A
Training...:  38% 979/2609 [56:45<1:24:25,  3.11s/it][A
Training...:  38% 980/2609 [56:48<1:21:41,  3.01s/it][A
Training...:  38% 981/2609 [56:51<1:19:08,  2.92s/it][A
Training...:  38% 982/2609 [56:53<1:16:30,  2.82s/it][A
Training...:  38% 983/2609 [56:56<1:14:19,  2.74s/it][A
Training...:  38% 984/2609 [56:58<1:12:18,  2.67s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:36:45<25:20:58, 9125.80s/it]
Training...:  38% 984/2609 [57:01<1:12:18,  2.67s/it][A
Training...:  38% 985/2609 [57:01<1:13:38,  2.72s/it][A
Training...:  38% 986/2609 [57:03<1:10:10,  2.59s/it][A
Training...:  38% 987/2609 [57:06<1:07:21,  2.49s/it][A
Training...:  38% 988/2609 [57:08<1:04:58,  2.41s/it][A
Training...:  38% 989/2609 [57:10<1:02:04,  2.30s/it][A
Training...:  38% 990/2609 [57:12<59:12,  2.19s/it]  [A
Training...:  38% 991/2609 [57:14<56:32,  2.10s/it][A
Training...:  38% 992/2609 [57:16<53:34,  1.99s/it][A
Training...:  38% 993/2609 [57:17<50:55,  1.89s/it][A
Training...:  38% 994/2609 [57:19<48:04,  1.79s/it][A
Training...:  38% 995/2609 [57:20<45:00,  1.67s/it][A
Training...:  38% 996/2609 [57:21<41:50,  1.56s/it][A
Training...:  38% 997/2609 [57:23<38:41,  1.44s/it][A
Training...:  38% 998/2609 [57:24<35:19,  1.32s/it][A
Training...:  38% 999/2609 [57:24<31:23,  1.17s/it][A
Training...:  38% 1000/2609 [57:25<26:25,  1.01it/s][A
Training...:  38% 1001/2609 [57:32<1:16:08,  2.84s/it][A
Training...:  38% 1002/2609 [57:39<1:50:08,  4.11s/it][A
Training...:  38% 1003/2609 [57:46<2:10:25,  4.87s/it][A
Training...:  38% 1004/2609 [57:52<2:22:06,  5.31s/it][A
Training...:  39% 1005/2609 [57:58<2:28:08,  5.54s/it][A
Training...:  39% 1006/2609 [58:04<2:29:55,  5.61s/it][A
Training...:  39% 1007/2609 [58:10<2:29:35,  5.60s/it][A
Training...:  39% 1008/2609 [58:15<2:26:42,  5.50s/it][A
Training...:  39% 1009/2609 [58:20<2:23:33,  5.38s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:38:09<25:20:58, 9125.80s/it]
Training...:  39% 1009/2609 [58:26<2:23:33,  5.38s/it][A
Training...:  39% 1010/2609 [58:26<2:26:19,  5.49s/it][A
Training...:  39% 1011/2609 [58:31<2:22:14,  5.34s/it][A
Training...:  39% 1012/2609 [58:35<2:16:25,  5.13s/it][A
Training...:  39% 1013/2609 [58:40<2:11:25,  4.94s/it][A
Training...:  39% 1014/2609 [58:44<2:06:22,  4.75s/it][A
Training...:  39% 1015/2609 [58:49<2:02:32,  4.61s/it][A
Training...:  39% 1016/2609 [58:53<1:58:23,  4.46s/it][A
Training...:  39% 1017/2609 [58:57<1:54:48,  4.33s/it][A
Training...:  39% 1018/2609 [59:01<1:51:02,  4.19s/it][A
Training...:  39% 1019/2609 [59:04<1:47:54,  4.07s/it][A
Training...:  39% 1020/2609 [59:08<1:44:51,  3.96s/it][A
Training...:  39% 1021/2609 [59:12<1:41:59,  3.85s/it][A
Training...:  39% 1022/2609 [59:15<1:39:11,  3.75s/it][A
Training...:  39% 1023/2609 [59:19<1:36:56,  3.67s/it][A
Training...:  39% 1024/2609 [59:22<1:34:23,  3.57s/it][A
Training...:  39% 1025/2609 [59:25<1:31:25,  3.46s/it][A
Training...:  39% 1026/2609 [59:28<1:28:23,  3.35s/it][A
Training...:  39% 1027/2609 [59:31<1:25:57,  3.26s/it][A
Training...:  39% 1028/2609 [59:34<1:23:31,  3.17s/it][A
Training...:  39% 1029/2609 [59:37<1:21:18,  3.09s/it][A
Training...:  39% 1030/2609 [59:40<1:18:55,  3.00s/it][A
Training...:  40% 1031/2609 [59:43<1:17:00,  2.93s/it][A
Training...:  40% 1032/2609 [59:45<1:14:47,  2.85s/it][A
Training...:  40% 1033/2609 [59:48<1:12:29,  2.76s/it][A
Training...:  40% 1034/2609 [59:50<1:09:48,  2.66s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:39:37<25:20:58, 9125.80s/it]
Training...:  40% 1034/2609 [59:53<1:09:48,  2.66s/it][A
Training...:  40% 1035/2609 [59:53<1:11:12,  2.71s/it][A
Training...:  40% 1036/2609 [59:55<1:07:48,  2.59s/it][A
Training...:  40% 1037/2609 [59:58<1:04:49,  2.47s/it][A
Training...:  40% 1038/2609 [1:00:00<1:01:49,  2.36s/it][A
Training...:  40% 1039/2609 [1:00:02<59:32,  2.28s/it]  [A
Training...:  40% 1040/2609 [1:00:04<57:20,  2.19s/it][A
Training...:  40% 1041/2609 [1:00:06<55:03,  2.11s/it][A
Training...:  40% 1042/2609 [1:00:08<52:04,  1.99s/it][A
Training...:  40% 1043/2609 [1:00:09<49:17,  1.89s/it][A
Training...:  40% 1044/2609 [1:00:11<46:25,  1.78s/it][A
Training...:  40% 1045/2609 [1:00:12<43:32,  1.67s/it][A
Training...:  40% 1046/2609 [1:00:13<40:33,  1.56s/it][A
Training...:  40% 1047/2609 [1:00:15<37:31,  1.44s/it][A
Training...:  40% 1048/2609 [1:00:16<34:11,  1.31s/it][A
Training...:  40% 1049/2609 [1:00:16<30:23,  1.17s/it][A
Training...:  40% 1050/2609 [1:00:17<25:39,  1.01it/s][A
Training...:  40% 1051/2609 [1:00:24<1:13:16,  2.82s/it][A
Training...:  40% 1052/2609 [1:00:31<1:45:11,  4.05s/it][A
Training...:  40% 1053/2609 [1:00:38<2:06:22,  4.87s/it][A
Training...:  40% 1054/2609 [1:00:44<2:18:09,  5.33s/it][A
Training...:  40% 1055/2609 [1:00:50<2:22:44,  5.51s/it][A
Training...:  40% 1056/2609 [1:00:56<2:23:51,  5.56s/it][A
Training...:  41% 1057/2609 [1:01:01<2:23:51,  5.56s/it][A
Training...:  41% 1058/2609 [1:01:07<2:21:41,  5.48s/it][A
Training...:  41% 1059/2609 [1:01:12<2:18:51,  5.38s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:41:01<25:20:58, 9125.80s/it]
Training...:  41% 1059/2609 [1:01:17<2:18:51,  5.38s/it][A
Training...:  41% 1060/2609 [1:01:17<2:20:16,  5.43s/it][A
Training...:  41% 1061/2609 [1:01:22<2:15:06,  5.24s/it][A
Training...:  41% 1062/2609 [1:01:27<2:09:59,  5.04s/it][A
Training...:  41% 1063/2609 [1:01:31<2:05:31,  4.87s/it][A
Training...:  41% 1064/2609 [1:01:35<2:00:59,  4.70s/it][A
Training...:  41% 1065/2609 [1:01:40<1:57:13,  4.56s/it][A
Training...:  41% 1066/2609 [1:01:44<1:53:38,  4.42s/it][A
Training...:  41% 1067/2609 [1:01:48<1:50:39,  4.31s/it][A
Training...:  41% 1068/2609 [1:01:52<1:47:45,  4.20s/it][A
Training...:  41% 1069/2609 [1:01:56<1:45:14,  4.10s/it][A
Training...:  41% 1070/2609 [1:01:59<1:42:03,  3.98s/it][A
Training...:  41% 1071/2609 [1:02:03<1:38:51,  3.86s/it][A
Training...:  41% 1072/2609 [1:02:06<1:36:10,  3.75s/it][A
Training...:  41% 1073/2609 [1:02:10<1:34:19,  3.68s/it][A
Training...:  41% 1074/2609 [1:02:13<1:31:26,  3.57s/it][A
Training...:  41% 1075/2609 [1:02:16<1:28:27,  3.46s/it][A
Training...:  41% 1076/2609 [1:02:20<1:25:43,  3.35s/it][A
Training...:  41% 1077/2609 [1:02:23<1:22:46,  3.24s/it][A
Training...:  41% 1078/2609 [1:02:25<1:20:23,  3.15s/it][A
Training...:  41% 1079/2609 [1:02:28<1:18:30,  3.08s/it][A
Training...:  41% 1080/2609 [1:02:31<1:16:09,  2.99s/it][A
Training...:  41% 1081/2609 [1:02:34<1:13:43,  2.89s/it][A
Training...:  41% 1082/2609 [1:02:36<1:11:19,  2.80s/it][A
Training...:  42% 1083/2609 [1:02:39<1:09:00,  2.71s/it][A
Training...:  42% 1084/2609 [1:02:41<1:06:36,  2.62s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:42:27<25:20:58, 9125.80s/it]
Training...:  42% 1084/2609 [1:02:44<1:06:36,  2.62s/it][A
Training...:  42% 1085/2609 [1:02:44<1:08:08,  2.68s/it][A
Training...:  42% 1086/2609 [1:02:46<1:05:01,  2.56s/it][A
Training...:  42% 1087/2609 [1:02:49<1:02:01,  2.45s/it][A
Training...:  42% 1088/2609 [1:02:51<59:09,  2.33s/it]  [A
Training...:  42% 1089/2609 [1:02:53<57:00,  2.25s/it][A
Training...:  42% 1090/2609 [1:02:55<54:20,  2.15s/it][A
Training...:  42% 1091/2609 [1:02:57<52:09,  2.06s/it][A
Training...:  42% 1092/2609 [1:02:58<49:37,  1.96s/it][A
Training...:  42% 1093/2609 [1:03:00<47:03,  1.86s/it][A
Training...:  42% 1094/2609 [1:03:01<44:10,  1.75s/it][A
Training...:  42% 1095/2609 [1:03:03<41:20,  1.64s/it][A
Training...:  42% 1096/2609 [1:03:04<38:31,  1.53s/it][A
Training...:  42% 1097/2609 [1:03:05<35:40,  1.42s/it][A
Training...:  42% 1098/2609 [1:03:06<32:19,  1.28s/it][A
Training...:  42% 1099/2609 [1:03:07<28:31,  1.13s/it][A
Training...:  42% 1100/2609 [1:03:07<23:59,  1.05it/s][A
Training...:  42% 1101/2609 [1:03:15<1:10:58,  2.82s/it][A
Training...:  42% 1102/2609 [1:03:22<1:42:38,  4.09s/it][A
Training...:  42% 1103/2609 [1:03:28<2:01:04,  4.82s/it][A
Training...:  42% 1104/2609 [1:03:34<2:11:08,  5.23s/it][A
Training...:  42% 1105/2609 [1:03:40<2:16:49,  5.46s/it][A
Training...:  42% 1106/2609 [1:03:46<2:18:12,  5.52s/it][A
Training...:  42% 1107/2609 [1:03:52<2:18:24,  5.53s/it][A
Training...:  42% 1108/2609 [1:03:57<2:16:47,  5.47s/it][A
Training...:  43% 1109/2609 [1:04:02<2:14:18,  5.37s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:43:51<25:20:58, 9125.80s/it]
Training...:  43% 1109/2609 [1:04:08<2:14:18,  5.37s/it][A
Training...:  43% 1110/2609 [1:04:08<2:16:33,  5.47s/it][A
Training...:  43% 1111/2609 [1:04:13<2:12:11,  5.29s/it][A
Training...:  43% 1112/2609 [1:04:17<2:07:20,  5.10s/it][A
Training...:  43% 1113/2609 [1:04:22<2:03:02,  4.93s/it][A
Training...:  43% 1114/2609 [1:04:26<1:58:47,  4.77s/it][A
Training...:  43% 1115/2609 [1:04:31<1:54:59,  4.62s/it][A
Training...:  43% 1116/2609 [1:04:35<1:50:56,  4.46s/it][A
Training...:  43% 1117/2609 [1:04:39<1:47:49,  4.34s/it][A
Training...:  43% 1118/2609 [1:04:43<1:45:01,  4.23s/it][A
Training...:  43% 1119/2609 [1:04:47<1:42:46,  4.14s/it][A
Training...:  43% 1120/2609 [1:04:50<1:39:38,  4.02s/it][A
Training...:  43% 1121/2609 [1:04:54<1:36:33,  3.89s/it][A
Training...:  43% 1122/2609 [1:04:57<1:33:20,  3.77s/it][A
Training...:  43% 1123/2609 [1:05:01<1:30:47,  3.67s/it][A
Training...:  43% 1124/2609 [1:05:04<1:27:49,  3.55s/it][A
Training...:  43% 1125/2609 [1:05:07<1:25:13,  3.45s/it][A
Training...:  43% 1126/2609 [1:05:10<1:22:44,  3.35s/it][A
Training...:  43% 1127/2609 [1:05:13<1:20:22,  3.25s/it][A
Training...:  43% 1128/2609 [1:05:16<1:18:22,  3.18s/it][A
Training...:  43% 1129/2609 [1:05:19<1:16:18,  3.09s/it][A
Training...:  43% 1130/2609 [1:05:22<1:13:57,  3.00s/it][A
Training...:  43% 1131/2609 [1:05:25<1:11:49,  2.92s/it][A
Training...:  43% 1132/2609 [1:05:27<1:09:22,  2.82s/it][A
Training...:  43% 1133/2609 [1:05:30<1:07:18,  2.74s/it][A
Training...:  43% 1134/2609 [1:05:32<1:04:56,  2.64s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:45:19<25:20:58, 9125.80s/it]
Training...:  43% 1134/2609 [1:05:35<1:04:56,  2.64s/it][A
Training...:  44% 1135/2609 [1:05:35<1:06:16,  2.70s/it][A
Training...:  44% 1136/2609 [1:05:37<1:02:57,  2.56s/it][A
Training...:  44% 1137/2609 [1:05:40<1:00:11,  2.45s/it][A
Training...:  44% 1138/2609 [1:05:42<57:32,  2.35s/it]  [A
Training...:  44% 1139/2609 [1:05:44<55:42,  2.27s/it][A
Training...:  44% 1140/2609 [1:05:46<53:15,  2.18s/it][A
Training...:  44% 1141/2609 [1:05:48<50:43,  2.07s/it][A
Training...:  44% 1142/2609 [1:05:49<48:17,  1.98s/it][A
Training...:  44% 1143/2609 [1:05:51<45:47,  1.87s/it][A
Training...:  44% 1144/2609 [1:05:53<42:58,  1.76s/it][A
Training...:  44% 1145/2609 [1:05:54<40:09,  1.65s/it][A
Training...:  44% 1146/2609 [1:05:55<37:11,  1.53s/it][A
Training...:  44% 1147/2609 [1:05:56<34:17,  1.41s/it][A
Training...:  44% 1148/2609 [1:05:57<31:07,  1.28s/it][A
Training...:  44% 1149/2609 [1:05:58<27:43,  1.14s/it][A
Training...:  44% 1150/2609 [1:05:59<23:19,  1.04it/s][A
Training...:  44% 1151/2609 [1:06:06<1:08:29,  2.82s/it][A
Training...:  44% 1152/2609 [1:06:13<1:38:56,  4.07s/it][A
Training...:  44% 1153/2609 [1:06:19<1:57:04,  4.82s/it][A
Training...:  44% 1154/2609 [1:06:26<2:07:55,  5.28s/it][A
Training...:  44% 1155/2609 [1:06:32<2:13:42,  5.52s/it][A
Training...:  44% 1156/2609 [1:06:38<2:15:23,  5.59s/it][A
Training...:  44% 1157/2609 [1:06:43<2:14:48,  5.57s/it][A
Training...:  44% 1158/2609 [1:06:48<2:12:16,  5.47s/it][A
Training...:  44% 1159/2609 [1:06:53<2:09:43,  5.37s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:46:42<25:20:58, 9125.80s/it]
Training...:  44% 1159/2609 [1:06:59<2:09:43,  5.37s/it][A
Training...:  44% 1160/2609 [1:06:59<2:11:41,  5.45s/it][A
Training...:  44% 1161/2609 [1:07:04<2:07:32,  5.29s/it][A
Training...:  45% 1162/2609 [1:07:09<2:03:22,  5.12s/it][A
Training...:  45% 1163/2609 [1:07:13<1:59:12,  4.95s/it][A
Training...:  45% 1164/2609 [1:07:18<1:54:23,  4.75s/it][A
Training...:  45% 1165/2609 [1:07:22<1:50:43,  4.60s/it][A
Training...:  45% 1166/2609 [1:07:26<1:46:42,  4.44s/it][A
Training...:  45% 1167/2609 [1:07:30<1:43:18,  4.30s/it][A
Training...:  45% 1168/2609 [1:07:34<1:40:19,  4.18s/it][A
Training...:  45% 1169/2609 [1:07:37<1:37:35,  4.07s/it][A
Training...:  45% 1170/2609 [1:07:41<1:34:38,  3.95s/it][A
Training...:  45% 1171/2609 [1:07:45<1:32:09,  3.85s/it][A
Training...:  45% 1172/2609 [1:07:48<1:29:11,  3.72s/it][A
Training...:  45% 1173/2609 [1:07:52<1:26:30,  3.61s/it][A
Training...:  45% 1174/2609 [1:07:55<1:24:13,  3.52s/it][A
Training...:  45% 1175/2609 [1:07:58<1:21:40,  3.42s/it][A
Training...:  45% 1176/2609 [1:08:01<1:19:25,  3.33s/it][A
Training...:  45% 1177/2609 [1:08:04<1:17:25,  3.24s/it][A
Training...:  45% 1178/2609 [1:08:07<1:15:15,  3.16s/it][A
Training...:  45% 1179/2609 [1:08:10<1:13:15,  3.07s/it][A
Training...:  45% 1180/2609 [1:08:13<1:11:16,  2.99s/it][A
Training...:  45% 1181/2609 [1:08:16<1:09:03,  2.90s/it][A
Training...:  45% 1182/2609 [1:08:18<1:06:53,  2.81s/it][A
Training...:  45% 1183/2609 [1:08:21<1:04:56,  2.73s/it][A
Training...:  45% 1184/2609 [1:08:23<1:02:51,  2.65s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:48:09<25:20:58, 9125.80s/it]
Training...:  45% 1184/2609 [1:08:26<1:02:51,  2.65s/it][A
Training...:  45% 1185/2609 [1:08:26<1:04:10,  2.70s/it][A
Training...:  45% 1186/2609 [1:08:28<1:00:59,  2.57s/it][A
Training...:  45% 1187/2609 [1:08:30<58:15,  2.46s/it]  [A
Training...:  46% 1188/2609 [1:08:33<55:42,  2.35s/it][A
Training...:  46% 1189/2609 [1:08:35<53:30,  2.26s/it][A
Training...:  46% 1190/2609 [1:08:37<51:03,  2.16s/it][A
Training...:  46% 1191/2609 [1:08:38<49:00,  2.07s/it][A
Training...:  46% 1192/2609 [1:08:40<46:22,  1.96s/it][A
Training...:  46% 1193/2609 [1:08:42<44:04,  1.87s/it][A
Training...:  46% 1194/2609 [1:08:43<41:31,  1.76s/it][A
Training...:  46% 1195/2609 [1:08:45<38:58,  1.65s/it][A
Training...:  46% 1196/2609 [1:08:46<36:26,  1.55s/it][A
Training...:  46% 1197/2609 [1:08:47<33:40,  1.43s/it][A
Training...:  46% 1198/2609 [1:08:48<30:41,  1.30s/it][A
Training...:  46% 1199/2609 [1:08:49<27:18,  1.16s/it][A
Training...:  46% 1200/2609 [1:08:50<23:04,  1.02it/s][A
Training...:  46% 1201/2609 [1:08:57<1:07:31,  2.88s/it][A
Training...:  46% 1202/2609 [1:09:04<1:36:45,  4.13s/it][A
Training...:  46% 1203/2609 [1:09:10<1:54:17,  4.88s/it][A
Training...:  46% 1204/2609 [1:09:17<2:04:25,  5.31s/it][A
Training...:  46% 1205/2609 [1:09:23<2:09:38,  5.54s/it][A
Training...:  46% 1206/2609 [1:09:29<2:11:09,  5.61s/it][A
Training...:  46% 1207/2609 [1:09:34<2:10:53,  5.60s/it][A
Training...:  46% 1208/2609 [1:09:40<2:08:35,  5.51s/it][A
Training...:  46% 1209/2609 [1:09:45<2:06:46,  5.43s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:49:34<25:20:58, 9125.80s/it]
Training...:  46% 1209/2609 [1:09:51<2:06:46,  5.43s/it][A
Training...:  46% 1210/2609 [1:09:51<2:09:07,  5.54s/it][A
Training...:  46% 1211/2609 [1:09:55<2:04:34,  5.35s/it][A
Training...:  46% 1212/2609 [1:10:00<1:59:43,  5.14s/it][A
Training...:  46% 1213/2609 [1:10:05<1:56:03,  4.99s/it][A
Training...:  47% 1214/2609 [1:10:09<1:52:04,  4.82s/it][A
Training...:  47% 1215/2609 [1:10:14<1:48:37,  4.68s/it][A
Training...:  47% 1216/2609 [1:10:18<1:45:14,  4.53s/it][A
Training...:  47% 1217/2609 [1:10:22<1:42:11,  4.40s/it][A
Training...:  47% 1218/2609 [1:10:26<1:38:58,  4.27s/it][A
Training...:  47% 1219/2609 [1:10:30<1:36:15,  4.16s/it][A
Training...:  47% 1220/2609 [1:10:33<1:33:14,  4.03s/it][A
Training...:  47% 1221/2609 [1:10:37<1:30:57,  3.93s/it][A
Training...:  47% 1222/2609 [1:10:41<1:28:09,  3.81s/it][A
Training...:  47% 1223/2609 [1:10:44<1:26:40,  3.75s/it][A
Training...:  47% 1224/2609 [1:10:48<1:24:41,  3.67s/it][A
Training...:  47% 1225/2609 [1:10:51<1:22:55,  3.59s/it][A
Training...:  47% 1226/2609 [1:10:54<1:19:54,  3.47s/it][A
Training...:  47% 1227/2609 [1:10:57<1:17:26,  3.36s/it][A
Training...:  47% 1228/2609 [1:11:00<1:15:04,  3.26s/it][A
Training...:  47% 1229/2609 [1:11:03<1:12:54,  3.17s/it][A
Training...:  47% 1230/2609 [1:11:06<1:10:50,  3.08s/it][A
Training...:  47% 1231/2609 [1:11:09<1:08:52,  3.00s/it][A
Training...:  47% 1232/2609 [1:11:12<1:06:38,  2.90s/it][A
Training...:  47% 1233/2609 [1:11:14<1:04:30,  2.81s/it][A
Training...:  47% 1234/2609 [1:11:17<1:02:27,  2.73s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:51:03<25:20:58, 9125.80s/it]
Training...:  47% 1234/2609 [1:11:20<1:02:27,  2.73s/it][A
Training...:  47% 1235/2609 [1:11:20<1:03:22,  2.77s/it][A
Training...:  47% 1236/2609 [1:11:22<1:00:22,  2.64s/it][A
Training...:  47% 1237/2609 [1:11:24<57:40,  2.52s/it]  [A
Training...:  47% 1238/2609 [1:11:26<54:58,  2.41s/it][A
Training...:  47% 1239/2609 [1:11:29<53:00,  2.32s/it][A
Training...:  48% 1240/2609 [1:11:31<50:28,  2.21s/it][A
Training...:  48% 1241/2609 [1:11:32<48:10,  2.11s/it][A
Training...:  48% 1242/2609 [1:11:34<45:50,  2.01s/it][A
Training...:  48% 1243/2609 [1:11:36<43:39,  1.92s/it][A
Training...:  48% 1244/2609 [1:11:38<41:18,  1.82s/it][A
Training...:  48% 1245/2609 [1:11:39<38:48,  1.71s/it][A
Training...:  48% 1246/2609 [1:11:40<36:07,  1.59s/it][A
Training...:  48% 1247/2609 [1:11:41<33:12,  1.46s/it][A
Training...:  48% 1248/2609 [1:11:42<30:18,  1.34s/it][A
Training...:  48% 1249/2609 [1:11:43<27:04,  1.19s/it][A
Training...:  48% 1250/2609 [1:11:44<23:00,  1.02s/it][A
Training...:  48% 1251/2609 [1:11:51<1:04:55,  2.87s/it][A
Training...:  48% 1252/2609 [1:11:58<1:33:17,  4.13s/it][A
Training...:  48% 1253/2609 [1:12:05<1:50:03,  4.87s/it][A
Training...:  48% 1254/2609 [1:12:11<2:00:00,  5.31s/it][A
Training...:  48% 1255/2609 [1:12:17<2:04:36,  5.52s/it][A
Training...:  48% 1256/2609 [1:12:23<2:05:26,  5.56s/it][A
Training...:  48% 1257/2609 [1:12:28<2:04:52,  5.54s/it][A
Training...:  48% 1258/2609 [1:12:34<2:03:08,  5.47s/it][A
Training...:  48% 1259/2609 [1:12:39<2:00:58,  5.38s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:52:28<25:20:58, 9125.80s/it]
Training...:  48% 1259/2609 [1:12:45<2:00:58,  5.38s/it][A
Training...:  48% 1260/2609 [1:12:45<2:03:21,  5.49s/it][A
Training...:  48% 1261/2609 [1:12:49<1:59:12,  5.31s/it][A
Training...:  48% 1262/2609 [1:12:54<1:54:34,  5.10s/it][A
Training...:  48% 1263/2609 [1:12:59<1:50:50,  4.94s/it][A
Training...:  48% 1264/2609 [1:13:03<1:46:37,  4.76s/it][A
Training...:  48% 1265/2609 [1:13:07<1:43:28,  4.62s/it][A
Training...:  49% 1266/2609 [1:13:11<1:40:10,  4.48s/it][A
Training...:  49% 1267/2609 [1:13:15<1:37:17,  4.35s/it][A
Training...:  49% 1268/2609 [1:13:19<1:34:32,  4.23s/it][A
Training...:  49% 1269/2609 [1:13:23<1:32:13,  4.13s/it][A
Training...:  49% 1270/2609 [1:13:27<1:30:09,  4.04s/it][A
Training...:  49% 1271/2609 [1:13:31<1:27:51,  3.94s/it][A
Training...:  49% 1272/2609 [1:13:34<1:25:39,  3.84s/it][A
Training...:  49% 1273/2609 [1:13:38<1:23:22,  3.74s/it][A
Training...:  49% 1274/2609 [1:13:41<1:20:52,  3.63s/it][A
Training...:  49% 1275/2609 [1:13:45<1:18:25,  3.53s/it][A
Training...:  49% 1276/2609 [1:13:48<1:15:56,  3.42s/it][A
Training...:  49% 1277/2609 [1:13:51<1:13:50,  3.33s/it][A
Training...:  49% 1278/2609 [1:13:54<1:11:43,  3.23s/it][A
Training...:  49% 1279/2609 [1:13:57<1:09:40,  3.14s/it][A
Training...:  49% 1280/2609 [1:14:00<1:07:43,  3.06s/it][A
Training...:  49% 1281/2609 [1:14:02<1:05:44,  2.97s/it][A
Training...:  49% 1282/2609 [1:14:05<1:03:42,  2.88s/it][A
Training...:  49% 1283/2609 [1:14:08<1:01:52,  2.80s/it][A
Training...:  49% 1284/2609 [1:14:10<59:50,  2.71s/it]  [A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:53:56<25:20:58, 9125.80s/it]
Training...:  49% 1284/2609 [1:14:13<59:50,  2.71s/it][A
Training...:  49% 1285/2609 [1:14:13<1:00:41,  2.75s/it][A
Training...:  49% 1286/2609 [1:14:15<57:53,  2.63s/it]  [A
Training...:  49% 1287/2609 [1:14:18<55:33,  2.52s/it][A
Training...:  49% 1288/2609 [1:14:20<52:55,  2.40s/it][A
Training...:  49% 1289/2609 [1:14:22<50:41,  2.30s/it][A
Training...:  49% 1290/2609 [1:14:24<47:53,  2.18s/it][A
Training...:  49% 1291/2609 [1:14:26<45:23,  2.07s/it][A
Training...:  50% 1292/2609 [1:14:28<45:27,  2.07s/it][A
Training...:  50% 1293/2609 [1:14:29<42:17,  1.93s/it][A
Training...:  50% 1294/2609 [1:14:31<39:23,  1.80s/it][A
Training...:  50% 1295/2609 [1:14:32<36:33,  1.67s/it][A
Training...:  50% 1296/2609 [1:14:33<33:52,  1.55s/it][A
Training...:  50% 1297/2609 [1:14:35<31:10,  1.43s/it][A
Training...:  50% 1298/2609 [1:14:36<28:26,  1.30s/it][A
Training...:  50% 1299/2609 [1:14:36<24:57,  1.14s/it][A
Training...:  50% 1300/2609 [1:14:37<21:05,  1.03it/s][A
Training...:  50% 1301/2609 [1:14:44<1:02:04,  2.85s/it][A
Training...:  50% 1302/2609 [1:14:51<1:29:43,  4.12s/it][A
Training...:  50% 1303/2609 [1:14:58<1:46:06,  4.87s/it][A
Training...:  50% 1304/2609 [1:15:04<1:55:02,  5.29s/it][A
Training...:  50% 1305/2609 [1:15:10<1:59:54,  5.52s/it][A
Training...:  50% 1306/2609 [1:15:16<2:00:42,  5.56s/it][A
Training...:  50% 1307/2609 [1:15:21<2:00:22,  5.55s/it][A
Training...:  50% 1308/2609 [1:15:27<1:59:37,  5.52s/it][A
Training...:  50% 1309/2609 [1:15:32<1:58:49,  5.48s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:55:21<25:20:58, 9125.80s/it]
Training...:  50% 1309/2609 [1:15:38<1:58:49,  5.48s/it][A
Training...:  50% 1310/2609 [1:15:38<2:00:27,  5.56s/it][A
Training...:  50% 1311/2609 [1:15:43<1:55:57,  5.36s/it][A
Training...:  50% 1312/2609 [1:15:47<1:51:18,  5.15s/it][A
Training...:  50% 1313/2609 [1:15:52<1:48:00,  5.00s/it][A
Training...:  50% 1314/2609 [1:15:57<1:44:12,  4.83s/it][A
Training...:  50% 1315/2609 [1:16:01<1:40:48,  4.67s/it][A
Training...:  50% 1316/2609 [1:16:05<1:37:41,  4.53s/it][A
Training...:  50% 1317/2609 [1:16:09<1:34:44,  4.40s/it][A
Training...:  51% 1318/2609 [1:16:13<1:31:39,  4.26s/it][A
Training...:  51% 1319/2609 [1:16:17<1:28:59,  4.14s/it][A
Training...:  51% 1320/2609 [1:16:21<1:26:14,  4.01s/it][A
Training...:  51% 1321/2609 [1:16:24<1:23:55,  3.91s/it][A
Training...:  51% 1322/2609 [1:16:28<1:21:21,  3.79s/it][A
Training...:  51% 1323/2609 [1:16:31<1:19:04,  3.69s/it][A
Training...:  51% 1324/2609 [1:16:35<1:16:46,  3.58s/it][A
Training...:  51% 1325/2609 [1:16:38<1:14:21,  3.47s/it][A
Training...:  51% 1326/2609 [1:16:41<1:12:00,  3.37s/it][A
Training...:  51% 1327/2609 [1:16:44<1:09:57,  3.27s/it][A
Training...:  51% 1328/2609 [1:16:47<1:07:53,  3.18s/it][A
Training...:  51% 1329/2609 [1:16:50<1:05:53,  3.09s/it][A
Training...:  51% 1330/2609 [1:16:53<1:04:00,  3.00s/it][A
Training...:  51% 1331/2609 [1:16:55<1:01:54,  2.91s/it][A
Training...:  51% 1332/2609 [1:16:58<1:00:04,  2.82s/it][A
Training...:  51% 1333/2609 [1:17:00<58:12,  2.74s/it]  [A
Training...:  51% 1334/2609 [1:17:03<56:09,  2.64s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:56:49<25:20:58, 9125.80s/it]
Training...:  51% 1334/2609 [1:17:06<56:09,  2.64s/it][A
Training...:  51% 1335/2609 [1:17:06<57:23,  2.70s/it][A
Training...:  51% 1336/2609 [1:17:08<54:33,  2.57s/it][A
Training...:  51% 1337/2609 [1:17:10<52:03,  2.46s/it][A
Training...:  51% 1338/2609 [1:17:12<50:10,  2.37s/it][A
Training...:  51% 1339/2609 [1:17:14<48:24,  2.29s/it][A
Training...:  51% 1340/2609 [1:17:16<46:19,  2.19s/it][A
Training...:  51% 1341/2609 [1:17:18<44:11,  2.09s/it][A
Training...:  51% 1342/2609 [1:17:20<41:53,  1.98s/it][A
Training...:  51% 1343/2609 [1:17:22<39:45,  1.88s/it][A
Training...:  52% 1344/2609 [1:17:23<37:26,  1.78s/it][A
Training...:  52% 1345/2609 [1:17:25<35:08,  1.67s/it][A
Training...:  52% 1346/2609 [1:17:26<32:44,  1.56s/it][A
Training...:  52% 1347/2609 [1:17:27<30:13,  1.44s/it][A
Training...:  52% 1348/2609 [1:17:28<27:32,  1.31s/it][A
Training...:  52% 1349/2609 [1:17:29<24:25,  1.16s/it][A
Training...:  52% 1350/2609 [1:17:29<20:24,  1.03it/s][A
Training...:  52% 1351/2609 [1:17:37<1:00:32,  2.89s/it][A
Training...:  52% 1352/2609 [1:17:44<1:27:08,  4.16s/it][A
Training...:  52% 1353/2609 [1:17:51<1:43:01,  4.92s/it][A
Training...:  52% 1354/2609 [1:17:57<1:51:10,  5.31s/it][A
Training...:  52% 1355/2609 [1:18:03<1:55:33,  5.53s/it][A
Training...:  52% 1356/2609 [1:18:09<1:57:23,  5.62s/it][A
Training...:  52% 1357/2609 [1:18:14<1:57:24,  5.63s/it][A
Training...:  52% 1358/2609 [1:18:20<1:55:16,  5.53s/it][A
Training...:  52% 1359/2609 [1:18:25<1:53:15,  5.44s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:58:14<25:20:58, 9125.80s/it]
Training...:  52% 1359/2609 [1:18:31<1:53:15,  5.44s/it][A
Training...:  52% 1360/2609 [1:18:31<1:55:56,  5.57s/it][A
Training...:  52% 1361/2609 [1:18:36<1:51:28,  5.36s/it][A
Training...:  52% 1362/2609 [1:18:40<1:46:59,  5.15s/it][A
Training...:  52% 1363/2609 [1:18:45<1:43:14,  4.97s/it][A
Training...:  52% 1364/2609 [1:18:49<1:39:35,  4.80s/it][A
Training...:  52% 1365/2609 [1:18:54<1:36:39,  4.66s/it][A
Training...:  52% 1366/2609 [1:18:58<1:33:14,  4.50s/it][A
Training...:  52% 1367/2609 [1:19:02<1:30:39,  4.38s/it][A
Training...:  52% 1368/2609 [1:19:06<1:28:22,  4.27s/it][A
Training...:  52% 1369/2609 [1:19:10<1:25:51,  4.15s/it][A
Training...:  53% 1370/2609 [1:19:13<1:23:06,  4.02s/it][A
Training...:  53% 1371/2609 [1:19:17<1:20:50,  3.92s/it][A
Training...:  53% 1372/2609 [1:19:21<1:18:10,  3.79s/it][A
Training...:  53% 1373/2609 [1:19:24<1:16:11,  3.70s/it][A
Training...:  53% 1374/2609 [1:19:27<1:14:20,  3.61s/it][A
Training...:  53% 1375/2609 [1:19:31<1:12:40,  3.53s/it][A
Training...:  53% 1376/2609 [1:19:34<1:10:53,  3.45s/it][A
Training...:  53% 1377/2609 [1:19:37<1:09:07,  3.37s/it][A
Training...:  53% 1378/2609 [1:19:40<1:06:44,  3.25s/it][A
Training...:  53% 1379/2609 [1:19:43<1:04:48,  3.16s/it][A
Training...:  53% 1380/2609 [1:19:46<1:02:56,  3.07s/it][A
Training...:  53% 1381/2609 [1:19:49<1:01:04,  2.98s/it][A
Training...:  53% 1382/2609 [1:19:51<58:53,  2.88s/it]  [A
Training...:  53% 1383/2609 [1:19:54<57:03,  2.79s/it][A
Training...:  53% 1384/2609 [1:19:57<55:22,  2.71s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [26:59:43<25:20:58, 9125.80s/it]
Training...:  53% 1384/2609 [1:19:59<55:22,  2.71s/it][A
Training...:  53% 1385/2609 [1:19:59<56:21,  2.76s/it][A
Training...:  53% 1386/2609 [1:20:02<53:53,  2.64s/it][A
Training...:  53% 1387/2609 [1:20:04<51:46,  2.54s/it][A
Training...:  53% 1388/2609 [1:20:06<50:15,  2.47s/it][A
Training...:  53% 1389/2609 [1:20:09<47:54,  2.36s/it][A
Training...:  53% 1390/2609 [1:20:11<45:37,  2.25s/it][A
Training...:  53% 1391/2609 [1:20:12<43:31,  2.14s/it][A
Training...:  53% 1392/2609 [1:20:14<41:19,  2.04s/it][A
Training...:  53% 1393/2609 [1:20:16<39:22,  1.94s/it][A
Training...:  53% 1394/2609 [1:20:18<37:17,  1.84s/it][A
Training...:  53% 1395/2609 [1:20:19<34:44,  1.72s/it][A
Training...:  54% 1396/2609 [1:20:20<32:11,  1.59s/it][A
Training...:  54% 1397/2609 [1:20:21<29:32,  1.46s/it][A
Training...:  54% 1398/2609 [1:20:22<26:41,  1.32s/it][A
Training...:  54% 1399/2609 [1:20:23<23:36,  1.17s/it][A
Training...:  54% 1400/2609 [1:20:24<19:48,  1.02it/s][A
Training...:  54% 1401/2609 [1:20:31<56:51,  2.82s/it][A
Training...:  54% 1402/2609 [1:20:38<1:22:55,  4.12s/it][A
Training...:  54% 1403/2609 [1:20:45<1:37:06,  4.83s/it][A
Training...:  54% 1404/2609 [1:20:51<1:45:53,  5.27s/it][A
Training...:  54% 1405/2609 [1:20:57<1:49:22,  5.45s/it][A
Training...:  54% 1406/2609 [1:21:02<1:49:53,  5.48s/it][A
Training...:  54% 1407/2609 [1:21:08<1:50:33,  5.52s/it][A
Training...:  54% 1408/2609 [1:21:13<1:50:23,  5.51s/it][A
Training...:  54% 1409/2609 [1:21:19<1:48:00,  5.40s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:01:07<25:20:58, 9125.80s/it]
Training...:  54% 1409/2609 [1:21:24<1:48:00,  5.40s/it][A
Training...:  54% 1410/2609 [1:21:24<1:48:55,  5.45s/it][A
Training...:  54% 1411/2609 [1:21:29<1:44:57,  5.26s/it][A
Training...:  54% 1412/2609 [1:21:33<1:40:51,  5.06s/it][A
Training...:  54% 1413/2609 [1:21:38<1:38:02,  4.92s/it][A
Training...:  54% 1414/2609 [1:21:42<1:34:56,  4.77s/it][A
Training...:  54% 1415/2609 [1:21:47<1:32:00,  4.62s/it][A
Training...:  54% 1416/2609 [1:21:51<1:29:25,  4.50s/it][A
Training...:  54% 1417/2609 [1:21:55<1:26:49,  4.37s/it][A
Training...:  54% 1418/2609 [1:21:59<1:24:20,  4.25s/it][A
Training...:  54% 1419/2609 [1:22:03<1:21:48,  4.12s/it][A
Training...:  54% 1420/2609 [1:22:07<1:19:20,  4.00s/it][A
Training...:  54% 1421/2609 [1:22:10<1:17:20,  3.91s/it][A
Training...:  55% 1422/2609 [1:22:14<1:15:13,  3.80s/it][A
Training...:  55% 1423/2609 [1:22:17<1:12:54,  3.69s/it][A
Training...:  55% 1424/2609 [1:22:21<1:10:25,  3.57s/it][A
Training...:  55% 1425/2609 [1:22:24<1:08:23,  3.47s/it][A
Training...:  55% 1426/2609 [1:22:27<1:06:22,  3.37s/it][A
Training...:  55% 1427/2609 [1:22:30<1:04:42,  3.28s/it][A
Training...:  55% 1428/2609 [1:22:33<1:02:53,  3.20s/it][A
Training...:  55% 1429/2609 [1:22:36<1:01:07,  3.11s/it][A
Training...:  55% 1430/2609 [1:22:39<59:09,  3.01s/it]  [A
Training...:  55% 1431/2609 [1:22:41<57:23,  2.92s/it][A
Training...:  55% 1432/2609 [1:22:44<55:39,  2.84s/it][A
Training...:  55% 1433/2609 [1:22:47<53:48,  2.75s/it][A
Training...:  55% 1434/2609 [1:22:49<52:08,  2.66s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:02:35<25:20:58, 9125.80s/it]
Training...:  55% 1434/2609 [1:22:52<52:08,  2.66s/it][A
Training...:  55% 1435/2609 [1:22:52<52:59,  2.71s/it][A
Training...:  55% 1436/2609 [1:22:54<50:25,  2.58s/it][A
Training...:  55% 1437/2609 [1:22:56<48:33,  2.49s/it][A
Training...:  55% 1438/2609 [1:22:58<46:23,  2.38s/it][A
Training...:  55% 1439/2609 [1:23:01<44:22,  2.28s/it][A
Training...:  55% 1440/2609 [1:23:02<42:20,  2.17s/it][A
Training...:  55% 1441/2609 [1:23:04<40:31,  2.08s/it][A
Training...:  55% 1442/2609 [1:23:06<38:37,  1.99s/it][A
Training...:  55% 1443/2609 [1:23:08<36:39,  1.89s/it][A
Training...:  55% 1444/2609 [1:23:09<34:39,  1.78s/it][A
Training...:  55% 1445/2609 [1:23:11<32:30,  1.68s/it][A
Training...:  55% 1446/2609 [1:23:12<30:10,  1.56s/it][A
Training...:  55% 1447/2609 [1:23:13<27:56,  1.44s/it][A
Training...:  56% 1448/2609 [1:23:14<25:18,  1.31s/it][A
Training...:  56% 1449/2609 [1:23:15<22:27,  1.16s/it][A
Training...:  56% 1450/2609 [1:23:16<18:59,  1.02it/s][A
Training...:  56% 1451/2609 [1:23:23<55:13,  2.86s/it][A
Training...:  56% 1452/2609 [1:23:30<1:19:25,  4.12s/it][A
Training...:  56% 1453/2609 [1:23:36<1:33:43,  4.86s/it][A
Training...:  56% 1454/2609 [1:23:43<1:41:48,  5.29s/it][A
Training...:  56% 1455/2609 [1:23:49<1:46:27,  5.53s/it][A
Training...:  56% 1456/2609 [1:23:55<1:47:38,  5.60s/it][A
Training...:  56% 1457/2609 [1:24:00<1:47:21,  5.59s/it][A
Training...:  56% 1458/2609 [1:24:05<1:45:02,  5.48s/it][A
Training...:  56% 1459/2609 [1:24:10<1:42:35,  5.35s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:03:59<25:20:58, 9125.80s/it]
Training...:  56% 1459/2609 [1:24:16<1:42:35,  5.35s/it][A
Training...:  56% 1460/2609 [1:24:16<1:43:48,  5.42s/it][A
Training...:  56% 1461/2609 [1:24:21<1:40:28,  5.25s/it][A
Training...:  56% 1462/2609 [1:24:26<1:37:08,  5.08s/it][A
Training...:  56% 1463/2609 [1:24:30<1:33:50,  4.91s/it][A
Training...:  56% 1464/2609 [1:24:34<1:30:32,  4.74s/it][A
Training...:  56% 1465/2609 [1:24:39<1:27:50,  4.61s/it][A
Training...:  56% 1466/2609 [1:24:43<1:24:32,  4.44s/it][A
Training...:  56% 1467/2609 [1:24:47<1:21:57,  4.31s/it][A
Training...:  56% 1468/2609 [1:24:51<1:19:29,  4.18s/it][A
Training...:  56% 1469/2609 [1:24:54<1:17:30,  4.08s/it][A
Training...:  56% 1470/2609 [1:24:58<1:15:35,  3.98s/it][A
Training...:  56% 1471/2609 [1:25:02<1:14:07,  3.91s/it][A
Training...:  56% 1472/2609 [1:25:05<1:11:39,  3.78s/it][A
Training...:  56% 1473/2609 [1:25:09<1:09:31,  3.67s/it][A
Training...:  56% 1474/2609 [1:25:12<1:07:20,  3.56s/it][A
Training...:  57% 1475/2609 [1:25:15<1:05:40,  3.48s/it][A
Training...:  57% 1476/2609 [1:25:19<1:03:35,  3.37s/it][A
Training...:  57% 1477/2609 [1:25:22<1:01:40,  3.27s/it][A
Training...:  57% 1478/2609 [1:25:25<59:56,  3.18s/it]  [A
Training...:  57% 1479/2609 [1:25:28<58:30,  3.11s/it][A
Training...:  57% 1480/2609 [1:25:30<56:51,  3.02s/it][A
Training...:  57% 1481/2609 [1:25:33<55:13,  2.94s/it][A
Training...:  57% 1482/2609 [1:25:36<53:26,  2.85s/it][A
Training...:  57% 1483/2609 [1:25:38<51:58,  2.77s/it][A
Training...:  57% 1484/2609 [1:25:41<50:16,  2.68s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:05:27<25:20:58, 9125.80s/it]
Training...:  57% 1484/2609 [1:25:44<50:16,  2.68s/it][A
Training...:  57% 1485/2609 [1:25:44<51:20,  2.74s/it][A
Training...:  57% 1486/2609 [1:25:46<48:53,  2.61s/it][A
Training...:  57% 1487/2609 [1:25:48<46:54,  2.51s/it][A
Training...:  57% 1488/2609 [1:25:50<44:42,  2.39s/it][A
Training...:  57% 1489/2609 [1:25:52<42:46,  2.29s/it][A
Training...:  57% 1490/2609 [1:25:54<40:52,  2.19s/it][A
Training...:  57% 1491/2609 [1:25:56<38:58,  2.09s/it][A
Training...:  57% 1492/2609 [1:25:58<37:09,  2.00s/it][A
Training...:  57% 1493/2609 [1:26:00<35:11,  1.89s/it][A
Training...:  57% 1494/2609 [1:26:01<33:07,  1.78s/it][A
Training...:  57% 1495/2609 [1:26:03<31:12,  1.68s/it][A
Training...:  57% 1496/2609 [1:26:04<29:13,  1.58s/it][A
Training...:  57% 1497/2609 [1:26:05<26:59,  1.46s/it][A
Training...:  57% 1498/2609 [1:26:06<24:25,  1.32s/it][A
Training...:  57% 1499/2609 [1:26:07<21:35,  1.17s/it][A
Training...:  57% 1500/2609 [1:26:08<18:23,  1.01it/s][A
Training...:  58% 1501/2609 [1:26:15<52:20,  2.83s/it][A
Training...:  58% 1502/2609 [1:26:22<1:15:52,  4.11s/it][A
Training...:  58% 1503/2609 [1:26:28<1:29:41,  4.87s/it][A
Training...:  58% 1504/2609 [1:26:35<1:38:00,  5.32s/it][A
Training...:  58% 1505/2609 [1:26:41<1:41:56,  5.54s/it][A
Training...:  58% 1506/2609 [1:26:47<1:42:46,  5.59s/it][A
Training...:  58% 1507/2609 [1:26:52<1:42:58,  5.61s/it][A
Training...:  58% 1508/2609 [1:26:58<1:41:37,  5.54s/it][A
Training...:  58% 1509/2609 [1:27:03<1:39:47,  5.44s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:06:52<25:20:58, 9125.80s/it]
Training...:  58% 1509/2609 [1:27:09<1:39:47,  5.44s/it][A
Training...:  58% 1510/2609 [1:27:09<1:41:16,  5.53s/it][A
Training...:  58% 1511/2609 [1:27:13<1:37:38,  5.34s/it][A
Training...:  58% 1512/2609 [1:27:18<1:33:59,  5.14s/it][A
Training...:  58% 1513/2609 [1:27:23<1:30:56,  4.98s/it][A
Training...:  58% 1514/2609 [1:27:27<1:28:54,  4.87s/it][A
Training...:  58% 1515/2609 [1:27:32<1:26:43,  4.76s/it][A
Training...:  58% 1516/2609 [1:27:36<1:24:07,  4.62s/it][A
Training...:  58% 1517/2609 [1:27:40<1:21:06,  4.46s/it][A
Training...:  58% 1518/2609 [1:27:44<1:18:18,  4.31s/it][A
Training...:  58% 1519/2609 [1:27:48<1:15:55,  4.18s/it][A
Training...:  58% 1520/2609 [1:27:52<1:13:35,  4.05s/it][A
Training...:  58% 1521/2609 [1:27:55<1:11:08,  3.92s/it][A
Training...:  58% 1522/2609 [1:27:59<1:09:05,  3.81s/it][A
Training...:  58% 1523/2609 [1:28:02<1:07:00,  3.70s/it][A
Training...:  58% 1524/2609 [1:28:06<1:05:05,  3.60s/it][A
Training...:  58% 1525/2609 [1:28:09<1:03:16,  3.50s/it][A
Training...:  58% 1526/2609 [1:28:12<1:01:13,  3.39s/it][A
Training...:  59% 1527/2609 [1:28:15<59:11,  3.28s/it]  [A
Training...:  59% 1528/2609 [1:28:18<57:26,  3.19s/it][A
Training...:  59% 1529/2609 [1:28:21<55:46,  3.10s/it][A
Training...:  59% 1530/2609 [1:28:24<54:00,  3.00s/it][A
Training...:  59% 1531/2609 [1:28:27<52:23,  2.92s/it][A
Training...:  59% 1532/2609 [1:28:29<50:37,  2.82s/it][A
Training...:  59% 1533/2609 [1:28:32<48:48,  2.72s/it][A
Training...:  59% 1534/2609 [1:28:34<47:08,  2.63s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:08:20<25:20:58, 9125.80s/it]
Training...:  59% 1534/2609 [1:28:37<47:08,  2.63s/it][A
Training...:  59% 1535/2609 [1:28:37<47:56,  2.68s/it][A
Training...:  59% 1536/2609 [1:28:39<45:38,  2.55s/it][A
Training...:  59% 1537/2609 [1:28:41<44:12,  2.47s/it][A
Training...:  59% 1538/2609 [1:28:43<42:14,  2.37s/it][A
Training...:  59% 1539/2609 [1:28:45<40:10,  2.25s/it][A
Training...:  59% 1540/2609 [1:28:47<38:15,  2.15s/it][A
Training...:  59% 1541/2609 [1:28:49<36:35,  2.06s/it][A
Training...:  59% 1542/2609 [1:28:51<34:58,  1.97s/it][A
Training...:  59% 1543/2609 [1:28:53<33:13,  1.87s/it][A
Training...:  59% 1544/2609 [1:28:54<31:26,  1.77s/it][A
Training...:  59% 1545/2609 [1:28:56<29:29,  1.66s/it][A
Training...:  59% 1546/2609 [1:28:57<27:33,  1.56s/it][A
Training...:  59% 1547/2609 [1:28:58<25:27,  1.44s/it][A
Training...:  59% 1548/2609 [1:28:59<22:53,  1.29s/it][A
Training...:  59% 1549/2609 [1:29:00<20:03,  1.13s/it][A
Training...:  59% 1550/2609 [1:29:00<16:45,  1.05it/s][A
Training...:  59% 1551/2609 [1:29:07<49:15,  2.79s/it][A
Training...:  59% 1552/2609 [1:29:14<1:11:09,  4.04s/it][A
Training...:  60% 1553/2609 [1:29:21<1:24:29,  4.80s/it][A
Training...:  60% 1554/2609 [1:29:27<1:31:50,  5.22s/it][A
Training...:  60% 1555/2609 [1:29:33<1:37:31,  5.55s/it][A
Training...:  60% 1556/2609 [1:29:39<1:38:08,  5.59s/it][A
Training...:  60% 1557/2609 [1:29:45<1:37:40,  5.57s/it][A
Training...:  60% 1558/2609 [1:29:50<1:36:01,  5.48s/it][A
Training...:  60% 1559/2609 [1:29:55<1:34:06,  5.38s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:09:44<25:20:58, 9125.80s/it]
Training...:  60% 1559/2609 [1:30:01<1:34:06,  5.38s/it][A
Training...:  60% 1560/2609 [1:30:01<1:35:38,  5.47s/it][A
Training...:  60% 1561/2609 [1:30:06<1:32:01,  5.27s/it][A
Training...:  60% 1562/2609 [1:30:10<1:28:39,  5.08s/it][A
Training...:  60% 1563/2609 [1:30:15<1:25:54,  4.93s/it][A
Training...:  60% 1564/2609 [1:30:19<1:23:08,  4.77s/it][A
Training...:  60% 1565/2609 [1:30:23<1:20:23,  4.62s/it][A
Training...:  60% 1566/2609 [1:30:28<1:17:34,  4.46s/it][A
Training...:  60% 1567/2609 [1:30:32<1:15:13,  4.33s/it][A
Training...:  60% 1568/2609 [1:30:35<1:12:47,  4.20s/it][A
Training...:  60% 1569/2609 [1:30:39<1:10:43,  4.08s/it][A
Training...:  60% 1570/2609 [1:30:43<1:08:26,  3.95s/it][A
Training...:  60% 1571/2609 [1:30:46<1:06:39,  3.85s/it][A
Training...:  60% 1572/2609 [1:30:50<1:04:38,  3.74s/it][A
Training...:  60% 1573/2609 [1:30:53<1:02:51,  3.64s/it][A
Training...:  60% 1574/2609 [1:30:57<1:00:52,  3.53s/it][A
Training...:  60% 1575/2609 [1:31:00<59:14,  3.44s/it]  [A
Training...:  60% 1576/2609 [1:31:03<57:13,  3.32s/it][A
Training...:  60% 1577/2609 [1:31:06<55:36,  3.23s/it][A
Training...:  60% 1578/2609 [1:31:09<53:53,  3.14s/it][A
Training...:  61% 1579/2609 [1:31:12<52:52,  3.08s/it][A
Training...:  61% 1580/2609 [1:31:15<51:19,  2.99s/it][A
Training...:  61% 1581/2609 [1:31:17<49:30,  2.89s/it][A
Training...:  61% 1582/2609 [1:31:20<47:53,  2.80s/it][A
Training...:  61% 1583/2609 [1:31:22<46:26,  2.72s/it][A
Training...:  61% 1584/2609 [1:31:25<44:58,  2.63s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:11:11<25:20:58, 9125.80s/it]
Training...:  61% 1584/2609 [1:31:28<44:58,  2.63s/it][A
Training...:  61% 1585/2609 [1:31:28<46:05,  2.70s/it][A
Training...:  61% 1586/2609 [1:31:30<44:00,  2.58s/it][A
Training...:  61% 1587/2609 [1:31:32<42:32,  2.50s/it][A
Training...:  61% 1588/2609 [1:31:34<40:37,  2.39s/it][A
Training...:  61% 1589/2609 [1:31:36<38:43,  2.28s/it][A
Training...:  61% 1590/2609 [1:31:38<37:01,  2.18s/it][A
Training...:  61% 1591/2609 [1:31:40<35:20,  2.08s/it][A
Training...:  61% 1592/2609 [1:31:42<33:25,  1.97s/it][A
Training...:  61% 1593/2609 [1:31:44<31:36,  1.87s/it][A
Training...:  61% 1594/2609 [1:31:45<29:41,  1.76s/it][A
Training...:  61% 1595/2609 [1:31:46<27:44,  1.64s/it][A
Training...:  61% 1596/2609 [1:31:48<25:40,  1.52s/it][A
Training...:  61% 1597/2609 [1:31:49<23:39,  1.40s/it][A
Training...:  61% 1598/2609 [1:31:50<21:25,  1.27s/it][A
Training...:  61% 1599/2609 [1:31:51<19:02,  1.13s/it][A
Training...:  61% 1600/2609 [1:31:51<15:59,  1.05it/s][A
Training...:  61% 1601/2609 [1:31:58<46:51,  2.79s/it][A
Training...:  61% 1602/2609 [1:32:05<1:08:20,  4.07s/it][A
Training...:  61% 1603/2609 [1:32:12<1:20:15,  4.79s/it][A
Training...:  61% 1604/2609 [1:32:18<1:27:16,  5.21s/it][A
Training...:  62% 1605/2609 [1:32:24<1:31:20,  5.46s/it][A
Training...:  62% 1606/2609 [1:32:30<1:32:20,  5.52s/it][A
Training...:  62% 1607/2609 [1:32:35<1:33:17,  5.59s/it][A
Training...:  62% 1608/2609 [1:32:41<1:31:56,  5.51s/it][A
Training...:  62% 1609/2609 [1:32:46<1:30:55,  5.46s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:12:35<25:20:58, 9125.80s/it]
Training...:  62% 1609/2609 [1:32:52<1:30:55,  5.46s/it][A
Training...:  62% 1610/2609 [1:32:52<1:31:46,  5.51s/it][A
Training...:  62% 1611/2609 [1:32:56<1:28:02,  5.29s/it][A
Training...:  62% 1612/2609 [1:33:01<1:24:22,  5.08s/it][A
Training...:  62% 1613/2609 [1:33:06<1:21:31,  4.91s/it][A
Training...:  62% 1614/2609 [1:33:10<1:18:34,  4.74s/it][A
Training...:  62% 1615/2609 [1:33:14<1:16:01,  4.59s/it][A
Training...:  62% 1616/2609 [1:33:18<1:13:15,  4.43s/it][A
Training...:  62% 1617/2609 [1:33:22<1:11:12,  4.31s/it][A
Training...:  62% 1618/2609 [1:33:26<1:08:51,  4.17s/it][A
Training...:  62% 1619/2609 [1:33:30<1:07:08,  4.07s/it][A
Training...:  62% 1620/2609 [1:33:33<1:04:58,  3.94s/it][A
Training...:  62% 1621/2609 [1:33:37<1:03:12,  3.84s/it][A
Training...:  62% 1622/2609 [1:33:41<1:01:21,  3.73s/it][A
Training...:  62% 1623/2609 [1:33:44<59:35,  3.63s/it]  [A
Training...:  62% 1624/2609 [1:33:47<57:52,  3.52s/it][A
Training...:  62% 1625/2609 [1:33:50<56:14,  3.43s/it][A
Training...:  62% 1626/2609 [1:33:54<54:29,  3.33s/it][A
Training...:  62% 1627/2609 [1:33:57<52:56,  3.23s/it][A
Training...:  62% 1628/2609 [1:33:59<51:23,  3.14s/it][A
Training...:  62% 1629/2609 [1:34:02<49:56,  3.06s/it][A
Training...:  62% 1630/2609 [1:34:05<48:33,  2.98s/it][A
Training...:  63% 1631/2609 [1:34:08<47:31,  2.92s/it][A
Training...:  63% 1632/2609 [1:34:11<46:17,  2.84s/it][A
Training...:  63% 1633/2609 [1:34:13<44:50,  2.76s/it][A
Training...:  63% 1634/2609 [1:34:16<43:08,  2.65s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:14:02<25:20:58, 9125.80s/it]
Training...:  63% 1634/2609 [1:34:18<43:08,  2.65s/it][A
Training...:  63% 1635/2609 [1:34:18<43:57,  2.71s/it][A
Training...:  63% 1636/2609 [1:34:21<41:47,  2.58s/it][A
Training...:  63% 1637/2609 [1:34:23<39:42,  2.45s/it][A
Training...:  63% 1638/2609 [1:34:25<37:45,  2.33s/it][A
Training...:  63% 1639/2609 [1:34:27<35:54,  2.22s/it][A
Training...:  63% 1640/2609 [1:34:29<34:07,  2.11s/it][A
Training...:  63% 1641/2609 [1:34:30<32:31,  2.02s/it][A
Training...:  63% 1642/2609 [1:34:32<30:57,  1.92s/it][A
Training...:  63% 1643/2609 [1:34:34<29:28,  1.83s/it][A
Training...:  63% 1644/2609 [1:34:35<27:49,  1.73s/it][A
Training...:  63% 1645/2609 [1:34:37<26:11,  1.63s/it][A
Training...:  63% 1646/2609 [1:34:38<24:21,  1.52s/it][A
Training...:  63% 1647/2609 [1:34:39<22:20,  1.39s/it][A
Training...:  63% 1648/2609 [1:34:40<20:10,  1.26s/it][A
Training...:  63% 1649/2609 [1:34:41<17:49,  1.11s/it][A
Training...:  63% 1650/2609 [1:34:41<15:06,  1.06it/s][A
Training...:  63% 1651/2609 [1:34:49<45:17,  2.84s/it][A
Training...:  63% 1652/2609 [1:34:56<1:05:35,  4.11s/it][A
Training...:  63% 1653/2609 [1:35:02<1:17:18,  4.85s/it][A
Training...:  63% 1654/2609 [1:35:09<1:24:25,  5.30s/it][A
Training...:  63% 1655/2609 [1:35:15<1:28:04,  5.54s/it][A
Training...:  63% 1656/2609 [1:35:20<1:29:01,  5.61s/it][A
Training...:  64% 1657/2609 [1:35:26<1:28:50,  5.60s/it][A
Training...:  64% 1658/2609 [1:35:31<1:27:21,  5.51s/it][A
Training...:  64% 1659/2609 [1:35:37<1:26:15,  5.45s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:15:26<25:20:58, 9125.80s/it]
Training...:  64% 1659/2609 [1:35:42<1:26:15,  5.45s/it][A
Training...:  64% 1660/2609 [1:35:42<1:27:33,  5.54s/it][A
Training...:  64% 1661/2609 [1:35:47<1:25:08,  5.39s/it][A
Training...:  64% 1662/2609 [1:35:52<1:22:27,  5.22s/it][A
Training...:  64% 1663/2609 [1:35:57<1:19:24,  5.04s/it][A
Training...:  64% 1664/2609 [1:36:01<1:16:14,  4.84s/it][A
Training...:  64% 1665/2609 [1:36:06<1:13:51,  4.69s/it][A
Training...:  64% 1666/2609 [1:36:10<1:11:27,  4.55s/it][A
Training...:  64% 1667/2609 [1:36:14<1:09:14,  4.41s/it][A
Training...:  64% 1668/2609 [1:36:18<1:06:53,  4.27s/it][A
Training...:  64% 1669/2609 [1:36:22<1:05:01,  4.15s/it][A
Training...:  64% 1670/2609 [1:36:25<1:02:47,  4.01s/it][A
Training...:  64% 1671/2609 [1:36:29<1:01:10,  3.91s/it][A
Training...:  64% 1672/2609 [1:36:33<59:22,  3.80s/it]  [A
Training...:  64% 1673/2609 [1:36:36<57:30,  3.69s/it][A
Training...:  64% 1674/2609 [1:36:39<55:42,  3.57s/it][A
Training...:  64% 1675/2609 [1:36:43<54:03,  3.47s/it][A
Training...:  64% 1676/2609 [1:36:46<52:19,  3.36s/it][A
Training...:  64% 1677/2609 [1:36:49<50:48,  3.27s/it][A
Training...:  64% 1678/2609 [1:36:52<49:20,  3.18s/it][A
Training...:  64% 1679/2609 [1:36:55<47:52,  3.09s/it][A
Training...:  64% 1680/2609 [1:36:57<46:35,  3.01s/it][A
Training...:  64% 1681/2609 [1:37:00<45:27,  2.94s/it][A
Training...:  64% 1682/2609 [1:37:03<44:01,  2.85s/it][A
Training...:  65% 1683/2609 [1:37:05<42:35,  2.76s/it][A
Training...:  65% 1684/2609 [1:37:08<41:00,  2.66s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:16:54<25:20:58, 9125.80s/it]
Training...:  65% 1684/2609 [1:37:11<41:00,  2.66s/it][A
Training...:  65% 1685/2609 [1:37:11<41:44,  2.71s/it][A
Training...:  65% 1686/2609 [1:37:13<39:43,  2.58s/it][A
Training...:  65% 1687/2609 [1:37:15<38:03,  2.48s/it][A
Training...:  65% 1688/2609 [1:37:17<36:23,  2.37s/it][A
Training...:  65% 1689/2609 [1:37:19<34:35,  2.26s/it][A
Training...:  65% 1690/2609 [1:37:21<32:52,  2.15s/it][A
Training...:  65% 1691/2609 [1:37:23<31:25,  2.05s/it][A
Training...:  65% 1692/2609 [1:37:25<29:38,  1.94s/it][A
Training...:  65% 1693/2609 [1:37:26<28:01,  1.84s/it][A
Training...:  65% 1694/2609 [1:37:28<26:18,  1.73s/it][A
Training...:  65% 1695/2609 [1:37:29<24:36,  1.62s/it][A
Training...:  65% 1696/2609 [1:37:30<22:53,  1.50s/it][A
Training...:  65% 1697/2609 [1:37:31<21:10,  1.39s/it][A
Training...:  65% 1698/2609 [1:37:32<19:12,  1.26s/it][A
Training...:  65% 1699/2609 [1:37:33<17:02,  1.12s/it][A
Training...:  65% 1700/2609 [1:37:34<14:28,  1.05it/s][A
Training...:  65% 1701/2609 [1:37:41<42:21,  2.80s/it][A
Training...:  65% 1702/2609 [1:37:48<1:01:22,  4.06s/it][A
Training...:  65% 1703/2609 [1:37:54<1:12:44,  4.82s/it][A
Training...:  65% 1704/2609 [1:38:01<1:19:06,  5.25s/it][A
Training...:  65% 1705/2609 [1:38:07<1:22:19,  5.46s/it][A
Training...:  65% 1706/2609 [1:38:12<1:23:22,  5.54s/it][A
Training...:  65% 1707/2609 [1:38:18<1:23:40,  5.57s/it][A
Training...:  65% 1708/2609 [1:38:24<1:23:17,  5.55s/it][A
Training...:  66% 1709/2609 [1:38:29<1:22:23,  5.49s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:18:18<25:20:58, 9125.80s/it]
Training...:  66% 1709/2609 [1:38:35<1:22:23,  5.49s/it][A
Training...:  66% 1710/2609 [1:38:35<1:23:18,  5.56s/it][A
Training...:  66% 1711/2609 [1:38:40<1:20:13,  5.36s/it][A
Training...:  66% 1712/2609 [1:38:44<1:16:48,  5.14s/it][A
Training...:  66% 1713/2609 [1:38:49<1:14:07,  4.96s/it][A
Training...:  66% 1714/2609 [1:38:53<1:11:29,  4.79s/it][A
Training...:  66% 1715/2609 [1:38:57<1:09:01,  4.63s/it][A
Training...:  66% 1716/2609 [1:39:01<1:06:29,  4.47s/it][A
Training...:  66% 1717/2609 [1:39:05<1:04:20,  4.33s/it][A
Training...:  66% 1718/2609 [1:39:09<1:02:28,  4.21s/it][A
Training...:  66% 1719/2609 [1:39:13<1:00:51,  4.10s/it][A
Training...:  66% 1720/2609 [1:39:17<59:06,  3.99s/it]  [A
Training...:  66% 1721/2609 [1:39:21<57:33,  3.89s/it][A
Training...:  66% 1722/2609 [1:39:24<55:43,  3.77s/it][A
Training...:  66% 1723/2609 [1:39:27<54:05,  3.66s/it][A
Training...:  66% 1724/2609 [1:39:31<52:31,  3.56s/it][A
Training...:  66% 1725/2609 [1:39:34<51:01,  3.46s/it][A
Training...:  66% 1726/2609 [1:39:37<49:44,  3.38s/it][A
Training...:  66% 1727/2609 [1:39:40<48:44,  3.32s/it][A
Training...:  66% 1728/2609 [1:39:43<47:16,  3.22s/it][A
Training...:  66% 1729/2609 [1:39:46<46:01,  3.14s/it][A
Training...:  66% 1730/2609 [1:39:49<44:29,  3.04s/it][A
Training...:  66% 1731/2609 [1:39:52<42:58,  2.94s/it][A
Training...:  66% 1732/2609 [1:39:54<41:19,  2.83s/it][A
Training...:  66% 1733/2609 [1:39:57<39:57,  2.74s/it][A
Training...:  66% 1734/2609 [1:39:59<38:30,  2.64s/it][A                                                                                                                                                                   
                                                      [AStep... (26100 | Loss: 0.027134424075484276, Learning Rate: 4.828484452445991e-05, Gradient Norm: 0.37528085708618164)
Step... (26125 | Loss: 0.018784578889608383, Learning Rate: 4.8234342102659866e-05, Gradient Norm: 0.3380405306816101)
Step... (26150 | Loss: 0.03101189061999321, Learning Rate: 4.818383968085982e-05, Gradient Norm: 0.4359324276447296)
Step... (26175 | Loss: 0.025951780378818512, Learning Rate: 4.813332998310216e-05, Gradient Norm: 0.5926024913787842)
Step... (26200 | Loss: 0.04702708125114441, Learning Rate: 4.808282756130211e-05, Gradient Norm: 0.6678826212882996)
Step... (26225 | Loss: 0.014596246182918549, Learning Rate: 4.8032325139502063e-05, Gradient Norm: 0.6072115898132324)
Step... (26250 | Loss: 0.05545913800597191, Learning Rate: 4.79818154417444e-05, Gradient Norm: 0.5057612061500549)
Step... (26275 | Loss: 0.03309119865298271, Learning Rate: 4.7931313019944355e-05, Gradient Norm: 0.6592288613319397)
Step... (26300 | Loss: 0.03784335032105446, Learning Rate: 4.788081059814431e-05, Gradient Norm: 0.3491426110267639)
Step... (26325 | Loss: 0.012348051182925701, Learning Rate: 4.7830300900386646e-05, Gradient Norm: 0.40545329451560974)
Step... (26350 | Loss: 0.0382983461022377, Learning Rate: 4.77797984785866e-05, Gradient Norm: 0.5677400231361389)
Step... (26375 | Loss: 0.02715393528342247, Learning Rate: 4.772929605678655e-05, Gradient Norm: 0.576893150806427)
Step... (26400 | Loss: 0.03505407273769379, Learning Rate: 4.767878635902889e-05, Gradient Norm: 0.38552719354629517)
Step... (26425 | Loss: 0.04385007917881012, Learning Rate: 4.7628283937228844e-05, Gradient Norm: 0.8231610655784607)
Step... (26450 | Loss: 0.050630636513233185, Learning Rate: 4.757777787744999e-05, Gradient Norm: 0.5947889685630798)
Step... (26475 | Loss: 0.02675161510705948, Learning Rate: 4.7527271817671135e-05, Gradient Norm: 0.5944440960884094)
Step... (26500 | Loss: 0.044257909059524536, Learning Rate: 4.747676575789228e-05, Gradient Norm: 0.4395604729652405)
Step... (26525 | Loss: 0.01760973408818245, Learning Rate: 4.7426263336092234e-05, Gradient Norm: 0.47258925437927246)
Step... (26550 | Loss: 0.03264250606298447, Learning Rate: 4.737575363833457e-05, Gradient Norm: 0.41357851028442383)
Step... (26575 | Loss: 0.02138420008122921, Learning Rate: 4.7325251216534525e-05, Gradient Norm: 0.5749047994613647)
Step... (26600 | Loss: 0.060243066400289536, Learning Rate: 4.727474879473448e-05, Gradient Norm: 0.5725395083427429)
Step... (26625 | Loss: 0.03622636944055557, Learning Rate: 4.722423909697682e-05, Gradient Norm: 0.7875101566314697)
Step... (26650 | Loss: 0.061597418040037155, Learning Rate: 4.717373667517677e-05, Gradient Norm: 0.6209238171577454)
Step... (26675 | Loss: 0.014587054029107094, Learning Rate: 4.712323425337672e-05, Gradient Norm: 0.5327297449111938)
Step... (26700 | Loss: 0.04094570130109787, Learning Rate: 4.707272455561906e-05, Gradient Norm: 1.9318220615386963)
Step... (26725 | Loss: 0.01478850468993187, Learning Rate: 4.7022222133819014e-05, Gradient Norm: 0.45670244097709656)
Step... (26750 | Loss: 0.03729424625635147, Learning Rate: 4.697171243606135e-05, Gradient Norm: 0.4483426809310913)
Step... (26775 | Loss: 0.015327549539506435, Learning Rate: 4.6921210014261305e-05, Gradient Norm: 0.3622296154499054)
Step... (26800 | Loss: 0.04406088590621948, Learning Rate: 4.687070759246126e-05, Gradient Norm: 0.4044182002544403)
Step... (26825 | Loss: 0.02957076020538807, Learning Rate: 4.68201978947036e-05, Gradient Norm: 0.8343513607978821)
Step... (26850 | Loss: 0.040422458201646805, Learning Rate: 4.676969547290355e-05, Gradient Norm: 0.5634621977806091)
Step... (26875 | Loss: 0.03295118361711502, Learning Rate: 4.67191930511035e-05, Gradient Norm: 1.5495917797088623)
Step... (26900 | Loss: 0.05226067081093788, Learning Rate: 4.666868335334584e-05, Gradient Norm: 0.5104079842567444)
Step... (26925 | Loss: 0.03391319140791893, Learning Rate: 4.6618180931545794e-05, Gradient Norm: 0.6136379241943359)
Step... (26950 | Loss: 0.0489865206182003, Learning Rate: 4.656767850974575e-05, Gradient Norm: 0.5793912410736084)
Step... (26975 | Loss: 0.027614055201411247, Learning Rate: 4.6517168811988086e-05, Gradient Norm: 0.6956324577331543)
Step... (27000 | Loss: 0.045812565833330154, Learning Rate: 4.646666639018804e-05, Gradient Norm: 0.514751672744751)
Step... (27025 | Loss: 0.02314087375998497, Learning Rate: 4.641616396838799e-05, Gradient Norm: 0.5809070467948914)
Step... (27050 | Loss: 0.05861445888876915, Learning Rate: 4.636565427063033e-05, Gradient Norm: 0.6154159307479858)
Step... (27075 | Loss: 0.017131781205534935, Learning Rate: 4.631515184883028e-05, Gradient Norm: 0.4181242883205414)
Step... (27100 | Loss: 0.06973694264888763, Learning Rate: 4.626464578905143e-05, Gradient Norm: 0.6502048373222351)
Step... (27125 | Loss: 0.010529433377087116, Learning Rate: 4.6214139729272574e-05, Gradient Norm: 0.34293729066848755)
Step... (27150 | Loss: 0.037677571177482605, Learning Rate: 4.616363366949372e-05, Gradient Norm: 0.9251351952552795)
Step... (27175 | Loss: 0.016883566975593567, Learning Rate: 4.611313124769367e-05, Gradient Norm: 0.45599716901779175)
Step... (27200 | Loss: 0.06461529433727264, Learning Rate: 4.606262154993601e-05, Gradient Norm: 0.9941737055778503)
Step... (27225 | Loss: 0.020319726318120956, Learning Rate: 4.6012119128135964e-05, Gradient Norm: 0.46807706356048584)
Step... (27250 | Loss: 0.055906910449266434, Learning Rate: 4.596161670633592e-05, Gradient Norm: 0.5416259169578552)
Step... (27275 | Loss: 0.09305383265018463, Learning Rate: 4.5911107008578256e-05, Gradient Norm: 0.9699138402938843)
Step... (27300 | Loss: 0.07244707643985748, Learning Rate: 4.586060458677821e-05, Gradient Norm: 0.6913072466850281)
Step... (27325 | Loss: 0.0308260265737772, Learning Rate: 4.581010216497816e-05, Gradient Norm: 0.7298358678817749)
Step... (27350 | Loss: 0.03901298716664314, Learning Rate: 4.57595924672205e-05, Gradient Norm: 0.6102021336555481)
Step... (27375 | Loss: 0.024081876501441002, Learning Rate: 4.570909004542045e-05, Gradient Norm: 0.6216182708740234)
Step... (27400 | Loss: 0.03617366775870323, Learning Rate: 4.5658587623620406e-05, Gradient Norm: 0.4272863268852234)
Step... (27425 | Loss: 0.014152680523693562, Learning Rate: 4.5608077925862744e-05, Gradient Norm: 0.43768954277038574)
Step... (27450 | Loss: 0.03052651323378086, Learning Rate: 4.55575755040627e-05, Gradient Norm: 0.4443451762199402)
Step... (27475 | Loss: 0.009027687832713127, Learning Rate: 4.550707308226265e-05, Gradient Norm: 0.2962791621685028)
Step... (27500 | Loss: 0.05122267082333565, Learning Rate: 4.545656338450499e-05, Gradient Norm: 0.5522012710571289)
Step... (27525 | Loss: 0.016718653962016106, Learning Rate: 4.540606096270494e-05, Gradient Norm: 0.5662062168121338)
Step... (27550 | Loss: 0.051657725125551224, Learning Rate: 4.5355558540904894e-05, Gradient Norm: 0.5377820730209351)
Step... (27575 | Loss: 0.012375506572425365, Learning Rate: 4.530504884314723e-05, Gradient Norm: 0.2843577563762665)
Step... (27600 | Loss: 0.04028495401144028, Learning Rate: 4.5254546421347186e-05, Gradient Norm: 0.48543164134025574)
Step... (27625 | Loss: 0.016921335831284523, Learning Rate: 4.520404399954714e-05, Gradient Norm: 0.6244016289710999)
Step... (27650 | Loss: 0.06557977944612503, Learning Rate: 4.515353430178948e-05, Gradient Norm: 1.3581894636154175)
Step... (27675 | Loss: 0.024195250123739243, Learning Rate: 4.510303187998943e-05, Gradient Norm: 0.5977597236633301)
Step... (27700 | Loss: 0.05242276191711426, Learning Rate: 4.5052525820210576e-05, Gradient Norm: 0.660879373550415)
Step... (27725 | Loss: 0.01184983178973198, Learning Rate: 4.500201976043172e-05, Gradient Norm: 0.36296775937080383)
Step... (27750 | Loss: 0.04148101061582565, Learning Rate: 4.495151370065287e-05, Gradient Norm: 0.4972520172595978)
Step... (27775 | Loss: 0.02532043121755123, Learning Rate: 4.490100764087401e-05, Gradient Norm: 0.9082602262496948)
Step... (27800 | Loss: 0.057994499802589417, Learning Rate: 4.485050158109516e-05, Gradient Norm: 0.5907841920852661)
Step... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:19:45<25:20:58, 9125.80s/it]
Training...:  66% 1734/2609 [1:40:02<38:30,  2.64s/it][A
Training...:  67% 1735/2609 [1:40:02<39:08,  2.69s/it][A
Training...:  67% 1736/2609 [1:40:05<37:49,  2.60s/it][A
Training...:  67% 1737/2609 [1:40:07<36:06,  2.48s/it][A
Training...:  67% 1738/2609 [1:40:09<34:15,  2.36s/it][A
Training...:  67% 1739/2609 [1:40:11<32:38,  2.25s/it][A
Training...:  67% 1740/2609 [1:40:13<31:05,  2.15s/it][A
Training...:  67% 1741/2609 [1:40:15<29:43,  2.05s/it][A
Training...:  67% 1742/2609 [1:40:16<28:08,  1.95s/it][A
Training...:  67% 1743/2609 [1:40:18<26:47,  1.86s/it][A
Training...:  67% 1744/2609 [1:40:19<25:18,  1.76s/it][A
Training...:  67% 1745/2609 [1:40:21<23:53,  1.66s/it][A
Training...:  67% 1746/2609 [1:40:22<22:14,  1.55s/it][A
Training...:  67% 1747/2609 [1:40:23<20:23,  1.42s/it][A
Training...:  67% 1748/2609 [1:40:24<18:26,  1.29s/it][A
Training...:  67% 1749/2609 [1:40:25<16:19,  1.14s/it][A
Training...:  67% 1750/2609 [1:40:26<13:45,  1.04it/s][A
Training...:  67% 1751/2609 [1:40:33<40:02,  2.80s/it][A
Training...:  67% 1752/2609 [1:40:40<58:02,  4.06s/it][A
Training...:  67% 1753/2609 [1:40:46<1:08:58,  4.83s/it][A
Training...:  67% 1754/2609 [1:40:53<1:15:24,  5.29s/it][A
Training...:  67% 1755/2609 [1:40:59<1:18:13,  5.50s/it][A
Training...:  67% 1756/2609 [1:41:05<1:19:41,  5.61s/it][A
Training...:  67% 1757/2609 [1:41:10<1:19:57,  5.63s/it][A
Training...:  67% 1758/2609 [1:41:16<1:19:01,  5.57s/it][A
Training...:  67% 1759/2609 [1:41:21<1:17:05,  5.44s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:21:10<25:20:58, 9125.80s/it]
Training...:  67% 1759/2609 [1:41:26<1:17:05,  5.44s/it][A
Training...:  67% 1760/2609 [1:41:26<1:17:54,  5.51s/it][A
Training...:  67% 1761/2609 [1:41:31<1:14:54,  5.30s/it][A
Training...:  68% 1762/2609 [1:41:36<1:11:44,  5.08s/it][A
Training...:  68% 1763/2609 [1:41:40<1:09:24,  4.92s/it][A
Training...:  68% 1764/2609 [1:41:45<1:06:44,  4.74s/it][A
Training...:  68% 1765/2609 [1:41:49<1:04:37,  4.59s/it][A
Training...:  68% 1766/2609 [1:41:53<1:02:27,  4.45s/it][A
Training...:  68% 1767/2609 [1:41:57<1:00:38,  4.32s/it][A
Training...:  68% 1768/2609 [1:42:01<58:40,  4.19s/it]  [A
Training...:  68% 1769/2609 [1:42:05<57:07,  4.08s/it][A
Training...:  68% 1770/2609 [1:42:08<55:20,  3.96s/it][A
Training...:  68% 1771/2609 [1:42:12<53:58,  3.86s/it][A
Training...:  68% 1772/2609 [1:42:16<52:34,  3.77s/it][A
Training...:  68% 1773/2609 [1:42:19<51:21,  3.69s/it][A
Training...:  68% 1774/2609 [1:42:23<49:59,  3.59s/it][A
Training...:  68% 1775/2609 [1:42:26<48:43,  3.51s/it][A
Training...:  68% 1776/2609 [1:42:29<47:09,  3.40s/it][A
Training...:  68% 1777/2609 [1:42:32<45:39,  3.29s/it][A
Training...:  68% 1778/2609 [1:42:35<44:21,  3.20s/it][A
Training...:  68% 1779/2609 [1:42:38<43:09,  3.12s/it][A
Training...:  68% 1780/2609 [1:42:41<41:46,  3.02s/it][A
Training...:  68% 1781/2609 [1:42:43<40:36,  2.94s/it][A
Training...:  68% 1782/2609 [1:42:46<39:33,  2.87s/it][A
Training...:  68% 1783/2609 [1:42:49<38:23,  2.79s/it][A
Training...:  68% 1784/2609 [1:42:51<37:09,  2.70s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:22:38<25:20:58, 9125.80s/it]
Training...:  68% 1784/2609 [1:42:54<37:09,  2.70s/it][A
Training...:  68% 1785/2609 [1:42:54<37:53,  2.76s/it][A
Training...:  68% 1786/2609 [1:42:57<36:27,  2.66s/it][A
Training...:  68% 1787/2609 [1:42:59<35:09,  2.57s/it][A
Training...:  69% 1788/2609 [1:43:01<33:25,  2.44s/it][A
Training...:  69% 1789/2609 [1:43:03<31:47,  2.33s/it][A
Training...:  69% 1790/2609 [1:43:05<30:21,  2.22s/it][A
Training...:  69% 1791/2609 [1:43:07<28:55,  2.12s/it][A
Training...:  69% 1792/2609 [1:43:09<27:33,  2.02s/it][A
Training...:  69% 1793/2609 [1:43:11<26:04,  1.92s/it][A
Training...:  69% 1794/2609 [1:43:12<24:28,  1.80s/it][A
Training...:  69% 1795/2609 [1:43:13<22:51,  1.68s/it][A
Training...:  69% 1796/2609 [1:43:15<21:12,  1.57s/it][A
Training...:  69% 1797/2609 [1:43:16<19:33,  1.45s/it][A
Training...:  69% 1798/2609 [1:43:17<17:40,  1.31s/it][A
Training...:  69% 1799/2609 [1:43:18<15:37,  1.16s/it][A
Training...:  69% 1800/2609 [1:43:18<13:09,  1.02it/s][A
Training...:  69% 1801/2609 [1:43:25<38:07,  2.83s/it][A
Training...:  69% 1802/2609 [1:43:33<55:35,  4.13s/it][A
Training...:  69% 1803/2609 [1:43:39<1:05:20,  4.86s/it][A
Training...:  69% 1804/2609 [1:43:45<1:11:10,  5.31s/it][A
Training...:  69% 1805/2609 [1:43:51<1:13:45,  5.50s/it][A
Training...:  69% 1806/2609 [1:43:57<1:14:42,  5.58s/it][A
Training...:  69% 1807/2609 [1:44:03<1:14:48,  5.60s/it][A
Training...:  69% 1808/2609 [1:44:08<1:13:38,  5.52s/it][A
Training...:  69% 1809/2609 [1:44:13<1:12:18,  5.42s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:24:03<25:20:58, 9125.80s/it]
Training...:  69% 1809/2609 [1:44:19<1:12:18,  5.42s/it][A
Training...:  69% 1810/2609 [1:44:19<1:13:46,  5.54s/it][A
Training...:  69% 1811/2609 [1:44:24<1:11:17,  5.36s/it][A
Training...:  69% 1812/2609 [1:44:29<1:08:49,  5.18s/it][A
Training...:  69% 1813/2609 [1:44:34<1:07:02,  5.05s/it][A
Training...:  70% 1814/2609 [1:44:38<1:04:48,  4.89s/it][A
Training...:  70% 1815/2609 [1:44:42<1:02:27,  4.72s/it][A
Training...:  70% 1816/2609 [1:44:47<59:57,  4.54s/it]  [A
Training...:  70% 1817/2609 [1:44:51<58:04,  4.40s/it][A
Training...:  70% 1818/2609 [1:44:55<56:02,  4.25s/it][A
Training...:  70% 1819/2609 [1:44:58<54:27,  4.14s/it][A
Training...:  70% 1820/2609 [1:45:02<52:48,  4.02s/it][A
Training...:  70% 1821/2609 [1:45:06<51:28,  3.92s/it][A
Training...:  70% 1822/2609 [1:45:09<50:08,  3.82s/it][A
Training...:  70% 1823/2609 [1:45:13<48:39,  3.71s/it][A
Training...:  70% 1824/2609 [1:45:16<47:06,  3.60s/it][A
Training...:  70% 1825/2609 [1:45:20<45:53,  3.51s/it][A
Training...:  70% 1826/2609 [1:45:23<44:24,  3.40s/it][A
Training...:  70% 1827/2609 [1:45:26<43:01,  3.30s/it][A
Training...:  70% 1828/2609 [1:45:29<41:33,  3.19s/it][A
Training...:  70% 1829/2609 [1:45:32<40:15,  3.10s/it][A
Training...:  70% 1830/2609 [1:45:34<38:59,  3.00s/it][A
Training...:  70% 1831/2609 [1:45:37<37:44,  2.91s/it][A
Training...:  70% 1832/2609 [1:45:40<36:37,  2.83s/it][A
Training...:  70% 1833/2609 [1:45:42<35:24,  2.74s/it][A
Training...:  70% 1834/2609 [1:45:45<34:16,  2.65s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:25:31<25:20:58, 9125.80s/it]
Training...:  70% 1834/2609 [1:45:48<34:16,  2.65s/it][A
Training...:  70% 1835/2609 [1:45:48<35:04,  2.72s/it][A
Training...:  70% 1836/2609 [1:45:50<33:28,  2.60s/it][A
Training...:  70% 1837/2609 [1:45:52<31:52,  2.48s/it][A
Training...:  70% 1838/2609 [1:45:54<30:17,  2.36s/it][A
Training...:  70% 1839/2609 [1:45:56<28:49,  2.25s/it][A
Training...:  71% 1840/2609 [1:45:58<27:19,  2.13s/it][A
Training...:  71% 1841/2609 [1:46:00<26:08,  2.04s/it][A
Training...:  71% 1842/2609 [1:46:02<24:49,  1.94s/it][A
Training...:  71% 1843/2609 [1:46:03<23:35,  1.85s/it][A
Training...:  71% 1844/2609 [1:46:05<22:14,  1.74s/it][A
Training...:  71% 1845/2609 [1:46:06<20:43,  1.63s/it][A
Training...:  71% 1846/2609 [1:46:07<19:11,  1.51s/it][A
Training...:  71% 1847/2609 [1:46:08<17:31,  1.38s/it][A
Training...:  71% 1848/2609 [1:46:09<15:46,  1.24s/it][A
Training...:  71% 1849/2609 [1:46:10<13:52,  1.10s/it][A
Training...:  71% 1850/2609 [1:46:11<11:37,  1.09it/s][A
Training...:  71% 1851/2609 [1:46:18<34:38,  2.74s/it][A
Training...:  71% 1852/2609 [1:46:24<50:29,  4.00s/it][A
Training...:  71% 1853/2609 [1:46:31<59:57,  4.76s/it][A
Training...:  71% 1854/2609 [1:46:37<1:04:46,  5.15s/it][A
Training...:  71% 1855/2609 [1:46:43<1:07:08,  5.34s/it][A
Training...:  71% 1856/2609 [1:46:48<1:08:04,  5.42s/it][A
Training...:  71% 1857/2609 [1:46:54<1:08:17,  5.45s/it][A
Training...:  71% 1858/2609 [1:46:59<1:06:44,  5.33s/it][A
Training...:  71% 1859/2609 [1:47:04<1:05:17,  5.22s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:26:53<25:20:58, 9125.80s/it]
Training...:  71% 1859/2609 [1:47:10<1:05:17,  5.22s/it][A
Training...:  71% 1860/2609 [1:47:10<1:06:27,  5.32s/it][A
Training...:  71% 1861/2609 [1:47:14<1:04:17,  5.16s/it][A
Training...:  71% 1862/2609 [1:47:19<1:01:42,  4.96s/it][A
Training...:  71% 1863/2609 [1:47:23<59:50,  4.81s/it]  [A
Training...:  71% 1864/2609 [1:47:28<57:46,  4.65s/it][A
Training...:  71% 1865/2609 [1:47:32<56:00,  4.52s/it][A
Training...:  72% 1866/2609 [1:47:36<54:07,  4.37s/it][A
Training...:  72% 1867/2609 [1:47:40<52:44,  4.26s/it][A
Training...:  72% 1868/2609 [1:47:44<51:11,  4.15s/it][A
Training...:  72% 1869/2609 [1:47:47<49:49,  4.04s/it][A
Training...:  72% 1870/2609 [1:47:51<48:18,  3.92s/it][A
Training...:  72% 1871/2609 [1:47:55<46:43,  3.80s/it][A
Training...:  72% 1872/2609 [1:47:58<45:16,  3.69s/it][A
Training...:  72% 1873/2609 [1:48:01<43:59,  3.59s/it][A
Training...:  72% 1874/2609 [1:48:05<42:40,  3.48s/it][A
Training...:  72% 1875/2609 [1:48:08<41:27,  3.39s/it][A
Training...:  72% 1876/2609 [1:48:11<40:06,  3.28s/it][A
Training...:  72% 1877/2609 [1:48:14<39:02,  3.20s/it][A
Training...:  72% 1878/2609 [1:48:17<37:55,  3.11s/it][A
Training...:  72% 1879/2609 [1:48:20<36:56,  3.04s/it][A
Training...:  72% 1880/2609 [1:48:22<35:52,  2.95s/it][A
Training...:  72% 1881/2609 [1:48:25<34:48,  2.87s/it][A
Training...:  72% 1882/2609 [1:48:28<33:32,  2.77s/it][A
Training...:  72% 1883/2609 [1:48:30<32:24,  2.68s/it][A
Training...:  72% 1884/2609 [1:48:32<31:15,  2.59s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:28:19<25:20:58, 9125.80s/it]
Training...:  72% 1884/2609 [1:48:35<31:15,  2.59s/it][A
Training...:  72% 1885/2609 [1:48:35<31:56,  2.65s/it][A
Training...:  72% 1886/2609 [1:48:37<30:31,  2.53s/it][A
Training...:  72% 1887/2609 [1:48:40<29:09,  2.42s/it][A
Training...:  72% 1888/2609 [1:48:42<27:54,  2.32s/it][A
Training...:  72% 1889/2609 [1:48:44<26:47,  2.23s/it][A
Training...:  72% 1890/2609 [1:48:46<25:39,  2.14s/it][A
Training...:  72% 1891/2609 [1:48:48<24:25,  2.04s/it][A
Training...:  73% 1892/2609 [1:48:49<23:14,  1.95s/it][A
Training...:  73% 1893/2609 [1:48:51<22:18,  1.87s/it][A
Training...:  73% 1894/2609 [1:48:52<21:10,  1.78s/it][A
Training...:  73% 1895/2609 [1:48:54<20:00,  1.68s/it][A
Training...:  73% 1896/2609 [1:48:55<18:47,  1.58s/it][A
Training...:  73% 1897/2609 [1:48:56<17:21,  1.46s/it][A
Training...:  73% 1898/2609 [1:48:58<15:51,  1.34s/it][A
Training...:  73% 1899/2609 [1:48:58<14:01,  1.18s/it][A
Training...:  73% 1900/2609 [1:48:59<11:54,  1.01s/it][A
Training...:  73% 1901/2609 [1:49:06<34:20,  2.91s/it][A
Training...:  73% 1902/2609 [1:49:13<49:03,  4.16s/it][A
Training...:  73% 1903/2609 [1:49:20<57:36,  4.90s/it][A
Training...:  73% 1904/2609 [1:49:26<1:02:28,  5.32s/it][A
Training...:  73% 1905/2609 [1:49:32<1:04:51,  5.53s/it][A
Training...:  73% 1906/2609 [1:49:38<1:05:34,  5.60s/it][A
Training...:  73% 1907/2609 [1:49:44<1:05:29,  5.60s/it][A
Training...:  73% 1908/2609 [1:49:49<1:04:12,  5.50s/it][A
Training...:  73% 1909/2609 [1:49:54<1:03:05,  5.41s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:29:43<25:20:58, 9125.80s/it]
Training...:  73% 1909/2609 [1:50:00<1:03:05,  5.41s/it][A
Training...:  73% 1910/2609 [1:50:00<1:04:07,  5.50s/it][A
Training...:  73% 1911/2609 [1:50:05<1:01:41,  5.30s/it][A
Training...:  73% 1912/2609 [1:50:09<59:24,  5.11s/it]  [A
Training...:  73% 1913/2609 [1:50:14<57:16,  4.94s/it][A
Training...:  73% 1914/2609 [1:50:18<55:12,  4.77s/it][A
Training...:  73% 1915/2609 [1:50:22<53:18,  4.61s/it][A
Training...:  73% 1916/2609 [1:50:27<51:40,  4.47s/it][A
Training...:  73% 1917/2609 [1:50:31<50:39,  4.39s/it][A
Training...:  74% 1918/2609 [1:50:35<49:22,  4.29s/it][A
Training...:  74% 1919/2609 [1:50:39<47:47,  4.16s/it][A
Training...:  74% 1920/2609 [1:50:42<46:17,  4.03s/it][A
Training...:  74% 1921/2609 [1:50:46<44:55,  3.92s/it][A
Training...:  74% 1922/2609 [1:50:50<43:31,  3.80s/it][A
Training...:  74% 1923/2609 [1:50:53<42:29,  3.72s/it][A
Training...:  74% 1924/2609 [1:50:57<41:13,  3.61s/it][A
Training...:  74% 1925/2609 [1:51:00<40:04,  3.52s/it][A
Training...:  74% 1926/2609 [1:51:03<38:49,  3.41s/it][A
Training...:  74% 1927/2609 [1:51:06<37:47,  3.32s/it][A
Training...:  74% 1928/2609 [1:51:09<36:42,  3.23s/it][A
Training...:  74% 1929/2609 [1:51:12<35:33,  3.14s/it][A
Training...:  74% 1930/2609 [1:51:15<34:25,  3.04s/it][A
Training...:  74% 1931/2609 [1:51:18<33:30,  2.97s/it][A
Training...:  74% 1932/2609 [1:51:20<32:30,  2.88s/it][A
Training...:  74% 1933/2609 [1:51:23<31:26,  2.79s/it][A
Training...:  74% 1934/2609 [1:51:25<30:27,  2.71s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:31:12<25:20:58, 9125.80s/it]
Training...:  74% 1934/2609 [1:51:28<30:27,  2.71s/it][A
Training...:  74% 1935/2609 [1:51:28<31:06,  2.77s/it][A
Training...:  74% 1936/2609 [1:51:31<29:34,  2.64s/it][A
Training...:  74% 1937/2609 [1:51:33<28:15,  2.52s/it][A
Training...:  74% 1938/2609 [1:51:35<26:53,  2.40s/it][A
Training...:  74% 1939/2609 [1:51:37<25:38,  2.30s/it][A
Training...:  74% 1940/2609 [1:51:39<24:21,  2.19s/it][A
Training...:  74% 1941/2609 [1:51:41<23:06,  2.08s/it][A
Training...:  74% 1942/2609 [1:51:43<21:53,  1.97s/it][A
Training...:  74% 1943/2609 [1:51:44<20:43,  1.87s/it][A
Training...:  75% 1944/2609 [1:51:46<19:30,  1.76s/it][A
Training...:  75% 1945/2609 [1:51:47<18:20,  1.66s/it][A
Training...:  75% 1946/2609 [1:51:48<16:59,  1.54s/it][A
Training...:  75% 1947/2609 [1:51:50<15:37,  1.42s/it][A
Training...:  75% 1948/2609 [1:51:51<14:08,  1.28s/it][A
Training...:  75% 1949/2609 [1:51:51<12:24,  1.13s/it][A
Training...:  75% 1950/2609 [1:51:52<10:28,  1.05it/s][A
Training...:  75% 1951/2609 [1:51:59<30:18,  2.76s/it][A
Training...:  75% 1952/2609 [1:52:06<44:10,  4.03s/it][A
Training...:  75% 1953/2609 [1:52:12<52:26,  4.80s/it][A
Training...:  75% 1954/2609 [1:52:19<56:50,  5.21s/it][A
Training...:  75% 1955/2609 [1:52:24<59:03,  5.42s/it][A
Training...:  75% 1956/2609 [1:52:30<59:34,  5.47s/it][A
Training...:  75% 1957/2609 [1:52:36<59:27,  5.47s/it][A
Training...:  75% 1958/2609 [1:52:41<58:15,  5.37s/it][A
Training...:  75% 1959/2609 [1:52:46<57:13,  5.28s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:32:35<25:20:58, 9125.80s/it]
Training...:  75% 1959/2609 [1:52:51<57:13,  5.28s/it][A
Training...:  75% 1960/2609 [1:52:51<58:26,  5.40s/it][A
Training...:  75% 1961/2609 [1:52:56<57:06,  5.29s/it][A
Training...:  75% 1962/2609 [1:53:01<55:00,  5.10s/it][A
Training...:  75% 1963/2609 [1:53:06<53:15,  4.95s/it][A
Training...:  75% 1964/2609 [1:53:10<51:27,  4.79s/it][A
Training...:  75% 1965/2609 [1:53:14<49:44,  4.63s/it][A
Training...:  75% 1966/2609 [1:53:19<48:04,  4.49s/it][A
Training...:  75% 1967/2609 [1:53:23<46:37,  4.36s/it][A
Training...:  75% 1968/2609 [1:53:26<45:04,  4.22s/it][A
Training...:  75% 1969/2609 [1:53:30<43:47,  4.11s/it][A
Training...:  76% 1970/2609 [1:53:34<42:25,  3.98s/it][A
Training...:  76% 1971/2609 [1:53:38<41:14,  3.88s/it][A
Training...:  76% 1972/2609 [1:53:41<39:53,  3.76s/it][A
Training...:  76% 1973/2609 [1:53:45<38:43,  3.65s/it][A
Training...:  76% 1974/2609 [1:53:48<37:29,  3.54s/it][A
Training...:  76% 1975/2609 [1:53:51<36:23,  3.44s/it][A
Training...:  76% 1976/2609 [1:53:54<35:16,  3.34s/it][A
Training...:  76% 1977/2609 [1:53:57<34:12,  3.25s/it][A
Training...:  76% 1978/2609 [1:54:00<33:09,  3.15s/it][A
Training...:  76% 1979/2609 [1:54:03<32:16,  3.07s/it][A
Training...:  76% 1980/2609 [1:54:06<31:24,  3.00s/it][A
Training...:  76% 1981/2609 [1:54:09<30:33,  2.92s/it][A
Training...:  76% 1982/2609 [1:54:11<29:38,  2.84s/it][A
Training...:  76% 1983/2609 [1:54:14<28:46,  2.76s/it][A
Training...:  76% 1984/2609 [1:54:16<27:48,  2.67s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:34:02<25:20:58, 9125.80s/it]
Training...:  76% 1984/2609 [1:54:19<27:48,  2.67s/it][A
Training...:  76% 1985/2609 [1:54:19<28:17,  2.72s/it][A
Training...:  76% 1986/2609 [1:54:21<26:57,  2.60s/it][A
Training...:  76% 1987/2609 [1:54:24<25:49,  2.49s/it][A
Training...:  76% 1988/2609 [1:54:26<24:40,  2.38s/it][A
Training...:  76% 1989/2609 [1:54:28<23:31,  2.28s/it][A
Training...:  76% 1990/2609 [1:54:30<22:22,  2.17s/it][A
Training...:  76% 1991/2609 [1:54:32<21:23,  2.08s/it][A
Training...:  76% 1992/2609 [1:54:33<20:19,  1.98s/it][A
Training...:  76% 1993/2609 [1:54:35<19:16,  1.88s/it][A
Training...:  76% 1994/2609 [1:54:36<18:09,  1.77s/it][A
Training...:  76% 1995/2609 [1:54:38<17:06,  1.67s/it][A
Training...:  77% 1996/2609 [1:54:39<15:53,  1.55s/it][A
Training...:  77% 1997/2609 [1:54:40<14:48,  1.45s/it][A
Training...:  77% 1998/2609 [1:54:41<13:31,  1.33s/it][A
Training...:  77% 1999/2609 [1:54:42<12:03,  1.19s/it][A
Training...:  77% 2000/2609 [1:54:43<10:16,  1.01s/it][A
Training...:  77% 2001/2609 [1:54:50<28:48,  2.84s/it][A
Training...:  77% 2002/2609 [1:54:57<41:07,  4.06s/it][A
Training...:  77% 2003/2609 [1:55:03<48:28,  4.80s/it][A
Training...:  77% 2004/2609 [1:55:10<53:17,  5.29s/it][A
Training...:  77% 2005/2609 [1:55:16<55:50,  5.55s/it][A
Training...:  77% 2006/2609 [1:55:22<55:54,  5.56s/it][A
Training...:  77% 2007/2609 [1:55:27<55:40,  5.55s/it][A
Training...:  77% 2008/2609 [1:55:32<54:36,  5.45s/it][A
Training...:  77% 2009/2609 [1:55:37<53:26,  5.34s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:35:26<25:20:58, 9125.80s/it]
Training...:  77% 2009/2609 [1:55:43<53:26,  5.34s/it][A
Training...:  77% 2010/2609 [1:55:43<54:05,  5.42s/it][A
Training...:  77% 2011/2609 [1:55:48<52:21,  5.25s/it][A
Training...:  77% 2012/2609 [1:55:53<50:47,  5.10s/it][A
Training...:  77% 2013/2609 [1:55:57<49:01,  4.94s/it][A
Training...:  77% 2014/2609 [1:56:01<46:56,  4.73s/it][A
Training...:  77% 2015/2609 [1:56:06<45:25,  4.59s/it][A
Training...:  77% 2016/2609 [1:56:10<43:53,  4.44s/it][A
Training...:  77% 2017/2609 [1:56:14<42:38,  4.32s/it][A
Training...:  77% 2018/2609 [1:56:18<41:16,  4.19s/it][A
Training...:  77% 2019/2609 [1:56:22<40:07,  4.08s/it][A
Training...:  77% 2020/2609 [1:56:25<39:03,  3.98s/it][A
Training...:  77% 2021/2609 [1:56:29<38:03,  3.88s/it][A
Training...:  78% 2022/2609 [1:56:33<37:09,  3.80s/it][A
Training...:  78% 2023/2609 [1:56:36<36:01,  3.69s/it][A
Training...:  78% 2024/2609 [1:56:39<34:45,  3.57s/it][A
Training...:  78% 2025/2609 [1:56:43<33:41,  3.46s/it][A
Training...:  78% 2026/2609 [1:56:46<32:39,  3.36s/it][A
Training...:  78% 2027/2609 [1:56:49<31:44,  3.27s/it][A
Training...:  78% 2028/2609 [1:56:52<30:46,  3.18s/it][A
Training...:  78% 2029/2609 [1:56:55<30:01,  3.11s/it][A
Training...:  78% 2030/2609 [1:56:57<29:04,  3.01s/it][A
Training...:  78% 2031/2609 [1:57:00<28:16,  2.94s/it][A
Training...:  78% 2032/2609 [1:57:03<27:22,  2.85s/it][A
Training...:  78% 2033/2609 [1:57:05<26:29,  2.76s/it][A
Training...:  78% 2034/2609 [1:57:08<25:41,  2.68s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:36:54<25:20:58, 9125.80s/it]
Training...:  78% 2034/2609 [1:57:11<25:41,  2.68s/it][A
Training...:  78% 2035/2609 [1:57:11<26:09,  2.73s/it][A
Training...:  78% 2036/2609 [1:57:13<25:00,  2.62s/it][A
Training...:  78% 2037/2609 [1:57:15<23:51,  2.50s/it][A
Training...:  78% 2038/2609 [1:57:17<22:39,  2.38s/it][A
Training...:  78% 2039/2609 [1:57:19<21:38,  2.28s/it][A
Training...:  78% 2040/2609 [1:57:21<20:36,  2.17s/it][A
Training...:  78% 2041/2609 [1:57:23<19:38,  2.07s/it][A
Training...:  78% 2042/2609 [1:57:25<18:48,  1.99s/it][A
Training...:  78% 2043/2609 [1:57:27<17:58,  1.91s/it][A
Training...:  78% 2044/2609 [1:57:28<17:00,  1.81s/it][A
Training...:  78% 2045/2609 [1:57:30<16:01,  1.70s/it][A
Training...:  78% 2046/2609 [1:57:31<14:56,  1.59s/it][A
Training...:  78% 2047/2609 [1:57:32<13:46,  1.47s/it][A
Training...:  78% 2048/2609 [1:57:33<12:32,  1.34s/it][A
Training...:  79% 2049/2609 [1:57:34<11:00,  1.18s/it][A
Training...:  79% 2050/2609 [1:57:35<09:16,  1.00it/s][A
Training...:  79% 2051/2609 [1:57:42<26:48,  2.88s/it][A
Training...:  79% 2052/2609 [1:57:49<38:15,  4.12s/it][A
Training...:  79% 2053/2609 [1:57:55<44:49,  4.84s/it][A
Training...:  79% 2054/2609 [1:58:02<48:18,  5.22s/it][A
Training...:  79% 2055/2609 [1:58:07<49:59,  5.41s/it][A
Training...:  79% 2056/2609 [1:58:13<50:27,  5.48s/it][A
Training...:  79% 2057/2609 [1:58:19<50:22,  5.47s/it][A
Training...:  79% 2058/2609 [1:58:24<49:26,  5.38s/it][A
Training...:  79% 2059/2609 [1:58:29<48:39,  5.31s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:38:18<25:20:58, 9125.80s/it]
Training...:  79% 2059/2609 [1:58:34<48:39,  5.31s/it][A
Training...:  79% 2060/2609 [1:58:34<49:24,  5.40s/it][A
Training...:  79% 2061/2609 [1:58:39<47:36,  5.21s/it][A
Training...:  79% 2062/2609 [1:58:44<45:52,  5.03s/it][A
Training...:  79% 2063/2609 [1:58:48<44:22,  4.88s/it][A
Training...:  79% 2064/2609 [1:58:53<43:00,  4.73s/it][A
Training...:  79% 2065/2609 [1:58:57<41:42,  4.60s/it][A
Training...:  79% 2066/2609 [1:59:01<40:24,  4.46s/it][A
Training...:  79% 2067/2609 [1:59:05<39:10,  4.34s/it][A
Training...:  79% 2068/2609 [1:59:09<37:57,  4.21s/it][A
Training...:  79% 2069/2609 [1:59:13<36:53,  4.10s/it][A
Training...:  79% 2070/2609 [1:59:17<35:48,  3.99s/it][A
Training...:  79% 2071/2609 [1:59:20<34:52,  3.89s/it][A
Training...:  79% 2072/2609 [1:59:24<33:50,  3.78s/it][A
Training...:  79% 2073/2609 [1:59:27<32:57,  3.69s/it][A
Training...:  79% 2074/2609 [1:59:31<31:58,  3.59s/it][A
Training...:  80% 2075/2609 [1:59:34<31:08,  3.50s/it][A
Training...:  80% 2076/2609 [1:59:37<30:25,  3.42s/it][A
Training...:  80% 2077/2609 [1:59:40<29:29,  3.33s/it][A
Training...:  80% 2078/2609 [1:59:43<28:37,  3.23s/it][A
Training...:  80% 2079/2609 [1:59:46<28:02,  3.17s/it][A
Training...:  80% 2080/2609 [1:59:49<27:19,  3.10s/it][A
Training...:  80% 2081/2609 [1:59:52<26:33,  3.02s/it][A
Training...:  80% 2082/2609 [1:59:55<25:35,  2.91s/it][A
Training...:  80% 2083/2609 [1:59:57<24:42,  2.82s/it][A
Training...:  80% 2084/2609 [2:00:00<23:54,  2.73s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:39:46<25:20:58, 9125.80s/it]
Training...:  80% 2084/2609 [2:00:03<23:54,  2.73s/it][A
Training...:  80% 2085/2609 [2:00:03<24:11,  2.77s/it][A
Training...:  80% 2086/2609 [2:00:05<23:00,  2.64s/it][A
Training...:  80% 2087/2609 [2:00:07<21:45,  2.50s/it][A
Training...:  80% 2088/2609 [2:00:09<20:34,  2.37s/it][A
Training...:  80% 2089/2609 [2:00:11<19:31,  2.25s/it][A
Training...:  80% 2090/2609 [2:00:13<18:24,  2.13s/it][A
Training...:  80% 2091/2609 [2:00:15<17:24,  2.02s/it][A
Training...:  80% 2092/2609 [2:00:17<16:30,  1.92s/it][A
Training...:  80% 2093/2609 [2:00:18<15:30,  1.80s/it][A
Training...:  80% 2094/2609 [2:00:20<14:31,  1.69s/it][A
Training...:  80% 2095/2609 [2:00:21<13:34,  1.59s/it][A
Training...:  80% 2096/2609 [2:00:22<12:35,  1.47s/it][A
Training...:  80% 2097/2609 [2:00:23<11:34,  1.36s/it][A
Training...:  80% 2098/2609 [2:00:24<10:28,  1.23s/it][A
Training...:  80% 2099/2609 [2:00:25<09:19,  1.10s/it][A
Training...:  80% 2100/2609 [2:00:26<07:54,  1.07it/s][A
Training...:  81% 2101/2609 [2:00:33<23:35,  2.79s/it][A
Training...:  81% 2102/2609 [2:00:40<34:24,  4.07s/it][A
Training...:  81% 2103/2609 [2:00:46<40:32,  4.81s/it][A
Training...:  81% 2104/2609 [2:00:52<43:46,  5.20s/it][A
Training...:  81% 2105/2609 [2:00:58<45:32,  5.42s/it][A
Training...:  81% 2106/2609 [2:01:04<46:10,  5.51s/it][A
Training...:  81% 2107/2609 [2:01:10<46:16,  5.53s/it][A
Training...:  81% 2108/2609 [2:01:15<45:26,  5.44s/it][A
Training...:  81% 2109/2609 [2:01:20<44:38,  5.36s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:41:09<25:20:58, 9125.80s/it]
Training...:  81% 2109/2609 [2:01:26<44:38,  5.36s/it][A
Training...:  81% 2110/2609 [2:01:26<44:57,  5.41s/it][A
Training...:  81% 2111/2609 [2:01:30<43:11,  5.20s/it][A
Training...:  81% 2112/2609 [2:01:35<41:23,  5.00s/it][A
Training...:  81% 2113/2609 [2:01:39<39:58,  4.84s/it][A
Training...:  81% 2114/2609 [2:01:44<38:39,  4.69s/it][A
Training...:  81% 2115/2609 [2:01:48<37:28,  4.55s/it][A
Training...:  81% 2116/2609 [2:01:52<36:11,  4.40s/it][A
Training...:  81% 2117/2609 [2:01:56<35:04,  4.28s/it][A
Training...:  81% 2118/2609 [2:02:00<33:57,  4.15s/it][A
Training...:  81% 2119/2609 [2:02:03<32:50,  4.02s/it][A
Training...:  81% 2120/2609 [2:02:07<31:50,  3.91s/it][A
Training...:  81% 2121/2609 [2:02:11<30:56,  3.80s/it][A
Training...:  81% 2122/2609 [2:02:14<30:04,  3.71s/it][A
Training...:  81% 2123/2609 [2:02:17<29:11,  3.60s/it][A
Training...:  81% 2124/2609 [2:02:21<28:32,  3.53s/it][A
Training...:  81% 2125/2609 [2:02:24<27:55,  3.46s/it][A
Training...:  81% 2126/2609 [2:02:27<27:11,  3.38s/it][A
Training...:  82% 2127/2609 [2:02:30<26:19,  3.28s/it][A
Training...:  82% 2128/2609 [2:02:33<25:33,  3.19s/it][A
Training...:  82% 2129/2609 [2:02:36<24:45,  3.09s/it][A
Training...:  82% 2130/2609 [2:02:39<24:01,  3.01s/it][A
Training...:  82% 2131/2609 [2:02:42<23:17,  2.92s/it][A
Training...:  82% 2132/2609 [2:02:44<22:28,  2.83s/it][A
Training...:  82% 2133/2609 [2:02:47<21:39,  2.73s/it][A
Training...:  82% 2134/2609 [2:02:49<20:55,  2.64s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:42:35<25:20:58, 9125.80s/it]
Training...:  82% 2134/2609 [2:02:52<20:55,  2.64s/it][A
Training...:  82% 2135/2609 [2:02:52<21:25,  2.71s/it][A
Training...:  82% 2136/2609 [2:02:54<20:20,  2.58s/it][A
Training...:  82% 2137/2609 [2:02:57<19:24,  2.47s/it][A
Training...:  82% 2138/2609 [2:02:59<18:32,  2.36s/it][A
Training...:  82% 2139/2609 [2:03:01<17:44,  2.26s/it][A
Training...:  82% 2140/2609 [2:03:03<16:54,  2.16s/it][A
Training...:  82% 2141/2609 [2:03:05<16:05,  2.06s/it][A
Training...:  82% 2142/2609 [2:03:06<15:20,  1.97s/it][A
Training...:  82% 2143/2609 [2:03:08<14:34,  1.88s/it][A
Training...:  82% 2144/2609 [2:03:09<13:45,  1.77s/it][A
Training...:  82% 2145/2609 [2:03:11<12:57,  1.67s/it][A
Training...:  82% 2146/2609 [2:03:12<12:02,  1.56s/it][A
Training...:  82% 2147/2609 [2:03:13<10:59,  1.43s/it][A
Training...:  82% 2148/2609 [2:03:14<09:52,  1.29s/it][A
Training...:  82% 2149/2609 [2:03:15<08:45,  1.14s/it][A
Training...:  82% 2150/2609 [2:03:16<07:27,  1.03it/s][A
Training...:  82% 2151/2609 [2:03:23<21:31,  2.82s/it][A
Training...:  82% 2152/2609 [2:03:30<31:10,  4.09s/it][A
Training...:  83% 2153/2609 [2:03:37<36:56,  4.86s/it][A
Training...:  83% 2154/2609 [2:03:43<40:10,  5.30s/it][A
Training...:  83% 2155/2609 [2:03:49<41:49,  5.53s/it][A
Training...:  83% 2156/2609 [2:03:55<42:10,  5.59s/it][A
Training...:  83% 2157/2609 [2:04:00<42:19,  5.62s/it][A
Training...:  83% 2158/2609 [2:04:06<41:39,  5.54s/it][A
Training...:  83% 2159/2609 [2:04:11<40:54,  5.46s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:44:00<25:20:58, 9125.80s/it]
Training...:  83% 2159/2609 [2:04:17<40:54,  5.46s/it][A
Training...:  83% 2160/2609 [2:04:17<41:36,  5.56s/it][A
Training...:  83% 2161/2609 [2:04:22<40:07,  5.37s/it][A
Training...:  83% 2162/2609 [2:04:26<38:34,  5.18s/it][A
Training...:  83% 2163/2609 [2:04:31<37:10,  5.00s/it][A
Training...:  83% 2164/2609 [2:04:35<35:54,  4.84s/it][A
Training...:  83% 2165/2609 [2:04:40<35:01,  4.73s/it][A
Training...:  83% 2166/2609 [2:04:44<33:46,  4.57s/it][A
Training...:  83% 2167/2609 [2:04:48<32:37,  4.43s/it][A
Training...:  83% 2168/2609 [2:04:52<31:21,  4.27s/it][A
Training...:  83% 2169/2609 [2:04:56<30:24,  4.15s/it][A
Training...:  83% 2170/2609 [2:05:00<29:21,  4.01s/it][A
Training...:  83% 2171/2609 [2:05:03<28:33,  3.91s/it][A
Training...:  83% 2172/2609 [2:05:07<27:35,  3.79s/it][A
Training...:  83% 2173/2609 [2:05:10<26:51,  3.70s/it][A
Training...:  83% 2174/2609 [2:05:14<26:04,  3.60s/it][A
Training...:  83% 2175/2609 [2:05:17<25:17,  3.50s/it][A
Training...:  83% 2176/2609 [2:05:20<24:24,  3.38s/it][A
Training...:  83% 2177/2609 [2:05:23<23:43,  3.29s/it][A
Training...:  83% 2178/2609 [2:05:26<22:54,  3.19s/it][A
Training...:  84% 2179/2609 [2:05:29<22:15,  3.11s/it][A
Training...:  84% 2180/2609 [2:05:32<21:32,  3.01s/it][A
Training...:  84% 2181/2609 [2:05:35<20:56,  2.94s/it][A
Training...:  84% 2182/2609 [2:05:37<20:14,  2.84s/it][A
Training...:  84% 2183/2609 [2:05:40<19:34,  2.76s/it][A
Training...:  84% 2184/2609 [2:05:42<18:53,  2.67s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:45:28<25:20:58, 9125.80s/it]
Training...:  84% 2184/2609 [2:05:45<18:53,  2.67s/it][A
Training...:  84% 2185/2609 [2:05:45<19:12,  2.72s/it][A
Training...:  84% 2186/2609 [2:05:47<18:13,  2.59s/it][A
Training...:  84% 2187/2609 [2:05:50<17:22,  2.47s/it][A
Training...:  84% 2188/2609 [2:05:52<16:37,  2.37s/it][A
Training...:  84% 2189/2609 [2:05:54<15:54,  2.27s/it][A
Training...:  84% 2190/2609 [2:05:56<15:08,  2.17s/it][A
Training...:  84% 2191/2609 [2:05:57<14:25,  2.07s/it][A
Training...:  84% 2192/2609 [2:05:59<13:38,  1.96s/it][A
Training...:  84% 2193/2609 [2:06:01<12:54,  1.86s/it][A
Training...:  84% 2194/2609 [2:06:02<12:07,  1.75s/it][A
Training...:  84% 2195/2609 [2:06:04<11:21,  1.65s/it][A
Training...:  84% 2196/2609 [2:06:05<10:33,  1.53s/it][A
Training...:  84% 2197/2609 [2:06:06<09:45,  1.42s/it][A
Training...:  84% 2198/2609 [2:06:07<08:48,  1.29s/it][A
Training...:  84% 2199/2609 [2:06:08<07:49,  1.14s/it][A
Training...:  84% 2200/2609 [2:06:09<06:39,  1.02it/s][A
Training...:  84% 2201/2609 [2:06:16<19:03,  2.80s/it][A
Training...:  84% 2202/2609 [2:06:23<27:27,  4.05s/it][A
Training...:  84% 2203/2609 [2:06:29<32:30,  4.81s/it][A
Training...:  84% 2204/2609 [2:06:35<35:12,  5.22s/it][A
Training...:  85% 2205/2609 [2:06:41<36:45,  5.46s/it][A
Training...:  85% 2206/2609 [2:06:47<37:09,  5.53s/it][A
Training...:  85% 2207/2609 [2:06:53<37:02,  5.53s/it][A
Training...:  85% 2208/2609 [2:06:58<36:17,  5.43s/it][A
Training...:  85% 2209/2609 [2:07:03<35:36,  5.34s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:46:52<25:20:58, 9125.80s/it]
Training...:  85% 2209/2609 [2:07:09<35:36,  5.34s/it][A
Training...:  85% 2210/2609 [2:07:09<36:17,  5.46s/it][A
Training...:  85% 2211/2609 [2:07:14<35:08,  5.30s/it][A
Training...:  85% 2212/2609 [2:07:18<33:52,  5.12s/it][A
Training...:  85% 2213/2609 [2:07:23<32:39,  4.95s/it][A
Training...:  85% 2214/2609 [2:07:27<31:25,  4.77s/it][A
Training...:  85% 2215/2609 [2:07:31<30:25,  4.63s/it][A
Training...:  85% 2216/2609 [2:07:36<29:19,  4.48s/it][A
Training...:  85% 2217/2609 [2:07:40<28:32,  4.37s/it][A
Training...:  85% 2218/2609 [2:07:44<27:41,  4.25s/it][A
Training...:  85% 2219/2609 [2:07:48<26:58,  4.15s/it][A
Training...:  85% 2220/2609 [2:07:51<26:01,  4.01s/it][A
Training...:  85% 2221/2609 [2:07:55<25:17,  3.91s/it][A
Training...:  85% 2222/2609 [2:07:59<24:34,  3.81s/it][A
Training...:  85% 2223/2609 [2:08:02<23:58,  3.73s/it][A
Training...:  85% 2224/2609 [2:08:05<23:16,  3.63s/it][A
Training...:  85% 2225/2609 [2:08:09<22:38,  3.54s/it][A
Training...:  85% 2226/2609 [2:08:12<21:54,  3.43s/it][A
Training...:  85% 2227/2609 [2:08:15<21:18,  3.35s/it][A
Training...:  85% 2228/2609 [2:08:18<20:40,  3.26s/it][A
Training...:  85% 2229/2609 [2:08:21<20:06,  3.18s/it][A
Training...:  85% 2230/2609 [2:08:24<19:24,  3.07s/it][A
Training...:  86% 2231/2609 [2:08:27<18:53,  3.00s/it][A
Training...:  86% 2232/2609 [2:08:29<18:13,  2.90s/it][A
Training...:  86% 2233/2609 [2:08:32<17:41,  2.82s/it][A
Training...:  86% 2234/2609 [2:08:35<17:00,  2.72s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:48:21<25:20:58, 9125.80s/it]
Training...:  86% 2234/2609 [2:08:37<17:00,  2.72s/it][A
Training...:  86% 2235/2609 [2:08:37<17:13,  2.76s/it][A
Training...:  86% 2236/2609 [2:08:40<16:19,  2.63s/it][A
Training...:  86% 2237/2609 [2:08:42<15:32,  2.51s/it][A
Training...:  86% 2238/2609 [2:08:44<14:45,  2.39s/it][A
Training...:  86% 2239/2609 [2:08:46<14:01,  2.27s/it][A
Training...:  86% 2240/2609 [2:08:48<13:25,  2.18s/it][A
Training...:  86% 2241/2609 [2:08:50<12:51,  2.10s/it][A
Training...:  86% 2242/2609 [2:08:52<12:11,  1.99s/it][A
Training...:  86% 2243/2609 [2:08:53<11:32,  1.89s/it][A
Training...:  86% 2244/2609 [2:08:55<10:49,  1.78s/it][A
Training...:  86% 2245/2609 [2:08:56<10:08,  1.67s/it][A
Training...:  86% 2246/2609 [2:08:58<09:28,  1.57s/it][A
Training...:  86% 2247/2609 [2:08:59<08:47,  1.46s/it][A
Training...:  86% 2248/2609 [2:09:00<08:00,  1.33s/it][A
Training...:  86% 2249/2609 [2:09:01<07:04,  1.18s/it][A
Training...:  86% 2250/2609 [2:09:01<05:57,  1.00it/s][A
Training...:  86% 2251/2609 [2:09:08<17:03,  2.86s/it][A
Training...:  86% 2252/2609 [2:09:16<24:33,  4.13s/it][A
Training...:  86% 2253/2609 [2:09:22<29:08,  4.91s/it][A
Training...:  86% 2254/2609 [2:09:29<31:26,  5.31s/it][A
Training...:  86% 2255/2609 [2:09:35<32:30,  5.51s/it][A
Training...:  86% 2256/2609 [2:09:40<32:58,  5.60s/it][A
Training...:  87% 2257/2609 [2:09:46<33:09,  5.65s/it][A
Training...:  87% 2258/2609 [2:09:51<32:26,  5.55s/it][A
Training...:  87% 2259/2609 [2:09:57<31:46,  5.45s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:49:46<25:20:58, 9125.80s/it]
Training...:  87% 2259/2609 [2:10:02<31:46,  5.45s/it][A
Training...:  87% 2260/2609 [2:10:02<32:09,  5.53s/it][A
Training...:  87% 2261/2609 [2:10:07<30:57,  5.34s/it][A
Training...:  87% 2262/2609 [2:10:12<29:40,  5.13s/it][A
Training...:  87% 2263/2609 [2:10:16<28:37,  4.96s/it][A
Training...:  87% 2264/2609 [2:10:21<27:31,  4.79s/it][A
Training...:  87% 2265/2609 [2:10:25<26:28,  4.62s/it][A
Training...:  87% 2266/2609 [2:10:29<25:29,  4.46s/it][A
Training...:  87% 2267/2609 [2:10:33<24:38,  4.32s/it][A
Training...:  87% 2268/2609 [2:10:37<23:50,  4.19s/it][A
Training...:  87% 2269/2609 [2:10:41<23:07,  4.08s/it][A
Training...:  87% 2270/2609 [2:10:45<22:24,  3.97s/it][A
Training...:  87% 2271/2609 [2:10:48<21:44,  3.86s/it][A
Training...:  87% 2272/2609 [2:10:52<21:07,  3.76s/it][A
Training...:  87% 2273/2609 [2:10:55<20:31,  3.67s/it][A
Training...:  87% 2274/2609 [2:10:58<19:50,  3.55s/it][A
Training...:  87% 2275/2609 [2:11:02<19:13,  3.45s/it][A
Training...:  87% 2276/2609 [2:11:05<18:39,  3.36s/it][A
Training...:  87% 2277/2609 [2:11:08<18:07,  3.28s/it][A
Training...:  87% 2278/2609 [2:11:11<17:37,  3.20s/it][A
Training...:  87% 2279/2609 [2:11:14<17:05,  3.11s/it][A
Training...:  87% 2280/2609 [2:11:17<16:31,  3.01s/it][A
Training...:  87% 2281/2609 [2:11:19<15:52,  2.90s/it][A
Training...:  87% 2282/2609 [2:11:22<15:20,  2.81s/it][A
Training...:  88% 2283/2609 [2:11:24<14:47,  2.72s/it][A
Training...:  88% 2284/2609 [2:11:27<14:14,  2.63s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:51:13<25:20:58, 9125.80s/it]
Training...:  88% 2284/2609 [2:11:30<14:14,  2.63s/it][A
Training...:  88% 2285/2609 [2:11:30<14:27,  2.68s/it][A
Training...:  88% 2286/2609 [2:11:32<13:43,  2.55s/it][A
Training...:  88% 2287/2609 [2:11:34<13:01,  2.43s/it][A
Training...:  88% 2288/2609 [2:11:36<12:22,  2.31s/it][A
Training...:  88% 2289/2609 [2:11:38<11:48,  2.21s/it][A
Training...:  88% 2290/2609 [2:11:40<11:13,  2.11s/it][A
Training...:  88% 2291/2609 [2:11:42<10:42,  2.02s/it][A
Training...:  88% 2292/2609 [2:11:43<10:12,  1.93s/it][A
Training...:  88% 2293/2609 [2:11:45<09:42,  1.84s/it][A
Training...:  88% 2294/2609 [2:11:47<09:10,  1.75s/it][A
Training...:  88% 2295/2609 [2:11:48<08:40,  1.66s/it][A
Training...:  88% 2296/2609 [2:11:49<08:02,  1.54s/it][A
Training...:  88% 2297/2609 [2:11:50<07:25,  1.43s/it][A
Training...:  88% 2298/2609 [2:11:51<06:46,  1.31s/it][A
Training...:  88% 2299/2609 [2:11:52<05:58,  1.16s/it][A
Training...:  88% 2300/2609 [2:11:53<05:04,  1.02it/s][A
Training...:  88% 2301/2609 [2:12:00<14:39,  2.86s/it][A
Training...:  88% 2302/2609 [2:12:07<21:00,  4.11s/it][A
Training...:  88% 2303/2609 [2:12:14<24:30,  4.81s/it][A
Training...:  88% 2304/2609 [2:12:20<26:22,  5.19s/it][A
Training...:  88% 2305/2609 [2:12:26<27:25,  5.41s/it][A
Training...:  88% 2306/2609 [2:12:31<27:36,  5.47s/it][A
Training...:  88% 2307/2609 [2:12:37<27:30,  5.47s/it][A
Training...:  88% 2308/2609 [2:12:42<27:04,  5.40s/it][A
Training...:  89% 2309/2609 [2:12:47<26:34,  5.31s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:52:36<25:20:58, 9125.80s/it]
Training...:  89% 2309/2609 [2:12:53<26:34,  5.31s/it][A
Training...:  89% 2310/2609 [2:12:53<26:57,  5.41s/it][A
Training...:  89% 2311/2609 [2:12:57<26:04,  5.25s/it][A
Training...:  89% 2312/2609 [2:13:02<25:00,  5.05s/it][A
Training...:  89% 2313/2609 [2:13:07<24:07,  4.89s/it][A
Training...:  89% 2314/2609 [2:13:11<23:16,  4.74s/it][A
Training...:  89% 2315/2609 [2:13:15<22:30,  4.59s/it][A
Training...:  89% 2316/2609 [2:13:19<21:40,  4.44s/it][A
Training...:  89% 2317/2609 [2:13:23<21:02,  4.32s/it][A
Training...:  89% 2318/2609 [2:13:27<20:22,  4.20s/it][A
Training...:  89% 2319/2609 [2:13:31<19:49,  4.10s/it][A
Training...:  89% 2320/2609 [2:13:35<19:15,  4.00s/it][A
Training...:  89% 2321/2609 [2:13:39<18:45,  3.91s/it][A
Training...:  89% 2322/2609 [2:13:42<18:12,  3.81s/it][A
Training...:  89% 2323/2609 [2:13:46<17:37,  3.70s/it][A
Training...:  89% 2324/2609 [2:13:49<17:01,  3.58s/it][A
Training...:  89% 2325/2609 [2:13:52<16:30,  3.49s/it][A
Training...:  89% 2326/2609 [2:13:55<15:58,  3.39s/it][A
Training...:  89% 2327/2609 [2:13:58<15:29,  3.30s/it][A
Training...:  89% 2328/2609 [2:14:01<15:01,  3.21s/it][A
Training...:  89% 2329/2609 [2:14:04<14:44,  3.16s/it][A
Training...:  89% 2330/2609 [2:14:07<14:18,  3.08s/it][A
Training...:  89% 2331/2609 [2:14:10<13:48,  2.98s/it][A
Training...:  89% 2332/2609 [2:14:13<13:19,  2.89s/it][A
Training...:  89% 2333/2609 [2:14:15<12:53,  2.80s/it][A
Training...:  89% 2334/2609 [2:14:18<12:25,  2.71s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:54:04<25:20:58, 9125.80s/it]
Training...:  89% 2334/2609 [2:14:21<12:25,  2.71s/it][A
Training...:  89% 2335/2609 [2:14:21<12:35,  2.76s/it][A
Training...:  90% 2336/2609 [2:14:23<11:53,  2.61s/it][A
Training...:  90% 2337/2609 [2:14:25<11:20,  2.50s/it][A
Training...:  90% 2338/2609 [2:14:27<10:48,  2.39s/it][A
Training...:  90% 2339/2609 [2:14:29<10:17,  2.29s/it][A
Training...:  90% 2340/2609 [2:14:31<09:47,  2.19s/it][A
Training...:  90% 2341/2609 [2:14:33<09:20,  2.09s/it][A
Training...:  90% 2342/2609 [2:14:35<08:51,  1.99s/it][A
Training...:  90% 2343/2609 [2:14:37<08:26,  1.90s/it][A
Training...:  90% 2344/2609 [2:14:38<07:59,  1.81s/it][A
Training...:  90% 2345/2609 [2:14:40<07:33,  1.72s/it][A
Training...:  90% 2346/2609 [2:14:41<07:03,  1.61s/it][A
Training...:  90% 2347/2609 [2:14:42<06:30,  1.49s/it][A
Training...:  90% 2348/2609 [2:14:43<05:54,  1.36s/it][A
Training...:  90% 2349/2609 [2:14:44<05:15,  1.21s/it][A
Training...:  90% 2350/2609 [2:14:45<04:25,  1.02s/it][A
Training...:  90% 2351/2609 [2:14:52<12:16,  2.86s/it][A
Training...:  90% 2352/2609 [2:14:59<17:45,  4.15s/it][A
Training...:  90% 2353/2609 [2:15:06<20:52,  4.89s/it][A
Training...:  90% 2354/2609 [2:15:12<22:28,  5.29s/it][A
Training...:  90% 2355/2609 [2:15:18<23:16,  5.50s/it][A
Training...:  90% 2356/2609 [2:15:24<23:25,  5.56s/it][A
Training...:  90% 2357/2609 [2:15:29<23:19,  5.55s/it][A
Training...:  90% 2358/2609 [2:15:35<22:52,  5.47s/it][A
Training...:  90% 2359/2609 [2:15:40<22:23,  5.38s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:55:29<25:20:58, 9125.80s/it]
Training...:  90% 2359/2609 [2:15:45<22:23,  5.38s/it][A
Training...:  90% 2360/2609 [2:15:45<22:46,  5.49s/it][A
Training...:  90% 2361/2609 [2:15:50<21:54,  5.30s/it][A
Training...:  91% 2362/2609 [2:15:55<21:02,  5.11s/it][A
Training...:  91% 2363/2609 [2:16:00<20:16,  4.95s/it][A
Training...:  91% 2364/2609 [2:16:04<19:27,  4.77s/it][A
Training...:  91% 2365/2609 [2:16:08<18:53,  4.64s/it][A
Training...:  91% 2366/2609 [2:16:12<18:10,  4.49s/it][A
Training...:  91% 2367/2609 [2:16:16<17:38,  4.37s/it][A
Training...:  91% 2368/2609 [2:16:20<17:03,  4.25s/it][A
Training...:  91% 2369/2609 [2:16:24<16:29,  4.12s/it][A
Training...:  91% 2370/2609 [2:16:28<15:57,  4.01s/it][A
Training...:  91% 2371/2609 [2:16:32<15:23,  3.88s/it][A
Training...:  91% 2372/2609 [2:16:35<14:55,  3.78s/it][A
Training...:  91% 2373/2609 [2:16:39<14:26,  3.67s/it][A
Training...:  91% 2374/2609 [2:16:42<13:59,  3.57s/it][A
Training...:  91% 2375/2609 [2:16:45<13:34,  3.48s/it][A
Training...:  91% 2376/2609 [2:16:48<13:12,  3.40s/it][A
Training...:  91% 2377/2609 [2:16:51<12:52,  3.33s/it][A
Training...:  91% 2378/2609 [2:16:55<12:27,  3.24s/it][A
Training...:  91% 2379/2609 [2:16:57<12:02,  3.14s/it][A
Training...:  91% 2380/2609 [2:17:00<11:37,  3.05s/it][A
Training...:  91% 2381/2609 [2:17:03<11:11,  2.95s/it][A
Training...:  91% 2382/2609 [2:17:06<10:46,  2.85s/it][A
Training...:  91% 2383/2609 [2:17:08<10:26,  2.77s/it][A
Training...:  91% 2384/2609 [2:17:11<10:04,  2.69s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:56:57<25:20:58, 9125.80s/it]
Training...:  91% 2384/2609 [2:17:14<10:04,  2.69s/it][A
Training...:  91% 2385/2609 [2:17:14<10:12,  2.73s/it][A
Training...:  91% 2386/2609 [2:17:16<09:43,  2.62s/it][A
Training...:  91% 2387/2609 [2:17:18<09:15,  2.50s/it][A
Training...:  92% 2388/2609 [2:17:20<08:47,  2.38s/it][A
Training...:  92% 2389/2609 [2:17:22<08:23,  2.29s/it][A
Training...:  92% 2390/2609 [2:17:24<07:58,  2.18s/it][A
Training...:  92% 2391/2609 [2:17:26<07:34,  2.08s/it][A
Training...:  92% 2392/2609 [2:17:28<07:10,  1.98s/it][A
Training...:  92% 2393/2609 [2:17:29<06:45,  1.88s/it][A
Training...:  92% 2394/2609 [2:17:31<06:20,  1.77s/it][A
Training...:  92% 2395/2609 [2:17:32<05:55,  1.66s/it][A
Training...:  92% 2396/2609 [2:17:34<05:29,  1.55s/it][A
Training...:  92% 2397/2609 [2:17:35<05:03,  1.43s/it][A
Training...:  92% 2398/2609 [2:17:36<04:33,  1.30s/it][A
Training...:  92% 2399/2609 [2:17:37<04:00,  1.15s/it][A
Training...:  92% 2400/2609 [2:17:37<03:21,  1.04it/s][A
Training...:  92% 2401/2609 [2:17:44<09:41,  2.79s/it][A
Training...:  92% 2402/2609 [2:17:51<14:03,  4.08s/it][A
Training...:  92% 2403/2609 [2:17:58<16:37,  4.84s/it][A
Training...:  92% 2404/2609 [2:18:04<18:04,  5.29s/it][A
Training...:  92% 2405/2609 [2:18:10<18:52,  5.55s/it][A
Training...:  92% 2406/2609 [2:18:16<19:03,  5.63s/it][A
Training...:  92% 2407/2609 [2:18:22<18:58,  5.64s/it][A
Training...:  92% 2408/2609 [2:18:27<18:38,  5.56s/it][A
Training...:  92% 2409/2609 [2:18:33<18:17,  5.49s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:58:22<25:20:58, 9125.80s/it]
Training...:  92% 2409/2609 [2:18:38<18:17,  5.49s/it][A
Training...:  92% 2410/2609 [2:18:38<18:32,  5.59s/it][A
Training...:  92% 2411/2609 [2:18:43<17:52,  5.42s/it][A
Training...:  92% 2412/2609 [2:18:48<17:10,  5.23s/it][A
Training...:  92% 2413/2609 [2:18:53<16:33,  5.07s/it][A
Training...:  93% 2414/2609 [2:18:57<16:01,  4.93s/it][A
Training...:  93% 2415/2609 [2:19:02<15:35,  4.82s/it][A
Training...:  93% 2416/2609 [2:19:06<14:53,  4.63s/it][A
Training...:  93% 2417/2609 [2:19:10<14:20,  4.48s/it][A
Training...:  93% 2418/2609 [2:19:14<13:46,  4.33s/it][A
Training...:  93% 2419/2609 [2:19:18<13:17,  4.20s/it][A
Training...:  93% 2420/2609 [2:19:22<12:46,  4.05s/it][A
Training...:  93% 2421/2609 [2:19:26<12:19,  3.94s/it][A
Training...:  93% 2422/2609 [2:19:29<11:52,  3.81s/it][A
Training...:  93% 2423/2609 [2:19:33<11:31,  3.72s/it][A
Training...:  93% 2424/2609 [2:19:36<11:09,  3.62s/it][A
Training...:  93% 2425/2609 [2:19:39<10:49,  3.53s/it][A
Training...:  93% 2426/2609 [2:19:43<10:27,  3.43s/it][A
Training...:  93% 2427/2609 [2:19:46<10:09,  3.35s/it][A
Training...:  93% 2428/2609 [2:19:49<09:50,  3.26s/it][A
Training...:  93% 2429/2609 [2:19:52<09:32,  3.18s/it][A
Training...:  93% 2430/2609 [2:19:55<09:13,  3.09s/it][A
Training...:  93% 2431/2609 [2:19:57<08:56,  3.02s/it][A
Training...:  93% 2432/2609 [2:20:00<08:37,  2.92s/it][A
Training...:  93% 2433/2609 [2:20:03<08:21,  2.85s/it][A
Training...:  93% 2434/2609 [2:20:05<08:03,  2.76s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [27:59:52<25:20:58, 9125.80s/it]
Training...:  93% 2434/2609 [2:20:08<08:03,  2.76s/it][A
Training...:  93% 2435/2609 [2:20:08<08:08,  2.81s/it][A
Training...:  93% 2436/2609 [2:20:11<07:45,  2.69s/it][A
Training...:  93% 2437/2609 [2:20:13<07:21,  2.57s/it][A
Training...:  93% 2438/2609 [2:20:15<06:59,  2.46s/it][A
Training...:  93% 2439/2609 [2:20:17<06:38,  2.34s/it][A
Training...:  94% 2440/2609 [2:20:19<06:19,  2.25s/it][A
Training...:  94% 2441/2609 [2:20:21<06:00,  2.15s/it][A
Training...:  94% 2442/2609 [2:20:23<05:40,  2.04s/it][A
Training...:  94% 2443/2609 [2:20:25<05:20,  1.93s/it][A
Training...:  94% 2444/2609 [2:20:26<04:59,  1.82s/it][A
Training...:  94% 2445/2609 [2:20:28<04:38,  1.70s/it][A
Training...:  94% 2446/2609 [2:20:29<04:16,  1.57s/it][A
Training...:  94% 2447/2609 [2:20:30<03:54,  1.45s/it][A
Training...:  94% 2448/2609 [2:20:31<03:30,  1.31s/it][A
Training...:  94% 2449/2609 [2:20:32<03:04,  1.15s/it][A
Training...:  94% 2450/2609 [2:20:32<02:34,  1.03it/s][A
Training...:  94% 2451/2609 [2:20:40<07:26,  2.82s/it][A
Training...:  94% 2452/2609 [2:20:47<10:39,  4.07s/it][A
Training...:  94% 2453/2609 [2:20:53<12:31,  4.82s/it][A
Training...:  94% 2454/2609 [2:20:59<13:32,  5.24s/it][A
Training...:  94% 2455/2609 [2:21:06<14:14,  5.55s/it][A
Training...:  94% 2456/2609 [2:21:11<14:14,  5.59s/it][A
Training...:  94% 2457/2609 [2:21:17<14:04,  5.56s/it][A
Training...:  94% 2458/2609 [2:21:22<13:41,  5.44s/it][A
Training...:  94% 2459/2609 [2:21:27<13:21,  5.34s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [28:01:16<25:20:58, 9125.80s/it]
Training...:  94% 2459/2609 [2:21:33<13:21,  5.34s/it][A
Training...:  94% 2460/2609 [2:21:33<13:25,  5.41s/it][A
Training...:  94% 2461/2609 [2:21:37<12:49,  5.20s/it][A
Training...:  94% 2462/2609 [2:21:42<12:15,  5.00s/it][A
Training...:  94% 2463/2609 [2:21:46<11:46,  4.84s/it][A
Training...:  94% 2464/2609 [2:21:51<11:19,  4.69s/it][A
Training...:  94% 2465/2609 [2:21:55<10:56,  4.56s/it][A
Training...:  95% 2466/2609 [2:21:59<10:32,  4.43s/it][A
Training...:  95% 2467/2609 [2:22:03<10:12,  4.31s/it][A
Training...:  95% 2468/2609 [2:22:07<09:51,  4.19s/it][A
Training...:  95% 2469/2609 [2:22:11<09:32,  4.09s/it][A
Training...:  95% 2470/2609 [2:22:15<09:12,  3.97s/it][A
Training...:  95% 2471/2609 [2:22:18<08:53,  3.86s/it][A
Training...:  95% 2472/2609 [2:22:22<08:36,  3.77s/it][A
Training...:  95% 2473/2609 [2:22:25<08:19,  3.67s/it][A
Training...:  95% 2474/2609 [2:22:28<08:01,  3.57s/it][A
Training...:  95% 2475/2609 [2:22:32<07:47,  3.49s/it][A
Training...:  95% 2476/2609 [2:22:35<07:32,  3.40s/it][A
Training...:  95% 2477/2609 [2:22:38<07:17,  3.32s/it][A
Training...:  95% 2478/2609 [2:22:41<07:01,  3.22s/it][A
Training...:  95% 2479/2609 [2:22:44<06:48,  3.15s/it][A
Training...:  95% 2480/2609 [2:22:47<06:34,  3.06s/it][A
Training...:  95% 2481/2609 [2:22:50<06:20,  2.97s/it][A
Training...:  95% 2482/2609 [2:22:52<06:04,  2.87s/it][A
Training...:  95% 2483/2609 [2:22:55<05:49,  2.78s/it][A
Training...:  95% 2484/2609 [2:22:57<05:35,  2.68s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [28:02:43<25:20:58, 9125.80s/it]
Training...:  95% 2484/2609 [2:23:00<05:35,  2.68s/it][A
Training...:  95% 2485/2609 [2:23:00<05:38,  2.73s/it][A
Training...:  95% 2486/2609 [2:23:02<05:18,  2.59s/it][A
Training...:  95% 2487/2609 [2:23:05<05:01,  2.47s/it][A
Training...:  95% 2488/2609 [2:23:07<04:44,  2.35s/it][A
Training...:  95% 2489/2609 [2:23:09<04:30,  2.25s/it][A
Training...:  95% 2490/2609 [2:23:11<04:15,  2.15s/it][A
Training...:  95% 2491/2609 [2:23:12<04:02,  2.06s/it][A
Training...:  96% 2492/2609 [2:23:14<03:48,  1.95s/it][A
Training...:  96% 2493/2609 [2:23:16<03:36,  1.87s/it][A
Training...:  96% 2494/2609 [2:23:17<03:23,  1.77s/it][A
Training...:  96% 2495/2609 [2:23:19<03:08,  1.66s/it][A
Training...:  96% 2496/2609 [2:23:20<02:55,  1.55s/it][A
Training...:  96% 2497/2609 [2:23:21<02:39,  1.42s/it][A
Training...:  96% 2498/2609 [2:23:22<02:23,  1.30s/it][A
Training...:  96% 2499/2609 [2:23:23<02:06,  1.15s/it][A
Training...:  96% 2500/2609 [2:23:24<01:45,  1.03it/s][A
Training...:  96% 2501/2609 [2:23:31<05:06,  2.84s/it][A
Training...:  96% 2502/2609 [2:23:38<07:18,  4.09s/it][A
Training...:  96% 2503/2609 [2:23:44<08:33,  4.84s/it][A
Training...:  96% 2504/2609 [2:23:51<09:10,  5.25s/it][A
Training...:  96% 2505/2609 [2:23:57<09:28,  5.47s/it][A
Training...:  96% 2506/2609 [2:24:02<09:30,  5.54s/it][A
Training...:  96% 2507/2609 [2:24:08<09:27,  5.57s/it][A
Training...:  96% 2508/2609 [2:24:13<09:13,  5.48s/it][A
Training...:  96% 2509/2609 [2:24:18<08:57,  5.38s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [28:04:07<25:20:58, 9125.80s/it]
Training...:  96% 2509/2609 [2:24:24<08:57,  5.38s/it][A
Training...:  96% 2510/2609 [2:24:24<08:59,  5.45s/it][A
Training...:  96% 2511/2609 [2:24:29<08:35,  5.26s/it][A
Training...:  96% 2512/2609 [2:24:33<08:10,  5.06s/it][A
Training...:  96% 2513/2609 [2:24:38<07:49,  4.89s/it][A
Training...:  96% 2514/2609 [2:24:42<07:28,  4.73s/it][A
Training...:  96% 2515/2609 [2:24:46<07:11,  4.59s/it][A
Training...:  96% 2516/2609 [2:24:51<06:53,  4.44s/it][A
Training...:  96% 2517/2609 [2:24:55<06:37,  4.32s/it][A
Training...:  97% 2518/2609 [2:24:58<06:20,  4.18s/it][A
Training...:  97% 2519/2609 [2:25:02<06:06,  4.07s/it][A
Training...:  97% 2520/2609 [2:25:06<05:52,  3.96s/it][A
Training...:  97% 2521/2609 [2:25:10<05:39,  3.86s/it][A
Training...:  97% 2522/2609 [2:25:13<05:26,  3.76s/it][A
Training...:  97% 2523/2609 [2:25:16<05:13,  3.64s/it][A
Training...:  97% 2524/2609 [2:25:20<05:01,  3.54s/it][A
Training...:  97% 2525/2609 [2:25:23<04:48,  3.44s/it][A
Training...:  97% 2526/2609 [2:25:26<04:38,  3.35s/it][A
Training...:  97% 2527/2609 [2:25:29<04:27,  3.27s/it][A
Training...:  97% 2528/2609 [2:25:32<04:19,  3.20s/it][A
Training...:  97% 2529/2609 [2:25:35<04:09,  3.11s/it][A
Training...:  97% 2530/2609 [2:25:38<03:59,  3.03s/it][A
Training...:  97% 2531/2609 [2:25:41<03:50,  2.95s/it][A
Training...:  97% 2532/2609 [2:25:43<03:41,  2.87s/it][A
Training...:  97% 2533/2609 [2:25:46<03:30,  2.77s/it][A
Training...:  97% 2534/2609 [2:25:48<03:19,  2.66s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [28:05:35<25:20:58, 9125.80s/it]
Training...:  97% 2534/2609 [2:25:51<03:19,  2.66s/it][A
Training...:  97% 2535/2609 [2:25:51<03:20,  2.71s/it][A
Training...:  97% 2536/2609 [2:25:53<03:08,  2.58s/it][A
Training...:  97% 2537/2609 [2:25:56<02:57,  2.47s/it][A
Training...:  97% 2538/2609 [2:25:58<02:47,  2.35s/it][A
Training...:  97% 2539/2609 [2:26:00<02:36,  2.24s/it][A
Training...:  97% 2540/2609 [2:26:02<02:26,  2.12s/it][A
Training...:  97% 2541/2609 [2:26:03<02:17,  2.03s/it][A
Training...:  97% 2542/2609 [2:26:05<02:08,  1.92s/it][A
Training...:  97% 2543/2609 [2:26:07<01:59,  1.82s/it][A
Training...:  98% 2544/2609 [2:26:08<01:51,  1.71s/it][A
Training...:  98% 2545/2609 [2:26:09<01:42,  1.61s/it][A
Training...:  98% 2546/2609 [2:26:11<01:41,  1.61s/it][A
Training...:  98% 2547/2609 [2:26:12<01:30,  1.46s/it][A
Training...:  98% 2548/2609 [2:26:13<01:19,  1.31s/it][A
Training...:  98% 2549/2609 [2:26:14<01:08,  1.15s/it][A
Training...:  98% 2550/2609 [2:26:14<00:57,  1.03it/s][A
Training...:  98% 2551/2609 [2:26:22<02:42,  2.81s/it][A
Training...:  98% 2552/2609 [2:26:29<03:55,  4.13s/it][A
Training...:  98% 2553/2609 [2:26:35<04:29,  4.82s/it][A
Training...:  98% 2554/2609 [2:26:41<04:47,  5.22s/it][A
Training...:  98% 2555/2609 [2:26:47<04:52,  5.42s/it][A
Training...:  98% 2556/2609 [2:26:53<04:51,  5.50s/it][A
Training...:  98% 2557/2609 [2:26:58<04:46,  5.51s/it][A
Training...:  98% 2558/2609 [2:27:04<04:35,  5.39s/it][A
Training...:  98% 2559/2609 [2:27:09<04:25,  5.32s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [28:06:58<25:20:58, 9125.80s/it]
Training...:  98% 2559/2609 [2:27:14<04:25,  5.32s/it][A
Training...:  98% 2560/2609 [2:27:14<04:25,  5.42s/it][A
Training...:  98% 2561/2609 [2:27:19<04:10,  5.22s/it][A
Training...:  98% 2562/2609 [2:27:24<03:55,  5.02s/it][A
Training...:  98% 2563/2609 [2:27:28<03:42,  4.84s/it][A
Training...:  98% 2564/2609 [2:27:32<03:30,  4.68s/it][A
Training...:  98% 2565/2609 [2:27:37<03:19,  4.54s/it][A
Training...:  98% 2566/2609 [2:27:41<03:09,  4.40s/it][A
Training...:  98% 2567/2609 [2:27:45<03:00,  4.29s/it][A
Training...:  98% 2568/2609 [2:27:49<02:50,  4.15s/it][A
Training...:  98% 2569/2609 [2:27:52<02:41,  4.04s/it][A
Training...:  99% 2570/2609 [2:27:56<02:32,  3.92s/it][A
Training...:  99% 2571/2609 [2:28:00<02:24,  3.80s/it][A
Training...:  99% 2572/2609 [2:28:03<02:17,  3.73s/it][A
Training...:  99% 2573/2609 [2:28:07<02:11,  3.65s/it][A
Training...:  99% 2574/2609 [2:28:10<02:04,  3.57s/it][A
Training...:  99% 2575/2609 [2:28:13<01:57,  3.44s/it][A
Training...:  99% 2576/2609 [2:28:16<01:50,  3.35s/it][A
Training...:  99% 2577/2609 [2:28:19<01:43,  3.25s/it][A
Training...:  99% 2578/2609 [2:28:22<01:37,  3.16s/it][A
Training...:  99% 2579/2609 [2:28:25<01:32,  3.08s/it][A
Training...:  99% 2580/2609 [2:28:28<01:26,  2.98s/it][A
Training...:  99% 2581/2609 [2:28:30<01:20,  2.88s/it][A
Training...:  99% 2582/2609 [2:28:33<01:15,  2.78s/it][A
Training...:  99% 2583/2609 [2:28:36<01:10,  2.69s/it][A
Training...:  99% 2584/2609 [2:28:38<01:05,  2.60s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  50% 10/20 [28:08:24<25:20:58, 9125.80s/it]
Training...:  99% 2584/2609 [2:28:41<01:05,  2.60s/it][A
Training...:  99% 2585/2609 [2:28:41<01:03,  2.66s/it][A
Training...:  99% 2586/2609 [2:28:43<00:58,  2.55s/it][A
Training...:  99% 2587/2609 [2:28:45<00:53,  2.43s/it][A
Training...:  99% 2588/2609 [2:28:47<00:48,  2.33s/it][A
Training...:  99% 2589/2609 [2:28:49<00:44,  2.23s/it][A
Training...:  99% 2590/2609 [2:28:51<00:40,  2.13s/it][A
Training...:  99% 2591/2609 [2:28:53<00:36,  2.03s/it][A
Training...:  99% 2592/2609 [2:28:55<00:32,  1.94s/it][A
Training...:  99% 2593/2609 [2:28:56<00:29,  1.85s/it][A
Training...:  99% 2594/2609 [2:28:58<00:26,  1.74s/it][A
Training...:  99% 2595/2609 [2:28:59<00:23,  1.65s/it][A
Training...: 100% 2596/2609 [2:29:00<00:19,  1.54s/it][A
Training...: 100% 2597/2609 [2:29:02<00:17,  1.43s/it][A
Training...: 100% 2598/2609 [2:29:03<00:14,  1.30s/it][A
Training...: 100% 2599/2609 [2:29:03<00:11,  1.15s/it][A
Training...: 100% 2600/2609 [2:29:04<00:08,  1.02it/s][A
Training...: 100% 2601/2609 [2:29:10<00:20,  2.55s/it][A
Training...: 100% 2602/2609 [2:29:15<00:23,  3.31s/it][A
Training...: 100% 2603/2609 [2:29:20<00:21,  3.65s/it][A
Training...: 100% 2604/2609 [2:29:24<00:18,  3.70s/it][A
Training...: 100% 2605/2609 [2:29:27<00:14,  3.58s/it][A
Training...: 100% 2606/2609 [2:29:30<00:10,  3.36s/it][A
Training...: 100% 2607/2609 [2:29:32<00:06,  3.06s/it][A
Training...: 100% 2608/2609 [2:29:34<00:02,  2.72s/it][A
Training...: 100% 2609/2609 [2:29:36<00:00,  2.36s/it][ATraining...: 100% 2609/2609 [2:29:36<00:00,  3.44s/it]
Step... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:09:19<22:42:03, 9080.38s/it]Step... (27825 | Loss: 0.01908508874475956, Learning Rate: 4.479999915929511e-05, Gradient Norm: 0.6018440127372742)
Step... (27850 | Loss: 0.04399571567773819, Learning Rate: 4.474948946153745e-05, Gradient Norm: 0.45617246627807617)
Step... (27875 | Loss: 0.011964346282184124, Learning Rate: 4.4698987039737403e-05, Gradient Norm: 0.38372132182121277)
Step... (27900 | Loss: 0.04731350392103195, Learning Rate: 4.4648484617937356e-05, Gradient Norm: 0.47715938091278076)
Step... (27925 | Loss: 0.0227805208414793, Learning Rate: 4.4597974920179695e-05, Gradient Norm: 0.6080435514450073)
Step... (27950 | Loss: 0.07131261378526688, Learning Rate: 4.454747249837965e-05, Gradient Norm: 0.6056981086730957)
Step... (27975 | Loss: 0.009539397433400154, Learning Rate: 4.44969700765796e-05, Gradient Norm: 0.4502350389957428)
Step... (28000 | Loss: 0.05601981282234192, Learning Rate: 4.444646037882194e-05, Gradient Norm: 0.7134963870048523)
Step... (28025 | Loss: 0.027241002768278122, Learning Rate: 4.439595795702189e-05, Gradient Norm: 0.8775598406791687)
Step... (28050 | Loss: 0.047010235488414764, Learning Rate: 4.4345455535221845e-05, Gradient Norm: 0.474729984998703)
Step... (28075 | Loss: 0.02356262318789959, Learning Rate: 4.4294945837464184e-05, Gradient Norm: 0.5739720463752747)
Step... (28100 | Loss: 0.03839033469557762, Learning Rate: 4.4244443415664136e-05, Gradient Norm: 0.4467589259147644)
Step... (28125 | Loss: 0.028080051764845848, Learning Rate: 4.419394099386409e-05, Gradient Norm: 0.6436234712600708)
Step... (28150 | Loss: 0.050913818180561066, Learning Rate: 4.414343129610643e-05, Gradient Norm: 0.5066895484924316)
Step... (28175 | Loss: 0.02141420915722847, Learning Rate: 4.409292887430638e-05, Gradient Norm: 0.5235483646392822)
Step... (28200 | Loss: 0.030033037066459656, Learning Rate: 4.4042426452506334e-05, Gradient Norm: 0.38819968700408936)
Step... (28225 | Loss: 0.02382652647793293, Learning Rate: 4.399191675474867e-05, Gradient Norm: 0.5530015826225281)
Step... (28250 | Loss: 0.04397103562951088, Learning Rate: 4.3941414332948625e-05, Gradient Norm: 0.5205684900283813)
Step... (28275 | Loss: 0.01701580546796322, Learning Rate: 4.389091191114858e-05, Gradient Norm: 0.39957335591316223)
Step... (28300 | Loss: 0.04408003017306328, Learning Rate: 4.3840402213390917e-05, Gradient Norm: 0.5547753572463989)
Step... (28325 | Loss: 0.02997867576777935, Learning Rate: 4.378989979159087e-05, Gradient Norm: 0.6767846345901489)
Step... (28350 | Loss: 0.0527547262609005, Learning Rate: 4.3739393731812015e-05, Gradient Norm: 0.5973315238952637)
Step... (28375 | Loss: 0.031011506915092468, Learning Rate: 4.368888767203316e-05, Gradient Norm: 0.632183313369751)
Step... (28400 | Loss: 0.06831126660108566, Learning Rate: 4.363838161225431e-05, Gradient Norm: 0.6587610840797424)
Step... (28425 | Loss: 0.03028140403330326, Learning Rate: 4.358787919045426e-05, Gradient Norm: 0.5932106971740723)
Step... (28450 | Loss: 0.026384053751826286, Learning Rate: 4.35373694926966e-05, Gradient Norm: 0.35429516434669495)
Step... (28475 | Loss: 0.00591830350458622, Learning Rate: 4.348686707089655e-05, Gradient Norm: 0.2837218642234802)
Step... (28500 | Loss: 0.03949269279837608, Learning Rate: 4.3436364649096504e-05, Gradient Norm: 0.4723743498325348)
Step... (28525 | Loss: 0.012149523943662643, Learning Rate: 4.338585495133884e-05, Gradient Norm: 0.34506309032440186)
Step... (28550 | Loss: 0.0362023264169693, Learning Rate: 4.3335352529538795e-05, Gradient Norm: 0.4778466522693634)
Step... (28575 | Loss: 0.010230003856122494, Learning Rate: 4.328485010773875e-05, Gradient Norm: 0.45758143067359924)
Step... (28600 | Loss: 0.035410188138484955, Learning Rate: 4.323434040998109e-05, Gradient Norm: 0.5864676237106323)
Step... (28625 | Loss: 0.03822784125804901, Learning Rate: 4.318383798818104e-05, Gradient Norm: 0.6860427856445312)
Step... (28650 | Loss: 0.10066787153482437, Learning Rate: 4.313333556638099e-05, Gradient Norm: 8.46884822845459)
Step... (28675 | Loss: 0.036054134368896484, Learning Rate: 
4.308282586862333e-05, Gradient Norm: 0.7808750867843628)
Training...:   0% 0/2609 [00:00<?, ?it/s][A                                                                                                                                                                   
                                         [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:09:28<22:42:03, 9080.38s/it]
Training...:   0% 0/2609 [00:08<?, ?it/s][A
Training...:   0% 1/2609 [00:08<5:59:03,  8.26s/it][A
Training...:   0% 2/2609 [00:15<5:22:35,  7.42s/it][A
Training...:   0% 3/2609 [00:21<5:04:30,  7.01s/it][A
Training...:   0% 4/2609 [00:27<4:51:43,  6.72s/it][A
Training...:   0% 5/2609 [00:33<4:40:10,  6.46s/it][A
Training...:   0% 6/2609 [00:39<4:29:13,  6.21s/it][A
Training...:   0% 7/2609 [00:45<4:20:03,  6.00s/it][A
Training...:   0% 8/2609 [00:50<4:09:31,  5.76s/it][A
Training...:   0% 9/2609 [00:55<4:00:45,  5.56s/it][A
Training...:   0% 10/2609 [01:00<3:52:23,  5.36s/it][A
Training...:   0% 11/2609 [01:05<3:46:16,  5.23s/it][A
Training...:   0% 12/2609 [01:10<3:39:19,  5.07s/it][A
Training...:   0% 13/2609 [01:14<3:32:33,  4.91s/it][A
Training...:   1% 14/2609 [01:19<3:26:13,  4.77s/it][A
Training...:   1% 15/2609 [01:23<3:19:44,  4.62s/it][A
Training...:   1% 16/2609 [01:27<3:13:17,  4.47s/it][A
Training...:   1% 17/2609 [01:31<3:07:36,  4.34s/it][A
Training...:   1% 18/2609 [01:35<3:01:58,  4.21s/it][A
Training...:   1% 19/2609 [01:39<2:57:09,  4.10s/it][A
Training...:   1% 20/2609 [01:42<2:51:57,  3.99s/it][A
Training...:   1% 21/2609 [01:46<2:47:23,  3.88s/it][A
Training...:   1% 22/2609 [01:50<2:42:43,  3.77s/it][A
Training...:   1% 23/2609 [01:53<2:38:26,  3.68s/it][A
Training...:   1% 24/2609 [01:56<2:34:15,  3.58s/it][A
Training...:   1% 25/2609 [02:00<2:29:24,  3.47s/it][A                                                                                                                                                                   
                                                    [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:11:24<22:42:03, 9080.38s/it]
Training...:   1% 25/2609 [02:03<2:29:24,  3.47s/it][A
Training...:   1% 26/2609 [02:03<2:31:48,  3.53s/it][A
Training...:   1% 27/2609 [02:06<2:25:39,  3.38s/it][A
Training...:   1% 28/2609 [02:09<2:20:20,  3.26s/it][A
Training...:   1% 29/2609 [02:12<2:15:36,  3.15s/it][A
Training...:   1% 30/2609 [02:15<2:11:06,  3.05s/it][A
Training...:   1% 31/2609 [02:18<2:06:57,  2.95s/it][A
Training...:   1% 32/2609 [02:20<2:02:55,  2.86s/it][A
Training...:   1% 33/2609 [02:23<1:59:22,  2.78s/it][A
Training...:   1% 34/2609 [02:26<1:55:38,  2.69s/it][A
Training...:   1% 35/2609 [02:28<1:52:16,  2.62s/it][A
Training...:   1% 36/2609 [02:30<1:49:05,  2.54s/it][A
Training...:   1% 37/2609 [02:33<1:45:31,  2.46s/it][A
Training...:   1% 38/2609 [02:35<1:42:37,  2.39s/it][A
Training...:   1% 39/2609 [02:37<1:38:42,  2.30s/it][A
Training...:   2% 40/2609 [02:39<1:35:11,  2.22s/it][A
Training...:   2% 41/2609 [02:41<1:31:42,  2.14s/it][A
Training...:   2% 42/2609 [02:43<1:27:39,  2.05s/it][A
Training...:   2% 43/2609 [02:44<1:23:08,  1.94s/it][A
Training...:   2% 44/2609 [02:46<1:18:10,  1.83s/it][A
Training...:   2% 45/2609 [02:47<1:13:18,  1.72s/it][A
Training...:   2% 46/2609 [02:49<1:08:09,  1.60s/it][A
Training...:   2% 47/2609 [02:50<1:02:39,  1.47s/it][A
Training...:   2% 48/2609 [02:51<56:36,  1.33s/it]  [A
Training...:   2% 49/2609 [02:52<49:57,  1.17s/it][A
Training...:   2% 50/2609 [02:52<42:15,  1.01it/s][A                                                                                                                                                                   
                                                  [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:12:21<22:42:03, 9080.38s/it]
Training...:   2% 50/2609 [03:01<42:15,  1.01it/s][A
Training...:   2% 51/2609 [03:01<2:14:14,  3.15s/it][A
Training...:   2% 52/2609 [03:08<3:04:16,  4.32s/it][A
Training...:   2% 53/2609 [03:14<3:35:13,  5.05s/it][A
Training...:   2% 54/2609 [03:21<3:51:17,  5.43s/it][A
Training...:   2% 55/2609 [03:27<3:58:50,  5.61s/it][A
Training...:   2% 56/2609 [03:32<4:00:13,  5.65s/it][A
Training...:   2% 57/2609 [03:38<3:58:43,  5.61s/it][A
Training...:   2% 58/2609 [03:43<3:54:02,  5.50s/it][A
Training...:   2% 59/2609 [03:48<3:49:40,  5.40s/it][A
Training...:   2% 60/2609 [03:53<3:44:00,  5.27s/it][A
Training...:   2% 61/2609 [03:58<3:38:58,  5.16s/it][A
Training...:   2% 62/2609 [04:03<3:32:42,  5.01s/it][A
Training...:   2% 63/2609 [04:07<3:27:25,  4.89s/it][A
Training...:   2% 64/2609 [04:12<3:20:41,  4.73s/it][A
Training...:   2% 65/2609 [04:16<3:15:15,  4.61s/it][A
Training...:   3% 66/2609 [04:20<3:09:16,  4.47s/it][A
Training...:   3% 67/2609 [04:24<3:04:16,  4.35s/it][A
Training...:   3% 68/2609 [04:28<2:59:36,  4.24s/it][A
Training...:   3% 69/2609 [04:32<2:56:17,  4.16s/it][A
Training...:   3% 70/2609 [04:36<2:51:08,  4.04s/it][A
Training...:   3% 71/2609 [04:40<2:46:38,  3.94s/it][A
Training...:   3% 72/2609 [04:43<2:41:27,  3.82s/it][A
Training...:   3% 73/2609 [04:47<2:36:26,  3.70s/it][A
Training...:   3% 74/2609 [04:50<2:32:00,  3.60s/it][A
Training...:   3% 75/2609 [04:53<2:28:26,  3.51s/it][A                                                                                                                                                                   
                                                    [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:14:17<22:42:03, 9080.38s/it]
Training...:   3% 75/2609 [04:57<2:28:26,  3.51s/it][A
Training...:   3% 76/2609 [04:57<2:30:54,  3.57s/it][A
Training...:   3% 77/2609 [05:00<2:25:05,  3.44s/it][A
Training...:   3% 78/2609 [05:03<2:18:57,  3.29s/it][A
Training...:   3% 79/2609 [05:06<2:13:32,  3.17s/it][A
Training...:   3% 80/2609 [05:09<2:08:30,  3.05s/it][A
Training...:   3% 81/2609 [05:12<2:04:02,  2.94s/it][A
Training...:   3% 82/2609 [05:14<1:59:55,  2.85s/it][A
Training...:   3% 83/2609 [05:17<1:56:11,  2.76s/it][A
Training...:   3% 84/2609 [05:19<1:52:11,  2.67s/it][A
Training...:   3% 85/2609 [05:22<1:48:25,  2.58s/it][A
Training...:   3% 86/2609 [05:24<1:45:07,  2.50s/it][A
Training...:   3% 87/2609 [05:26<1:41:31,  2.42s/it][A
Training...:   3% 88/2609 [05:28<1:37:31,  2.32s/it][A
Training...:   3% 89/2609 [05:30<1:33:26,  2.22s/it][A
Training...:   3% 90/2609 [05:32<1:29:44,  2.14s/it][A
Training...:   3% 91/2609 [05:34<1:26:02,  2.05s/it][A
Training...:   4% 92/2609 [05:36<1:21:42,  1.95s/it][A
Training...:   4% 93/2609 [05:37<1:17:48,  1.86s/it][A
Training...:   4% 94/2609 [05:39<1:13:07,  1.74s/it][A
Training...:   4% 95/2609 [05:40<1:08:12,  1.63s/it][A
Training...:   4% 96/2609 [05:41<1:03:05,  1.51s/it][A
Training...:   4% 97/2609 [05:43<58:00,  1.39s/it]  [A
Training...:   4% 98/2609 [05:43<52:32,  1.26s/it][A
Training...:   4% 99/2609 [05:44<46:49,  1.12s/it][A
Training...:   4% 100/2609 [05:45<40:01,  1.04it/s][A                                                                                                                                                                   
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:15:13<22:42:03, 9080.38s/it]
Training...:   4% 100/2609 [05:53<40:01,  1.04it/s][A
Training...:   4% 101/2609 [05:53<2:11:42,  3.15s/it][A
Training...:   4% 102/2609 [06:00<2:59:25,  4.29s/it][A
Training...:   4% 103/2609 [06:07<3:26:44,  4.95s/it][A
Training...:   4% 104/2609 [06:13<3:41:53,  5.31s/it][A
Training...:   4% 105/2609 [06:19<3:49:51,  5.51s/it][A
Training...:   4% 106/2609 [06:24<3:51:11,  5.54s/it][A
Training...:   4% 107/2609 [06:30<3:51:48,  5.56s/it][A
Training...:   4% 108/2609 [06:35<3:48:12,  5.47s/it][A
Training...:   4% 109/2609 [06:40<3:44:28,  5.39s/it][A
Training...:   4% 110/2609 [06:45<3:39:30,  5.27s/it][A
Training...:   4% 111/2609 [06:50<3:33:15,  5.12s/it][A
Training...:   4% 112/2609 [06:55<3:26:34,  4.96s/it][A
Training...:   4% 113/2609 [06:59<3:20:45,  4.83s/it][A
Training...:   4% 114/2609 [07:04<3:15:12,  4.69s/it][A
Training...:   4% 115/2609 [07:08<3:11:13,  4.60s/it][A
Training...:   4% 116/2609 [07:12<3:06:35,  4.49s/it][A
Training...:   4% 117/2609 [07:16<3:01:21,  4.37s/it][A
Training...:   5% 118/2609 [07:20<2:55:36,  4.23s/it][A
Training...:   5% 119/2609 [07:24<2:49:52,  4.09s/it][A
Training...:   5% 120/2609 [07:28<2:44:36,  3.97s/it][A
Training...:   5% 121/2609 [07:31<2:40:12,  3.86s/it][A
Training...:   5% 122/2609 [07:35<2:35:32,  3.75s/it][A
Training...:   5% 123/2609 [07:38<2:31:27,  3.66s/it][A
Training...:   5% 124/2609 [07:42<2:27:07,  3.55s/it][A
Training...:   5% 125/2609 [07:45<2:22:48,  3.45s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:17:09<22:42:03, 9080.38s/it]
Training...:   5% 125/2609 [07:48<2:22:48,  3.45s/it][A
Training...:   5% 126/2609 [07:48<2:25:41,  3.52s/it][A
Training...:   5% 127/2609 [07:52<2:20:05,  3.39s/it][A
Training...:   5% 128/2609 [07:54<2:14:36,  3.26s/it][A
Training...:   5% 129/2609 [07:57<2:10:31,  3.16s/it][A
Training...:   5% 130/2609 [08:00<2:06:26,  3.06s/it][A
Training...:   5% 131/2609 [08:03<2:02:46,  2.97s/it][A
Training...:   5% 132/2609 [08:06<1:58:47,  2.88s/it][A
Training...:   5% 133/2609 [08:08<1:55:49,  2.81s/it][A
Training...:   5% 134/2609 [08:11<1:52:24,  2.73s/it][A
Training...:   5% 135/2609 [08:13<1:48:27,  2.63s/it][A
Training...:   5% 136/2609 [08:16<1:49:01,  2.65s/it][A
Training...:   5% 137/2609 [08:18<1:44:19,  2.53s/it][A
Training...:   5% 138/2609 [08:20<1:39:11,  2.41s/it][A
Training...:   5% 139/2609 [08:22<1:34:50,  2.30s/it][A
Training...:   5% 140/2609 [08:24<1:31:00,  2.21s/it][A
Training...:   5% 141/2609 [08:26<1:26:38,  2.11s/it][A
Training...:   5% 142/2609 [08:28<1:23:33,  2.03s/it][A
Training...:   5% 143/2609 [08:30<1:19:12,  1.93s/it][A
Training...:   6% 144/2609 [08:31<1:14:40,  1.82s/it][A
Training...:   6% 145/2609 [08:33<1:09:56,  1.70s/it][A
Training...:   6% 146/2609 [08:34<1:04:54,  1.58s/it][A
Training...:   6% 147/2609 [08:35<59:35,  1.45s/it]  [A
Training...:   6% 148/2609 [08:36<53:54,  1.31s/it][A
Training...:   6% 149/2609 [08:37<47:31,  1.16s/it][A
Training...:   6% 150/2609 [08:38<40:03,  1.02it/s][A                                                                                                                                                                   
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:18:06<22:42:03, 9080.38s/it]
Training...:   6% 150/2609 [08:46<40:03,  1.02it/s][A
Training...:   6% 151/2609 [08:46<2:10:02,  3.17s/it][A
Training...:   6% 152/2609 [08:53<2:57:36,  4.34s/it][A
Training...:   6% 153/2609 [08:59<3:25:04,  5.01s/it][A
Training...:   6% 154/2609 [09:06<3:40:48,  5.40s/it][A
Training...:   6% 155/2609 [09:12<3:48:49,  5.59s/it][A
Training...:   6% 156/2609 [09:18<3:51:26,  5.66s/it][A
Training...:   6% 157/2609 [09:23<3:51:19,  5.66s/it][A
Training...:   6% 158/2609 [09:29<3:46:53,  5.55s/it][A
Training...:   6% 159/2609 [09:34<3:44:34,  5.50s/it][A
Training...:   6% 160/2609 [09:39<3:41:12,  5.42s/it][A
Training...:   6% 161/2609 [09:44<3:34:08,  5.25s/it][A
Training...:   6% 162/2609 [09:49<3:26:36,  5.07s/it][A
Training...:   6% 163/2609 [09:53<3:20:22,  4.92s/it][A
Training...:   6% 164/2609 [09:58<3:14:48,  4.78s/it][A
Training...:   6% 165/2609 [10:02<3:09:53,  4.66s/it][A
Training...:   6% 166/2609 [10:06<3:03:55,  4.52s/it][A
Training...:   6% 167/2609 [10:10<2:59:26,  4.41s/it][A
Training...:   6% 168/2609 [10:14<2:53:36,  4.27s/it][A
Training...:   6% 169/2609 [10:18<2:48:26,  4.14s/it][A
Training...:   7% 170/2609 [10:22<2:44:20,  4.04s/it][A
Training...:   7% 171/2609 [10:26<2:39:51,  3.93s/it][A
Training...:   7% 172/2609 [10:29<2:35:23,  3.83s/it][A
Training...:   7% 173/2609 [10:33<2:31:46,  3.74s/it][A
Training...:   7% 174/2609 [10:36<2:28:11,  3.65s/it][A
Training...:   7% 175/2609 [10:40<2:24:44,  3.57s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:20:04<22:42:03, 9080.38s/it]
Training...:   7% 175/2609 [10:43<2:24:44,  3.57s/it][A
Training...:   7% 176/2609 [10:43<2:27:47,  3.64s/it][A
Training...:   7% 177/2609 [10:47<2:22:20,  3.51s/it][A
Training...:   7% 178/2609 [10:50<2:17:55,  3.40s/it][A
Training...:   7% 179/2609 [10:53<2:12:54,  3.28s/it][A
Training...:   7% 180/2609 [10:56<2:08:11,  3.17s/it][A
Training...:   7% 181/2609 [10:59<2:04:21,  3.07s/it][A
Training...:   7% 182/2609 [11:01<2:00:21,  2.98s/it][A
Training...:   7% 183/2609 [11:04<1:56:10,  2.87s/it][A
Training...:   7% 184/2609 [11:07<1:52:37,  2.79s/it][A
Training...:   7% 185/2609 [11:09<1:48:51,  2.69s/it][A
Training...:   7% 186/2609 [11:11<1:44:42,  2.59s/it][A
Training...:   7% 187/2609 [11:14<1:40:57,  2.50s/it][A
Training...:   7% 188/2609 [11:16<1:37:04,  2.41s/it][A
Training...:   7% 189/2609 [11:18<1:32:49,  2.30s/it][A
Training...:   7% 190/2609 [11:20<1:29:27,  2.22s/it][A
Training...:   7% 191/2609 [11:22<1:25:21,  2.12s/it][A
Training...:   7% 192/2609 [11:24<1:21:20,  2.02s/it][A
Training...:   7% 193/2609 [11:25<1:17:53,  1.93s/it][A
Training...:   7% 194/2609 [11:27<1:13:25,  1.82s/it][A
Training...:   7% 195/2609 [11:28<1:08:52,  1.71s/it][A
Training...:   8% 196/2609 [11:30<1:04:08,  1.59s/it][A
Training...:   8% 197/2609 [11:31<59:32,  1.48s/it]  [A
Training...:   8% 198/2609 [11:32<54:31,  1.36s/it][A
Training...:   8% 199/2609 [11:33<48:38,  1.21s/it][A
Training...:   8% 200/2609 [11:33<41:18,  1.03s/it][A                                                                                                                                                                   
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:21:02<22:42:03, 9080.38s/it]
Training...:   8% 200/2609 [11:42<41:18,  1.03s/it][A
Training...:   8% 201/2609 [11:42<2:08:50,  3.21s/it][A
Training...:   8% 202/2609 [11:49<2:57:10,  4.42s/it][A
Training...:   8% 203/2609 [11:56<3:25:44,  5.13s/it][A
Training...:   8% 204/2609 [12:02<3:40:19,  5.50s/it][A
Training...:   8% 205/2609 [12:08<3:46:42,  5.66s/it][A
Training...:   8% 206/2609 [12:14<3:46:23,  5.65s/it][A
Training...:   8% 207/2609 [12:19<3:45:12,  5.63s/it][A
Training...:   8% 208/2609 [12:25<3:40:50,  5.52s/it][A
Training...:   8% 209/2609 [12:30<3:35:36,  5.39s/it][A
Training...:   8% 210/2609 [12:35<3:30:53,  5.27s/it][A
Training...:   8% 211/2609 [12:40<3:25:19,  5.14s/it][A
Training...:   8% 212/2609 [12:44<3:19:42,  5.00s/it][A
Training...:   8% 213/2609 [12:49<3:14:24,  4.87s/it][A
Training...:   8% 214/2609 [12:53<3:08:15,  4.72s/it][A
Training...:   8% 215/2609 [12:57<3:03:21,  4.60s/it][A
Training...:   8% 216/2609 [13:02<2:57:39,  4.45s/it][A
Training...:   8% 217/2609 [13:06<2:53:22,  4.35s/it][A
Training...:   8% 218/2609 [13:10<2:48:44,  4.23s/it][A
Training...:   8% 219/2609 [13:14<2:44:13,  4.12s/it][A
Training...:   8% 220/2609 [13:17<2:39:26,  4.00s/it][A
Training...:   8% 221/2609 [13:21<2:35:49,  3.92s/it][A
Training...:   9% 222/2609 [13:25<2:31:53,  3.82s/it][A
Training...:   9% 223/2609 [13:28<2:28:36,  3.74s/it][A
Training...:   9% 224/2609 [13:31<2:24:15,  3.63s/it][A
Training...:   9% 225/2609 [13:35<2:20:51,  3.55s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:22:59<22:42:03, 9080.38s/it]
Training...:   9% 225/2609 [13:39<2:20:51,  3.55s/it][A
Training...:   9% 226/2609 [13:39<2:23:30,  3.61s/it][A
Training...:   9% 227/2609 [13:42<2:18:24,  3.49s/it][A
Training...:   9% 228/2609 [13:45<2:13:47,  3.37s/it][A
Training...:   9% 229/2609 [13:48<2:09:31,  3.27s/it][A
Training...:   9% 230/2609 [13:51<2:04:43,  3.15s/it][A
Training...:   9% 231/2609 [13:54<2:00:16,  3.03s/it][A
Training...:   9% 232/2609 [13:56<1:57:45,  2.97s/it][A
Training...:   9% 233/2609 [13:59<1:54:46,  2.90s/it][A
Training...:   9% 234/2609 [14:02<1:50:44,  2.80s/it][A
Training...:   9% 235/2609 [14:04<1:47:24,  2.71s/it][A
Training...:   9% 236/2609 [14:07<1:43:31,  2.62s/it][A
Training...:   9% 237/2609 [14:09<1:39:40,  2.52s/it][A
Training...:   9% 238/2609 [14:11<1:35:29,  2.42s/it][A
Training...:   9% 239/2609 [14:13<1:32:05,  2.33s/it][A
Training...:   9% 240/2609 [14:15<1:27:27,  2.21s/it][A
Training...:   9% 241/2609 [14:17<1:23:28,  2.12s/it][A
Training...:   9% 242/2609 [14:19<1:19:33,  2.02s/it][A
Training...:   9% 243/2609 [14:21<1:15:59,  1.93s/it][A
Training...:   9% 244/2609 [14:22<1:11:40,  1.82s/it][A
Training...:   9% 245/2609 [14:24<1:07:31,  1.71s/it][A
Training...:   9% 246/2609 [14:25<1:03:03,  1.60s/it][A
Training...:   9% 247/2609 [14:26<58:43,  1.49s/it]  [A
Training...:  10% 248/2609 [14:27<53:40,  1.36s/it][A
Training...:  10% 249/2609 [14:28<47:55,  1.22s/it][A
Training...:  10% 250/2609 [14:29<40:30,  1.03s/it][A                                                                                                                                                                   
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:23:57<22:42:03, 9080.38s/it]
Training...:  10% 250/2609 [14:37<40:30,  1.03s/it][A
Training...:  10% 251/2609 [14:37<2:08:45,  3.28s/it][A
Training...:  10% 252/2609 [14:44<2:53:20,  4.41s/it][A
Training...:  10% 253/2609 [14:51<3:18:10,  5.05s/it][A
Training...:  10% 254/2609 [14:57<3:31:23,  5.39s/it][A
Training...:  10% 255/2609 [15:03<3:37:26,  5.54s/it][A
Training...:  10% 256/2609 [15:08<3:38:35,  5.57s/it][A
Training...:  10% 257/2609 [15:14<3:37:09,  5.54s/it][A
Training...:  10% 258/2609 [15:19<3:33:14,  5.44s/it][A
Training...:  10% 259/2609 [15:24<3:29:49,  5.36s/it][A
Training...:  10% 260/2609 [15:29<3:24:20,  5.22s/it][A
Training...:  10% 261/2609 [15:34<3:19:43,  5.10s/it][A
Training...:  10% 262/2609 [15:39<3:13:22,  4.94s/it][A
Training...:  10% 263/2609 [15:43<3:08:21,  4.82s/it][A
Training...:  10% 264/2609 [15:48<3:02:57,  4.68s/it][A
Training...:  10% 265/2609 [15:52<2:58:25,  4.57s/it][A
Training...:  10% 266/2609 [15:56<2:54:19,  4.46s/it][A
Training...:  10% 267/2609 [16:00<2:50:21,  4.36s/it][A
Training...:  10% 268/2609 [16:04<2:45:13,  4.23s/it][A
Training...:  10% 269/2609 [16:08<2:40:50,  4.12s/it][A
Training...:  10% 270/2609 [16:12<2:35:38,  3.99s/it][A
Training...:  10% 271/2609 [16:15<2:31:21,  3.88s/it][A
Training...:  10% 272/2609 [16:19<2:27:04,  3.78s/it][A
Training...:  10% 273/2609 [16:22<2:23:32,  3.69s/it][A
Training...:  11% 274/2609 [16:26<2:19:08,  3.58s/it][A
Training...:  11% 275/2609 [16:29<2:15:48,  3.49s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:25:53<22:42:03, 9080.38s/it]
Training...:  11% 275/2609 [16:33<2:15:48,  3.49s/it][A
Training...:  11% 276/2609 [16:33<2:17:42,  3.54s/it][A
Training...:  11% 277/2609 [16:36<2:13:00,  3.42s/it][A
Training...:  11% 278/2609 [16:39<2:08:15,  3.30s/it][A
Training...:  11% 279/2609 [16:42<2:04:06,  3.20s/it][A
Training...:  11% 280/2609 [16:45<2:00:52,  3.11s/it][A
Training...:  11% 281/2609 [16:48<1:58:28,  3.05s/it][A
Training...:  11% 282/2609 [16:50<1:53:54,  2.94s/it][A
Training...:  11% 283/2609 [16:53<1:50:03,  2.84s/it][A
Training...:  11% 284/2609 [16:55<1:45:54,  2.73s/it][A
Training...:  11% 285/2609 [16:58<1:42:58,  2.66s/it][A
Training...:  11% 286/2609 [17:00<1:39:19,  2.57s/it][A
Training...:  11% 287/2609 [17:02<1:35:58,  2.48s/it][A
Training...:  11% 288/2609 [17:05<1:32:00,  2.38s/it][A
Training...:  11% 289/2609 [17:07<1:28:30,  2.29s/it][A
Training...:  11% 290/2609 [17:09<1:24:10,  2.18s/it][A
Training...:  11% 291/2609 [17:10<1:20:12,  2.08s/it][A
Training...:  11% 292/2609 [17:12<1:16:04,  1.97s/it][A
Training...:  11% 293/2609 [17:14<1:12:24,  1.88s/it][A
Training...:  11% 294/2609 [17:15<1:08:53,  1.79s/it][A
Training...:  11% 295/2609 [17:17<1:04:39,  1.68s/it][A
Training...:  11% 296/2609 [17:18<1:00:32,  1.57s/it][A
Training...:  11% 297/2609 [17:19<55:36,  1.44s/it]  [A
Training...:  11% 298/2609 [17:20<50:14,  1.30s/it][A
Training...:  11% 299/2609 [17:21<44:50,  1.16s/it][A
Training...:  11% 300/2609 [17:22<37:55,  1.01it/s][A                                                                                                                                                                   
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:26:50<22:42:03, 9080.38s/it]
Training...:  11% 300/2609 [17:30<37:55,  1.01it/s][A
Training...:  12% 301/2609 [17:30<2:03:02,  3.20s/it][A
Training...:  12% 302/2609 [17:37<2:48:28,  4.38s/it][A
Training...:  12% 303/2609 [17:44<3:13:48,  5.04s/it][A
Training...:  12% 304/2609 [17:50<3:27:45,  5.41s/it][A
Training...:  12% 305/2609 [17:56<3:34:00,  5.57s/it][A
Training...:  12% 306/2609 [18:02<3:34:49,  5.60s/it][A
Training...:  12% 307/2609 [18:07<3:33:55,  5.58s/it][A
Training...:  12% 308/2609 [18:12<3:29:32,  5.46s/it][A
Training...:  12% 309/2609 [18:17<3:25:46,  5.37s/it][A
Training...:  12% 310/2609 [18:22<3:20:49,  5.24s/it][A
Training...:  12% 311/2609 [18:27<3:16:50,  5.14s/it][A
Training...:  12% 312/2609 [18:32<3:11:12,  4.99s/it][A
Training...:  12% 313/2609 [18:37<3:07:00,  4.89s/it][A
Training...:  12% 314/2609 [18:41<3:01:02,  4.73s/it][A
Training...:  12% 315/2609 [18:45<2:56:31,  4.62s/it][A
Training...:  12% 316/2609 [18:50<2:52:02,  4.50s/it][A
Training...:  12% 317/2609 [18:54<2:47:19,  4.38s/it][A
Training...:  12% 318/2609 [18:58<2:43:14,  4.28s/it][A
Training...:  12% 319/2609 [19:02<2:39:38,  4.18s/it][A
Training...:  12% 320/2609 [19:05<2:35:20,  4.07s/it][A
Training...:  12% 321/2609 [19:09<2:30:42,  3.95s/it][A
Training...:  12% 322/2609 [19:13<2:25:25,  3.82s/it][A
Training...:  12% 323/2609 [19:16<2:21:05,  3.70s/it][A
Training...:  12% 324/2609 [19:19<2:16:39,  3.59s/it][A
Training...:  12% 325/2609 [19:23<2:12:46,  3.49s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:28:46<22:42:03, 9080.38s/it]
Training...:  12% 325/2609 [19:26<2:12:46,  3.49s/it][A
Training...:  12% 326/2609 [19:26<2:14:12,  3.53s/it][A
Training...:  13% 327/2609 [19:29<2:08:58,  3.39s/it][A
Training...:  13% 328/2609 [19:32<2:03:44,  3.26s/it][A
Training...:  13% 329/2609 [19:35<1:59:42,  3.15s/it][A
Training...:  13% 330/2609 [19:38<1:56:23,  3.06s/it][A
Training...:  13% 331/2609 [19:41<1:52:30,  2.96s/it][A
Training...:  13% 332/2609 [19:43<1:48:28,  2.86s/it][A
Training...:  13% 333/2609 [19:46<1:45:02,  2.77s/it][A
Training...:  13% 334/2609 [19:48<1:41:41,  2.68s/it][A
Training...:  13% 335/2609 [19:51<1:38:00,  2.59s/it][A
Training...:  13% 336/2609 [19:53<1:34:29,  2.49s/it][A
Training...:  13% 337/2609 [19:55<1:31:21,  2.41s/it][A
Training...:  13% 338/2609 [19:57<1:27:37,  2.31s/it][A
Training...:  13% 339/2609 [19:59<1:24:08,  2.22s/it][A
Training...:  13% 340/2609 [20:01<1:21:01,  2.14s/it][A
Training...:  13% 341/2609 [20:03<1:17:56,  2.06s/it][A
Training...:  13% 342/2609 [20:05<1:14:28,  1.97s/it][A
Training...:  13% 343/2609 [20:07<1:11:10,  1.88s/it][A
Training...:  13% 344/2609 [20:08<1:06:57,  1.77s/it][A
Training...:  13% 345/2609 [20:10<1:03:04,  1.67s/it][A
Training...:  13% 346/2609 [20:11<59:03,  1.57s/it]  [A
Training...:  13% 347/2609 [20:12<54:42,  1.45s/it][A
Training...:  13% 348/2609 [20:13<49:44,  1.32s/it][A
Training...:  13% 349/2609 [20:14<44:01,  1.17s/it][A
Training...:  13% 350/2609 [20:14<37:17,  1.01it/s][A                                                                                                                                                                   
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:29:43<22:42:03, 9080.38s/it]
Training...:  13% 350/2609 [20:23<37:17,  1.01it/s][A
Training...:  13% 351/2609 [20:23<1:57:51,  3.13s/it][A
Training...:  13% 352/2609 [20:30<2:42:10,  4.31s/it][A
Training...:  14% 353/2609 [20:36<3:07:03,  4.98s/it][A
Training...:  14% 354/2609 [20:42<3:20:03,  5.32s/it][A
Training...:  14% 355/2609 [20:48<3:26:06,  5.49s/it][A
Training...:  14% 356/2609 [20:54<3:27:21,  5.52s/it][A
Training...:  14% 357/2609 [20:59<3:26:47,  5.51s/it][A
Training...:  14% 358/2609 [21:04<3:23:23,  5.42s/it][A
Training...:  14% 359/2609 [21:10<3:20:33,  5.35s/it][A
Training...:  14% 360/2609 [21:15<3:15:44,  5.22s/it][A
Training...:  14% 361/2609 [21:19<3:11:05,  5.10s/it][A
Training...:  14% 362/2609 [21:24<3:05:28,  4.95s/it][A
Training...:  14% 363/2609 [21:29<3:01:30,  4.85s/it][A
Training...:  14% 364/2609 [21:33<2:57:19,  4.74s/it][A
Training...:  14% 365/2609 [21:38<2:54:45,  4.67s/it][A
Training...:  14% 366/2609 [21:42<2:49:26,  4.53s/it][A
Training...:  14% 367/2609 [21:46<2:44:03,  4.39s/it][A
Training...:  14% 368/2609 [21:50<2:38:26,  4.24s/it][A
Training...:  14% 369/2609 [21:54<2:33:56,  4.12s/it][A
Training...:  14% 370/2609 [21:57<2:29:20,  4.00s/it][A
Training...:  14% 371/2609 [22:01<2:25:21,  3.90s/it][A
Training...:  14% 372/2609 [22:05<2:20:48,  3.78s/it][A
Training...:  14% 373/2609 [22:08<2:17:09,  3.68s/it][A
Training...:  14% 374/2609 [22:11<2:12:26,  3.56s/it][A
Training...:  14% 375/2609 [22:14<2:08:29,  3.45s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:31:38<22:42:03, 9080.38s/it]
Training...:  14% 375/2609 [22:18<2:08:29,  3.45s/it][A
Training...:  14% 376/2609 [22:18<2:10:11,  3.50s/it][A
Training...:  14% 377/2609 [22:21<2:05:07,  3.36s/it][A
Training...:  14% 378/2609 [22:24<2:00:07,  3.23s/it][A
Training...:  15% 379/2609 [22:27<1:56:32,  3.14s/it][A
Training...:  15% 380/2609 [22:30<1:52:32,  3.03s/it][A
Training...:  15% 381/2609 [22:32<1:49:08,  2.94s/it][A
Training...:  15% 382/2609 [22:35<1:45:42,  2.85s/it][A
Training...:  15% 383/2609 [22:38<1:42:55,  2.77s/it][A
Training...:  15% 384/2609 [22:40<1:39:43,  2.69s/it][A
Training...:  15% 385/2609 [22:43<1:36:05,  2.59s/it][A
Training...:  15% 386/2609 [22:45<1:33:03,  2.51s/it][A
Training...:  15% 387/2609 [22:47<1:30:05,  2.43s/it][A
Training...:  15% 388/2609 [22:49<1:26:43,  2.34s/it][A
Training...:  15% 389/2609 [22:51<1:23:52,  2.27s/it][A
Training...:  15% 390/2609 [22:53<1:20:12,  2.17s/it][A
Training...:  15% 391/2609 [22:55<1:16:35,  2.07s/it][A
Training...:  15% 392/2609 [22:57<1:13:00,  1.98s/it][A
Training...:  15% 393/2609 [22:59<1:09:23,  1.88s/it][A
Training...:  15% 394/2609 [23:00<1:05:26,  1.77s/it][A
Training...:  15% 395/2609 [23:01<1:01:23,  1.66s/it][A
Training...:  15% 396/2609 [23:03<57:07,  1.55s/it]  [A
Training...:  15% 397/2609 [23:04<52:41,  1.43s/it][A
Training...:  15% 398/2609 [23:05<47:47,  1.30s/it][A
Training...:  15% 399/2609 [23:06<42:33,  1.16s/it][A
Training...:  15% 400/2609 [23:06<35:57,  1.02it/s][A                                                                                                                                                                   
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:32:35<22:42:03, 9080.38s/it]
Training...:  15% 400/2609 [23:15<35:57,  1.02it/s][A
Training...:  15% 401/2609 [23:15<1:57:50,  3.20s/it][A
Training...:  15% 402/2609 [23:22<2:40:13,  4.36s/it][A
Training...:  15% 403/2609 [23:28<3:04:53,  5.03s/it][A
Training...:  15% 404/2609 [23:35<3:20:53,  5.47s/it][A
Training...:  16% 405/2609 [23:41<3:27:12,  5.64s/it][A
Training...:  16% 406/2609 [23:47<3:28:40,  5.68s/it][A
Training...:  16% 407/2609 [23:52<3:28:06,  5.67s/it][A
Training...:  16% 408/2609 [23:58<3:23:36,  5.55s/it][A
Training...:  16% 409/2609 [24:03<3:19:16,  5.43s/it][A
Training...:  16% 410/2609 [24:08<3:12:42,  5.26s/it][A
Training...:  16% 411/2609 [24:12<3:08:07,  5.14s/it][A
Training...:  16% 412/2609 [24:17<3:01:56,  4.97s/it][A
Training...:  16% 413/2609 [24:22<2:57:58,  4.86s/it][A
Training...:  16% 414/2609 [24:26<2:52:22,  4.71s/it][A
Training...:  16% 415/2609 [24:30<2:48:01,  4.60s/it][A
Training...:  16% 416/2609 [24:34<2:42:40,  4.45s/it][A
Training...:  16% 417/2609 [24:38<2:38:47,  4.35s/it][A
Training...:  16% 418/2609 [24:42<2:33:56,  4.22s/it][A
Training...:  16% 419/2609 [24:46<2:30:02,  4.11s/it][A
Training...:  16% 420/2609 [24:50<2:25:38,  3.99s/it][A
Training...:  16% 421/2609 [24:54<2:21:40,  3.88s/it][A
Training...:  16% 422/2609 [24:57<2:17:18,  3.77s/it][A
Training...:  16% 423/2609 [25:01<2:13:56,  3.68s/it][A
Training...:  16% 424/2609 [25:04<2:10:12,  3.58s/it][A
Training...:  16% 425/2609 [25:07<2:07:12,  3.49s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:34:31<22:42:03, 9080.38s/it]
Training...:  16% 425/2609 [25:11<2:07:12,  3.49s/it][A
Training...:  16% 426/2609 [25:11<2:09:07,  3.55s/it][A
Training...:  16% 427/2609 [25:14<2:04:21,  3.42s/it][A
Training...:  16% 428/2609 [25:17<1:59:31,  3.29s/it][A
Training...:  16% 429/2609 [25:20<1:55:37,  3.18s/it][A
Training...:  16% 430/2609 [25:23<1:52:23,  3.09s/it][A
Training...:  17% 431/2609 [25:26<1:49:35,  3.02s/it][A
Training...:  17% 432/2609 [25:28<1:46:06,  2.92s/it][A
Training...:  17% 433/2609 [25:31<1:42:33,  2.83s/it][A
Training...:  17% 434/2609 [25:33<1:38:53,  2.73s/it][A
Training...:  17% 435/2609 [25:36<1:36:02,  2.65s/it][A
Training...:  17% 436/2609 [25:38<1:32:53,  2.57s/it][A
Training...:  17% 437/2609 [25:41<1:29:35,  2.47s/it][A
Training...:  17% 438/2609 [25:43<1:25:51,  2.37s/it][A
Training...:  17% 439/2609 [25:45<1:22:52,  2.29s/it][A
Training...:  17% 440/2609 [25:47<1:19:36,  2.20s/it][A
Training...:  17% 441/2609 [25:49<1:16:09,  2.11s/it][A
Training...:  17% 442/2609 [25:50<1:12:45,  2.01s/it][A
Training...:  17% 443/2609 [25:52<1:09:43,  1.93s/it][A
Training...:  17% 444/2609 [25:54<1:05:53,  1.83s/it][A
Training...:  17% 445/2609 [25:55<1:01:46,  1.71s/it][A
Training...:  17% 446/2609 [25:57<57:34,  1.60s/it]  [A
Training...:  17% 447/2609 [25:58<52:56,  1.47s/it][A
Training...:  17% 448/2609 [25:59<47:42,  1.32s/it][A
Training...:  17% 449/2609 [25:59<41:51,  1.16s/it][A
Training...:  17% 450/2609 [26:00<35:12,  1.02it/s][A                                                                                                                                                                   
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:35:29<22:42:03, 9080.38s/it]
Training...:  17% 450/2609 [26:08<35:12,  1.02it/s][A
Training...:  17% 451/2609 [26:08<1:53:28,  3.16s/it][A
Training...:  17% 452/2609 [26:15<2:34:50,  4.31s/it][A
Training...:  17% 453/2609 [26:22<2:58:19,  4.96s/it][A
Training...:  17% 454/2609 [26:28<3:10:08,  5.29s/it][A
Training...:  17% 455/2609 [26:34<3:15:18,  5.44s/it][A
Training...:  17% 456/2609 [26:39<3:17:14,  5.50s/it][A
Training...:  18% 457/2609 [26:45<3:16:25,  5.48s/it][A
Training...:  18% 458/2609 [26:50<3:12:36,  5.37s/it][A
Training...:  18% 459/2609 [26:55<3:09:11,  5.28s/it][A
Training...:  18% 460/2609 [27:00<3:03:54,  5.13s/it][A
Training...:  18% 461/2609 [27:04<2:59:34,  5.02s/it][A
Training...:  18% 462/2609 [27:09<2:54:34,  4.88s/it][A
Training...:  18% 463/2609 [27:13<2:50:03,  4.75s/it][A
Training...:  18% 464/2609 [27:18<2:45:22,  4.63s/it][A
Training...:  18% 465/2609 [27:22<2:41:02,  4.51s/it][A
Training...:  18% 466/2609 [27:26<2:36:14,  4.37s/it][A
Training...:  18% 467/2609 [27:30<2:32:26,  4.27s/it][A
Training...:  18% 468/2609 [27:34<2:28:04,  4.15s/it][A
Training...:  18% 469/2609 [27:38<2:24:44,  4.06s/it][A
Training...:  18% 470/2609 [27:42<2:21:58,  3.98s/it][A
Training...:  18% 471/2609 [27:45<2:19:07,  3.90s/it][A
Training...:  18% 472/2609 [27:49<2:15:31,  3.81s/it][A
Training...:  18% 473/2609 [27:52<2:12:03,  3.71s/it][A
Training...:  18% 474/2609 [27:56<2:07:58,  3.60s/it][A
Training...:  18% 475/2609 [27:59<2:04:53,  3.51s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:37:23<22:42:03, 9080.38s/it]
Training...:  18% 475/2609 [28:03<2:04:53,  3.51s/it][A
Training...:  18% 476/2609 [28:03<2:06:49,  3.57s/it][A
Training...:  18% 477/2609 [28:06<2:02:04,  3.44s/it][A
Training...:  18% 478/2609 [28:09<1:57:36,  3.31s/it][A
Training...:  18% 479/2609 [28:12<1:54:21,  3.22s/it][A
Training...:  18% 480/2609 [28:15<1:50:39,  3.12s/it][A
Training...:  18% 481/2609 [28:18<1:46:50,  3.01s/it][A
Training...:  18% 482/2609 [28:20<1:42:56,  2.90s/it][A
Training...:  19% 483/2609 [28:23<1:39:36,  2.81s/it][A
Training...:  19% 484/2609 [28:25<1:36:11,  2.72s/it][A
Training...:  19% 485/2609 [28:28<1:32:48,  2.62s/it][A
Training...:  19% 486/2609 [28:30<1:29:28,  2.53s/it][A
Training...:  19% 487/2609 [28:32<1:26:25,  2.44s/it][A
Training...:  19% 488/2609 [28:34<1:22:50,  2.34s/it][A
Training...:  19% 489/2609 [28:36<1:19:37,  2.25s/it][A
Training...:  19% 490/2609 [28:38<1:16:44,  2.17s/it][A
Training...:  19% 491/2609 [28:40<1:13:08,  2.07s/it][A
Training...:  19% 492/2609 [28:42<1:09:47,  1.98s/it][A
Training...:  19% 493/2609 [28:44<1:06:32,  1.89s/it][A
Training...:  19% 494/2609 [28:45<1:03:10,  1.79s/it][A
Training...:  19% 495/2609 [28:47<1:00:12,  1.71s/it][A
Training...:  19% 496/2609 [28:48<56:12,  1.60s/it]  [A
Training...:  19% 497/2609 [28:49<52:01,  1.48s/it][A
Training...:  19% 498/2609 [28:50<47:13,  1.34s/it][A
Training...:  19% 499/2609 [28:51<41:52,  1.19s/it][A
Training...:  19% 500/2609 [28:52<35:12,  1.00s/it][A                                                                                                                                                                   
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:38:20<22:42:03, 9080.38s/it]
Training...:  19% 500/2609 [29:00<35:12,  1.00s/it][A
Training...:  19% 501/2609 [29:00<1:52:26,  3.20s/it][A
Training...:  19% 502/2609 [29:07<2:33:07,  4.36s/it][A
Training...:  19% 503/2609 [29:14<2:57:59,  5.07s/it][A
Training...:  19% 504/2609 [29:20<3:10:45,  5.44s/it][A
Training...:  19% 505/2609 [29:26<3:17:04,  5.62s/it][A
Training...:  19% 506/2609 [29:32<3:19:27,  5.69s/it][A
Training...:  19% 507/2609 [29:38<3:19:08,  5.68s/it][A
Training...:  19% 508/2609 [29:43<3:14:46,  5.56s/it][A
Training...:  20% 509/2609 [29:48<3:11:51,  5.48s/it][A
Training...:  20% 510/2609 [29:53<3:06:47,  5.34s/it][A
Training...:  20% 511/2609 [29:58<3:02:46,  5.23s/it][A
Training...:  20% 512/2609 [30:03<2:57:23,  5.08s/it][A
Training...:  20% 513/2609 [30:08<2:52:08,  4.93s/it][A
Training...:  20% 514/2609 [30:12<2:46:39,  4.77s/it][A
Training...:  20% 515/2609 [30:16<2:42:17,  4.65s/it][A
Training...:  20% 516/2609 [30:20<2:37:34,  4.52s/it][A
Training...:  20% 517/2609 [30:25<2:33:04,  4.39s/it][A
Training...:  20% 518/2609 [30:29<2:28:21,  4.26s/it][A
Training...:  20% 519/2609 [30:32<2:24:40,  4.15s/it][A
Training...:  20% 520/2609 [30:36<2:21:26,  4.06s/it][A
Training...:  20% 521/2609 [30:40<2:17:59,  3.97s/it][A
Training...:  20% 522/2609 [30:44<2:13:30,  3.84s/it][A
Training...:  20% 523/2609 [30:47<2:09:12,  3.72s/it][A
Training...:  20% 524/2609 [30:50<2:05:25,  3.61s/it][A
Training...:  20% 525/2609 [30:54<2:01:52,  3.51s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:40:18<22:42:03, 9080.38s/it]
Training...:  20% 525/2609 [30:57<2:01:52,  3.51s/it][A
Training...:  20% 526/2609 [30:57<2:03:36,  3.56s/it][A
Training...:  20% 527/2609 [31:00<1:58:36,  3.42s/it][A
Training...:  20% 528/2609 [31:03<1:54:24,  3.30s/it][A
Training...:  20% 529/2609 [31:06<1:50:29,  3.19s/it][A
Training...:  20% 530/2609 [31:09<1:46:43,  3.08s/it][A
Training...:  20% 531/2609 [31:12<1:43:13,  2.98s/it][A
Training...:  20% 532/2609 [31:15<1:39:29,  2.87s/it][A
Training...:  20% 533/2609 [31:17<1:36:06,  2.78s/it][A
Training...:  20% 534/2609 [31:20<1:33:04,  2.69s/it][A
Training...:  21% 535/2609 [31:22<1:29:45,  2.60s/it][A
Training...:  21% 536/2609 [31:24<1:26:28,  2.50s/it][A
Training...:  21% 537/2609 [31:27<1:23:43,  2.42s/it][A
Training...:  21% 538/2609 [31:29<1:20:06,  2.32s/it][A
Training...:  21% 539/2609 [31:31<1:16:41,  2.22s/it][A
Training...:  21% 540/2609 [31:32<1:13:24,  2.13s/it][A
Training...:  21% 541/2609 [31:34<1:10:07,  2.03s/it][A
Training...:  21% 542/2609 [31:36<1:06:50,  1.94s/it][A
Training...:  21% 543/2609 [31:38<1:04:15,  1.87s/it][A
Training...:  21% 544/2609 [31:39<1:00:27,  1.76s/it][A
Training...:  21% 545/2609 [31:41<56:28,  1.64s/it]  [A
Training...:  21% 546/2609 [31:42<52:40,  1.53s/it][A
Training...:  21% 547/2609 [31:43<48:57,  1.42s/it][A
Training...:  21% 548/2609 [31:44<44:10,  1.29s/it][A
Training...:  21% 549/2609 [31:45<39:04,  1.14s/it][A
Training...:  21% 550/2609 [31:45<32:56,  1.04it/s][A                                                                                                                                                                   
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:41:14<22:42:03, 9080.38s/it]
Training...:  21% 550/2609 [31:54<32:56,  1.04it/s][A
Training...:  21% 551/2609 [31:54<1:48:36,  3.17s/it][A
Training...:  21% 552/2609 [32:01<2:28:53,  4.34s/it][A
Training...:  21% 553/2609 [32:08<2:54:30,  5.09s/it][A
Training...:  21% 554/2609 [32:14<3:07:57,  5.49s/it][A
Training...:  21% 555/2609 [32:20<3:16:40,  5.74s/it][A
Training...:  21% 556/2609 [32:26<3:18:07,  5.79s/it][A
Training...:  21% 557/2609 [32:32<3:19:01,  5.82s/it][A
Training...:  21% 558/2609 [32:38<3:15:33,  5.72s/it][A
Training...:  21% 559/2609 [32:43<3:15:16,  5.72s/it][A
Training...:  21% 560/2609 [32:48<3:08:05,  5.51s/it][A
Training...:  22% 561/2609 [32:53<3:00:48,  5.30s/it][A
Training...:  22% 562/2609 [32:58<2:53:24,  5.08s/it][A
Training...:  22% 563/2609 [33:02<2:47:30,  4.91s/it][A
Training...:  22% 564/2609 [33:07<2:41:34,  4.74s/it][A
Training...:  22% 565/2609 [33:11<2:36:06,  4.58s/it][A
Training...:  22% 566/2609 [33:15<2:30:48,  4.43s/it][A
Training...:  22% 567/2609 [33:19<2:26:29,  4.30s/it][A
Training...:  22% 568/2609 [33:23<2:22:23,  4.19s/it][A
Training...:  22% 569/2609 [33:27<2:18:47,  4.08s/it][A
Training...:  22% 570/2609 [33:30<2:14:56,  3.97s/it][A
Training...:  22% 571/2609 [33:34<2:11:14,  3.86s/it][A
Training...:  22% 572/2609 [33:37<2:07:53,  3.77s/it][A
Training...:  22% 573/2609 [33:41<2:04:43,  3.68s/it][A
Training...:  22% 574/2609 [33:44<2:01:09,  3.57s/it][A
Training...:  22% 575/2609 [33:48<1:57:35,  3.47s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:43:11<22:42:03, 9080.38s/it]
Training...:  22% 575/2609 [33:51<1:57:35,  3.47s/it][A
Training...:  22% 576/2609 [33:51<1:59:38,  3.53s/it][A
Training...:  22% 577/2609 [33:54<1:54:54,  3.39s/it][A
Training...:  22% 578/2609 [33:57<1:50:16,  3.26s/it][A
Training...:  22% 579/2609 [34:00<1:46:30,  3.15s/it][A
Training...:  22% 580/2609 [34:03<1:42:54,  3.04s/it][A
Training...:  22% 581/2609 [34:06<1:39:55,  2.96s/it][A
Training...:  22% 582/2609 [34:08<1:36:32,  2.86s/it][A
Training...:  22% 583/2609 [34:11<1:33:03,  2.76s/it][A
Training...:  22% 584/2609 [34:13<1:30:08,  2.67s/it][A
Training...:  22% 585/2609 [34:16<1:27:09,  2.58s/it][A
Training...:  22% 586/2609 [34:18<1:24:12,  2.50s/it][A
Training...:  22% 587/2609 [34:20<1:21:46,  2.43s/it][A
Training...:  23% 588/2609 [34:22<1:18:38,  2.33s/it][A
Training...:  23% 589/2609 [34:24<1:15:17,  2.24s/it][A
Training...:  23% 590/2609 [34:26<1:11:57,  2.14s/it][A
Training...:  23% 591/2609 [34:28<1:08:54,  2.05s/it][A
Training...:  23% 592/2609 [34:30<1:05:32,  1.95s/it][A
Training...:  23% 593/2609 [34:31<1:02:31,  1.86s/it][A
Training...:  23% 594/2609 [34:33<58:53,  1.75s/it]  [A
Training...:  23% 595/2609 [34:34<55:13,  1.65s/it][A
Training...:  23% 596/2609 [34:36<51:36,  1.54s/it][A
Training...:  23% 597/2609 [34:37<47:47,  1.43s/it][A
Training...:  23% 598/2609 [34:38<43:33,  1.30s/it][A
Training...:  23% 599/2609 [34:39<38:44,  1.16s/it][A
Training...:  23% 600/2609 [34:39<32:48,  1.02it/s][A                                                                                                                                                                   
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:44:08<22:42:03, 9080.38s/it]
Training...:  23% 600/2609 [34:48<32:48,  1.02it/s][A
Training...:  23% 601/2609 [34:48<1:46:47,  3.19s/it][A
Training...:  23% 602/2609 [34:55<2:26:35,  4.38s/it][A
Training...:  23% 603/2609 [35:01<2:47:44,  5.02s/it][A
Training...:  23% 604/2609 [35:07<2:59:26,  5.37s/it][A
Training...:  23% 605/2609 [35:13<3:06:21,  5.58s/it][A
Training...:  23% 606/2609 [35:19<3:06:53,  5.60s/it][A
Training...:  23% 607/2609 [35:25<3:05:57,  5.57s/it][A
Training...:  23% 608/2609 [35:30<3:02:41,  5.48s/it][A
Training...:  23% 609/2609 [35:35<2:59:46,  5.39s/it][A
Training...:  23% 610/2609 [35:40<2:54:47,  5.25s/it][A
Training...:  23% 611/2609 [35:45<2:50:55,  5.13s/it][A
Training...:  23% 612/2609 [35:50<2:46:03,  4.99s/it][A
Training...:  23% 613/2609 [35:54<2:41:34,  4.86s/it][A
Training...:  24% 614/2609 [35:58<2:37:11,  4.73s/it][A
Training...:  24% 615/2609 [36:03<2:33:31,  4.62s/it][A
Training...:  24% 616/2609 [36:07<2:28:37,  4.47s/it][A
Training...:  24% 617/2609 [36:11<2:24:53,  4.36s/it][A
Training...:  24% 618/2609 [36:15<2:22:27,  4.29s/it][A
Training...:  24% 619/2609 [36:19<2:19:52,  4.22s/it][A
Training...:  24% 620/2609 [36:23<2:15:10,  4.08s/it][A
Training...:  24% 621/2609 [36:27<2:11:22,  3.96s/it][A
Training...:  24% 622/2609 [36:30<2:07:21,  3.85s/it][A
Training...:  24% 623/2609 [36:34<2:03:27,  3.73s/it][A
Training...:  24% 624/2609 [36:37<1:59:21,  3.61s/it][A
Training...:  24% 625/2609 [36:40<1:55:59,  3.51s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:46:04<22:42:03, 9080.38s/it]
Training...:  24% 625/2609 [36:44<1:55:59,  3.51s/it][A
Training...:  24% 626/2609 [36:44<1:57:32,  3.56s/it][A
Training...:  24% 627/2609 [36:47<1:52:33,  3.41s/it][A
Training...:  24% 628/2609 [36:50<1:48:00,  3.27s/it][A
Training...:  24% 629/2609 [36:53<1:44:41,  3.17s/it][A
Training...:  24% 630/2609 [36:56<1:41:13,  3.07s/it][A
Training...:  24% 631/2609 [36:59<1:38:28,  2.99s/it][A
Training...:  24% 632/2609 [37:01<1:35:19,  2.89s/it][A
Training...:  24% 633/2609 [37:04<1:32:18,  2.80s/it][A
Training...:  24% 634/2609 [37:06<1:29:08,  2.71s/it][A
Training...:  24% 635/2609 [37:09<1:25:49,  2.61s/it][A
Training...:  24% 636/2609 [37:11<1:22:34,  2.51s/it][A
Training...:  24% 637/2609 [37:13<1:19:35,  2.42s/it][A
Training...:  24% 638/2609 [37:15<1:16:32,  2.33s/it][A
Training...:  24% 639/2609 [37:17<1:13:31,  2.24s/it][A
Training...:  25% 640/2609 [37:19<1:10:59,  2.16s/it][A
Training...:  25% 641/2609 [37:21<1:08:14,  2.08s/it][A
Training...:  25% 642/2609 [37:23<1:05:05,  1.99s/it][A
Training...:  25% 643/2609 [37:25<1:02:13,  1.90s/it][A
Training...:  25% 644/2609 [37:26<58:45,  1.79s/it]  [A
Training...:  25% 645/2609 [37:28<56:06,  1.71s/it][A
Training...:  25% 646/2609 [37:29<52:29,  1.60s/it][A
Training...:  25% 647/2609 [37:30<48:29,  1.48s/it][A
Training...:  25% 648/2609 [37:31<44:01,  1.35s/it][A
Training...:  25% 649/2609 [37:32<38:41,  1.18s/it][A
Training...:  25% 650/2609 [37:33<32:30,  1.00it/s][A                                                                                                                                                                   
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:47:01<22:42:03, 9080.38s/it]
Training...:  25% 650/2609 [37:41<32:30,  1.00it/s][A
Training...:  25% 651/2609 [37:41<1:45:17,  3.23s/it][A
Training...:  25% 652/2609 [37:48<2:23:38,  4.40s/it][A
Training...:  25% 653/2609 [37:55<2:45:46,  5.09s/it][A
Training...:  25% 654/2609 [38:01<2:59:44,  5.52s/it][A
Training...:  25% 655/2609 [38:08<3:06:31,  5.73s/it][A
Training...:  25% 656/2609 [38:13<3:06:30,  5.73s/it][A
Training...:  25% 657/2609 [38:19<3:04:57,  5.69s/it][A
Training...:  25% 658/2609 [38:24<3:00:48,  5.56s/it][A
Training...:  25% 659/2609 [38:29<2:56:38,  5.44s/it][A
Training...:  25% 660/2609 [38:34<2:51:14,  5.27s/it][A
Training...:  25% 661/2609 [38:39<2:46:45,  5.14s/it][A
Training...:  25% 662/2609 [38:44<2:41:28,  4.98s/it][A
Training...:  25% 663/2609 [38:48<2:37:17,  4.85s/it][A
Training...:  25% 664/2609 [38:53<2:32:11,  4.69s/it][A
Training...:  25% 665/2609 [38:57<2:28:14,  4.58s/it][A
Training...:  26% 666/2609 [39:01<2:24:18,  4.46s/it][A
Training...:  26% 667/2609 [39:05<2:20:59,  4.36s/it][A
Training...:  26% 668/2609 [39:09<2:16:22,  4.22s/it][A
Training...:  26% 669/2609 [39:13<2:12:39,  4.10s/it][A
Training...:  26% 670/2609 [39:17<2:09:17,  4.00s/it][A
Training...:  26% 671/2609 [39:20<2:06:35,  3.92s/it][A
Training...:  26% 672/2609 [39:24<2:03:27,  3.82s/it][A
Training...:  26% 673/2609 [39:28<2:00:24,  3.73s/it][A
Training...:  26% 674/2609 [39:31<1:56:50,  3.62s/it][A
Training...:  26% 675/2609 [39:34<1:53:48,  3.53s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:48:58<22:42:03, 9080.38s/it]
Training...:  26% 675/2609 [39:38<1:53:48,  3.53s/it][A
Training...:  26% 676/2609 [39:38<1:55:34,  3.59s/it][A
Training...:  26% 677/2609 [39:41<1:50:57,  3.45s/it][A
Training...:  26% 678/2609 [39:44<1:46:33,  3.31s/it][A
Training...:  26% 679/2609 [39:47<1:43:16,  3.21s/it][A
Training...:  26% 680/2609 [39:50<1:39:34,  3.10s/it][A
Training...:  26% 681/2609 [39:53<1:36:39,  3.01s/it][A
Training...:  26% 682/2609 [39:55<1:33:33,  2.91s/it][A
Training...:  26% 683/2609 [39:58<1:30:59,  2.83s/it][A
Training...:  26% 684/2609 [40:01<1:27:41,  2.73s/it][A
Training...:  26% 685/2609 [40:03<1:24:41,  2.64s/it][A
Training...:  26% 686/2609 [40:05<1:21:22,  2.54s/it][A
Training...:  26% 687/2609 [40:07<1:18:13,  2.44s/it][A
Training...:  26% 688/2609 [40:10<1:14:35,  2.33s/it][A
Training...:  26% 689/2609 [40:12<1:11:49,  2.24s/it][A
Training...:  26% 690/2609 [40:13<1:08:34,  2.14s/it][A
Training...:  26% 691/2609 [40:15<1:05:43,  2.06s/it][A
Training...:  27% 692/2609 [40:17<1:02:33,  1.96s/it][A
Training...:  27% 693/2609 [40:19<59:43,  1.87s/it]  [A
Training...:  27% 694/2609 [40:20<56:28,  1.77s/it][A
Training...:  27% 695/2609 [40:22<53:19,  1.67s/it][A
Training...:  27% 696/2609 [40:23<49:54,  1.57s/it][A
Training...:  27% 697/2609 [40:24<46:01,  1.44s/it][A
Training...:  27% 698/2609 [40:25<41:46,  1.31s/it][A
Training...:  27% 699/2609 [40:26<36:45,  1.15s/it][A
Training...:  27% 700/2609 [40:27<30:47,  1.03it/s][A                                                                                                                                                                   
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:49:55<22:42:03, 9080.38s/it]
Training...:  27% 700/2609 [40:35<30:47,  1.03it/s][A
Training...:  27% 701/2609 [40:35<1:41:33,  3.19s/it][A
Training...:  27% 702/2609 [40:42<2:17:53,  4.34s/it][A
Training...:  27% 703/2609 [40:48<2:38:32,  4.99s/it][A
Training...:  27% 704/2609 [40:55<2:50:21,  5.37s/it][A
Training...:  27% 705/2609 [41:01<2:55:51,  5.54s/it][A
Training...:  27% 706/2609 [41:06<2:57:05,  5.58s/it][A
Training...:  27% 707/2609 [41:12<2:57:46,  5.61s/it][A
Training...:  27% 708/2609 [41:17<2:55:04,  5.53s/it][A
Training...:  27% 709/2609 [41:23<2:52:04,  5.43s/it][A
Training...:  27% 710/2609 [41:27<2:47:26,  5.29s/it][A
Training...:  27% 711/2609 [41:32<2:43:14,  5.16s/it][A
Training...:  27% 712/2609 [41:37<2:37:55,  5.00s/it][A
Training...:  27% 713/2609 [41:42<2:34:27,  4.89s/it][A
Training...:  27% 714/2609 [41:46<2:31:32,  4.80s/it][A
Training...:  27% 715/2609 [41:51<2:27:29,  4.67s/it][A
Training...:  27% 716/2609 [41:55<2:21:58,  4.50s/it][A
Training...:  27% 717/2609 [41:59<2:17:33,  4.36s/it][A
Training...:  28% 718/2609 [42:03<2:13:15,  4.23s/it][A
Training...:  28% 719/2609 [42:06<2:09:32,  4.11s/it][A
Training...:  28% 720/2609 [42:10<2:05:44,  3.99s/it][A
Training...:  28% 721/2609 [42:14<2:01:58,  3.88s/it][A
Training...:  28% 722/2609 [42:17<1:58:28,  3.77s/it][A
Training...:  28% 723/2609 [42:21<1:55:07,  3.66s/it][A
Training...:  28% 724/2609 [42:24<1:52:09,  3.57s/it][A
Training...:  28% 725/2609 [42:27<1:49:03,  3.47s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:51:51<22:42:03, 9080.38s/it]
Training...:  28% 725/2609 [42:31<1:49:03,  3.47s/it][A
Training...:  28% 726/2609 [42:31<1:51:04,  3.54s/it][A
Training...:  28% 727/2609 [42:34<1:47:15,  3.42s/it][A
Training...:  28% 728/2609 [42:37<1:43:23,  3.30s/it][A
Training...:  28% 729/2609 [42:40<1:40:23,  3.20s/it][A
Training...:  28% 730/2609 [42:43<1:36:45,  3.09s/it][A
Training...:  28% 731/2609 [42:46<1:33:51,  3.00s/it][A
Training...:  28% 732/2609 [42:48<1:31:30,  2.93s/it][A
Training...:  28% 733/2609 [42:51<1:28:38,  2.84s/it][A
Training...:  28% 734/2609 [42:54<1:25:44,  2.74s/it][A
Training...:  28% 735/2609 [42:56<1:22:44,  2.65s/it][A
Training...:  28% 736/2609 [42:58<1:19:49,  2.56s/it][A
Training...:  28% 737/2609 [43:01<1:17:20,  2.48s/it][A
Training...:  28% 738/2609 [43:03<1:14:38,  2.39s/it][A
Training...:  28% 739/2609 [43:05<1:11:49,  2.30s/it][A
Training...:  28% 740/2609 [43:07<1:08:42,  2.21s/it][A
Training...:  28% 741/2609 [43:09<1:05:40,  2.11s/it][A
Training...:  28% 742/2609 [43:11<1:02:20,  2.00s/it][A
Training...:  28% 743/2609 [43:12<59:33,  1.91s/it]  [A
Training...:  29% 744/2609 [43:14<55:59,  1.80s/it][A
Training...:  29% 745/2609 [43:15<52:32,  1.69s/it][A
Training...:  29% 746/2609 [43:17<48:41,  1.57s/it][A
Training...:  29% 747/2609 [43:18<44:49,  1.44s/it][A
Training...:  29% 748/2609 [43:19<40:25,  1.30s/it][A
Training...:  29% 749/2609 [43:20<35:35,  1.15s/it][A
Training...:  29% 750/2609 [43:20<29:56,  1.04it/s][A                                                                                                                                                                   
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:52:49<22:42:03, 9080.38s/it]
Training...:  29% 750/2609 [43:28<29:56,  1.04it/s][A
Training...:  29% 751/2609 [43:28<1:37:27,  3.15s/it][A
Training...:  29% 752/2609 [43:35<2:13:01,  4.30s/it][A
Training...:  29% 753/2609 [43:42<2:33:10,  4.95s/it][A
Training...:  29% 754/2609 [43:48<2:43:55,  5.30s/it][A
Training...:  29% 755/2609 [43:54<2:49:47,  5.49s/it][A
Training...:  29% 756/2609 [43:59<2:49:50,  5.50s/it][A
Training...:  29% 757/2609 [44:05<2:49:53,  5.50s/it][A
Training...:  29% 758/2609 [44:10<2:47:12,  5.42s/it][A
Training...:  29% 759/2609 [44:15<2:45:13,  5.36s/it][A
Training...:  29% 760/2609 [44:20<2:41:12,  5.23s/it][A
Training...:  29% 761/2609 [44:25<2:36:45,  5.09s/it][A
Training...:  29% 762/2609 [44:29<2:31:18,  4.92s/it][A
Training...:  29% 763/2609 [44:34<2:27:07,  4.78s/it][A
Training...:  29% 764/2609 [44:38<2:22:49,  4.64s/it][A
Training...:  29% 765/2609 [44:42<2:18:52,  4.52s/it][A
Training...:  29% 766/2609 [44:47<2:14:28,  4.38s/it][A
Training...:  29% 767/2609 [44:51<2:10:55,  4.26s/it][A
Training...:  29% 768/2609 [44:54<2:07:37,  4.16s/it][A
Training...:  29% 769/2609 [44:58<2:04:03,  4.05s/it][A
Training...:  30% 770/2609 [45:02<2:00:58,  3.95s/it][A
Training...:  30% 771/2609 [45:06<1:58:00,  3.85s/it][A
Training...:  30% 772/2609 [45:09<1:54:45,  3.75s/it][A
Training...:  30% 773/2609 [45:13<1:51:36,  3.65s/it][A
Training...:  30% 774/2609 [45:16<1:48:40,  3.55s/it][A
Training...:  30% 775/2609 [45:19<1:46:07,  3.47s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:54:43<22:42:03, 9080.38s/it]
Training...:  30% 775/2609 [45:23<1:46:07,  3.47s/it][A
Training...:  30% 776/2609 [45:23<1:48:05,  3.54s/it][A
Training...:  30% 777/2609 [45:26<1:43:36,  3.39s/it][A
Training...:  30% 778/2609 [45:29<1:39:42,  3.27s/it][A
Training...:  30% 779/2609 [45:32<1:36:31,  3.16s/it][A
Training...:  30% 780/2609 [45:35<1:33:16,  3.06s/it][A
Training...:  30% 781/2609 [45:37<1:30:10,  2.96s/it][A
Training...:  30% 782/2609 [45:40<1:27:29,  2.87s/it][A
Training...:  30% 783/2609 [45:43<1:24:33,  2.78s/it][A
Training...:  30% 784/2609 [45:45<1:22:05,  2.70s/it][A
Training...:  30% 785/2609 [45:47<1:19:27,  2.61s/it][A
Training...:  30% 786/2609 [45:50<1:16:39,  2.52s/it][A
Training...:  30% 787/2609 [45:52<1:14:19,  2.45s/it][A
Training...:  30% 788/2609 [45:54<1:11:54,  2.37s/it][A
Training...:  30% 789/2609 [45:56<1:09:15,  2.28s/it][A
Training...:  30% 790/2609 [45:58<1:06:26,  2.19s/it][A
Training...:  30% 791/2609 [46:00<1:03:06,  2.08s/it][A
Training...:  30% 792/2609 [46:02<59:55,  1.98s/it]  [A
Training...:  30% 793/2609 [46:03<56:49,  1.88s/it][A
Training...:  30% 794/2609 [46:05<53:28,  1.77s/it][A
Training...:  30% 795/2609 [46:06<50:11,  1.66s/it][A
Training...:  31% 796/2609 [46:08<46:55,  1.55s/it][A
Training...:  31% 797/2609 [46:09<43:22,  1.44s/it][A
Training...:  31% 798/2609 [46:10<39:26,  1.31s/it][A
Training...:  31% 799/2609 [46:11<34:48,  1.15s/it][A
Training...:  31% 800/2609 [46:11<29:19,  1.03it/s][A                                                                                                                                                                   
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:55:40<22:42:03, 9080.38s/it]
Training...:  31% 800/2609 [46:20<29:19,  1.03it/s][A
Training...:  31% 801/2609 [46:20<1:36:01,  3.19s/it][A
Training...:  31% 802/2609 [46:27<2:13:00,  4.42s/it][A
Training...:  31% 803/2609 [46:34<2:33:31,  5.10s/it][A
Training...:  31% 804/2609 [46:40<2:44:18,  5.46s/it][A
Training...:  31% 805/2609 [46:46<2:49:51,  5.65s/it][A
Training...:  31% 806/2609 [46:52<2:50:32,  5.68s/it][A
Training...:  31% 807/2609 [46:57<2:50:08,  5.67s/it][A
Training...:  31% 808/2609 [47:03<2:47:16,  5.57s/it][A
Training...:  31% 809/2609 [47:08<2:44:17,  5.48s/it][A
Training...:  31% 810/2609 [47:13<2:40:27,  5.35s/it][A
Training...:  31% 811/2609 [47:18<2:36:25,  5.22s/it][A
Training...:  31% 812/2609 [47:23<2:31:06,  5.05s/it][A
Training...:  31% 813/2609 [47:27<2:26:53,  4.91s/it][A
Training...:  31% 814/2609 [47:32<2:22:06,  4.75s/it][A
Training...:  31% 815/2609 [47:36<2:17:44,  4.61s/it][A
Training...:  31% 816/2609 [47:40<2:13:33,  4.47s/it][A
Training...:  31% 817/2609 [47:44<2:10:37,  4.37s/it][A
Training...:  31% 818/2609 [47:48<2:07:15,  4.26s/it][A
Training...:  31% 819/2609 [47:52<2:03:14,  4.13s/it][A
Training...:  31% 820/2609 [47:56<1:58:54,  3.99s/it][A
Training...:  31% 821/2609 [47:59<1:55:25,  3.87s/it][A
Training...:  32% 822/2609 [48:03<1:52:07,  3.76s/it][A
Training...:  32% 823/2609 [48:06<1:51:04,  3.73s/it][A
Training...:  32% 824/2609 [48:10<1:48:55,  3.66s/it][A
Training...:  32% 825/2609 [48:13<1:47:02,  3.60s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:57:37<22:42:03, 9080.38s/it]
Training...:  32% 825/2609 [48:17<1:47:02,  3.60s/it][A
Training...:  32% 826/2609 [48:17<1:48:38,  3.66s/it][A
Training...:  32% 827/2609 [48:20<1:45:34,  3.55s/it][A
Training...:  32% 828/2609 [48:24<1:42:18,  3.45s/it][A
Training...:  32% 829/2609 [48:27<1:39:53,  3.37s/it][A
Training...:  32% 830/2609 [48:30<1:37:14,  3.28s/it][A
Training...:  32% 831/2609 [48:33<1:34:32,  3.19s/it][A
Training...:  32% 832/2609 [48:36<1:31:32,  3.09s/it][A
Training...:  32% 833/2609 [48:38<1:28:42,  3.00s/it][A
Training...:  32% 834/2609 [48:41<1:25:39,  2.90s/it][A
Training...:  32% 835/2609 [48:44<1:23:15,  2.82s/it][A
Training...:  32% 836/2609 [48:46<1:20:26,  2.72s/it][A
Training...:  32% 837/2609 [48:49<1:17:27,  2.62s/it][A
Training...:  32% 838/2609 [48:51<1:14:08,  2.51s/it][A
Training...:  32% 839/2609 [48:53<1:11:08,  2.41s/it][A
Training...:  32% 840/2609 [48:55<1:08:03,  2.31s/it][A
Training...:  32% 841/2609 [48:57<1:05:07,  2.21s/it][A
Training...:  32% 842/2609 [48:59<1:02:01,  2.11s/it][A
Training...:  32% 843/2609 [49:01<59:12,  2.01s/it]  [A
Training...:  32% 844/2609 [49:02<56:01,  1.90s/it][A
Training...:  32% 845/2609 [49:04<53:19,  1.81s/it][A
Training...:  32% 846/2609 [49:06<50:17,  1.71s/it][A
Training...:  32% 847/2609 [49:07<46:43,  1.59s/it][A
Training...:  33% 848/2609 [49:08<42:36,  1.45s/it][A
Training...:  33% 849/2609 [49:09<37:50,  1.29s/it][A
Training...:  33% 850/2609 [49:09<31:48,  1.08s/it][A                                                                                                                                                                   
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [28:58:38<22:42:03, 9080.38s/it]
Training...:  33% 850/2609 [49:18<31:48,  1.08s/it][A
Training...:  33% 851/2609 [49:18<1:37:16,  3.32s/it][A
Training...:  33% 852/2609 [49:25<2:11:02,  4.47s/it][A
Training...:  33% 853/2609 [49:32<2:33:22,  5.24s/it][A
Training...:  33% 854/2609 [49:39<2:50:23,  5.83s/it][A
Training...:  33% 855/2609 [49:46<2:53:25,  5.93s/it][A
Training...:  33% 856/2609 [49:52<2:53:11,  5.93s/it][A
Training...:  33% 857/2609 [49:57<2:50:37,  5.84s/it][A
Training...:  33% 858/2609 [50:03<2:46:33,  5.71s/it][A
Training...:  33% 859/2609 [50:08<2:41:57,  5.55s/it][A
Training...:  33% 860/2609 [50:13<2:37:19,  5.40s/it][A
Training...:  33% 861/2609 [50:18<2:32:51,  5.25s/it][A
Training...:  33% 862/2609 [50:22<2:27:58,  5.08s/it][A
Training...:  33% 863/2609 [50:27<2:23:28,  4.93s/it][A
Training...:  33% 864/2609 [50:31<2:18:38,  4.77s/it][A
Training...:  33% 865/2609 [50:36<2:14:29,  4.63s/it][A
Training...:  33% 866/2609 [50:40<2:10:19,  4.49s/it][A
Training...:  33% 867/2609 [50:44<2:06:25,  4.35s/it][A
Training...:  33% 868/2609 [50:48<2:02:33,  4.22s/it][A
Training...:  33% 869/2609 [50:52<1:59:19,  4.11s/it][A
Training...:  33% 870/2609 [50:55<1:55:53,  4.00s/it][A
Training...:  33% 871/2609 [50:59<1:53:14,  3.91s/it][A
Training...:  33% 872/2609 [51:03<1:50:16,  3.81s/it][A
Training...:  33% 873/2609 [51:06<1:47:31,  3.72s/it][A
Training...:  33% 874/2609 [51:09<1:44:33,  3.62s/it][A
Training...:  34% 875/2609 [51:13<1:41:40,  3.52s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [29:00:37<22:42:03, 9080.38s/it]
Training...:  34% 875/2609 [51:16<1:41:40,  3.52s/it][A
Training...:  34% 876/2609 [51:16<1:43:12,  3.57s/it][A
Training...:  34% 877/2609 [51:20<1:38:51,  3.42s/it][A
Training...:  34% 878/2609 [51:23<1:35:06,  3.30s/it][A
Training...:  34% 879/2609 [51:25<1:31:47,  3.18s/it][A
Training...:  34% 880/2609 [51:28<1:28:47,  3.08s/it][A
Training...:  34% 881/2609 [51:31<1:26:25,  3.00s/it][A
Training...:  34% 882/2609 [51:34<1:23:37,  2.91s/it][A
Training...:  34% 883/2609 [51:37<1:21:40,  2.84s/it][A
Training...:  34% 884/2609 [51:39<1:19:05,  2.75s/it][A
Training...:  34% 885/2609 [51:41<1:16:11,  2.65s/it][A
Training...:  34% 886/2609 [51:44<1:12:58,  2.54s/it][A
Training...:  34% 887/2609 [51:46<1:10:25,  2.45s/it][A
Training...:  34% 888/2609 [51:48<1:07:19,  2.35s/it][A
Training...:  34% 889/2609 [51:50<1:04:19,  2.24s/it][A
Training...:  34% 890/2609 [51:52<1:01:18,  2.14s/it][A
Training...:  34% 891/2609 [51:54<58:30,  2.04s/it]  [A
Training...:  34% 892/2609 [51:56<55:43,  1.95s/it][A
Training...:  34% 893/2609 [51:57<53:04,  1.86s/it][A
Training...:  34% 894/2609 [51:59<50:04,  1.75s/it][A
Training...:  34% 895/2609 [52:00<47:14,  1.65s/it][A
Training...:  34% 896/2609 [52:01<43:41,  1.53s/it][A
Training...:  34% 897/2609 [52:02<40:11,  1.41s/it][A
Training...:  34% 898/2609 [52:03<36:20,  1.27s/it][A
Training...:  34% 899/2609 [52:04<32:20,  1.13s/it][A
Training...:  34% 900/2609 [52:05<27:23,  1.04it/s][A                                                                                                                                                                   
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [29:01:33<22:42:03, 9080.38s/it]
Training...:  34% 900/2609 [52:13<27:23,  1.04it/s][A
Training...:  35% 901/2609 [52:13<1:30:44,  3.19s/it][A
Training...:  35% 902/2609 [52:20<2:04:11,  4.37s/it][A
Training...:  35% 903/2609 [52:27<2:23:33,  5.05s/it][A
Training...:  35% 904/2609 [52:33<2:34:09,  5.43s/it][A
Training...:  35% 905/2609 [52:39<2:39:12,  5.61s/it][A
Training...:  35% 906/2609 [52:45<2:40:06,  5.64s/it][A
Training...:  35% 907/2609 [52:51<2:39:25,  5.62s/it][A
Training...:  35% 908/2609 [52:56<2:36:26,  5.52s/it][A
Training...:  35% 909/2609 [53:01<2:32:59,  5.40s/it][A
Training...:  35% 910/2609 [53:06<2:28:48,  5.26s/it][A
Training...:  35% 911/2609 [53:11<2:25:11,  5.13s/it][A
Training...:  35% 912/2609 [53:15<2:21:03,  4.99s/it][A
Training...:  35% 913/2609 [53:20<2:17:09,  4.85s/it][A
Training...:  35% 914/2609 [53:24<2:12:17,  4.68s/it][A
Training...:  35% 915/2609 [53:28<2:07:58,  4.53s/it][A
Training...:  35% 916/2609 [53:32<2:03:37,  4.38s/it][A
Training...:  35% 917/2609 [53:36<1:59:46,  4.25s/it][A
Training...:  35% 918/2609 [53:40<1:55:58,  4.12s/it][A
Training...:  35% 919/2609 [53:44<1:53:00,  4.01s/it][A
Training...:  35% 920/2609 [53:48<1:49:45,  3.90s/it][A
Training...:  35% 921/2609 [53:51<1:47:04,  3.81s/it][A
Training...:  35% 922/2609 [53:55<1:43:39,  3.69s/it][A
Training...:  35% 923/2609 [53:58<1:41:18,  3.61s/it][A
Training...:  35% 924/2609 [54:01<1:38:08,  3.49s/it][A
Training...:  35% 925/2609 [54:04<1:35:30,  3.40s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [29:03:28<22:42:03, 9080.38s/it]
Training...:  35% 925/2609 [54:08<1:35:30,  3.40s/it][A
Training...:  35% 926/2609 [54:08<1:37:28,  3.47s/it][A
Training...:  36% 927/2609 [54:11<1:34:40,  3.38s/it][A
Training...:  36% 928/2609 [54:14<1:31:07,  3.25s/it][A
Training...:  36% 929/2609 [54:17<1:27:51,  3.14s/it][A
Training...:  36% 930/2609 [54:20<1:24:49,  3.03s/it][A
Training...:  36% 931/2609 [54:22<1:21:40,  2.92s/it][A
Training...:  36% 932/2609 [54:25<1:18:44,  2.82s/it][A
Training...:  36% 933/2609 [54:28<1:15:52,  2.72s/it][A
Training...:  36% 934/2609 [54:30<1:13:07,  2.62s/it][A
Training...:  36% 935/2609 [54:32<1:10:38,  2.53s/it][A
Training...:  36% 936/2609 [54:35<1:08:14,  2.45s/it][A
Training...:  36% 937/2609 [54:37<1:06:04,  2.37s/it][A
Training...:  36% 938/2609 [54:39<1:03:25,  2.28s/it][A
Training...:  36% 939/2609 [54:41<1:00:47,  2.18s/it][A
Training...:  36% 940/2609 [54:43<58:05,  2.09s/it]  [A
Training...:  36% 941/2609 [54:44<55:30,  2.00s/it][A
Training...:  36% 942/2609 [54:46<53:16,  1.92s/it][A
Training...:  36% 943/2609 [54:48<50:21,  1.81s/it][A
Training...:  36% 944/2609 [54:49<47:32,  1.71s/it][A
Training...:  36% 945/2609 [54:51<44:39,  1.61s/it][A
Training...:  36% 946/2609 [54:52<41:30,  1.50s/it][A
Training...:  36% 947/2609 [54:53<38:14,  1.38s/it][A
Training...:  36% 948/2609 [54:54<34:45,  1.26s/it][A
Training...:  36% 949/2609 [54:55<30:50,  1.11s/it][A
Training...:  36% 950/2609 [54:55<26:07,  1.06it/s][A                                                                                                                                                                   
                                                   [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [29:04:24<22:42:03, 9080.38s/it]
Training...:  36% 950/2609 [55:04<26:07,  1.06it/s][A
Training...:  36% 951/2609 [55:04<1:27:52,  3.18s/it][A
Training...:  36% 952/2609 [55:11<2:01:46,  4.41s/it][A
Training...:  37% 953/2609 [55:18<2:20:23,  5.09s/it][A
Training...:  37% 954/2609 [55:24<2:30:29,  5.46s/it][A
Training...:  37% 955/2609 [55:30<2:34:49,  5.62s/it][A
Training...:  37% 956/2609 [55:36<2:36:06,  5.67s/it][A
Training...:  37% 957/2609 [55:41<2:35:08,  5.63s/it][A
Training...:  37% 958/2609 [55:47<2:33:18,  5.57s/it][A
Training...:  37% 959/2609 [55:52<2:30:28,  5.47s/it][A
Training...:  37% 960/2609 [55:57<2:26:42,  5.34s/it][A
Training...:  37% 961/2609 [56:02<2:22:40,  5.19s/it][A
Training...:  37% 962/2609 [56:06<2:18:03,  5.03s/it][A
Training...:  37% 963/2609 [56:11<2:13:44,  4.88s/it][A
Training...:  37% 964/2609 [56:15<2:09:23,  4.72s/it][A
Training...:  37% 965/2609 [56:19<2:05:24,  4.58s/it][A
Training...:  37% 966/2609 [56:24<2:01:36,  4.44s/it][A
Training...:  37% 967/2609 [56:28<1:58:40,  4.34s/it][A
Training...:  37% 968/2609 [56:32<1:55:02,  4.21s/it][A
Training...:  37% 969/2609 [56:35<1:52:31,  4.12s/it][A
Training...:  37% 970/2609 [56:39<1:49:37,  4.01s/it][A
Training...:  37% 971/2609 [56:43<1:46:57,  3.92s/it][A
Training...:  37% 972/2609 [56:47<1:43:49,  3.81s/it][A
Training...:  37% 973/2609 [56:50<1:40:44,  3.69s/it][A
Training...:  37% 974/2609 [56:53<1:37:38,  3.58s/it][A
Training...:  37% 975/2609 [56:57<1:34:59,  3.49s/it][A                                                                                                                                                                   
                                                     [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [29:06:20<22:42:03, 9080.38s/it]
Training...:  37% 975/2609 [57:00<1:34:59,  3.49s/it][A
Training...:  37% 976/2609 [57:00<1:36:45,  3.56s/it][A
Training...:  37% 977/2609 [57:03<1:33:18,  3.43s/it][A
Training...:  37% 978/2609 [57:06<1:29:32,  3.29s/it][A
Training...:  38% 979/2609 [57:09<1:26:45,  3.19s/it][A
Training...:  38% 980/2609 [57:12<1:23:43,  3.08s/it][A
Training...:  38% 981/2609 [57:15<1:21:25,  3.00s/it][A
Training...:  38% 982/2609 [57:18<1:18:59,  2.91s/it][A
Training...:  38% 983/2609 [57:20<1:16:37,  2.83s/it][A
Training...:  38% 984/2609 [57:23<1:14:10,  2.74s/it][A
Training...:  38% 985/2609 [57:25<1:12:53,  2.69s/it][A
Training...:  38% 986/2609 [57:28<1:10:27,  2.60s/it][A
Training...:  38% 987/2609 [57:30<1:07:42,  2.50s/it][A
Training...:  38% 988/2609 [57:32<1:04:53,  2.40s/it][A
Training...:  38% 989/2609 [57:34<1:02:01,  2.30s/it][A
Training...:  38% 990/2609 [57:36<59:31,  2.21s/it]  [A
Training...:  38% 991/2609 [57:38<57:08,  2.12s/it][A
Training...:  38% 992/2609 [57:40<54:11,  2.01s/it][A
Training...:  38% 993/2609 [57:42<51:33,  1.91s/it][A
Training...:  38% 994/2609 [57:43<48:35,  1.80s/it][A
Training...:  38% 995/2609 [57:45<45:41,  1.70s/it][A
Training...:  38% 996/2609 [57:46<42:31,  1.58s/it][A
Training...:  38% 997/2609 [57:47<39:24,  1.47s/it][A
Training...:  38% 998/2609 [57:48<35:37,  1.33s/it][A
Training...:  38% 999/2609 [57:49<31:40,  1.18s/it][A
Training...:  38% 1000/2609 [57:50<27:05,  1.01s/it][A                                                                                                                                                                   
                                                    [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [29:07:18<22:42:03, 9080.38s/it]
Training...:  38% 1000/2609 [57:58<27:05,  1.01s/it][A
Training...:  38% 1001/2609 [57:58<1:26:30,  3.23s/it][A
Training...:  38% 1002/2609 [58:05<1:58:15,  4.42s/it][A
Training...:  38% 1003/2609 [58:12<2:16:22,  5.09s/it][A
Training...:  38% 1004/2609 [58:18<2:25:39,  5.45s/it][A
Training...:  39% 1005/2609 [58:24<2:29:43,  5.60s/it][A
Training...:  39% 1006/2609 [58:30<2:30:50,  5.65s/it][A
Training...:  39% 1007/2609 [58:36<2:31:24,  5.67s/it][A
Training...:  39% 1008/2609 [58:41<2:29:26,  5.60s/it][A
Training...:  39% 1009/2609 [58:46<2:26:18,  5.49s/it][A
Training...:  39% 1010/2609 [58:51<2:22:10,  5.33s/it][A
Training...:  39% 1011/2609 [58:56<2:17:57,  5.18s/it][A
Training...:  39% 1012/2609 [59:01<2:13:30,  5.02s/it][A
Training...:  39% 1013/2609 [59:05<2:09:58,  4.89s/it][A
Training...:  39% 1014/2609 [59:10<2:06:15,  4.75s/it][A
Training...:  39% 1015/2609 [59:14<2:02:28,  4.61s/it][A
Training...:  39% 1016/2609 [59:18<1:59:11,  4.49s/it][A
Training...:  39% 1017/2609 [59:22<1:55:57,  4.37s/it][A
Training...:  39% 1018/2609 [59:26<1:52:30,  4.24s/it][A
Training...:  39% 1019/2609 [59:30<1:49:09,  4.12s/it][A
Training...:  39% 1020/2609 [59:34<1:45:41,  3.99s/it][A
Training...:  39% 1021/2609 [59:37<1:42:54,  3.89s/it][A
Training...:  39% 1022/2609 [59:41<1:40:02,  3.78s/it][A
Training...:  39% 1023/2609 [59:44<1:36:45,  3.66s/it][A
Training...:  39% 1024/2609 [59:48<1:34:00,  3.56s/it][A
Training...:  39% 1025/2609 [59:51<1:31:25,  3.46s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [29:09:15<22:42:03, 9080.38s/it]
Training...:  39% 1025/2609 [59:54<1:31:25,  3.46s/it][A
Training...:  39% 1026/2609 [59:54<1:32:42,  3.51s/it][A
Training...:  39% 1027/2609 [59:58<1:29:00,  3.38s/it][A
Training...:  39% 1028/2609 [1:00:01<1:25:45,  3.25s/it][A
Training...:  39% 1029/2609 [1:00:03<1:23:11,  3.16s/it][A
Training...:  39% 1030/2609 [1:00:06<1:20:24,  3.06s/it][A
Training...:  40% 1031/2609 [1:00:09<1:17:57,  2.96s/it][A
Training...:  40% 1032/2609 [1:00:12<1:15:17,  2.86s/it][A
Training...:  40% 1033/2609 [1:00:14<1:13:05,  2.78s/it][A
Training...:  40% 1034/2609 [1:00:17<1:11:00,  2.71s/it][A
Training...:  40% 1035/2609 [1:00:19<1:08:57,  2.63s/it][A
Training...:  40% 1036/2609 [1:00:22<1:06:27,  2.54s/it][A
Training...:  40% 1037/2609 [1:00:24<1:04:27,  2.46s/it][A
Training...:  40% 1038/2609 [1:00:26<1:01:55,  2.37s/it][A
Training...:  40% 1039/2609 [1:00:28<59:39,  2.28s/it]  [A
Training...:  40% 1040/2609 [1:00:30<57:15,  2.19s/it][A
Training...:  40% 1041/2609 [1:00:32<55:07,  2.11s/it][A
Training...:  40% 1042/2609 [1:00:34<52:46,  2.02s/it][A
Training...:  40% 1043/2609 [1:00:35<50:27,  1.93s/it][A
Training...:  40% 1044/2609 [1:00:37<47:37,  1.83s/it][A
Training...:  40% 1045/2609 [1:00:39<44:50,  1.72s/it][A
Training...:  40% 1046/2609 [1:00:40<41:44,  1.60s/it][A
Training...:  40% 1047/2609 [1:00:41<38:51,  1.49s/it][A
Training...:  40% 1048/2609 [1:00:42<35:03,  1.35s/it][A
Training...:  40% 1049/2609 [1:00:43<30:56,  1.19s/it][A
Training...:  40% 1050/2609 [1:00:44<26:09,  1.01s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [29:10:12<22:42:03, 9080.38s/it]
Training...:  40% 1050/2609 [1:00:52<26:09,  1.01s/it][A
Training...:  40% 1051/2609 [1:00:52<1:23:23,  3.21s/it][A
Training...:  40% 1052/2609 [1:00:59<1:53:53,  4.39s/it][A
Training...:  40% 1053/2609 [1:01:06<2:11:15,  5.06s/it][A
Training...:  40% 1054/2609 [1:01:12<2:20:22,  5.42s/it][A
Training...:  40% 1055/2609 [1:01:18<2:25:01,  5.60s/it][A
Training...:  40% 1056/2609 [1:01:24<2:26:22,  5.66s/it][A
Training...:  41% 1057/2609 [1:01:29<2:25:21,  5.62s/it][A
Training...:  41% 1058/2609 [1:01:35<2:23:05,  5.54s/it][A
Training...:  41% 1059/2609 [1:01:40<2:20:33,  5.44s/it][A
Training...:  41% 1060/2609 [1:01:45<2:16:46,  5.30s/it][A
Training...:  41% 1061/2609 [1:01:50<2:13:18,  5.17s/it][A
Training...:  41% 1062/2609 [1:01:54<2:09:48,  5.03s/it][A
Training...:  41% 1063/2609 [1:01:59<2:06:17,  4.90s/it][A
Training...:  41% 1064/2609 [1:02:03<2:02:18,  4.75s/it][A
Training...:  41% 1065/2609 [1:02:08<1:58:34,  4.61s/it][A
Training...:  41% 1066/2609 [1:02:12<1:54:54,  4.47s/it][A
Training...:  41% 1067/2609 [1:02:16<1:52:25,  4.37s/it][A
Training...:  41% 1068/2609 [1:02:20<1:49:15,  4.25s/it][A
Training...:  41% 1069/2609 [1:02:24<1:46:18,  4.14s/it][A
Training...:  41% 1070/2609 [1:02:27<1:43:06,  4.02s/it][A
Training...:  41% 1071/2609 [1:02:31<1:40:18,  3.91s/it][A
Training...:  41% 1072/2609 [1:02:35<1:37:37,  3.81s/it][A
Training...:  41% 1073/2609 [1:02:38<1:35:01,  3.71s/it][A
Training...:  41% 1074/2609 [1:02:42<1:33:17,  3.65s/it][A
Training...:  41% 1075/2609 [1:02:45<1:31:21,  3.57s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [29:12:09<22:42:03, 9080.38s/it]
Training...:  41% 1075/2609 [1:02:49<1:31:21,  3.57s/it][A
Training...:  41% 1076/2609 [1:02:49<1:32:30,  3.62s/it][A
Training...:  41% 1077/2609 [1:02:52<1:28:30,  3.47s/it][A
Training...:  41% 1078/2609 [1:02:55<1:24:45,  3.32s/it][A
Training...:  41% 1079/2609 [1:02:58<1:21:53,  3.21s/it][A
Training...:  41% 1080/2609 [1:03:01<1:19:01,  3.10s/it][A
Training...:  41% 1081/2609 [1:03:03<1:15:51,  2.98s/it][A
Training...:  41% 1082/2609 [1:03:06<1:13:13,  2.88s/it][A
Training...:  42% 1083/2609 [1:03:09<1:10:54,  2.79s/it][A
Training...:  42% 1084/2609 [1:03:11<1:08:46,  2.71s/it][A
Training...:  42% 1085/2609 [1:03:14<1:06:32,  2.62s/it][A
Training...:  42% 1086/2609 [1:03:16<1:04:08,  2.53s/it][A
Training...:  42% 1087/2609 [1:03:18<1:02:10,  2.45s/it][A
Training...:  42% 1088/2609 [1:03:20<59:36,  2.35s/it]  [A
Training...:  42% 1089/2609 [1:03:22<57:16,  2.26s/it][A
Training...:  42% 1090/2609 [1:03:24<54:45,  2.16s/it][A
Training...:  42% 1091/2609 [1:03:26<52:09,  2.06s/it][A
Training...:  42% 1092/2609 [1:03:28<49:41,  1.97s/it][A
Training...:  42% 1093/2609 [1:03:30<47:34,  1.88s/it][A
Training...:  42% 1094/2609 [1:03:31<45:07,  1.79s/it][A
Training...:  42% 1095/2609 [1:03:32<42:11,  1.67s/it][A
Training...:  42% 1096/2609 [1:03:34<39:18,  1.56s/it][A
Training...:  42% 1097/2609 [1:03:35<36:37,  1.45s/it][A
Training...:  42% 1098/2609 [1:03:36<33:28,  1.33s/it][A
Training...:  42% 1099/2609 [1:03:37<29:43,  1.18s/it][A
Training...:  42% 1100/2609 [1:03:37<25:14,  1.00s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [29:13:06<22:42:03, 9080.38s/it]
Training...:  42% 1100/2609 [1:03:46<25:14,  1.00s/it][A
Training...:  42% 1101/2609 [1:03:46<1:20:10,  3.19s/it][A
Training...:  42% 1102/2609 [1:03:53<1:49:32,  4.36s/it][A
Training...:  42% 1103/2609 [1:03:59<2:05:13,  4.99s/it][A
Training...:  42% 1104/2609 [1:04:06<2:14:46,  5.37s/it][A
Training...:  42% 1105/2609 [1:04:12<2:19:08,  5.55s/it][A
Training...:  42% 1106/2609 [1:04:17<2:19:58,  5.59s/it][A
Training...:  42% 1107/2609 [1:04:23<2:18:51,  5.55s/it][A
Training...:  42% 1108/2609 [1:04:28<2:15:55,  5.43s/it][A
Training...:  43% 1109/2609 [1:04:33<2:13:14,  5.33s/it][A
Training...:  43% 1110/2609 [1:04:38<2:09:50,  5.20s/it][A
Training...:  43% 1111/2609 [1:04:43<2:06:22,  5.06s/it][A
Training...:  43% 1112/2609 [1:04:47<2:03:04,  4.93s/it][A
Training...:  43% 1113/2609 [1:04:52<1:59:44,  4.80s/it][A
Training...:  43% 1114/2609 [1:04:56<1:56:03,  4.66s/it][A
Training...:  43% 1115/2609 [1:05:00<1:53:11,  4.55s/it][A
Training...:  43% 1116/2609 [1:05:04<1:49:48,  4.41s/it][A
Training...:  43% 1117/2609 [1:05:08<1:46:51,  4.30s/it][A
Training...:  43% 1118/2609 [1:05:12<1:43:49,  4.18s/it][A
Training...:  43% 1119/2609 [1:05:16<1:41:22,  4.08s/it][A
Training...:  43% 1120/2609 [1:05:20<1:38:45,  3.98s/it][A
Training...:  43% 1121/2609 [1:05:24<1:36:54,  3.91s/it][A
Training...:  43% 1122/2609 [1:05:27<1:34:47,  3.83s/it][A
Training...:  43% 1123/2609 [1:05:31<1:31:46,  3.71s/it][A
Training...:  43% 1124/2609 [1:05:34<1:28:48,  3.59s/it][A
Training...:  43% 1125/2609 [1:05:37<1:26:55,  3.51s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [29:15:01<22:42:03, 9080.38s/it]
Training...:  43% 1125/2609 [1:05:41<1:26:55,  3.51s/it][A
Training...:  43% 1126/2609 [1:05:41<1:28:11,  3.57s/it][A
Training...:  43% 1127/2609 [1:05:44<1:24:20,  3.41s/it][A
Training...:  43% 1128/2609 [1:05:47<1:20:42,  3.27s/it][A
Training...:  43% 1129/2609 [1:05:50<1:18:29,  3.18s/it][A
Training...:  43% 1130/2609 [1:05:53<1:16:14,  3.09s/it][A
Training...:  43% 1131/2609 [1:05:56<1:14:01,  3.00s/it][A
Training...:  43% 1132/2609 [1:05:58<1:11:40,  2.91s/it][A
Training...:  43% 1133/2609 [1:06:01<1:09:12,  2.81s/it][A
Training...:  43% 1134/2609 [1:06:03<1:06:18,  2.70s/it][A
Training...:  44% 1135/2609 [1:06:06<1:03:33,  2.59s/it][A
Training...:  44% 1136/2609 [1:06:08<1:01:11,  2.49s/it][A
Training...:  44% 1137/2609 [1:06:10<58:59,  2.40s/it]  [A
Training...:  44% 1138/2609 [1:06:12<56:45,  2.32s/it][A
Training...:  44% 1139/2609 [1:06:14<54:34,  2.23s/it][A
Training...:  44% 1140/2609 [1:06:16<52:00,  2.12s/it][A
Training...:  44% 1141/2609 [1:06:18<49:38,  2.03s/it][A
Training...:  44% 1142/2609 [1:06:20<47:32,  1.94s/it][A
Training...:  44% 1143/2609 [1:06:21<45:02,  1.84s/it][A
Training...:  44% 1144/2609 [1:06:23<42:20,  1.73s/it][A
Training...:  44% 1145/2609 [1:06:24<39:42,  1.63s/it][A
Training...:  44% 1146/2609 [1:06:25<36:52,  1.51s/it][A
Training...:  44% 1147/2609 [1:06:27<34:09,  1.40s/it][A
Training...:  44% 1148/2609 [1:06:28<30:55,  1.27s/it][A
Training...:  44% 1149/2609 [1:06:28<27:30,  1.13s/it][A
Training...:  44% 1150/2609 [1:06:29<23:26,  1.04it/s][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [29:15:57<22:42:03, 9080.38s/it]
Training...:  44% 1150/2609 [1:06:37<23:26,  1.04it/s][A
Training...:  44% 1151/2609 [1:06:37<1:16:51,  3.16s/it][A
Training...:  44% 1152/2609 [1:06:44<1:45:43,  4.35s/it][A
Training...:  44% 1153/2609 [1:06:51<2:02:35,  5.05s/it][A
Training...:  44% 1154/2609 [1:06:57<2:11:58,  5.44s/it][A
Training...:  44% 1155/2609 [1:07:03<2:16:21,  5.63s/it][A
Training...:  44% 1156/2609 [1:07:09<2:16:45,  5.65s/it][A
Training...:  44% 1157/2609 [1:07:15<2:17:26,  5.68s/it][A
Training...:  44% 1158/2609 [1:07:20<2:16:26,  5.64s/it][A
Training...:  44% 1159/2609 [1:07:26<2:12:45,  5.49s/it][A
Training...:  44% 1160/2609 [1:07:31<2:09:34,  5.37s/it][A
Training...:  44% 1161/2609 [1:07:36<2:05:41,  5.21s/it][A
Training...:  45% 1162/2609 [1:07:40<2:02:11,  5.07s/it][A
Training...:  45% 1163/2609 [1:07:45<1:58:11,  4.90s/it][A
Training...:  45% 1164/2609 [1:07:49<1:54:24,  4.75s/it][A
Training...:  45% 1165/2609 [1:07:54<1:51:15,  4.62s/it][A
Training...:  45% 1166/2609 [1:07:58<1:48:00,  4.49s/it][A
Training...:  45% 1167/2609 [1:08:02<1:45:47,  4.40s/it][A
Training...:  45% 1168/2609 [1:08:06<1:42:52,  4.28s/it][A
Training...:  45% 1169/2609 [1:08:10<1:39:46,  4.16s/it][A
Training...:  45% 1170/2609 [1:08:13<1:36:27,  4.02s/it][A
Training...:  45% 1171/2609 [1:08:17<1:33:53,  3.92s/it][A
Training...:  45% 1172/2609 [1:08:21<1:30:47,  3.79s/it][A
Training...:  45% 1173/2609 [1:08:24<1:27:56,  3.67s/it][A
Training...:  45% 1174/2609 [1:08:27<1:25:29,  3.57s/it][A
Training...:  45% 1175/2609 [1:08:31<1:22:57,  3.47s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [29:17:55<22:42:03, 9080.38s/it]
Training...:  45% 1175/2609 [1:08:34<1:22:57,  3.47s/it][A
Training...:  45% 1176/2609 [1:08:34<1:24:31,  3.54s/it][A
Training...:  45% 1177/2609 [1:08:37<1:21:22,  3.41s/it][A
Training...:  45% 1178/2609 [1:08:40<1:18:30,  3.29s/it][A
Training...:  45% 1179/2609 [1:08:43<1:15:36,  3.17s/it][A
Training...:  45% 1180/2609 [1:08:46<1:13:04,  3.07s/it][A
Training...:  45% 1181/2609 [1:08:49<1:11:01,  2.98s/it][A
Training...:  45% 1182/2609 [1:08:52<1:08:32,  2.88s/it][A
Training...:  45% 1183/2609 [1:08:54<1:06:18,  2.79s/it][A
Training...:  45% 1184/2609 [1:08:57<1:03:54,  2.69s/it][A
Training...:  45% 1185/2609 [1:08:59<1:01:55,  2.61s/it][A
Training...:  45% 1186/2609 [1:09:01<59:37,  2.51s/it]  [A
Training...:  45% 1187/2609 [1:09:04<57:41,  2.43s/it][A
Training...:  46% 1188/2609 [1:09:06<55:36,  2.35s/it][A
Training...:  46% 1189/2609 [1:09:08<53:19,  2.25s/it][A
Training...:  46% 1190/2609 [1:09:10<51:19,  2.17s/it][A
Training...:  46% 1191/2609 [1:09:12<49:08,  2.08s/it][A
Training...:  46% 1192/2609 [1:09:13<47:07,  2.00s/it][A
Training...:  46% 1193/2609 [1:09:15<45:00,  1.91s/it][A
Training...:  46% 1194/2609 [1:09:17<42:39,  1.81s/it][A
Training...:  46% 1195/2609 [1:09:18<40:10,  1.70s/it][A
Training...:  46% 1196/2609 [1:09:19<37:35,  1.60s/it][A
Training...:  46% 1197/2609 [1:09:21<34:54,  1.48s/it][A
Training...:  46% 1198/2609 [1:09:22<32:02,  1.36s/it][A
Training...:  46% 1199/2609 [1:09:23<28:14,  1.20s/it][A
Training...:  46% 1200/2609 [1:09:23<23:41,  1.01s/it][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [29:18:52<22:42:03, 9080.38s/it]
Training...:  46% 1200/2609 [1:09:32<23:41,  1.01s/it][A
Training...:  46% 1201/2609 [1:09:32<1:16:31,  3.26s/it][A
Training...:  46% 1202/2609 [1:09:39<1:43:50,  4.43s/it][A
Training...:  46% 1203/2609 [1:09:45<1:59:02,  5.08s/it][A
Training...:  46% 1204/2609 [1:09:52<2:07:18,  5.44s/it][A
Training...:  46% 1205/2609 [1:09:58<2:11:15,  5.61s/it][A
Training...:  46% 1206/2609 [1:10:03<2:11:57,  5.64s/it][A
Training...:  46% 1207/2609 [1:10:09<2:10:34,  5.59s/it][A
Training...:  46% 1208/2609 [1:10:14<2:07:33,  5.46s/it][A
Training...:  46% 1209/2609 [1:10:19<2:05:08,  5.36s/it][A
Training...:  46% 1210/2609 [1:10:24<2:02:07,  5.24s/it][A
Training...:  46% 1211/2609 [1:10:29<1:59:26,  5.13s/it][A
Training...:  46% 1212/2609 [1:10:34<1:55:42,  4.97s/it][A
Training...:  46% 1213/2609 [1:10:38<1:52:42,  4.84s/it][A
Training...:  47% 1214/2609 [1:10:43<1:49:13,  4.70s/it][A
Training...:  47% 1215/2609 [1:10:47<1:46:31,  4.58s/it][A
Training...:  47% 1216/2609 [1:10:51<1:43:53,  4.47s/it][A
Training...:  47% 1217/2609 [1:10:55<1:41:22,  4.37s/it][A
Training...:  47% 1218/2609 [1:10:59<1:38:41,  4.26s/it][A
Training...:  47% 1219/2609 [1:11:03<1:35:58,  4.14s/it][A
Training...:  47% 1220/2609 [1:11:07<1:33:28,  4.04s/it][A
Training...:  47% 1221/2609 [1:11:11<1:31:03,  3.94s/it][A
Training...:  47% 1222/2609 [1:11:14<1:28:34,  3.83s/it][A
Training...:  47% 1223/2609 [1:11:18<1:26:27,  3.74s/it][A
Training...:  47% 1224/2609 [1:11:21<1:24:13,  3.65s/it][A
Training...:  47% 1225/2609 [1:11:24<1:21:54,  3.55s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [29:20:48<22:42:03, 9080.38s/it]
Training...:  47% 1225/2609 [1:11:28<1:21:54,  3.55s/it][A
Training...:  47% 1226/2609 [1:11:28<1:22:56,  3.60s/it][A
Training...:  47% 1227/2609 [1:11:31<1:20:36,  3.50s/it][A
Training...:  47% 1228/2609 [1:11:35<1:17:56,  3.39s/it][A
Training...:  47% 1229/2609 [1:11:38<1:15:27,  3.28s/it][A
Training...:  47% 1230/2609 [1:11:40<1:12:42,  3.16s/it][A
Training...:  47% 1231/2609 [1:11:43<1:10:17,  3.06s/it][A
Training...:  47% 1232/2609 [1:11:46<1:07:34,  2.94s/it][A
Training...:  47% 1233/2609 [1:11:49<1:05:12,  2.84s/it][A
Training...:  47% 1234/2609 [1:11:51<1:03:00,  2.75s/it][A
Training...:  47% 1235/2609 [1:11:54<1:01:19,  2.68s/it][A
Training...:  47% 1236/2609 [1:11:56<59:03,  2.58s/it]  [A
Training...:  47% 1237/2609 [1:11:58<56:59,  2.49s/it][A
Training...:  47% 1238/2609 [1:12:00<55:19,  2.42s/it][A
Training...:  47% 1239/2609 [1:12:03<53:11,  2.33s/it][A
Training...:  48% 1240/2609 [1:12:05<50:45,  2.22s/it][A
Training...:  48% 1241/2609 [1:12:06<48:28,  2.13s/it][A
Training...:  48% 1242/2609 [1:12:08<45:56,  2.02s/it][A
Training...:  48% 1243/2609 [1:12:10<43:48,  1.92s/it][A
Training...:  48% 1244/2609 [1:12:11<41:06,  1.81s/it][A
Training...:  48% 1245/2609 [1:12:13<38:33,  1.70s/it][A
Training...:  48% 1246/2609 [1:12:14<35:45,  1.57s/it][A
Training...:  48% 1247/2609 [1:12:15<32:50,  1.45s/it][A
Training...:  48% 1248/2609 [1:12:16<29:44,  1.31s/it][A
Training...:  48% 1249/2609 [1:12:17<26:17,  1.16s/it][A
Training...:  48% 1250/2609 [1:12:18<22:10,  1.02it/s][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [29:21:46<22:42:03, 9080.38s/it]
Training...:  48% 1250/2609 [1:12:26<22:10,  1.02it/s][A
Training...:  48% 1251/2609 [1:12:26<1:11:33,  3.16s/it][A
Training...:  48% 1252/2609 [1:12:33<1:37:31,  4.31s/it][A
Training...:  48% 1253/2609 [1:12:40<1:53:08,  5.01s/it][A
Training...:  48% 1254/2609 [1:12:46<2:01:24,  5.38s/it][A
Training...:  48% 1255/2609 [1:12:52<2:04:53,  5.53s/it][A
Training...:  48% 1256/2609 [1:12:57<2:05:14,  5.55s/it][A
Training...:  48% 1257/2609 [1:13:03<2:04:32,  5.53s/it][A
Training...:  48% 1258/2609 [1:13:08<2:02:35,  5.44s/it][A
Training...:  48% 1259/2609 [1:13:13<1:59:51,  5.33s/it][A
Training...:  48% 1260/2609 [1:13:18<1:56:47,  5.19s/it][A
Training...:  48% 1261/2609 [1:13:23<1:54:08,  5.08s/it][A
Training...:  48% 1262/2609 [1:13:27<1:50:52,  4.94s/it][A
Training...:  48% 1263/2609 [1:13:32<1:48:09,  4.82s/it][A
Training...:  48% 1264/2609 [1:13:36<1:45:05,  4.69s/it][A
Training...:  48% 1265/2609 [1:13:41<1:42:51,  4.59s/it][A
Training...:  49% 1266/2609 [1:13:45<1:39:55,  4.46s/it][A
Training...:  49% 1267/2609 [1:13:49<1:37:12,  4.35s/it][A
Training...:  49% 1268/2609 [1:13:53<1:34:21,  4.22s/it][A
Training...:  49% 1269/2609 [1:13:57<1:32:14,  4.13s/it][A
Training...:  49% 1270/2609 [1:14:01<1:29:18,  4.00s/it][A
Training...:  49% 1271/2609 [1:14:04<1:26:41,  3.89s/it][A
Training...:  49% 1272/2609 [1:14:08<1:23:57,  3.77s/it][A
Training...:  49% 1273/2609 [1:14:11<1:21:57,  3.68s/it][A
Training...:  49% 1274/2609 [1:14:14<1:19:53,  3.59s/it][A
Training...:  49% 1275/2609 [1:14:18<1:18:09,  3.52s/it][A                                                                                                                                                                   
                                                        [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [29:23:42<22:42:03, 9080.38s/it]
Training...:  49% 1275/2609 [1:14:21<1:18:09,  3.52s/it][A
Training...:  49% 1276/2609 [1:14:21<1:18:54,  3.55s/it][A
Training...:  49% 1277/2609 [1:14:25<1:15:37,  3.41s/it][A
Training...:  49% 1278/2609 [1:14:27<1:12:36,  3.27s/it][A
Training...:  49% 1279/2609 [1:14:30<1:10:14,  3.17s/it][A
Training...:  49% 1280/2609 [1:14:33<1:07:57,  3.07s/it][A
Training...:  49% 1281/2609 [1:14:36<1:05:55,  2.98s/it][A
Training...:  49% 1282/2609 [1:14:39<1:03:26,  2.87s/it][A
Training...:  49% 1283/2609 [1:14:41<1:01:25,  2.78s/it][A
Training...:  49% 1284/2609 [1:14:44<59:07,  2.68s/it]  [A
Training...:  49% 1285/2609 [1:14:46<57:11,  2.59s/it][A
Training...:  49% 1286/2609 [1:14:48<54:56,  2.49s/it][A
Training...:  49% 1287/2609 [1:14:50<53:03,  2.41s/it][A
Training...:  49% 1288/2609 [1:14:53<50:47,  2.31s/it][A
Training...:  49% 1289/2609 [1:14:55<48:50,  2.22s/it][A
Training...:  49% 1290/2609 [1:14:57<46:53,  2.13s/it][A
Training...:  49% 1291/2609 [1:14:58<44:59,  2.05s/it][A
Training...:  50% 1292/2609 [1:15:00<42:57,  1.96s/it][A
Training...:  50% 1293/2609 [1:15:02<40:36,  1.85s/it][A
Training...:  50% 1294/2609 [1:15:03<38:14,  1.75s/it][A
Training...:  50% 1295/2609 [1:15:05<35:44,  1.63s/it][A
Training...:  50% 1296/2609 [1:15:06<33:15,  1.52s/it][A
Training...:  50% 1297/2609 [1:15:07<30:36,  1.40s/it][A
Training...:  50% 1298/2609 [1:15:08<27:40,  1.27s/it][A
Training...:  50% 1299/2609 [1:15:09<24:34,  1.13s/it][A
Training...:  50% 1300/2609 [1:15:09<20:54,  1.04it/s][A                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [29:24:38<22:42:03, 9080.38s/it]
Training...:  50% 1300/2609 [1:15:18<20:54,  1.04it/s][A

Evaluating ...:   0% 0/220 [00:00<?, ?it/s][A[AStep... (28700 | Loss: 0.10010228306055069, Learning Rate: 4.3032323446823284e-05, Gradient Norm: 0.6523274779319763)
Step... (28725 | Loss: 0.020982330664992332, Learning Rate: 4.298182102502324e-05, Gradient Norm: 0.8864480257034302)
Step... (28750 | Loss: 0.06379275768995285, Learning Rate: 4.2931311327265576e-05, Gradient Norm: 0.5923176407814026)
Step... (28775 | Loss: 0.01077777799218893, Learning Rate: 4.288080890546553e-05, Gradient Norm: 0.2961130738258362)
Step... (28800 | Loss: 0.06294111162424088, Learning Rate: 4.283030648366548e-05, Gradient Norm: 0.619636595249176)
Step... (28825 | Loss: 0.03615688160061836, Learning Rate: 4.277979678590782e-05, Gradient Norm: 0.6279110908508301)
Step... (28850 | Loss: 0.08637794107198715, Learning Rate: 4.272929436410777e-05, Gradient Norm: 0.5861703753471375)
Step... (28875 | Loss: 0.027321530506014824, Learning Rate: 4.267878466635011e-05, Gradient Norm: 1.505393385887146)
Step... (28900 | Loss: 0.08786734938621521, Learning Rate: 4.2628282244550064e-05, Gradient Norm: 0.6718108654022217)
Step... (28925 | Loss: 0.020112935453653336, Learning Rate: 4.257777982275002e-05, Gradient Norm: 0.510558009147644)
Step... (28950 | Loss: 0.08566097170114517, Learning Rate: 4.2527270124992356e-05, Gradient Norm: 0.7165138721466064)
Step... (28975 | Loss: 0.0235358364880085, Learning Rate: 4.247676770319231e-05, Gradient Norm: 0.5012696385383606)
Step... (29000 | Loss: 0.08647610992193222, Learning Rate: 4.2426261643413454e-05, Gradient Norm: 0.7465888857841492)
Step... (29025 | Loss: 0.018141556531190872, Learning Rate: 4.23757555836346e-05, Gradient Norm: 0.6926003694534302)
Step... (29050 | Loss: 0.06720904260873795, Learning Rate: 4.2325249523855746e-05, Gradient Norm: 0.5831632614135742)
Step... (29075 | Loss: 0.02610638178884983, Learning Rate: 4.22747471020557e-05, Gradient Norm: 0.5703427195549011)
Step... (29100 | Loss: 0.07007677108049393, Learning Rate: 4.2224241042276844e-05, Gradient Norm: 0.6580527424812317)
Step... (29125 | Loss: 0.016130028292536736, Learning Rate: 4.217373498249799e-05, Gradient Norm: 0.3741564452648163)
Step... (29150 | Loss: 0.07659049332141876, Learning Rate: 4.212323256069794e-05, Gradient Norm: 0.8040359020233154)
Step... (29175 | Loss: 0.016480810940265656, Learning Rate: 4.207272286294028e-05, Gradient Norm: 0.5062668323516846)
Step... (29200 | Loss: 0.11436162889003754, Learning Rate: 4.2022220441140234e-05, Gradient Norm: 0.7554678320884705)
Step... (29225 | Loss: 0.014228517189621925, Learning Rate: 4.197171801934019e-05, Gradient Norm: 0.3357395529747009)
Step... (29250 | Loss: 0.06642202287912369, Learning Rate: 4.1921208321582526e-05, Gradient Norm: 0.526007354259491)
Step... (29275 | Loss: 0.009056351147592068, Learning Rate: 4.187070589978248e-05, Gradient Norm: 0.3145485818386078)
Step... (29300 | Loss: 0.10158175230026245, Learning Rate: 4.182020347798243e-05, Gradient Norm: 0.6566053628921509)
Step... (29325 | Loss: 0.017637435346841812, Learning Rate: 4.176969378022477e-05, Gradient Norm: 0.48784804344177246)
Step... (29350 | Loss: 0.06565041095018387, Learning Rate: 4.171919135842472e-05, Gradient Norm: 0.568935215473175)
Step... (29375 | Loss: 0.01599534973502159, Learning Rate: 4.1668688936624676e-05, Gradient Norm: 0.6807472705841064)
Step... (29400 | Loss: 0.07610736042261124, Learning Rate: 4.1618179238867015e-05, Gradient Norm: 0.5291247963905334)
Step... (29425 | Loss: 0.015344015322625637, Learning Rate: 4.156767681706697e-05, Gradient Norm: 0.360278457403183)
Step... (29450 | Loss: 0.05660464987158775, Learning Rate: 4.151717439526692e-05, Gradient Norm: 0.5285232663154602)
Step... (29475 | Loss: 0.017011526972055435, Learning Rate: 4.146666469750926e-05, Gradient Norm: 0.4488660991191864)
Step... (29500 | Loss: 0.0900246798992157, Learning Rate: 4.141616227570921e-05, Gradient Norm: 0.622940182685852)
Step... (29525 | Loss: 0.015100710093975067, Learning Rate: 4.1365659853909165e-05, Gradient Norm: 0.4175797402858734)
Step... (29550 | Loss: 0.08198054134845734, Learning Rate: 4.13151501561515e-05, Gradient Norm: 0.6039597392082214)
Step... (29575 | Loss: 0.023926418274641037, Learning Rate: 4.1264647734351456e-05, Gradient Norm: 0.7501208782196045)
Step... (29600 | Loss: 0.09985865652561188, Learning Rate: 4.12141416745726e-05, Gradient Norm: 0.6876870393753052)
Step... (29625 | Loss: 0.01748274825513363, Learning Rate: 4.116363561479375e-05, Gradient Norm: 0.487275093793869)
Step... (29650 | Loss: 0.11010966449975967, Learning Rate: 4.1113129555014893e-05, Gradient Norm: 0.7695080637931824)
Step... (29675 | Loss: 0.021729355677962303, Learning Rate: 4.1062627133214846e-05, Gradient Norm: 0.5010662078857422)
Step... (29700 | Loss: 0.07694211602210999, Learning Rate: 4.1012117435457185e-05, Gradient Norm: 0.5466107726097107)
Step... (29725 | Loss: 0.0180860236287117, Learning Rate: 4.096161501365714e-05, Gradient Norm: 0.515349268913269)
Step... (29750 | Loss: 0.08097197115421295, Learning Rate: 4.091111259185709e-05, Gradient Norm: 0.6371289491653442)
Step... (29775 | Loss: 0.018803123384714127, Learning Rate: 4.086060289409943e-05, Gradient Norm: 0.7017244696617126)
Step... (29800 | Loss: 0.07519377768039703, Learning Rate: 4.081010047229938e-05, Gradient Norm: 0.5455005168914795)
Step... (29825 | Loss: 0.02465021423995495, Learning Rate: 4.0759598050499335e-05, Gradient Norm: 0.5124778151512146)
Step... (29850 | Loss: 0.07521907985210419, Learning Rate: 4.0709088352741674e-05, Gradient Norm: 0.7796698808670044)
Step... (29875 | Loss: 0.01483174692839384, Learning Rate: 4.0658585930941626e-05, Gradient Norm: 0.3696151673793793)
Step... (29900 | Loss: 0.07219629734754562, Learning Rate: 4.0608076233183965e-05, Gradient Norm: 0.5459032654762268)
Step... (29925 | Loss: 0.025925420224666595, Learning Rate: 4.055757381138392e-05, Gradient Norm: 0.5911341309547424)
Step... (29950 | Loss: 0.08606366068124771, Learning Rate: 4.050707138958387e-05, Gradient Norm: 0.6004766821861267)
Step... (29975 | Loss: 0.011794543825089931, Learning Rate: 4.045656169182621e-05, Gradient Norm: 0.4157800078392029)
Step... (30000 | Loss: 0.0743890106678009, Learning Rate: 4.040605927002616e-05, Gradient Norm: 0.5719487071037292)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   0% 1/220 [00:03<13:01,  3.57s/it][A[A

Evaluating ...:   1% 2/220 [00:06<11:51,  3.26s/it][A[A

Evaluating ...:   1% 3/220 [00:09<10:39,  2.95s/it][A[A

Evaluating ...:   2% 4/220 [00:11<10:03,  2.79s/it][A[A

Evaluating ...:   2% 5/220 [00:14<09:54,  2.76s/it][A[A

Evaluating ...:   3% 6/220 [00:16<09:11,  2.58s/it][A[A

Evaluating ...:   3% 7/220 [00:19<08:55,  2.51s/it][A[A

Evaluating ...:   4% 8/220 [00:21<08:21,  2.37s/it][A[A

Evaluating ...:   4% 9/220 [00:23<08:09,  2.32s/it][A[A

Evaluating ...:   5% 10/220 [00:25<08:03,  2.30s/it][A[A

Evaluating ...:   5% 11/220 [00:27<07:37,  2.19s/it][A[A

Evaluating ...:   5% 12/220 [00:29<07:08,  2.06s/it][A[A

Evaluating ...:   6% 13/220 [00:31<07:03,  2.05s/it][A[A

Evaluating ...:   6% 14/220 [00:33<07:05,  2.07s/it][A[A

Evaluating ...:   7% 15/220 [00:35<07:12,  2.11s/it][A[A

Evaluating ...:   7% 16/220 [00:37<06:57,  2.05s/it][A[A

Evaluating ...:   8% 17/220 [00:39<07:00,  2.07s/it][A[A

Evaluating ...:   8% 18/220 [00:41<06:34,  1.95s/it][A[A

Evaluating ...:   9% 19/220 [00:43<07:12,  2.15s/it][A[A

Evaluating ...:   9% 20/220 [00:46<07:27,  2.24s/it][A[A

Evaluating ...:  10% 21/220 [00:48<07:32,  2.28s/it][A[A

Evaluating ...:  10% 22/220 [00:51<07:36,  2.31s/it][A[A

Evaluating ...:  10% 23/220 [00:53<07:42,  2.35s/it][A[A

Evaluating ...:  11% 24/220 [00:55<07:35,  2.33s/it][A[A

Evaluating ...:  11% 25/220 [00:58<08:03,  2.48s/it][A[A

Evaluating ...:  12% 26/220 [01:01<08:20,  2.58s/it][A[A

Evaluating ...:  12% 27/220 [01:03<07:50,  2.44s/it][A[A

Evaluating ...:  13% 28/220 [01:06<07:50,  2.45s/it][A[A

Evaluating ...:  13% 29/220 [01:08<07:58,  2.51s/it][A[A

Evaluating ...:  14% 30/220 [01:11<08:17,  2.62s/it][A[A

Evaluating ...:  14% 31/220 [01:14<08:18,  2.64s/it][A[A

Evaluating ...:  15% 32/220 [01:17<08:27,  2.70s/it][A[A

Evaluating ...:  15% 33/220 [01:20<08:48,  2.83s/it][A[A

Evaluating ...:  15% 34/220 [01:22<08:37,  2.78s/it][A[A

Evaluating ...:  16% 35/220 [01:26<08:59,  2.92s/it][A[A

Evaluating ...:  16% 36/220 [01:28<08:12,  2.68s/it][A[A

Evaluating ...:  17% 37/220 [01:30<08:04,  2.65s/it][A[A

Evaluating ...:  17% 38/220 [01:32<07:24,  2.44s/it][A[A

Evaluating ...:  18% 39/220 [01:35<07:26,  2.46s/it][A[A

Evaluating ...:  18% 40/220 [01:38<07:53,  2.63s/it][A[A

Evaluating ...:  19% 41/220 [01:41<08:08,  2.73s/it][A[A

Evaluating ...:  19% 42/220 [01:44<08:25,  2.84s/it][A[A

Evaluating ...:  20% 43/220 [01:46<07:58,  2.70s/it][A[A

Evaluating ...:  20% 44/220 [01:48<07:16,  2.48s/it][A[A

Evaluating ...:  20% 45/220 [01:51<07:36,  2.61s/it][A[A

Evaluating ...:  21% 46/220 [01:54<07:42,  2.66s/it][A[A

Evaluating ...:  21% 47/220 [01:57<07:56,  2.75s/it][A[A

Evaluating ...:  22% 48/220 [02:00<08:03,  2.81s/it][A[A

Evaluating ...:  22% 49/220 [02:03<08:06,  2.84s/it][A[A

Evaluating ...:  23% 50/220 [02:06<08:02,  2.84s/it][A[A

Evaluating ...:  23% 51/220 [02:09<08:28,  3.01s/it][A[A

Evaluating ...:  24% 52/220 [02:12<08:07,  2.90s/it][A[A

Evaluating ...:  24% 53/220 [02:14<07:56,  2.85s/it][A[A

Evaluating ...:  25% 54/220 [02:17<07:25,  2.68s/it][A[A

Evaluating ...:  25% 55/220 [02:19<07:05,  2.58s/it][A[A

Evaluating ...:  25% 56/220 [02:21<06:48,  2.49s/it][A[A

Evaluating ...:  26% 57/220 [02:24<06:41,  2.46s/it][A[A

Evaluating ...:  26% 58/220 [02:26<06:20,  2.35s/it][A[A

Evaluating ...:  27% 59/220 [02:28<05:56,  2.22s/it][A[A

Evaluating ...:  27% 60/220 [02:30<05:45,  2.16s/it][A[A

Evaluating ...:  28% 61/220 [02:32<05:40,  2.14s/it][A[A

Evaluating ...:  28% 62/220 [02:34<05:21,  2.04s/it][A[A

Evaluating ...:  29% 63/220 [02:36<05:25,  2.08s/it][A[A

Evaluating ...:  29% 64/220 [02:38<05:32,  2.13s/it][A[A

Evaluating ...:  30% 65/220 [02:40<05:32,  2.14s/it][A[A

Evaluating ...:  30% 66/220 [02:42<05:30,  2.15s/it][A[A

Evaluating ...:  30% 67/220 [02:45<05:44,  2.25s/it][A[A

Evaluating ...:  31% 68/220 [02:47<05:38,  2.22s/it][A[A

Evaluating ...:  31% 69/220 [02:49<05:34,  2.22s/it][A[A

Evaluating ...:  32% 70/220 [02:51<05:18,  2.12s/it][A[A

Evaluating ...:  32% 71/220 [02:54<05:36,  2.26s/it][A[A

Evaluating ...:  33% 72/220 [02:56<05:27,  2.21s/it][A[A

Evaluating ...:  33% 73/220 [02:58<05:32,  2.26s/it][A[A

Evaluating ...:  34% 74/220 [03:01<05:48,  2.38s/it][A[A

Evaluating ...:  34% 75/220 [03:04<05:57,  2.47s/it][A[A

Evaluating ...:  35% 76/220 [03:06<05:44,  2.39s/it][A[A

Evaluating ...:  35% 77/220 [03:08<05:32,  2.32s/it][A[A

Evaluating ...:  35% 78/220 [03:10<05:29,  2.32s/it][A[A

Evaluating ...:  36% 79/220 [03:12<05:21,  2.28s/it][A[A

Evaluating ...:  36% 80/220 [03:16<05:56,  2.55s/it][A[A

Evaluating ...:  37% 81/220 [03:18<05:35,  2.41s/it][A[A

Evaluating ...:  37% 82/220 [03:20<05:38,  2.45s/it][A[A

Evaluating ...:  38% 83/220 [03:23<05:36,  2.46s/it][A[A

Evaluating ...:  38% 84/220 [03:26<05:54,  2.61s/it][A[A

Evaluating ...:  39% 85/220 [03:28<05:29,  2.44s/it][A[A

Evaluating ...:  39% 86/220 [03:30<05:16,  2.36s/it][A[A

Evaluating ...:  40% 87/220 [03:33<05:43,  2.59s/it][A[A

Evaluating ...:  40% 88/220 [03:36<05:53,  2.68s/it][A[A

Evaluating ...:  40% 89/220 [03:39<06:03,  2.78s/it][A[A

Evaluating ...:  41% 90/220 [03:42<06:13,  2.87s/it][A[A

Evaluating ...:  41% 91/220 [03:44<05:56,  2.76s/it][A[A

Evaluating ...:  42% 92/220 [03:47<05:45,  2.70s/it][A[A

Evaluating ...:  42% 93/220 [03:50<05:56,  2.81s/it][A[A

Evaluating ...:  43% 94/220 [03:53<05:39,  2.69s/it][A[A

Evaluating ...:  43% 95/220 [03:55<05:47,  2.78s/it][A[A

Evaluating ...:  44% 96/220 [03:58<05:40,  2.75s/it][A[A

Evaluating ...:  44% 97/220 [04:01<05:46,  2.82s/it][A[A

Evaluating ...:  45% 98/220 [04:04<05:49,  2.86s/it][A[A

Evaluating ...:  45% 99/220 [04:07<05:49,  2.89s/it][A[A

Evaluating ...:  45% 100/220 [04:10<05:46,  2.89s/it][A[A

Evaluating ...:  46% 101/220 [04:13<06:05,  3.07s/it][A[A

Evaluating ...:  46% 102/220 [04:16<05:43,  2.91s/it][A[A

Evaluating ...:  47% 103/220 [04:18<05:26,  2.79s/it][A[A

Evaluating ...:  47% 104/220 [04:21<05:11,  2.68s/it][A[A

Evaluating ...:  48% 105/220 [04:23<05:03,  2.64s/it][A[A

Evaluating ...:  48% 106/220 [04:26<04:59,  2.62s/it][A[A

Evaluating ...:  49% 107/220 [04:29<04:51,  2.58s/it][A[A

Evaluating ...:  49% 108/220 [04:31<04:31,  2.42s/it][A[A

Evaluating ...:  50% 109/220 [04:33<04:17,  2.32s/it][A[A

Evaluating ...:  50% 110/220 [04:35<04:00,  2.19s/it][A[A

Evaluating ...:  50% 111/220 [04:37<03:54,  2.15s/it][A[A

Evaluating ...:  51% 112/220 [04:38<03:42,  2.06s/it][A[A

Evaluating ...:  51% 113/220 [04:40<03:36,  2.02s/it][A[A

Evaluating ...:  52% 114/220 [04:42<03:32,  2.01s/it][A[A

Evaluating ...:  52% 115/220 [04:44<03:31,  2.02s/it][A[A

Evaluating ...:  53% 116/220 [04:47<03:47,  2.19s/it][A[A

Evaluating ...:  53% 117/220 [04:49<03:39,  2.13s/it][A[A

Evaluating ...:  54% 118/220 [04:51<03:40,  2.17s/it][A[A

Evaluating ...:  54% 119/220 [04:54<03:47,  2.25s/it][A[A

Evaluating ...:  55% 120/220 [04:57<04:04,  2.45s/it][A[A

Evaluating ...:  55% 121/220 [04:59<03:53,  2.36s/it][A[A

Evaluating ...:  55% 122/220 [05:01<03:37,  2.22s/it][A[A

Evaluating ...:  56% 123/220 [05:03<03:53,  2.41s/it][A[A

Evaluating ...:  56% 124/220 [05:06<04:02,  2.53s/it][A[A

Evaluating ...:  57% 125/220 [05:08<03:49,  2.42s/it][A[A

Evaluating ...:  57% 126/220 [05:10<03:35,  2.29s/it][A[A

Evaluating ...:  58% 127/220 [05:13<03:30,  2.26s/it][A[A

Evaluating ...:  58% 128/220 [05:15<03:32,  2.31s/it][A[A

Evaluating ...:  59% 129/220 [05:18<03:34,  2.35s/it][A[A

Evaluating ...:  59% 130/220 [05:20<03:35,  2.39s/it][A[A

Evaluating ...:  60% 131/220 [05:23<03:46,  2.54s/it][A[A

Evaluating ...:  60% 132/220 [05:26<03:58,  2.71s/it][A[A

Evaluating ...:  60% 133/220 [05:29<03:55,  2.71s/it][A[A

Evaluating ...:  61% 134/220 [05:31<03:52,  2.70s/it][A[A

Evaluating ...:  61% 135/220 [05:33<03:34,  2.52s/it][A[A

Evaluating ...:  62% 136/220 [05:36<03:26,  2.45s/it][A[A

Evaluating ...:  62% 137/220 [05:39<03:33,  2.57s/it][A[A

Evaluating ...:  63% 138/220 [05:40<03:09,  2.31s/it][A[A

Evaluating ...:  63% 139/220 [05:43<03:16,  2.43s/it][A[A

Evaluating ...:  64% 140/220 [05:46<03:27,  2.59s/it][A[A

Evaluating ...:  64% 141/220 [05:49<03:35,  2.73s/it][A[A

Evaluating ...:  65% 142/220 [05:52<03:40,  2.83s/it][A[A

Evaluating ...:  65% 143/220 [05:55<03:29,  2.72s/it][A[A

Evaluating ...:  65% 144/220 [05:57<03:27,  2.72s/it][A[A

Evaluating ...:  66% 145/220 [06:00<03:16,  2.63s/it][A[A

Evaluating ...:  66% 146/220 [06:03<03:22,  2.74s/it][A[A

Evaluating ...:  67% 147/220 [06:06<03:24,  2.80s/it][A[A

Evaluating ...:  67% 148/220 [06:09<03:23,  2.83s/it][A[A

Evaluating ...:  68% 149/220 [06:12<03:23,  2.86s/it][A[A

Evaluating ...:  68% 150/220 [06:14<03:20,  2.86s/it][A[A

Evaluating ...:  69% 151/220 [06:18<03:23,  2.95s/it][A[A

Evaluating ...:  69% 152/220 [06:20<03:12,  2.84s/it][A[A

Evaluating ...:  70% 153/220 [06:23<03:02,  2.72s/it][A[A

Evaluating ...:  70% 154/220 [06:25<02:54,  2.65s/it][A[A

Evaluating ...:  70% 155/220 [06:27<02:44,  2.52s/it][A[A

Evaluating ...:  71% 156/220 [06:30<02:50,  2.67s/it][A[A

Evaluating ...:  71% 157/220 [06:33<02:41,  2.56s/it][A[A

Evaluating ...:  72% 158/220 [06:35<02:27,  2.38s/it][A[A

Evaluating ...:  72% 159/220 [06:37<02:23,  2.35s/it][A[A

Evaluating ...:  73% 160/220 [06:39<02:11,  2.20s/it][A[A

Evaluating ...:  73% 161/220 [06:41<02:10,  2.22s/it][A[A

Evaluating ...:  74% 162/220 [06:43<02:06,  2.18s/it][A[A

Evaluating ...:  74% 163/220 [06:45<01:57,  2.06s/it][A[A

Evaluating ...:  75% 164/220 [06:47<01:50,  1.98s/it][A[A

Evaluating ...:  75% 165/220 [06:49<01:55,  2.11s/it][A[A

Evaluating ...:  75% 166/220 [06:51<01:50,  2.05s/it][A[A

Evaluating ...:  76% 167/220 [06:54<02:06,  2.38s/it][A[A

Evaluating ...:  76% 168/220 [06:56<02:00,  2.32s/it][A[A

Evaluating ...:  77% 169/220 [06:58<01:52,  2.21s/it][A[A

Evaluating ...:  77% 170/220 [07:01<01:56,  2.34s/it][A[A

Evaluating ...:  78% 171/220 [07:03<01:55,  2.36s/it][A[A

Evaluating ...:  78% 172/220 [07:06<01:52,  2.34s/it][A[A

Evaluating ...:  79% 173/220 [07:08<01:51,  2.37s/it][A[A

Evaluating ...:  79% 174/220 [07:11<01:54,  2.48s/it][A[A

Evaluating ...:  80% 175/220 [07:13<01:46,  2.36s/it][A[A

Evaluating ...:  80% 176/220 [07:15<01:43,  2.34s/it][A[A

Evaluating ...:  80% 177/220 [07:17<01:40,  2.35s/it][A[A

Evaluating ...:  81% 178/220 [07:20<01:40,  2.39s/it][A[A

Evaluating ...:  81% 179/220 [07:23<01:40,  2.45s/it][A[A

Evaluating ...:  82% 180/220 [07:25<01:42,  2.57s/it][A[A

Evaluating ...:  82% 181/220 [07:28<01:38,  2.52s/it][A[A

Evaluating ...:  83% 182/220 [07:30<01:36,  2.55s/it][A[A

Evaluating ...:  83% 183/220 [07:33<01:38,  2.67s/it][A[A

Evaluating ...:  84% 184/220 [07:36<01:41,  2.81s/it][A[A

Evaluating ...:  84% 185/220 [07:39<01:35,  2.74s/it][A[A

Evaluating ...:  85% 186/220 [07:42<01:37,  2.86s/it][A[A

Evaluating ...:  85% 187/220 [07:45<01:33,  2.85s/it][A[A

Evaluating ...:  85% 188/220 [07:48<01:32,  2.88s/it][A[A

Evaluating ...:  86% 189/220 [07:51<01:30,  2.91s/it][A[A

Evaluating ...:  86% 190/220 [07:53<01:21,  2.73s/it][A[A

Evaluating ...:  87% 191/220 [07:56<01:19,  2.76s/it][A[A

Evaluating ...:  87% 192/220 [07:59<01:19,  2.85s/it][A[A

Evaluating ...:  88% 193/220 [08:02<01:18,  2.89s/it][A[A

Evaluating ...:  88% 194/220 [08:05<01:16,  2.93s/it][A[A

Evaluating ...:  89% 195/220 [08:08<01:13,  2.96s/it][A[A

Evaluating ...:  89% 196/220 [08:11<01:11,  2.97s/it][A[A

Evaluating ...:  90% 197/220 [08:14<01:07,  2.93s/it][A[A

Evaluating ...:  90% 198/220 [08:17<01:04,  2.93s/it][A[A

Evaluating ...:  90% 199/220 [08:19<00:57,  2.74s/it][A[A

Evaluating ...:  91% 200/220 [08:22<00:55,  2.76s/it][A[A

Evaluating ...:  91% 201/220 [08:25<00:54,  2.85s/it][A[A

Evaluating ...:  92% 202/220 [08:28<00:49,  2.73s/it][A[A

Evaluating ...:  92% 203/220 [08:30<00:44,  2.60s/it][A[A

Evaluating ...:  93% 204/220 [08:32<00:38,  2.43s/it][A[A

Evaluating ...:  93% 205/220 [08:34<00:34,  2.33s/it][A[A

Evaluating ...:  94% 206/220 [08:36<00:31,  2.24s/it][A[A

Evaluating ...:  94% 207/220 [08:38<00:28,  2.16s/it][A[A

Evaluating ...:  95% 208/220 [08:41<00:27,  2.28s/it][A[A

Evaluating ...:  95% 209/220 [08:43<00:24,  2.27s/it][A[A

Evaluating ...:  95% 210/220 [08:45<00:23,  2.35s/it][A[A

Evaluating ...:  96% 211/220 [08:48<00:22,  2.51s/it][A[A

Evaluating ...:  96% 212/220 [08:51<00:21,  2.68s/it][A[A

Evaluating ...:  97% 213/220 [08:54<00:19,  2.81s/it][A[A

Evaluating ...:  97% 214/220 [08:57<00:15,  2.62s/it][A[A

Evaluating ...:  98% 215/220 [09:00<00:13,  2.77s/it][A[A

Evaluating ...:  98% 216/220 [09:02<00:10,  2.69s/it][A[A

Evaluating ...:  99% 217/220 [09:05<00:08,  2.71s/it][A[A

Evaluating ...:  99% 218/220 [09:08<00:05,  2.76s/it][A[A

Evaluating ...: 100% 219/220 [09:10<00:02,  2.62s/it][A[A

Evaluating ...: 100% 220/220 [09:13<00:00,  2.66s/it][A[AEvaluating ...: 100% 220/220 [09:13<00:00,  2.52s/it]
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:51: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  device_metrics = jax.tree_map(lambda x: x[0], device_metrics)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:45: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(stack_args, *forest)
run_flax_speech_recognition_seq2seq.py:1392: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  eval_metrics = jax.tree_map(jnp.mean, eval_metrics)
                                                                                                                                                                   
                                                      [AStep... (20000/50000 | Eval Loss: 0.6577799916267395 | Eval wer: 0.13569101276133586 | Eval cer: 0.0852693081566321 |):  55% 11/20 [29:33:52<22:42:03, 9080.38s/it]
Training...:  50% 1300/2609 [1:24:32<20:54,  1.04it/s][Arun_flax_speech_recognition_seq2seq.py:1425: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  params = jax.device_get(jax.tree_map(lambda x: x[0], state.params))
Configuration saved in /home/sanchitgandhi/train-flax-wav2vec2-2-bart-large-voxpopuli-black-box/flax-wav2vec2-2-bart-large-voxpopuli-black-box/config.json
tcmalloc: large alloc 2586787840 bytes == 0x3d8668000 @  0x7f0edf2a6680 0x7f0edf2c6bdd 0x7f0da608226f 0x7f0da6091290 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da608cd74 0x7f0da608d52e 0x505166 0x56bbfa 0x569dba 0x5f6eb3 0x56cc1f 0x569dba 0x5f6eb3 0x56cc1f 0x5f6cd6 0x56bacd 0x569dba 0x50bca0 0x56cc1f 0x569dba 0x5f6eb3 0x56bacd 0x569dba 0x5f6eb3
Model weights saved in /home/sanchitgandhi/train-flax-wav2vec2-2-bart-large-voxpopuli-black-box/flax-wav2vec2-2-bart-large-voxpopuli-black-box/flax_model.msgpack
tokenizer config file saved in ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/tokenizer_config.json
Special tokens file saved in ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/special_tokens_map.json

Training...:  50% 1301/2609 [1:26:38<75:18:12, 207.26s/it][A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:25: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(

Training...:  50% 1302/2609 [1:26:46<53:31:25, 147.43s/it][A
Training...:  50% 1303/2609 [1:26:52<38:10:02, 105.21s/it][A
Training...:  50% 1304/2609 [1:26:59<27:23:31, 75.56s/it] [A
Training...:  50% 1305/2609 [1:27:05<19:48:34, 54.69s/it][A
Training...:  50% 1306/2609 [1:27:11<14:28:49, 40.01s/it][A
Training...:  50% 1307/2609 [1:27:16<10:44:51, 29.72s/it][A
Training...:  50% 1308/2609 [1:27:22<8:06:14, 22.42s/it] [A
Training...:  50% 1309/2609 [1:27:27<6:14:44, 17.30s/it][A
Training...:  50% 1310/2609 [1:27:32<4:55:18, 13.64s/it][A
Training...:  50% 1311/2609 [1:27:37<3:58:13, 11.01s/it][A
Training...:  50% 1312/2609 [1:27:42<3:16:58,  9.11s/it][A
Training...:  50% 1313/2609 [1:27:46<2:47:47,  7.77s/it][A
Training...:  50% 1314/2609 [1:27:51<2:26:56,  6.81s/it][A
Training...:  50% 1315/2609 [1:27:55<2:10:42,  6.06s/it][A
Training...:  50% 1316/2609 [1:27:59<1:57:53,  5.47s/it][A
Training...:  50% 1317/2609 [1:28:03<1:48:17,  5.03s/it][A
Training...:  51% 1318/2609 [1:28:07<1:40:46,  4.68s/it][A
Training...:  51% 1319/2609 [1:28:11<1:35:00,  4.42s/it][A
Training...:  51% 1320/2609 [1:28:15<1:30:20,  4.21s/it][A
Training...:  51% 1321/2609 [1:28:18<1:27:04,  4.06s/it][A
Training...:  51% 1322/2609 [1:28:22<1:24:03,  3.92s/it][A
Training...:  51% 1323/2609 [1:28:25<1:20:35,  3.76s/it][A
Training...:  51% 1324/2609 [1:28:29<1:17:20,  3.61s/it][A
Training...:  51% 1325/2609 [1:28:32<1:14:51,  3.50s/it][A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:61: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x[0], tree)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
                                                                                                                                                                   
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [29:37:56<22:42:03, 9080.38s/it]
Training...:  51% 1325/2609 [1:28:36<1:14:51,  3.50s/it][A
Training...:  51% 1326/2609 [1:28:36<1:15:54,  3.55s/it][A
Training...:  51% 1327/2609 [1:28:39<1:12:23,  3.39s/it][A
Training...:  51% 1328/2609 [1:28:41<1:09:07,  3.24s/it][A
Training...:  51% 1329/2609 [1:28:44<1:07:05,  3.14s/it][A
Training...:  51% 1330/2609 [1:28:47<1:05:09,  3.06s/it][A
Training...:  51% 1331/2609 [1:28:50<1:03:06,  2.96s/it][A
Training...:  51% 1332/2609 [1:28:53<1:00:37,  2.85s/it][A
Training...:  51% 1333/2609 [1:28:55<58:08,  2.73s/it]  [A
Training...:  51% 1334/2609 [1:28:57<55:48,  2.63s/it][A
Training...:  51% 1335/2609 [1:29:00<53:51,  2.54s/it][A
Training...:  51% 1336/2609 [1:29:02<52:03,  2.45s/it][A
Training...:  51% 1337/2609 [1:29:04<50:04,  2.36s/it][A
Training...:  51% 1338/2609 [1:29:06<47:57,  2.26s/it][A
Training...:  51% 1339/2609 [1:29:08<46:08,  2.18s/it][A
Training...:  51% 1340/2609 [1:29:10<44:05,  2.09s/it][A
Training...:  51% 1341/2609 [1:29:12<42:22,  2.00s/it][A
Training...:  51% 1342/2609 [1:29:13<40:12,  1.90s/it][A
Training...:  51% 1343/2609 [1:29:15<37:58,  1.80s/it][A
Training...:  52% 1344/2609 [1:29:16<35:45,  1.70s/it][A
Training...:  52% 1345/2609 [1:29:18<33:40,  1.60s/it][A
Training...:  52% 1346/2609 [1:29:19<31:22,  1.49s/it][A
Training...:  52% 1347/2609 [1:29:20<28:59,  1.38s/it][A
Training...:  52% 1348/2609 [1:29:21<26:26,  1.26s/it][A
Training...:  52% 1349/2609 [1:29:22<23:42,  1.13s/it][A
Training...:  52% 1350/2609 [1:29:23<20:11,  1.04it/s][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [29:38:51<22:42:03, 9080.38s/it]
Training...:  52% 1350/2609 [1:29:31<20:11,  1.04it/s][A
Training...:  52% 1351/2609 [1:29:31<1:06:25,  3.17s/it][A
Training...:  52% 1352/2609 [1:29:38<1:31:02,  4.35s/it][A
Training...:  52% 1353/2609 [1:29:45<1:46:02,  5.07s/it][A
Training...:  52% 1354/2609 [1:29:51<1:53:51,  5.44s/it][A
Training...:  52% 1355/2609 [1:29:57<1:57:00,  5.60s/it][A
Training...:  52% 1356/2609 [1:30:03<1:57:27,  5.62s/it][A
Training...:  52% 1357/2609 [1:30:08<1:56:28,  5.58s/it][A
Training...:  52% 1358/2609 [1:30:13<1:54:04,  5.47s/it][A
Training...:  52% 1359/2609 [1:30:19<1:52:02,  5.38s/it][A
Training...:  52% 1360/2609 [1:30:24<1:49:27,  5.26s/it][A
Training...:  52% 1361/2609 [1:30:28<1:46:27,  5.12s/it][A
Training...:  52% 1362/2609 [1:30:33<1:43:07,  4.96s/it][A
Training...:  52% 1363/2609 [1:30:37<1:40:28,  4.84s/it][A
Training...:  52% 1364/2609 [1:30:42<1:37:22,  4.69s/it][A
Training...:  52% 1365/2609 [1:30:47<1:37:24,  4.70s/it][A
Training...:  52% 1366/2609 [1:30:51<1:33:29,  4.51s/it][A
Training...:  52% 1367/2609 [1:30:55<1:30:29,  4.37s/it][A
Training...:  52% 1368/2609 [1:30:59<1:27:28,  4.23s/it][A
Training...:  52% 1369/2609 [1:31:02<1:24:58,  4.11s/it][A
Training...:  53% 1370/2609 [1:31:06<1:22:36,  4.00s/it][A
Training...:  53% 1371/2609 [1:31:10<1:21:13,  3.94s/it][A
Training...:  53% 1372/2609 [1:31:13<1:18:28,  3.81s/it][A
Training...:  53% 1373/2609 [1:31:17<1:16:32,  3.72s/it][A
Training...:  53% 1374/2609 [1:31:20<1:14:09,  3.60s/it][A
Training...:  53% 1375/2609 [1:31:24<1:12:05,  3.50s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [29:40:47<22:42:03, 9080.38s/it]
Training...:  53% 1375/2609 [1:31:27<1:12:05,  3.50s/it][A
Training...:  53% 1376/2609 [1:31:27<1:13:16,  3.57s/it][A
Training...:  53% 1377/2609 [1:31:30<1:10:29,  3.43s/it][A
Training...:  53% 1378/2609 [1:31:33<1:08:05,  3.32s/it][A
Training...:  53% 1379/2609 [1:31:36<1:05:52,  3.21s/it][A
Training...:  53% 1380/2609 [1:31:39<1:03:31,  3.10s/it][A
Training...:  53% 1381/2609 [1:31:42<1:01:07,  2.99s/it][A
Training...:  53% 1382/2609 [1:31:45<59:05,  2.89s/it]  [A
Training...:  53% 1383/2609 [1:31:47<56:49,  2.78s/it][A
Training...:  53% 1384/2609 [1:31:50<54:52,  2.69s/it][A
Training...:  53% 1385/2609 [1:31:52<52:51,  2.59s/it][A
Training...:  53% 1386/2609 [1:31:54<51:04,  2.51s/it][A
Training...:  53% 1387/2609 [1:31:56<49:10,  2.41s/it][A
Training...:  53% 1388/2609 [1:31:59<47:12,  2.32s/it][A
Training...:  53% 1389/2609 [1:32:01<45:21,  2.23s/it][A
Training...:  53% 1390/2609 [1:32:03<43:28,  2.14s/it][A
Training...:  53% 1391/2609 [1:32:04<41:37,  2.05s/it][A
Training...:  53% 1392/2609 [1:32:06<39:36,  1.95s/it][A
Training...:  53% 1393/2609 [1:32:08<37:51,  1.87s/it][A
Training...:  53% 1394/2609 [1:32:09<35:38,  1.76s/it][A
Training...:  53% 1395/2609 [1:32:11<33:25,  1.65s/it][A
Training...:  54% 1396/2609 [1:32:12<31:03,  1.54s/it][A
Training...:  54% 1397/2609 [1:32:13<28:36,  1.42s/it][A
Training...:  54% 1398/2609 [1:32:14<25:48,  1.28s/it][A
Training...:  54% 1399/2609 [1:32:15<22:54,  1.14s/it][A
Training...:  54% 1400/2609 [1:32:15<19:14,  1.05it/s][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [29:41:44<22:42:03, 9080.38s/it]
Training...:  54% 1400/2609 [1:32:24<19:14,  1.05it/s][A
Training...:  54% 1401/2609 [1:32:24<1:03:04,  3.13s/it][A
Training...:  54% 1402/2609 [1:32:31<1:27:09,  4.33s/it][A
Training...:  54% 1403/2609 [1:32:37<1:41:43,  5.06s/it][A
Training...:  54% 1404/2609 [1:32:44<1:49:05,  5.43s/it][A
Training...:  54% 1405/2609 [1:32:50<1:52:22,  5.60s/it][A
Training...:  54% 1406/2609 [1:32:56<1:53:51,  5.68s/it][A
Training...:  54% 1407/2609 [1:33:01<1:52:39,  5.62s/it][A
Training...:  54% 1408/2609 [1:33:06<1:50:50,  5.54s/it][A
Training...:  54% 1409/2609 [1:33:12<1:48:35,  5.43s/it][A
Training...:  54% 1410/2609 [1:33:17<1:45:22,  5.27s/it][A
Training...:  54% 1411/2609 [1:33:21<1:42:39,  5.14s/it][A
Training...:  54% 1412/2609 [1:33:26<1:39:31,  4.99s/it][A
Training...:  54% 1413/2609 [1:33:31<1:36:30,  4.84s/it][A
Training...:  54% 1414/2609 [1:33:35<1:33:20,  4.69s/it][A
Training...:  54% 1415/2609 [1:33:39<1:30:23,  4.54s/it][A
Training...:  54% 1416/2609 [1:33:43<1:27:29,  4.40s/it][A
Training...:  54% 1417/2609 [1:33:47<1:25:11,  4.29s/it][A
Training...:  54% 1418/2609 [1:33:51<1:22:27,  4.15s/it][A
Training...:  54% 1419/2609 [1:33:55<1:20:19,  4.05s/it][A
Training...:  54% 1420/2609 [1:33:58<1:17:44,  3.92s/it][A
Training...:  54% 1421/2609 [1:34:02<1:15:42,  3.82s/it][A
Training...:  55% 1422/2609 [1:34:06<1:13:40,  3.72s/it][A
Training...:  55% 1423/2609 [1:34:09<1:11:51,  3.64s/it][A
Training...:  55% 1424/2609 [1:34:12<1:10:04,  3.55s/it][A
Training...:  55% 1425/2609 [1:34:16<1:08:39,  3.48s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [29:43:39<22:42:03, 9080.38s/it]
Training...:  55% 1425/2609 [1:34:19<1:08:39,  3.48s/it][A
Training...:  55% 1426/2609 [1:34:19<1:09:36,  3.53s/it][A
Training...:  55% 1427/2609 [1:34:22<1:06:56,  3.40s/it][A
Training...:  55% 1428/2609 [1:34:25<1:04:24,  3.27s/it][A
Training...:  55% 1429/2609 [1:34:28<1:02:05,  3.16s/it][A
Training...:  55% 1430/2609 [1:34:31<1:00:02,  3.06s/it][A
Training...:  55% 1431/2609 [1:34:34<57:59,  2.95s/it]  [A
Training...:  55% 1432/2609 [1:34:36<55:40,  2.84s/it][A
Training...:  55% 1433/2609 [1:34:39<53:47,  2.74s/it][A
Training...:  55% 1434/2609 [1:34:41<51:51,  2.65s/it][A
Training...:  55% 1435/2609 [1:34:44<50:12,  2.57s/it][A
Training...:  55% 1436/2609 [1:34:46<48:14,  2.47s/it][A
Training...:  55% 1437/2609 [1:34:48<46:26,  2.38s/it][A
Training...:  55% 1438/2609 [1:34:50<44:36,  2.29s/it][A
Training...:  55% 1439/2609 [1:34:52<42:55,  2.20s/it][A
Training...:  55% 1440/2609 [1:34:54<41:07,  2.11s/it][A
Training...:  55% 1441/2609 [1:34:56<39:34,  2.03s/it][A
Training...:  55% 1442/2609 [1:34:58<37:45,  1.94s/it][A
Training...:  55% 1443/2609 [1:34:59<35:57,  1.85s/it][A
Training...:  55% 1444/2609 [1:35:01<34:06,  1.76s/it][A
Training...:  55% 1445/2609 [1:35:02<32:09,  1.66s/it][A
Training...:  55% 1446/2609 [1:35:03<29:52,  1.54s/it][A
Training...:  55% 1447/2609 [1:35:05<27:30,  1.42s/it][A
Training...:  56% 1448/2609 [1:35:06<24:52,  1.29s/it][A
Training...:  56% 1449/2609 [1:35:06<21:58,  1.14s/it][A
Training...:  56% 1450/2609 [1:35:07<18:30,  1.04it/s][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [29:44:35<22:42:03, 9080.38s/it]
Training...:  56% 1450/2609 [1:35:15<18:30,  1.04it/s][A
Training...:  56% 1451/2609 [1:35:15<1:00:55,  3.16s/it][A
Training...:  56% 1452/2609 [1:35:22<1:22:48,  4.29s/it][A
Training...:  56% 1453/2609 [1:35:29<1:35:51,  4.97s/it][A
Training...:  56% 1454/2609 [1:35:35<1:43:27,  5.37s/it][A
Training...:  56% 1455/2609 [1:35:41<1:46:26,  5.53s/it][A
Training...:  56% 1456/2609 [1:35:47<1:47:35,  5.60s/it][A
Training...:  56% 1457/2609 [1:35:52<1:46:50,  5.56s/it][A
Training...:  56% 1458/2609 [1:35:57<1:44:55,  5.47s/it][A
Training...:  56% 1459/2609 [1:36:03<1:42:56,  5.37s/it][A
Training...:  56% 1460/2609 [1:36:07<1:39:49,  5.21s/it][A
Training...:  56% 1461/2609 [1:36:12<1:37:13,  5.08s/it][A
Training...:  56% 1462/2609 [1:36:17<1:34:22,  4.94s/it][A
Training...:  56% 1463/2609 [1:36:21<1:31:48,  4.81s/it][A
Training...:  56% 1464/2609 [1:36:26<1:29:15,  4.68s/it][A
Training...:  56% 1465/2609 [1:36:30<1:26:48,  4.55s/it][A
Training...:  56% 1466/2609 [1:36:34<1:24:24,  4.43s/it][A
Training...:  56% 1467/2609 [1:36:38<1:22:00,  4.31s/it][A
Training...:  56% 1468/2609 [1:36:42<1:19:35,  4.19s/it][A
Training...:  56% 1469/2609 [1:36:46<1:17:17,  4.07s/it][A
Training...:  56% 1470/2609 [1:36:49<1:15:15,  3.96s/it][A
Training...:  56% 1471/2609 [1:36:53<1:13:49,  3.89s/it][A
Training...:  56% 1472/2609 [1:36:57<1:11:48,  3.79s/it][A
Training...:  56% 1473/2609 [1:37:00<1:09:47,  3.69s/it][A
Training...:  56% 1474/2609 [1:37:04<1:07:52,  3.59s/it][A
Training...:  57% 1475/2609 [1:37:07<1:06:08,  3.50s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [29:46:31<22:42:03, 9080.38s/it]
Training...:  57% 1475/2609 [1:37:11<1:06:08,  3.50s/it][A
Training...:  57% 1476/2609 [1:37:11<1:07:08,  3.56s/it][A
Training...:  57% 1477/2609 [1:37:14<1:04:39,  3.43s/it][A
Training...:  57% 1478/2609 [1:37:17<1:02:14,  3.30s/it][A
Training...:  57% 1479/2609 [1:37:20<1:00:22,  3.21s/it][A
Training...:  57% 1480/2609 [1:37:23<58:19,  3.10s/it]  [A
Training...:  57% 1481/2609 [1:37:25<56:40,  3.01s/it][A
Training...:  57% 1482/2609 [1:37:28<54:51,  2.92s/it][A
Training...:  57% 1483/2609 [1:37:31<53:03,  2.83s/it][A
Training...:  57% 1484/2609 [1:37:33<51:19,  2.74s/it][A
Training...:  57% 1485/2609 [1:37:36<49:45,  2.66s/it][A
Training...:  57% 1486/2609 [1:37:38<48:06,  2.57s/it][A
Training...:  57% 1487/2609 [1:37:40<46:27,  2.48s/it][A
Training...:  57% 1488/2609 [1:37:43<45:14,  2.42s/it][A
Training...:  57% 1489/2609 [1:37:45<43:24,  2.33s/it][A
Training...:  57% 1490/2609 [1:37:47<41:20,  2.22s/it][A
Training...:  57% 1491/2609 [1:37:49<39:46,  2.13s/it][A
Training...:  57% 1492/2609 [1:37:50<37:50,  2.03s/it][A
Training...:  57% 1493/2609 [1:37:52<35:46,  1.92s/it][A
Training...:  57% 1494/2609 [1:37:54<33:44,  1.82s/it][A
Training...:  57% 1495/2609 [1:37:55<31:43,  1.71s/it][A
Training...:  57% 1496/2609 [1:37:56<29:24,  1.59s/it][A
Training...:  57% 1497/2609 [1:37:58<27:06,  1.46s/it][A
Training...:  57% 1498/2609 [1:37:59<24:52,  1.34s/it][A
Training...:  57% 1499/2609 [1:37:59<21:56,  1.19s/it][A
Training...:  57% 1500/2609 [1:38:00<18:25,  1.00it/s][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [29:47:29<22:42:03, 9080.38s/it]
Training...:  57% 1500/2609 [1:38:08<18:25,  1.00it/s][A
Training...:  58% 1501/2609 [1:38:08<59:13,  3.21s/it][A
Training...:  58% 1502/2609 [1:38:16<1:21:13,  4.40s/it][A
Training...:  58% 1503/2609 [1:38:22<1:33:59,  5.10s/it][A
Training...:  58% 1504/2609 [1:38:29<1:40:48,  5.47s/it][A
Training...:  58% 1505/2609 [1:38:35<1:43:51,  5.64s/it][A
Training...:  58% 1506/2609 [1:38:40<1:44:16,  5.67s/it][A
Training...:  58% 1507/2609 [1:38:46<1:43:30,  5.64s/it][A
Training...:  58% 1508/2609 [1:38:51<1:41:53,  5.55s/it][A
Training...:  58% 1509/2609 [1:38:56<1:39:49,  5.45s/it][A
Training...:  58% 1510/2609 [1:39:02<1:37:30,  5.32s/it][A
Training...:  58% 1511/2609 [1:39:06<1:35:07,  5.20s/it][A
Training...:  58% 1512/2609 [1:39:11<1:32:17,  5.05s/it][A
Training...:  58% 1513/2609 [1:39:16<1:29:41,  4.91s/it][A
Training...:  58% 1514/2609 [1:39:20<1:27:13,  4.78s/it][A
Training...:  58% 1515/2609 [1:39:24<1:24:31,  4.64s/it][A
Training...:  58% 1516/2609 [1:39:29<1:21:27,  4.47s/it][A
Training...:  58% 1517/2609 [1:39:33<1:19:07,  4.35s/it][A
Training...:  58% 1518/2609 [1:39:37<1:16:31,  4.21s/it][A
Training...:  58% 1519/2609 [1:39:40<1:14:42,  4.11s/it][A
Training...:  58% 1520/2609 [1:39:44<1:12:34,  4.00s/it][A
Training...:  58% 1521/2609 [1:39:48<1:11:11,  3.93s/it][A
Training...:  58% 1522/2609 [1:39:51<1:09:23,  3.83s/it][A
Training...:  58% 1523/2609 [1:39:55<1:07:35,  3.73s/it][A
Training...:  58% 1524/2609 [1:39:58<1:05:43,  3.63s/it][A
Training...:  58% 1525/2609 [1:40:02<1:03:26,  3.51s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [29:49:26<22:42:03, 9080.38s/it]
Training...:  58% 1525/2609 [1:40:05<1:03:26,  3.51s/it][A
Training...:  58% 1526/2609 [1:40:05<1:04:04,  3.55s/it][A
Training...:  59% 1527/2609 [1:40:08<1:01:17,  3.40s/it][A
Training...:  59% 1528/2609 [1:40:11<58:42,  3.26s/it]  [A
Training...:  59% 1529/2609 [1:40:14<56:49,  3.16s/it][A
Training...:  59% 1530/2609 [1:40:17<54:52,  3.05s/it][A
Training...:  59% 1531/2609 [1:40:20<53:13,  2.96s/it][A
Training...:  59% 1532/2609 [1:40:22<51:10,  2.85s/it][A
Training...:  59% 1533/2609 [1:40:25<49:17,  2.75s/it][A
Training...:  59% 1534/2609 [1:40:27<47:32,  2.65s/it][A
Training...:  59% 1535/2609 [1:40:30<45:54,  2.56s/it][A
Training...:  59% 1536/2609 [1:40:32<44:09,  2.47s/it][A
Training...:  59% 1537/2609 [1:40:34<42:23,  2.37s/it][A
Training...:  59% 1538/2609 [1:40:36<40:44,  2.28s/it][A
Training...:  59% 1539/2609 [1:40:38<39:11,  2.20s/it][A
Training...:  59% 1540/2609 [1:40:40<37:37,  2.11s/it][A
Training...:  59% 1541/2609 [1:40:42<35:57,  2.02s/it][A
Training...:  59% 1542/2609 [1:40:43<34:06,  1.92s/it][A
Training...:  59% 1543/2609 [1:40:45<32:03,  1.80s/it][A
Training...:  59% 1544/2609 [1:40:46<30:08,  1.70s/it][A
Training...:  59% 1545/2609 [1:40:48<28:17,  1.60s/it][A
Training...:  59% 1546/2609 [1:40:49<26:19,  1.49s/it][A
Training...:  59% 1547/2609 [1:40:50<24:15,  1.37s/it][A
Training...:  59% 1548/2609 [1:40:51<21:58,  1.24s/it][A
Training...:  59% 1549/2609 [1:40:52<19:27,  1.10s/it][A
Training...:  59% 1550/2609 [1:40:52<16:30,  1.07it/s][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [29:50:21<22:42:03, 9080.38s/it]
Training...:  59% 1550/2609 [1:41:01<16:30,  1.07it/s][A
Training...:  59% 1551/2609 [1:41:01<55:48,  3.16s/it][A
Training...:  59% 1552/2609 [1:41:08<1:16:37,  4.35s/it][A
Training...:  60% 1553/2609 [1:41:14<1:27:59,  5.00s/it][A
Training...:  60% 1554/2609 [1:41:21<1:35:38,  5.44s/it][A
Training...:  60% 1555/2609 [1:41:27<1:38:31,  5.61s/it][A
Training...:  60% 1556/2609 [1:41:33<1:39:13,  5.65s/it][A
Training...:  60% 1557/2609 [1:41:38<1:39:03,  5.65s/it][A
Training...:  60% 1558/2609 [1:41:44<1:37:50,  5.59s/it][A
Training...:  60% 1559/2609 [1:41:49<1:35:55,  5.48s/it][A
Training...:  60% 1560/2609 [1:41:54<1:33:18,  5.34s/it][A
Training...:  60% 1561/2609 [1:41:59<1:30:50,  5.20s/it][A
Training...:  60% 1562/2609 [1:42:04<1:28:06,  5.05s/it][A
Training...:  60% 1563/2609 [1:42:08<1:25:42,  4.92s/it][A
Training...:  60% 1564/2609 [1:42:13<1:23:58,  4.82s/it][A
Training...:  60% 1565/2609 [1:42:17<1:22:02,  4.72s/it][A
Training...:  60% 1566/2609 [1:42:21<1:19:25,  4.57s/it][A
Training...:  60% 1567/2609 [1:42:26<1:16:42,  4.42s/it][A
Training...:  60% 1568/2609 [1:42:29<1:14:11,  4.28s/it][A
Training...:  60% 1569/2609 [1:42:33<1:12:10,  4.16s/it][A
Training...:  60% 1570/2609 [1:42:37<1:10:23,  4.07s/it][A
Training...:  60% 1571/2609 [1:42:41<1:08:54,  3.98s/it][A
Training...:  60% 1572/2609 [1:42:45<1:06:41,  3.86s/it][A
Training...:  60% 1573/2609 [1:42:48<1:04:38,  3.74s/it][A
Training...:  60% 1574/2609 [1:42:51<1:02:37,  3.63s/it][A
Training...:  60% 1575/2609 [1:42:55<1:00:57,  3.54s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [29:52:19<22:42:03, 9080.38s/it]
Training...:  60% 1575/2609 [1:42:58<1:00:57,  3.54s/it][A
Training...:  60% 1576/2609 [1:42:58<1:01:37,  3.58s/it][A
Training...:  60% 1577/2609 [1:43:01<58:58,  3.43s/it]  [A
Training...:  60% 1578/2609 [1:43:04<56:47,  3.30s/it][A
Training...:  61% 1579/2609 [1:43:07<54:42,  3.19s/it][A
Training...:  61% 1580/2609 [1:43:10<52:47,  3.08s/it][A
Training...:  61% 1581/2609 [1:43:13<51:06,  2.98s/it][A
Training...:  61% 1582/2609 [1:43:16<49:18,  2.88s/it][A
Training...:  61% 1583/2609 [1:43:18<47:49,  2.80s/it][A
Training...:  61% 1584/2609 [1:43:21<45:52,  2.69s/it][A
Training...:  61% 1585/2609 [1:43:23<44:23,  2.60s/it][A
Training...:  61% 1586/2609 [1:43:25<42:48,  2.51s/it][A
Training...:  61% 1587/2609 [1:43:28<41:15,  2.42s/it][A
Training...:  61% 1588/2609 [1:43:30<39:33,  2.32s/it][A
Training...:  61% 1589/2609 [1:43:32<37:54,  2.23s/it][A
Training...:  61% 1590/2609 [1:43:34<36:01,  2.12s/it][A
Training...:  61% 1591/2609 [1:43:35<34:22,  2.03s/it][A
Training...:  61% 1592/2609 [1:43:37<32:46,  1.93s/it][A
Training...:  61% 1593/2609 [1:43:39<31:06,  1.84s/it][A
Training...:  61% 1594/2609 [1:43:40<29:22,  1.74s/it][A
Training...:  61% 1595/2609 [1:43:42<27:35,  1.63s/it][A
Training...:  61% 1596/2609 [1:43:43<25:44,  1.52s/it][A
Training...:  61% 1597/2609 [1:43:44<23:49,  1.41s/it][A
Training...:  61% 1598/2609 [1:43:45<21:32,  1.28s/it][A
Training...:  61% 1599/2609 [1:43:46<19:06,  1.14s/it][A
Training...:  61% 1600/2609 [1:43:46<16:10,  1.04it/s][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [29:53:15<22:42:03, 9080.38s/it]
Training...:  61% 1600/2609 [1:43:55<16:10,  1.04it/s][A
Training...:  61% 1601/2609 [1:43:55<53:48,  3.20s/it][A
Training...:  61% 1602/2609 [1:44:02<1:13:29,  4.38s/it][A
Training...:  61% 1603/2609 [1:44:09<1:24:47,  5.06s/it][A
Training...:  61% 1604/2609 [1:44:15<1:31:08,  5.44s/it][A
Training...:  62% 1605/2609 [1:44:21<1:34:44,  5.66s/it][A
Training...:  62% 1606/2609 [1:44:27<1:35:34,  5.72s/it][A
Training...:  62% 1607/2609 [1:44:33<1:35:25,  5.71s/it][A
Training...:  62% 1608/2609 [1:44:38<1:33:06,  5.58s/it][A
Training...:  62% 1609/2609 [1:44:43<1:30:46,  5.45s/it][A
Training...:  62% 1610/2609 [1:44:48<1:27:39,  5.26s/it][A
Training...:  62% 1611/2609 [1:44:53<1:25:05,  5.12s/it][A
Training...:  62% 1612/2609 [1:44:57<1:22:13,  4.95s/it][A
Training...:  62% 1613/2609 [1:45:02<1:20:05,  4.82s/it][A
Training...:  62% 1614/2609 [1:45:06<1:17:27,  4.67s/it][A
Training...:  62% 1615/2609 [1:45:10<1:14:54,  4.52s/it][A
Training...:  62% 1616/2609 [1:45:14<1:12:16,  4.37s/it][A
Training...:  62% 1617/2609 [1:45:18<1:09:59,  4.23s/it][A
Training...:  62% 1618/2609 [1:45:22<1:07:44,  4.10s/it][A
Training...:  62% 1619/2609 [1:45:26<1:06:01,  4.00s/it][A
Training...:  62% 1620/2609 [1:45:29<1:03:56,  3.88s/it][A
Training...:  62% 1621/2609 [1:45:33<1:02:38,  3.80s/it][A
Training...:  62% 1622/2609 [1:45:36<1:00:59,  3.71s/it][A
Training...:  62% 1623/2609 [1:45:40<59:21,  3.61s/it]  [A
Training...:  62% 1624/2609 [1:45:43<57:24,  3.50s/it][A
Training...:  62% 1625/2609 [1:45:46<55:59,  3.41s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [29:55:10<22:42:03, 9080.38s/it]
Training...:  62% 1625/2609 [1:45:50<55:59,  3.41s/it][A
Training...:  62% 1626/2609 [1:45:50<56:46,  3.47s/it][A
Training...:  62% 1627/2609 [1:45:53<54:27,  3.33s/it][A
Training...:  62% 1628/2609 [1:45:56<52:34,  3.22s/it][A
Training...:  62% 1629/2609 [1:45:59<50:58,  3.12s/it][A
Training...:  62% 1630/2609 [1:46:01<49:12,  3.02s/it][A
Training...:  63% 1631/2609 [1:46:04<47:27,  2.91s/it][A
Training...:  63% 1632/2609 [1:46:07<46:02,  2.83s/it][A
Training...:  63% 1633/2609 [1:46:09<44:31,  2.74s/it][A
Training...:  63% 1634/2609 [1:46:12<43:06,  2.65s/it][A
Training...:  63% 1635/2609 [1:46:14<41:42,  2.57s/it][A
Training...:  63% 1636/2609 [1:46:16<40:28,  2.50s/it][A
Training...:  63% 1637/2609 [1:46:19<39:19,  2.43s/it][A
Training...:  63% 1638/2609 [1:46:21<37:44,  2.33s/it][A
Training...:  63% 1639/2609 [1:46:23<36:12,  2.24s/it][A
Training...:  63% 1640/2609 [1:46:25<34:36,  2.14s/it][A
Training...:  63% 1641/2609 [1:46:27<33:07,  2.05s/it][A
Training...:  63% 1642/2609 [1:46:28<31:34,  1.96s/it][A
Training...:  63% 1643/2609 [1:46:30<30:02,  1.87s/it][A
Training...:  63% 1644/2609 [1:46:31<28:19,  1.76s/it][A
Training...:  63% 1645/2609 [1:46:33<26:24,  1.64s/it][A
Training...:  63% 1646/2609 [1:46:34<24:31,  1.53s/it][A
Training...:  63% 1647/2609 [1:46:35<22:40,  1.41s/it][A
Training...:  63% 1648/2609 [1:46:36<20:32,  1.28s/it][A
Training...:  63% 1649/2609 [1:46:37<18:10,  1.14s/it][A
Training...:  63% 1650/2609 [1:46:38<15:16,  1.05it/s][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [29:56:06<22:42:03, 9080.38s/it]
Training...:  63% 1650/2609 [1:46:46<15:16,  1.05it/s][A
Training...:  63% 1651/2609 [1:46:46<51:09,  3.20s/it][A
Training...:  63% 1652/2609 [1:46:53<1:10:07,  4.40s/it][A
Training...:  63% 1653/2609 [1:47:00<1:20:08,  5.03s/it][A
Training...:  63% 1654/2609 [1:47:06<1:25:13,  5.35s/it][A
Training...:  63% 1655/2609 [1:47:12<1:27:23,  5.50s/it][A
Training...:  63% 1656/2609 [1:47:17<1:28:02,  5.54s/it][A
Training...:  64% 1657/2609 [1:47:23<1:27:09,  5.49s/it][A
Training...:  64% 1658/2609 [1:47:28<1:25:38,  5.40s/it][A
Training...:  64% 1659/2609 [1:47:33<1:23:34,  5.28s/it][A
Training...:  64% 1660/2609 [1:47:38<1:21:14,  5.14s/it][A
Training...:  64% 1661/2609 [1:47:42<1:19:23,  5.02s/it][A
Training...:  64% 1662/2609 [1:47:47<1:17:12,  4.89s/it][A
Training...:  64% 1663/2609 [1:47:51<1:15:16,  4.77s/it][A
Training...:  64% 1664/2609 [1:47:56<1:12:51,  4.63s/it][A
Training...:  64% 1665/2609 [1:48:00<1:10:50,  4.50s/it][A
Training...:  64% 1666/2609 [1:48:04<1:08:32,  4.36s/it][A
Training...:  64% 1667/2609 [1:48:08<1:07:03,  4.27s/it][A
Training...:  64% 1668/2609 [1:48:12<1:05:05,  4.15s/it][A
Training...:  64% 1669/2609 [1:48:16<1:03:15,  4.04s/it][A
Training...:  64% 1670/2609 [1:48:19<1:01:31,  3.93s/it][A
Training...:  64% 1671/2609 [1:48:23<1:00:03,  3.84s/it][A
Training...:  64% 1672/2609 [1:48:27<58:20,  3.74s/it]  [A
Training...:  64% 1673/2609 [1:48:30<57:06,  3.66s/it][A
Training...:  64% 1674/2609 [1:48:33<55:31,  3.56s/it][A
Training...:  64% 1675/2609 [1:48:37<54:06,  3.48s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [29:58:00<22:42:03, 9080.38s/it]
Training...:  64% 1675/2609 [1:48:40<54:06,  3.48s/it][A
Training...:  64% 1676/2609 [1:48:40<54:50,  3.53s/it][A
Training...:  64% 1677/2609 [1:48:43<52:54,  3.41s/it][A
Training...:  64% 1678/2609 [1:48:46<50:55,  3.28s/it][A
Training...:  64% 1679/2609 [1:48:49<49:10,  3.17s/it][A
Training...:  64% 1680/2609 [1:48:52<47:27,  3.07s/it][A
Training...:  64% 1681/2609 [1:48:55<46:04,  2.98s/it][A
Training...:  64% 1682/2609 [1:48:58<44:43,  2.90s/it][A
Training...:  65% 1683/2609 [1:49:00<43:15,  2.80s/it][A
Training...:  65% 1684/2609 [1:49:03<41:57,  2.72s/it][A
Training...:  65% 1685/2609 [1:49:05<40:35,  2.64s/it][A
Training...:  65% 1686/2609 [1:49:07<39:07,  2.54s/it][A
Training...:  65% 1687/2609 [1:49:10<37:50,  2.46s/it][A
Training...:  65% 1688/2609 [1:49:12<36:11,  2.36s/it][A
Training...:  65% 1689/2609 [1:49:14<34:43,  2.26s/it][A
Training...:  65% 1690/2609 [1:49:16<33:07,  2.16s/it][A
Training...:  65% 1691/2609 [1:49:18<31:45,  2.08s/it][A
Training...:  65% 1692/2609 [1:49:19<30:09,  1.97s/it][A
Training...:  65% 1693/2609 [1:49:21<28:48,  1.89s/it][A
Training...:  65% 1694/2609 [1:49:23<27:08,  1.78s/it][A
Training...:  65% 1695/2609 [1:49:24<25:29,  1.67s/it][A
Training...:  65% 1696/2609 [1:49:25<23:46,  1.56s/it][A
Training...:  65% 1697/2609 [1:49:27<22:00,  1.45s/it][A
Training...:  65% 1698/2609 [1:49:28<20:06,  1.32s/it][A
Training...:  65% 1699/2609 [1:49:28<17:54,  1.18s/it][A
Training...:  65% 1700/2609 [1:49:29<15:06,  1.00it/s][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [29:58:58<22:42:03, 9080.38s/it]
Training...:  65% 1700/2609 [1:49:38<15:06,  1.00it/s][A
Training...:  65% 1701/2609 [1:49:38<49:15,  3.26s/it][A
Training...:  65% 1702/2609 [1:49:45<1:07:27,  4.46s/it][A
Training...:  65% 1703/2609 [1:49:52<1:17:39,  5.14s/it][A
Training...:  65% 1704/2609 [1:49:58<1:23:42,  5.55s/it][A
Training...:  65% 1705/2609 [1:50:04<1:25:48,  5.70s/it][A
Training...:  65% 1706/2609 [1:50:10<1:25:55,  5.71s/it][A
Training...:  65% 1707/2609 [1:50:15<1:24:55,  5.65s/it][A
Training...:  65% 1708/2609 [1:50:21<1:23:15,  5.54s/it][A
Training...:  66% 1709/2609 [1:50:26<1:21:20,  5.42s/it][A
Training...:  66% 1710/2609 [1:50:31<1:18:41,  5.25s/it][A
Training...:  66% 1711/2609 [1:50:35<1:16:18,  5.10s/it][A
Training...:  66% 1712/2609 [1:50:40<1:13:56,  4.95s/it][A
Training...:  66% 1713/2609 [1:50:44<1:11:57,  4.82s/it][A
Training...:  66% 1714/2609 [1:50:49<1:09:43,  4.67s/it][A
Training...:  66% 1715/2609 [1:50:53<1:07:47,  4.55s/it][A
Training...:  66% 1716/2609 [1:50:57<1:05:23,  4.39s/it][A
Training...:  66% 1717/2609 [1:51:01<1:03:35,  4.28s/it][A
Training...:  66% 1718/2609 [1:51:05<1:01:24,  4.14s/it][A
Training...:  66% 1719/2609 [1:51:09<59:51,  4.04s/it]  [A
Training...:  66% 1720/2609 [1:51:12<58:21,  3.94s/it][A
Training...:  66% 1721/2609 [1:51:16<56:46,  3.84s/it][A
Training...:  66% 1722/2609 [1:51:20<55:23,  3.75s/it][A
Training...:  66% 1723/2609 [1:51:23<54:15,  3.67s/it][A
Training...:  66% 1724/2609 [1:51:26<52:49,  3.58s/it][A
Training...:  66% 1725/2609 [1:51:30<51:29,  3.50s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:00:54<22:42:03, 9080.38s/it]
Training...:  66% 1725/2609 [1:51:33<51:29,  3.50s/it][A
Training...:  66% 1726/2609 [1:51:33<52:29,  3.57s/it][A
Training...:  66% 1727/2609 [1:51:37<50:26,  3.43s/it][A
Training...:  66% 1728/2609 [1:51:40<48:36,  3.31s/it][A
Training...:  66% 1729/2609 [1:51:43<47:02,  3.21s/it][A
Training...:  66% 1730/2609 [1:51:45<45:31,  3.11s/it][A
Training...:  66% 1731/2609 [1:51:48<44:18,  3.03s/it][A
Training...:  66% 1732/2609 [1:51:51<42:40,  2.92s/it][A
Training...:  66% 1733/2609 [1:51:54<41:17,  2.83s/it][A
Training...:  66% 1734/2609 [1:51:56<39:42,  2.72s/it][A
Training...:  67% 1735/2609 [1:51:59<38:34,  2.65s/it][A
Training...:  67% 1736/2609 [1:52:01<37:17,  2.56s/it][A
Training...:  67% 1737/2609 [1:52:03<36:08,  2.49s/it][A
Training...:  67% 1738/2609 [1:52:05<34:33,  2.38s/it][A
Training...:  67% 1739/2609 [1:52:07<33:12,  2.29s/it][A
Training...:  67% 1740/2609 [1:52:09<31:48,  2.20s/it][A
Training...:  67% 1741/2609 [1:52:11<30:18,  2.10s/it][A
Training...:  67% 1742/2609 [1:52:13<28:52,  2.00s/it][A
Training...:  67% 1743/2609 [1:52:15<27:26,  1.90s/it][A
Training...:  67% 1744/2609 [1:52:16<25:55,  1.80s/it][A
Training...:  67% 1745/2609 [1:52:18<24:23,  1.69s/it][A
Training...:  67% 1746/2609 [1:52:19<22:52,  1.59s/it][A
Training...:  67% 1747/2609 [1:52:20<21:10,  1.47s/it][A
Training...:  67% 1748/2609 [1:52:21<19:14,  1.34s/it][A
Training...:  67% 1749/2609 [1:52:22<17:05,  1.19s/it][A
Training...:  67% 1750/2609 [1:52:23<14:22,  1.00s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:01:51<22:42:03, 9080.38s/it]
Training...:  67% 1750/2609 [1:52:31<14:22,  1.00s/it][A
Training...:  67% 1751/2609 [1:52:31<46:34,  3.26s/it][A
Training...:  67% 1752/2609 [1:52:38<1:03:00,  4.41s/it][A
Training...:  67% 1753/2609 [1:52:45<1:12:39,  5.09s/it][A
Training...:  67% 1754/2609 [1:52:51<1:18:20,  5.50s/it][A
Training...:  67% 1755/2609 [1:52:58<1:21:04,  5.70s/it][A
Training...:  67% 1756/2609 [1:53:04<1:22:08,  5.78s/it][A
Training...:  67% 1757/2609 [1:53:09<1:22:07,  5.78s/it][A
Training...:  67% 1758/2609 [1:53:15<1:20:34,  5.68s/it][A
Training...:  67% 1759/2609 [1:53:20<1:19:19,  5.60s/it][A
Training...:  67% 1760/2609 [1:53:25<1:17:35,  5.48s/it][A
Training...:  67% 1761/2609 [1:53:30<1:14:59,  5.31s/it][A
Training...:  68% 1762/2609 [1:53:35<1:12:12,  5.11s/it][A
Training...:  68% 1763/2609 [1:53:40<1:10:00,  4.97s/it][A
Training...:  68% 1764/2609 [1:53:44<1:07:56,  4.82s/it][A
Training...:  68% 1765/2609 [1:53:48<1:05:43,  4.67s/it][A
Training...:  68% 1766/2609 [1:53:53<1:03:30,  4.52s/it][A
Training...:  68% 1767/2609 [1:53:57<1:01:40,  4.40s/it][A
Training...:  68% 1768/2609 [1:54:01<59:39,  4.26s/it]  [A
Training...:  68% 1769/2609 [1:54:04<57:55,  4.14s/it][A
Training...:  68% 1770/2609 [1:54:08<56:08,  4.02s/it][A
Training...:  68% 1771/2609 [1:54:12<54:39,  3.91s/it][A
Training...:  68% 1772/2609 [1:54:15<53:01,  3.80s/it][A
Training...:  68% 1773/2609 [1:54:19<51:29,  3.70s/it][A
Training...:  68% 1774/2609 [1:54:22<49:57,  3.59s/it][A
Training...:  68% 1775/2609 [1:54:25<48:19,  3.48s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:03:49<22:42:03, 9080.38s/it]
Training...:  68% 1775/2609 [1:54:29<48:19,  3.48s/it][A
Training...:  68% 1776/2609 [1:54:29<48:55,  3.52s/it][A
Training...:  68% 1777/2609 [1:54:32<46:51,  3.38s/it][A
Training...:  68% 1778/2609 [1:54:35<44:56,  3.24s/it][A
Training...:  68% 1779/2609 [1:54:38<43:23,  3.14s/it][A
Training...:  68% 1780/2609 [1:54:41<41:54,  3.03s/it][A
Training...:  68% 1781/2609 [1:54:43<40:28,  2.93s/it][A
Training...:  68% 1782/2609 [1:54:46<38:47,  2.81s/it][A
Training...:  68% 1783/2609 [1:54:48<37:21,  2.71s/it][A
Training...:  68% 1784/2609 [1:54:51<36:06,  2.63s/it][A
Training...:  68% 1785/2609 [1:54:53<34:51,  2.54s/it][A
Training...:  68% 1786/2609 [1:54:55<33:35,  2.45s/it][A
Training...:  68% 1787/2609 [1:54:58<32:24,  2.37s/it][A
Training...:  69% 1788/2609 [1:55:00<31:05,  2.27s/it][A
Training...:  69% 1789/2609 [1:55:02<29:53,  2.19s/it][A
Training...:  69% 1790/2609 [1:55:04<28:47,  2.11s/it][A
Training...:  69% 1791/2609 [1:55:05<27:33,  2.02s/it][A
Training...:  69% 1792/2609 [1:55:07<26:12,  1.92s/it][A
Training...:  69% 1793/2609 [1:55:09<24:55,  1.83s/it][A
Training...:  69% 1794/2609 [1:55:10<23:38,  1.74s/it][A
Training...:  69% 1795/2609 [1:55:12<22:15,  1.64s/it][A
Training...:  69% 1796/2609 [1:55:13<20:43,  1.53s/it][A
Training...:  69% 1797/2609 [1:55:14<19:09,  1.42s/it][A
Training...:  69% 1798/2609 [1:55:15<17:16,  1.28s/it][A
Training...:  69% 1799/2609 [1:55:16<15:15,  1.13s/it][A
Training...:  69% 1800/2609 [1:55:16<12:55,  1.04it/s][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:04:45<22:42:03, 9080.38s/it]
Training...:  69% 1800/2609 [1:55:25<12:55,  1.04it/s][A
Training...:  69% 1801/2609 [1:55:25<42:43,  3.17s/it][A
Training...:  69% 1802/2609 [1:55:32<58:00,  4.31s/it][A
Training...:  69% 1803/2609 [1:55:38<1:06:29,  4.95s/it][A
Training...:  69% 1804/2609 [1:55:44<1:11:30,  5.33s/it][A
Training...:  69% 1805/2609 [1:55:50<1:14:07,  5.53s/it][A
Training...:  69% 1806/2609 [1:55:56<1:15:04,  5.61s/it][A
Training...:  69% 1807/2609 [1:56:02<1:14:32,  5.58s/it][A
Training...:  69% 1808/2609 [1:56:07<1:13:24,  5.50s/it][A
Training...:  69% 1809/2609 [1:56:12<1:11:39,  5.37s/it][A
Training...:  69% 1810/2609 [1:56:17<1:09:26,  5.21s/it][A
Training...:  69% 1811/2609 [1:56:22<1:07:53,  5.11s/it][A
Training...:  69% 1812/2609 [1:56:26<1:05:30,  4.93s/it][A
Training...:  69% 1813/2609 [1:56:31<1:04:02,  4.83s/it][A
Training...:  70% 1814/2609 [1:56:35<1:01:59,  4.68s/it][A
Training...:  70% 1815/2609 [1:56:39<1:00:20,  4.56s/it][A
Training...:  70% 1816/2609 [1:56:44<58:35,  4.43s/it]  [A
Training...:  70% 1817/2609 [1:56:48<57:23,  4.35s/it][A
Training...:  70% 1818/2609 [1:56:52<56:03,  4.25s/it][A
Training...:  70% 1819/2609 [1:56:56<54:34,  4.15s/it][A
Training...:  70% 1820/2609 [1:56:59<52:53,  4.02s/it][A
Training...:  70% 1821/2609 [1:57:03<51:21,  3.91s/it][A
Training...:  70% 1822/2609 [1:57:07<49:46,  3.79s/it][A
Training...:  70% 1823/2609 [1:57:10<48:18,  3.69s/it][A
Training...:  70% 1824/2609 [1:57:13<46:39,  3.57s/it][A
Training...:  70% 1825/2609 [1:57:16<45:16,  3.47s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:06:40<22:42:03, 9080.38s/it]
Training...:  70% 1825/2609 [1:57:20<45:16,  3.47s/it][A
Training...:  70% 1826/2609 [1:57:20<46:01,  3.53s/it][A
Training...:  70% 1827/2609 [1:57:23<44:09,  3.39s/it][A
Training...:  70% 1828/2609 [1:57:26<42:28,  3.26s/it][A
Training...:  70% 1829/2609 [1:57:29<41:03,  3.16s/it][A
Training...:  70% 1830/2609 [1:57:32<39:32,  3.05s/it][A
Training...:  70% 1831/2609 [1:57:35<38:04,  2.94s/it][A
Training...:  70% 1832/2609 [1:57:37<36:43,  2.84s/it][A
Training...:  70% 1833/2609 [1:57:40<35:31,  2.75s/it][A
Training...:  70% 1834/2609 [1:57:42<34:26,  2.67s/it][A
Training...:  70% 1835/2609 [1:57:45<33:10,  2.57s/it][A
Training...:  70% 1836/2609 [1:57:47<32:01,  2.49s/it][A
Training...:  70% 1837/2609 [1:57:49<30:55,  2.40s/it][A
Training...:  70% 1838/2609 [1:57:51<29:40,  2.31s/it][A
Training...:  70% 1839/2609 [1:57:53<28:32,  2.22s/it][A
Training...:  71% 1840/2609 [1:57:55<27:19,  2.13s/it][A
Training...:  71% 1841/2609 [1:57:57<26:15,  2.05s/it][A
Training...:  71% 1842/2609 [1:57:59<25:19,  1.98s/it][A
Training...:  71% 1843/2609 [1:58:00<24:04,  1.89s/it][A
Training...:  71% 1844/2609 [1:58:02<22:43,  1.78s/it][A
Training...:  71% 1845/2609 [1:58:03<21:23,  1.68s/it][A
Training...:  71% 1846/2609 [1:58:05<19:53,  1.56s/it][A
Training...:  71% 1847/2609 [1:58:06<18:21,  1.45s/it][A
Training...:  71% 1848/2609 [1:58:07<16:34,  1.31s/it][A
Training...:  71% 1849/2609 [1:58:08<14:42,  1.16s/it][A
Training...:  71% 1850/2609 [1:58:08<12:26,  1.02it/s][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:07:37<22:42:03, 9080.38s/it]
Training...:  71% 1850/2609 [1:58:16<12:26,  1.02it/s][A
Training...:  71% 1851/2609 [1:58:16<39:59,  3.17s/it][A
Training...:  71% 1852/2609 [1:58:24<55:00,  4.36s/it][A
Training...:  71% 1853/2609 [1:58:30<1:03:49,  5.07s/it][A
Training...:  71% 1854/2609 [1:58:37<1:08:42,  5.46s/it][A
Training...:  71% 1855/2609 [1:58:43<1:10:42,  5.63s/it][A
Training...:  71% 1856/2609 [1:58:48<1:10:40,  5.63s/it][A
Training...:  71% 1857/2609 [1:58:54<1:09:52,  5.57s/it][A
Training...:  71% 1858/2609 [1:58:59<1:08:20,  5.46s/it][A
Training...:  71% 1859/2609 [1:59:04<1:06:45,  5.34s/it][A
Training...:  71% 1860/2609 [1:59:09<1:04:49,  5.19s/it][A
Training...:  71% 1861/2609 [1:59:14<1:02:55,  5.05s/it][A
Training...:  71% 1862/2609 [1:59:18<1:00:49,  4.89s/it][A
Training...:  71% 1863/2609 [1:59:23<59:12,  4.76s/it]  [A
Training...:  71% 1864/2609 [1:59:27<58:03,  4.68s/it][A
Training...:  71% 1865/2609 [1:59:31<56:17,  4.54s/it][A
Training...:  72% 1866/2609 [1:59:35<54:14,  4.38s/it][A
Training...:  72% 1867/2609 [1:59:39<52:44,  4.26s/it][A
Training...:  72% 1868/2609 [1:59:43<51:09,  4.14s/it][A
Training...:  72% 1869/2609 [1:59:47<49:59,  4.05s/it][A
Training...:  72% 1870/2609 [1:59:51<48:45,  3.96s/it][A
Training...:  72% 1871/2609 [1:59:54<47:09,  3.83s/it][A
Training...:  72% 1872/2609 [1:59:58<45:45,  3.73s/it][A
Training...:  72% 1873/2609 [2:00:01<44:18,  3.61s/it][A
Training...:  72% 1874/2609 [2:00:04<42:58,  3.51s/it][A
Training...:  72% 1875/2609 [2:00:08<41:47,  3.42s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:09:31<22:42:03, 9080.38s/it]
Training...:  72% 1875/2609 [2:00:11<41:47,  3.42s/it][A
Training...:  72% 1876/2609 [2:00:11<42:20,  3.47s/it][A
Training...:  72% 1877/2609 [2:00:14<40:45,  3.34s/it][A
Training...:  72% 1878/2609 [2:00:17<39:21,  3.23s/it][A
Training...:  72% 1879/2609 [2:00:20<38:11,  3.14s/it][A
Training...:  72% 1880/2609 [2:00:23<36:56,  3.04s/it][A
Training...:  72% 1881/2609 [2:00:26<35:55,  2.96s/it][A
Training...:  72% 1882/2609 [2:00:28<34:34,  2.85s/it][A
Training...:  72% 1883/2609 [2:00:31<33:29,  2.77s/it][A
Training...:  72% 1884/2609 [2:00:33<32:09,  2.66s/it][A
Training...:  72% 1885/2609 [2:00:36<30:51,  2.56s/it][A
Training...:  72% 1886/2609 [2:00:38<29:43,  2.47s/it][A
Training...:  72% 1887/2609 [2:00:40<28:33,  2.37s/it][A
Training...:  72% 1888/2609 [2:00:42<27:27,  2.29s/it][A
Training...:  72% 1889/2609 [2:00:44<26:22,  2.20s/it][A
Training...:  72% 1890/2609 [2:00:46<25:06,  2.09s/it][A
Training...:  72% 1891/2609 [2:00:48<24:00,  2.01s/it][A
Training...:  73% 1892/2609 [2:00:49<23:02,  1.93s/it][A
Training...:  73% 1893/2609 [2:00:51<21:53,  1.83s/it][A
Training...:  73% 1894/2609 [2:00:53<20:36,  1.73s/it][A
Training...:  73% 1895/2609 [2:00:54<19:14,  1.62s/it][A
Training...:  73% 1896/2609 [2:00:55<17:49,  1.50s/it][A
Training...:  73% 1897/2609 [2:00:56<16:27,  1.39s/it][A
Training...:  73% 1898/2609 [2:00:57<14:57,  1.26s/it][A
Training...:  73% 1899/2609 [2:00:58<13:19,  1.13s/it][A
Training...:  73% 1900/2609 [2:00:59<11:20,  1.04it/s][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:10:27<22:42:03, 9080.38s/it]
Training...:  73% 1900/2609 [2:01:07<11:20,  1.04it/s][A
Training...:  73% 1901/2609 [2:01:07<37:33,  3.18s/it][A
Training...:  73% 1902/2609 [2:01:14<50:49,  4.31s/it][A
Training...:  73% 1903/2609 [2:01:20<58:20,  4.96s/it][A
Training...:  73% 1904/2609 [2:01:26<1:02:08,  5.29s/it][A
Training...:  73% 1905/2609 [2:01:32<1:04:16,  5.48s/it][A
Training...:  73% 1906/2609 [2:01:38<1:05:10,  5.56s/it][A
Training...:  73% 1907/2609 [2:01:44<1:05:23,  5.59s/it][A
Training...:  73% 1908/2609 [2:01:49<1:03:53,  5.47s/it][A
Training...:  73% 1909/2609 [2:01:54<1:02:10,  5.33s/it][A
Training...:  73% 1910/2609 [2:01:59<1:00:26,  5.19s/it][A
Training...:  73% 1911/2609 [2:02:04<59:03,  5.08s/it]  [A
Training...:  73% 1912/2609 [2:02:08<57:06,  4.92s/it][A
Training...:  73% 1913/2609 [2:02:13<55:19,  4.77s/it][A
Training...:  73% 1914/2609 [2:02:17<53:25,  4.61s/it][A
Training...:  73% 1915/2609 [2:02:21<52:04,  4.50s/it][A
Training...:  73% 1916/2609 [2:02:25<50:35,  4.38s/it][A
Training...:  73% 1917/2609 [2:02:29<49:23,  4.28s/it][A
Training...:  74% 1918/2609 [2:02:33<48:04,  4.17s/it][A
Training...:  74% 1919/2609 [2:02:37<46:45,  4.07s/it][A
Training...:  74% 1920/2609 [2:02:41<45:16,  3.94s/it][A
Training...:  74% 1921/2609 [2:02:44<44:01,  3.84s/it][A
Training...:  74% 1922/2609 [2:02:48<42:38,  3.72s/it][A
Training...:  74% 1923/2609 [2:02:51<41:27,  3.63s/it][A
Training...:  74% 1924/2609 [2:02:54<40:21,  3.53s/it][A
Training...:  74% 1925/2609 [2:02:58<39:25,  3.46s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:12:22<22:42:03, 9080.38s/it]
Training...:  74% 1925/2609 [2:03:01<39:25,  3.46s/it][A
Training...:  74% 1926/2609 [2:03:01<40:05,  3.52s/it][A
Training...:  74% 1927/2609 [2:03:04<38:25,  3.38s/it][A
Training...:  74% 1928/2609 [2:03:07<37:01,  3.26s/it][A
Training...:  74% 1929/2609 [2:03:10<35:51,  3.16s/it][A
Training...:  74% 1930/2609 [2:03:13<34:36,  3.06s/it][A
Training...:  74% 1931/2609 [2:03:16<33:25,  2.96s/it][A
Training...:  74% 1932/2609 [2:03:19<32:12,  2.86s/it][A
Training...:  74% 1933/2609 [2:03:21<31:16,  2.78s/it][A
Training...:  74% 1934/2609 [2:03:24<30:10,  2.68s/it][A
Training...:  74% 1935/2609 [2:03:26<29:09,  2.60s/it][A
Training...:  74% 1936/2609 [2:03:28<28:14,  2.52s/it][A
Training...:  74% 1937/2609 [2:03:31<27:13,  2.43s/it][A
Training...:  74% 1938/2609 [2:03:33<26:10,  2.34s/it][A
Training...:  74% 1939/2609 [2:03:35<25:14,  2.26s/it][A
Training...:  74% 1940/2609 [2:03:37<24:20,  2.18s/it][A
Training...:  74% 1941/2609 [2:03:39<23:19,  2.10s/it][A
Training...:  74% 1942/2609 [2:03:40<22:02,  1.98s/it][A
Training...:  74% 1943/2609 [2:03:42<20:55,  1.89s/it][A
Training...:  75% 1944/2609 [2:03:44<19:43,  1.78s/it][A
Training...:  75% 1945/2609 [2:03:45<18:42,  1.69s/it][A
Training...:  75% 1946/2609 [2:03:46<17:26,  1.58s/it][A
Training...:  75% 1947/2609 [2:03:48<16:06,  1.46s/it][A
Training...:  75% 1948/2609 [2:03:49<14:39,  1.33s/it][A
Training...:  75% 1949/2609 [2:03:49<13:00,  1.18s/it][A
Training...:  75% 1950/2609 [2:03:50<10:59,  1.00s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:13:19<22:42:03, 9080.38s/it]
Training...:  75% 1950/2609 [2:03:58<10:59,  1.00s/it][A
Training...:  75% 1951/2609 [2:03:58<35:24,  3.23s/it][A
Training...:  75% 1952/2609 [2:04:05<48:01,  4.39s/it][A
Training...:  75% 1953/2609 [2:04:12<55:12,  5.05s/it][A
Training...:  75% 1954/2609 [2:04:19<59:58,  5.49s/it][A
Training...:  75% 1955/2609 [2:04:25<1:01:38,  5.65s/it][A
Training...:  75% 1956/2609 [2:04:30<1:01:48,  5.68s/it][A
Training...:  75% 1957/2609 [2:04:36<1:01:19,  5.64s/it][A
Training...:  75% 1958/2609 [2:04:41<1:00:23,  5.57s/it][A
Training...:  75% 1959/2609 [2:04:47<58:59,  5.45s/it]  [A
Training...:  75% 1960/2609 [2:04:52<57:40,  5.33s/it][A
Training...:  75% 1961/2609 [2:04:56<56:06,  5.19s/it][A
Training...:  75% 1962/2609 [2:05:01<54:21,  5.04s/it][A
Training...:  75% 1963/2609 [2:05:06<52:46,  4.90s/it][A
Training...:  75% 1964/2609 [2:05:10<51:34,  4.80s/it][A
Training...:  75% 1965/2609 [2:05:15<50:03,  4.66s/it][A
Training...:  75% 1966/2609 [2:05:19<48:28,  4.52s/it][A
Training...:  75% 1967/2609 [2:05:23<46:54,  4.38s/it][A
Training...:  75% 1968/2609 [2:05:27<45:29,  4.26s/it][A
Training...:  75% 1969/2609 [2:05:31<44:15,  4.15s/it][A
Training...:  76% 1970/2609 [2:05:35<43:16,  4.06s/it][A
Training...:  76% 1971/2609 [2:05:38<42:18,  3.98s/it][A
Training...:  76% 1972/2609 [2:05:42<40:53,  3.85s/it][A
Training...:  76% 1973/2609 [2:05:45<39:33,  3.73s/it][A
Training...:  76% 1974/2609 [2:05:49<38:14,  3.61s/it][A
Training...:  76% 1975/2609 [2:05:52<37:02,  3.51s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:15:16<22:42:03, 9080.38s/it]
Training...:  76% 1975/2609 [2:05:56<37:02,  3.51s/it][A
Training...:  76% 1976/2609 [2:05:56<37:24,  3.55s/it][A
Training...:  76% 1977/2609 [2:05:59<35:48,  3.40s/it][A
Training...:  76% 1978/2609 [2:06:02<34:15,  3.26s/it][A
Training...:  76% 1979/2609 [2:06:05<33:11,  3.16s/it][A
Training...:  76% 1980/2609 [2:06:07<32:05,  3.06s/it][A
Training...:  76% 1981/2609 [2:06:10<31:13,  2.98s/it][A
Training...:  76% 1982/2609 [2:06:13<30:11,  2.89s/it][A
Training...:  76% 1983/2609 [2:06:15<29:22,  2.81s/it][A
Training...:  76% 1984/2609 [2:06:18<28:24,  2.73s/it][A
Training...:  76% 1985/2609 [2:06:20<27:26,  2.64s/it][A
Training...:  76% 1986/2609 [2:06:23<26:26,  2.55s/it][A
Training...:  76% 1987/2609 [2:06:25<25:29,  2.46s/it][A
Training...:  76% 1988/2609 [2:06:27<24:22,  2.36s/it][A
Training...:  76% 1989/2609 [2:06:29<23:24,  2.27s/it][A
Training...:  76% 1990/2609 [2:06:31<22:27,  2.18s/it][A
Training...:  76% 1991/2609 [2:06:33<21:30,  2.09s/it][A
Training...:  76% 1992/2609 [2:06:35<20:28,  1.99s/it][A
Training...:  76% 1993/2609 [2:06:36<19:25,  1.89s/it][A
Training...:  76% 1994/2609 [2:06:38<18:16,  1.78s/it][A
Training...:  76% 1995/2609 [2:06:39<17:07,  1.67s/it][A
Training...:  77% 1996/2609 [2:06:41<15:53,  1.56s/it][A
Training...:  77% 1997/2609 [2:06:42<14:40,  1.44s/it][A
Training...:  77% 1998/2609 [2:06:43<13:14,  1.30s/it][A
Training...:  77% 1999/2609 [2:06:44<11:45,  1.16s/it][A
Training...:  77% 2000/2609 [2:06:44<10:01,  1.01it/s][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:16:13<22:42:03, 9080.38s/it]
Training...:  77% 2000/2609 [2:06:53<10:01,  1.01it/s][A
Training...:  77% 2001/2609 [2:06:53<32:24,  3.20s/it][A
Training...:  77% 2002/2609 [2:07:00<44:07,  4.36s/it][A
Training...:  77% 2003/2609 [2:07:06<50:45,  5.03s/it][A
Training...:  77% 2004/2609 [2:07:12<54:20,  5.39s/it][A
Training...:  77% 2005/2609 [2:07:18<56:01,  5.57s/it][A
Training...:  77% 2006/2609 [2:07:24<55:59,  5.57s/it][A
Training...:  77% 2007/2609 [2:07:30<55:37,  5.54s/it][A
Training...:  77% 2008/2609 [2:07:35<54:30,  5.44s/it][A
Training...:  77% 2009/2609 [2:07:40<53:35,  5.36s/it][A
Training...:  77% 2010/2609 [2:07:45<52:21,  5.24s/it][A
Training...:  77% 2011/2609 [2:07:50<51:16,  5.15s/it][A
Training...:  77% 2012/2609 [2:07:54<49:53,  5.01s/it][A
Training...:  77% 2013/2609 [2:07:59<48:42,  4.90s/it][A
Training...:  77% 2014/2609 [2:08:03<46:58,  4.74s/it][A
Training...:  77% 2015/2609 [2:08:08<45:39,  4.61s/it][A
Training...:  77% 2016/2609 [2:08:12<44:24,  4.49s/it][A
Training...:  77% 2017/2609 [2:08:16<43:15,  4.38s/it][A
Training...:  77% 2018/2609 [2:08:20<41:46,  4.24s/it][A
Training...:  77% 2019/2609 [2:08:24<40:28,  4.12s/it][A
Training...:  77% 2020/2609 [2:08:28<39:05,  3.98s/it][A
Training...:  77% 2021/2609 [2:08:31<37:55,  3.87s/it][A
Training...:  78% 2022/2609 [2:08:35<36:43,  3.75s/it][A
Training...:  78% 2023/2609 [2:08:38<35:42,  3.66s/it][A
Training...:  78% 2024/2609 [2:08:41<34:47,  3.57s/it][A
Training...:  78% 2025/2609 [2:08:45<33:44,  3.47s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:18:09<22:42:03, 9080.38s/it]
Training...:  78% 2025/2609 [2:08:48<33:44,  3.47s/it][A
Training...:  78% 2026/2609 [2:08:48<34:09,  3.52s/it][A
Training...:  78% 2027/2609 [2:08:51<32:41,  3.37s/it][A
Training...:  78% 2028/2609 [2:08:54<31:22,  3.24s/it][A
Training...:  78% 2029/2609 [2:08:57<30:20,  3.14s/it][A
Training...:  78% 2030/2609 [2:09:00<29:18,  3.04s/it][A
Training...:  78% 2031/2609 [2:09:03<28:17,  2.94s/it][A
Training...:  78% 2032/2609 [2:09:05<27:23,  2.85s/it][A
Training...:  78% 2033/2609 [2:09:08<26:33,  2.77s/it][A
Training...:  78% 2034/2609 [2:09:10<25:34,  2.67s/it][A
Training...:  78% 2035/2609 [2:09:13<24:38,  2.58s/it][A
Training...:  78% 2036/2609 [2:09:15<23:48,  2.49s/it][A
Training...:  78% 2037/2609 [2:09:17<23:01,  2.42s/it][A
Training...:  78% 2038/2609 [2:09:19<22:05,  2.32s/it][A
Training...:  78% 2039/2609 [2:09:21<21:12,  2.23s/it][A
Training...:  78% 2040/2609 [2:09:23<20:18,  2.14s/it][A
Training...:  78% 2041/2609 [2:09:25<19:26,  2.05s/it][A
Training...:  78% 2042/2609 [2:09:27<18:33,  1.96s/it][A
Training...:  78% 2043/2609 [2:09:29<17:43,  1.88s/it][A
Training...:  78% 2044/2609 [2:09:30<16:43,  1.78s/it][A
Training...:  78% 2045/2609 [2:09:32<15:43,  1.67s/it][A
Training...:  78% 2046/2609 [2:09:33<14:39,  1.56s/it][A
Training...:  78% 2047/2609 [2:09:34<13:28,  1.44s/it][A
Training...:  78% 2048/2609 [2:09:35<12:13,  1.31s/it][A
Training...:  79% 2049/2609 [2:09:36<10:49,  1.16s/it][A
Training...:  79% 2050/2609 [2:09:36<09:12,  1.01it/s][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:19:05<22:42:03, 9080.38s/it]
Training...:  79% 2050/2609 [2:09:45<09:12,  1.01it/s][A
Training...:  79% 2051/2609 [2:09:45<29:46,  3.20s/it][A
Training...:  79% 2052/2609 [2:09:52<40:36,  4.38s/it][A
Training...:  79% 2053/2609 [2:09:59<47:14,  5.10s/it][A
Training...:  79% 2054/2609 [2:10:05<50:31,  5.46s/it][A
Training...:  79% 2055/2609 [2:10:11<52:04,  5.64s/it][A
Training...:  79% 2056/2609 [2:10:17<52:30,  5.70s/it][A
Training...:  79% 2057/2609 [2:10:23<52:30,  5.71s/it][A
Training...:  79% 2058/2609 [2:10:28<51:57,  5.66s/it][A
Training...:  79% 2059/2609 [2:10:33<50:51,  5.55s/it][A
Training...:  79% 2060/2609 [2:10:38<49:18,  5.39s/it][A
Training...:  79% 2061/2609 [2:10:43<47:47,  5.23s/it][A
Training...:  79% 2062/2609 [2:10:48<46:09,  5.06s/it][A
Training...:  79% 2063/2609 [2:10:53<44:45,  4.92s/it][A
Training...:  79% 2064/2609 [2:10:57<43:05,  4.74s/it][A
Training...:  79% 2065/2609 [2:11:01<41:35,  4.59s/it][A
Training...:  79% 2066/2609 [2:11:05<40:11,  4.44s/it][A
Training...:  79% 2067/2609 [2:11:09<38:51,  4.30s/it][A
Training...:  79% 2068/2609 [2:11:13<37:40,  4.18s/it][A
Training...:  79% 2069/2609 [2:11:17<36:45,  4.08s/it][A
Training...:  79% 2070/2609 [2:11:21<35:41,  3.97s/it][A
Training...:  79% 2071/2609 [2:11:24<34:49,  3.88s/it][A
Training...:  79% 2072/2609 [2:11:28<33:47,  3.78s/it][A
Training...:  79% 2073/2609 [2:11:31<32:56,  3.69s/it][A
Training...:  79% 2074/2609 [2:11:35<31:53,  3.58s/it][A
Training...:  80% 2075/2609 [2:11:38<31:01,  3.49s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:21:02<22:42:03, 9080.38s/it]
Training...:  80% 2075/2609 [2:11:42<31:01,  3.49s/it][A
Training...:  80% 2076/2609 [2:11:42<31:31,  3.55s/it][A
Training...:  80% 2077/2609 [2:11:45<30:19,  3.42s/it][A
Training...:  80% 2078/2609 [2:11:48<29:19,  3.31s/it][A
Training...:  80% 2079/2609 [2:11:51<28:23,  3.21s/it][A
Training...:  80% 2080/2609 [2:11:54<27:27,  3.11s/it][A
Training...:  80% 2081/2609 [2:11:56<26:36,  3.02s/it][A
Training...:  80% 2082/2609 [2:11:59<25:44,  2.93s/it][A
Training...:  80% 2083/2609 [2:12:02<24:43,  2.82s/it][A
Training...:  80% 2084/2609 [2:12:04<23:49,  2.72s/it][A
Training...:  80% 2085/2609 [2:12:07<22:59,  2.63s/it][A
Training...:  80% 2086/2609 [2:12:09<22:05,  2.53s/it][A
Training...:  80% 2087/2609 [2:12:11<21:22,  2.46s/it][A
Training...:  80% 2088/2609 [2:12:13<20:27,  2.36s/it][A
Training...:  80% 2089/2609 [2:12:15<19:34,  2.26s/it][A
Training...:  80% 2090/2609 [2:12:17<18:43,  2.16s/it][A
Training...:  80% 2091/2609 [2:12:19<17:51,  2.07s/it][A
Training...:  80% 2092/2609 [2:12:21<17:01,  1.98s/it][A
Training...:  80% 2093/2609 [2:12:23<16:08,  1.88s/it][A
Training...:  80% 2094/2609 [2:12:24<15:06,  1.76s/it][A
Training...:  80% 2095/2609 [2:12:26<14:10,  1.65s/it][A
Training...:  80% 2096/2609 [2:12:27<13:10,  1.54s/it][A
Training...:  80% 2097/2609 [2:12:28<12:05,  1.42s/it][A
Training...:  80% 2098/2609 [2:12:29<10:53,  1.28s/it][A
Training...:  80% 2099/2609 [2:12:30<09:37,  1.13s/it][A
Training...:  80% 2100/2609 [2:12:30<08:09,  1.04it/s][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:21:59<22:42:03, 9080.38s/it]
Training...:  80% 2100/2609 [2:12:39<08:09,  1.04it/s][A
Training...:  81% 2101/2609 [2:12:39<27:11,  3.21s/it][A
Training...:  81% 2102/2609 [2:12:46<37:07,  4.39s/it][A
Training...:  81% 2103/2609 [2:12:53<42:57,  5.09s/it][A
Training...:  81% 2104/2609 [2:12:59<45:35,  5.42s/it][A
Training...:  81% 2105/2609 [2:13:05<46:33,  5.54s/it][A
Training...:  81% 2106/2609 [2:13:10<46:36,  5.56s/it][A
Training...:  81% 2107/2609 [2:13:16<46:18,  5.54s/it][A
Training...:  81% 2108/2609 [2:13:21<45:19,  5.43s/it][A
Training...:  81% 2109/2609 [2:13:26<44:09,  5.30s/it][A
Training...:  81% 2110/2609 [2:13:31<42:43,  5.14s/it][A
Training...:  81% 2111/2609 [2:13:35<41:30,  5.00s/it][A
Training...:  81% 2112/2609 [2:13:40<40:25,  4.88s/it][A
Training...:  81% 2113/2609 [2:13:44<39:26,  4.77s/it][A
Training...:  81% 2114/2609 [2:13:49<38:18,  4.64s/it][A
Training...:  81% 2115/2609 [2:13:53<37:18,  4.53s/it][A
Training...:  81% 2116/2609 [2:13:57<35:58,  4.38s/it][A
Training...:  81% 2117/2609 [2:14:01<34:58,  4.26s/it][A
Training...:  81% 2118/2609 [2:14:05<33:50,  4.14s/it][A
Training...:  81% 2119/2609 [2:14:09<33:01,  4.04s/it][A
Training...:  81% 2120/2609 [2:14:12<32:13,  3.95s/it][A
Training...:  81% 2121/2609 [2:14:16<31:35,  3.89s/it][A
Training...:  81% 2122/2609 [2:14:20<30:34,  3.77s/it][A
Training...:  81% 2123/2609 [2:14:23<29:37,  3.66s/it][A
Training...:  81% 2124/2609 [2:14:26<28:41,  3.55s/it][A
Training...:  81% 2125/2609 [2:14:30<27:47,  3.45s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:23:53<22:42:03, 9080.38s/it]
Training...:  81% 2125/2609 [2:14:33<27:47,  3.45s/it][A
Training...:  81% 2126/2609 [2:14:33<28:19,  3.52s/it][A
Training...:  82% 2127/2609 [2:14:36<27:06,  3.37s/it][A
Training...:  82% 2128/2609 [2:14:39<26:08,  3.26s/it][A
Training...:  82% 2129/2609 [2:14:42<25:19,  3.17s/it][A
Training...:  82% 2130/2609 [2:14:45<24:24,  3.06s/it][A
Training...:  82% 2131/2609 [2:14:48<23:31,  2.95s/it][A
Training...:  82% 2132/2609 [2:14:50<22:41,  2.85s/it][A
Training...:  82% 2133/2609 [2:14:53<21:51,  2.76s/it][A
Training...:  82% 2134/2609 [2:14:55<21:04,  2.66s/it][A
Training...:  82% 2135/2609 [2:14:58<20:24,  2.58s/it][A
Training...:  82% 2136/2609 [2:15:00<19:40,  2.50s/it][A
Training...:  82% 2137/2609 [2:15:02<19:01,  2.42s/it][A
Training...:  82% 2138/2609 [2:15:04<18:21,  2.34s/it][A
Training...:  82% 2139/2609 [2:15:06<17:37,  2.25s/it][A
Training...:  82% 2140/2609 [2:15:08<16:55,  2.16s/it][A
Training...:  82% 2141/2609 [2:15:10<16:13,  2.08s/it][A
Training...:  82% 2142/2609 [2:15:12<15:30,  1.99s/it][A
Training...:  82% 2143/2609 [2:15:14<14:47,  1.90s/it][A
Training...:  82% 2144/2609 [2:15:15<13:57,  1.80s/it][A
Training...:  82% 2145/2609 [2:15:17<13:05,  1.69s/it][A
Training...:  82% 2146/2609 [2:15:18<12:08,  1.57s/it][A
Training...:  82% 2147/2609 [2:15:19<11:10,  1.45s/it][A
Training...:  82% 2148/2609 [2:15:20<10:04,  1.31s/it][A
Training...:  82% 2149/2609 [2:15:21<08:54,  1.16s/it][A
Training...:  82% 2150/2609 [2:15:22<07:29,  1.02it/s][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:24:50<22:42:03, 9080.38s/it]
Training...:  82% 2150/2609 [2:15:30<07:29,  1.02it/s][A
Training...:  82% 2151/2609 [2:15:30<24:19,  3.19s/it][A
Training...:  82% 2152/2609 [2:15:37<33:08,  4.35s/it][A
Training...:  83% 2153/2609 [2:15:44<38:22,  5.05s/it][A
Training...:  83% 2154/2609 [2:15:50<41:06,  5.42s/it][A
Training...:  83% 2155/2609 [2:15:56<42:18,  5.59s/it][A
Training...:  83% 2156/2609 [2:16:02<42:25,  5.62s/it][A
Training...:  83% 2157/2609 [2:16:07<42:03,  5.58s/it][A
Training...:  83% 2158/2609 [2:16:12<40:58,  5.45s/it][A
Training...:  83% 2159/2609 [2:16:17<40:01,  5.34s/it][A
Training...:  83% 2160/2609 [2:16:22<38:54,  5.20s/it][A
Training...:  83% 2161/2609 [2:16:27<37:58,  5.09s/it][A
Training...:  83% 2162/2609 [2:16:32<37:01,  4.97s/it][A
Training...:  83% 2163/2609 [2:16:36<35:56,  4.84s/it][A
Training...:  83% 2164/2609 [2:16:41<34:51,  4.70s/it][A
Training...:  83% 2165/2609 [2:16:45<33:44,  4.56s/it][A
Training...:  83% 2166/2609 [2:16:49<32:36,  4.42s/it][A
Training...:  83% 2167/2609 [2:16:53<31:41,  4.30s/it][A
Training...:  83% 2168/2609 [2:16:57<30:36,  4.16s/it][A
Training...:  83% 2169/2609 [2:17:01<29:39,  4.04s/it][A
Training...:  83% 2170/2609 [2:17:04<28:39,  3.92s/it][A
Training...:  83% 2171/2609 [2:17:08<27:50,  3.81s/it][A
Training...:  83% 2172/2609 [2:17:11<26:50,  3.69s/it][A
Training...:  83% 2173/2609 [2:17:15<26:03,  3.59s/it][A
Training...:  83% 2174/2609 [2:17:18<25:16,  3.49s/it][A
Training...:  83% 2175/2609 [2:17:21<24:32,  3.39s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:26:45<22:42:03, 9080.38s/it]
Training...:  83% 2175/2609 [2:17:25<24:32,  3.39s/it][A
Training...:  83% 2176/2609 [2:17:25<24:55,  3.45s/it][A
Training...:  83% 2177/2609 [2:17:28<23:52,  3.32s/it][A
Training...:  83% 2178/2609 [2:17:30<22:52,  3.18s/it][A
Training...:  84% 2179/2609 [2:17:33<22:05,  3.08s/it][A
Training...:  84% 2180/2609 [2:17:36<21:14,  2.97s/it][A
Training...:  84% 2181/2609 [2:17:39<20:33,  2.88s/it][A
Training...:  84% 2182/2609 [2:17:41<19:51,  2.79s/it][A
Training...:  84% 2183/2609 [2:17:44<19:09,  2.70s/it][A
Training...:  84% 2184/2609 [2:17:46<18:27,  2.61s/it][A
Training...:  84% 2185/2609 [2:17:48<17:48,  2.52s/it][A
Training...:  84% 2186/2609 [2:17:51<17:09,  2.43s/it][A
Training...:  84% 2187/2609 [2:17:53<16:30,  2.35s/it][A
Training...:  84% 2188/2609 [2:17:55<15:56,  2.27s/it][A
Training...:  84% 2189/2609 [2:17:57<15:17,  2.18s/it][A
Training...:  84% 2190/2609 [2:17:59<14:37,  2.09s/it][A
Training...:  84% 2191/2609 [2:18:01<13:56,  2.00s/it][A
Training...:  84% 2192/2609 [2:18:02<13:17,  1.91s/it][A
Training...:  84% 2193/2609 [2:18:04<12:35,  1.82s/it][A
Training...:  84% 2194/2609 [2:18:05<11:50,  1.71s/it][A
Training...:  84% 2195/2609 [2:18:07<11:05,  1.61s/it][A
Training...:  84% 2196/2609 [2:18:08<10:22,  1.51s/it][A
Training...:  84% 2197/2609 [2:18:09<09:34,  1.40s/it][A
Training...:  84% 2198/2609 [2:18:10<08:39,  1.26s/it][A
Training...:  84% 2199/2609 [2:18:11<07:39,  1.12s/it][A
Training...:  84% 2200/2609 [2:18:11<06:29,  1.05it/s][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:27:40<22:42:03, 9080.38s/it]
Training...:  84% 2200/2609 [2:18:20<06:29,  1.05it/s][A
Training...:  84% 2201/2609 [2:18:20<21:18,  3.13s/it][A
Training...:  84% 2202/2609 [2:18:27<29:46,  4.39s/it][A
Training...:  84% 2203/2609 [2:18:34<34:19,  5.07s/it][A
Training...:  84% 2204/2609 [2:18:40<36:48,  5.45s/it][A
Training...:  85% 2205/2609 [2:18:46<38:08,  5.67s/it][A
Training...:  85% 2206/2609 [2:18:52<38:47,  5.78s/it][A
Training...:  85% 2207/2609 [2:18:58<38:17,  5.71s/it][A
Training...:  85% 2208/2609 [2:19:03<37:23,  5.60s/it][A
Training...:  85% 2209/2609 [2:19:08<36:21,  5.45s/it][A
Training...:  85% 2210/2609 [2:19:13<35:09,  5.29s/it][A
Training...:  85% 2211/2609 [2:19:18<34:13,  5.16s/it][A
Training...:  85% 2212/2609 [2:19:23<33:00,  4.99s/it][A
Training...:  85% 2213/2609 [2:19:27<31:59,  4.85s/it][A
Training...:  85% 2214/2609 [2:19:31<30:49,  4.68s/it][A
Training...:  85% 2215/2609 [2:19:36<29:53,  4.55s/it][A
Training...:  85% 2216/2609 [2:19:40<28:59,  4.43s/it][A
Training...:  85% 2217/2609 [2:19:44<28:09,  4.31s/it][A
Training...:  85% 2218/2609 [2:19:48<27:11,  4.17s/it][A
Training...:  85% 2219/2609 [2:19:51<26:23,  4.06s/it][A
Training...:  85% 2220/2609 [2:19:55<25:34,  3.95s/it][A
Training...:  85% 2221/2609 [2:19:59<25:00,  3.87s/it][A
Training...:  85% 2222/2609 [2:20:02<24:22,  3.78s/it][A
Training...:  85% 2223/2609 [2:20:06<23:41,  3.68s/it][A
Training...:  85% 2224/2609 [2:20:09<22:52,  3.56s/it][A
Training...:  85% 2225/2609 [2:20:12<22:13,  3.47s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:29:36<22:42:03, 9080.38s/it]
Training...:  85% 2225/2609 [2:20:16<22:13,  3.47s/it][A
Training...:  85% 2226/2609 [2:20:16<22:23,  3.51s/it][A
Training...:  85% 2227/2609 [2:20:19<21:28,  3.37s/it][A
Training...:  85% 2228/2609 [2:20:22<20:39,  3.25s/it][A
Training...:  85% 2229/2609 [2:20:25<19:54,  3.14s/it][A
Training...:  85% 2230/2609 [2:20:28<19:19,  3.06s/it][A
Training...:  86% 2231/2609 [2:20:30<18:43,  2.97s/it][A
Training...:  86% 2232/2609 [2:20:33<18:02,  2.87s/it][A
Training...:  86% 2233/2609 [2:20:36<17:29,  2.79s/it][A
Training...:  86% 2234/2609 [2:20:38<16:44,  2.68s/it][A
Training...:  86% 2235/2609 [2:20:40<16:01,  2.57s/it][A
Training...:  86% 2236/2609 [2:20:43<15:21,  2.47s/it][A
Training...:  86% 2237/2609 [2:20:45<14:44,  2.38s/it][A
Training...:  86% 2238/2609 [2:20:47<14:06,  2.28s/it][A
Training...:  86% 2239/2609 [2:20:49<13:30,  2.19s/it][A
Training...:  86% 2240/2609 [2:20:51<12:52,  2.09s/it][A
Training...:  86% 2241/2609 [2:20:53<12:18,  2.01s/it][A
Training...:  86% 2242/2609 [2:20:54<11:43,  1.92s/it][A
Training...:  86% 2243/2609 [2:20:56<11:06,  1.82s/it][A
Training...:  86% 2244/2609 [2:20:57<10:28,  1.72s/it][A
Training...:  86% 2245/2609 [2:20:59<09:47,  1.61s/it][A
Training...:  86% 2246/2609 [2:21:00<09:03,  1.50s/it][A
Training...:  86% 2247/2609 [2:21:01<08:22,  1.39s/it][A
Training...:  86% 2248/2609 [2:21:02<07:37,  1.27s/it][A
Training...:  86% 2249/2609 [2:21:03<06:46,  1.13s/it][A
Training...:  86% 2250/2609 [2:21:03<05:44,  1.04it/s][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:30:32<22:42:03, 9080.38s/it]
Training...:  86% 2250/2609 [2:21:12<05:44,  1.04it/s][A
Training...:  86% 2251/2609 [2:21:12<19:19,  3.24s/it][A
Training...:  86% 2252/2609 [2:21:19<26:11,  4.40s/it][A
Training...:  86% 2253/2609 [2:21:26<30:21,  5.12s/it][A
Training...:  86% 2254/2609 [2:21:32<32:29,  5.49s/it][A
Training...:  86% 2255/2609 [2:21:38<33:24,  5.66s/it][A
Training...:  86% 2256/2609 [2:21:44<33:24,  5.68s/it][A
Training...:  87% 2257/2609 [2:21:50<33:11,  5.66s/it][A
Training...:  87% 2258/2609 [2:21:55<32:28,  5.55s/it][A
Training...:  87% 2259/2609 [2:22:00<31:42,  5.43s/it][A
Training...:  87% 2260/2609 [2:22:05<30:44,  5.29s/it][A
Training...:  87% 2261/2609 [2:22:10<29:58,  5.17s/it][A
Training...:  87% 2262/2609 [2:22:15<29:10,  5.05s/it][A
Training...:  87% 2263/2609 [2:22:19<28:22,  4.92s/it][A
Training...:  87% 2264/2609 [2:22:24<27:35,  4.80s/it][A
Training...:  87% 2265/2609 [2:22:28<26:41,  4.65s/it][A
Training...:  87% 2266/2609 [2:22:32<25:50,  4.52s/it][A
Training...:  87% 2267/2609 [2:22:36<24:55,  4.37s/it][A
Training...:  87% 2268/2609 [2:22:40<24:04,  4.24s/it][A
Training...:  87% 2269/2609 [2:22:44<23:27,  4.14s/it][A
Training...:  87% 2270/2609 [2:22:48<22:50,  4.04s/it][A
Training...:  87% 2271/2609 [2:22:52<22:16,  3.95s/it][A
Training...:  87% 2272/2609 [2:22:55<21:33,  3.84s/it][A
Training...:  87% 2273/2609 [2:22:59<20:52,  3.73s/it][A
Training...:  87% 2274/2609 [2:23:02<20:13,  3.62s/it][A
Training...:  87% 2275/2609 [2:23:06<19:38,  3.53s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:32:29<22:42:03, 9080.38s/it]
Training...:  87% 2275/2609 [2:23:09<19:38,  3.53s/it][A
Training...:  87% 2276/2609 [2:23:09<19:47,  3.57s/it][A
Training...:  87% 2277/2609 [2:23:12<18:57,  3.43s/it][A
Training...:  87% 2278/2609 [2:23:15<18:10,  3.30s/it][A
Training...:  87% 2279/2609 [2:23:18<17:35,  3.20s/it][A
Training...:  87% 2280/2609 [2:23:21<16:57,  3.09s/it][A
Training...:  87% 2281/2609 [2:23:24<16:20,  2.99s/it][A
Training...:  87% 2282/2609 [2:23:26<15:44,  2.89s/it][A
Training...:  88% 2283/2609 [2:23:29<15:11,  2.80s/it][A
Training...:  88% 2284/2609 [2:23:32<14:39,  2.71s/it][A
Training...:  88% 2285/2609 [2:23:34<14:10,  2.62s/it][A
Training...:  88% 2286/2609 [2:23:36<13:41,  2.54s/it][A
Training...:  88% 2287/2609 [2:23:39<13:09,  2.45s/it][A
Training...:  88% 2288/2609 [2:23:41<12:35,  2.35s/it][A
Training...:  88% 2289/2609 [2:23:43<12:03,  2.26s/it][A
Training...:  88% 2290/2609 [2:23:45<11:33,  2.17s/it][A
Training...:  88% 2291/2609 [2:23:47<11:02,  2.08s/it][A
Training...:  88% 2292/2609 [2:23:48<10:29,  1.98s/it][A
Training...:  88% 2293/2609 [2:23:50<09:55,  1.88s/it][A
Training...:  88% 2294/2609 [2:23:52<09:19,  1.78s/it][A
Training...:  88% 2295/2609 [2:23:53<08:42,  1.66s/it][A
Training...:  88% 2296/2609 [2:23:54<08:04,  1.55s/it][A
Training...:  88% 2297/2609 [2:23:55<07:22,  1.42s/it][A
Training...:  88% 2298/2609 [2:23:56<06:39,  1.28s/it][A
Training...:  88% 2299/2609 [2:23:57<05:52,  1.14s/it][A
Training...:  88% 2300/2609 [2:23:58<04:56,  1.04it/s][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:33:26<22:42:03, 9080.38s/it]
Training...:  88% 2300/2609 [2:24:06<04:56,  1.04it/s][A
Training...:  88% 2301/2609 [2:24:06<16:21,  3.19s/it][A
Training...:  88% 2302/2609 [2:24:13<22:13,  4.35s/it][A
Training...:  88% 2303/2609 [2:24:20<25:26,  4.99s/it][A
Training...:  88% 2304/2609 [2:24:26<27:09,  5.34s/it][A
Training...:  88% 2305/2609 [2:24:32<27:52,  5.50s/it][A
Training...:  88% 2306/2609 [2:24:37<27:54,  5.53s/it][A
Training...:  88% 2307/2609 [2:24:43<27:50,  5.53s/it][A
Training...:  88% 2308/2609 [2:24:48<27:23,  5.46s/it][A
Training...:  89% 2309/2609 [2:24:53<27:06,  5.42s/it][A
Training...:  89% 2310/2609 [2:24:58<26:21,  5.29s/it][A
Training...:  89% 2311/2609 [2:25:03<25:33,  5.15s/it][A
Training...:  89% 2312/2609 [2:25:08<24:43,  5.00s/it][A
Training...:  89% 2313/2609 [2:25:12<24:06,  4.89s/it][A
Training...:  89% 2314/2609 [2:25:17<23:27,  4.77s/it][A
Training...:  89% 2315/2609 [2:25:22<23:08,  4.72s/it][A
Training...:  89% 2316/2609 [2:25:26<22:32,  4.62s/it][A
Training...:  89% 2317/2609 [2:25:30<22:09,  4.55s/it][A
Training...:  89% 2318/2609 [2:25:34<21:29,  4.43s/it][A
Training...:  89% 2319/2609 [2:25:39<20:53,  4.32s/it][A
Training...:  89% 2320/2609 [2:25:42<20:13,  4.20s/it][A
Training...:  89% 2321/2609 [2:25:46<19:44,  4.11s/it][A
Training...:  89% 2322/2609 [2:25:50<19:03,  3.98s/it][A
Training...:  89% 2323/2609 [2:25:54<18:31,  3.89s/it][A
Training...:  89% 2324/2609 [2:25:57<17:58,  3.79s/it][A
Training...:  89% 2325/2609 [2:26:01<17:33,  3.71s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:35:25<22:42:03, 9080.38s/it]
Training...:  89% 2325/2609 [2:26:05<17:33,  3.71s/it][A
Training...:  89% 2326/2609 [2:26:05<17:38,  3.74s/it][A
Training...:  89% 2327/2609 [2:26:08<16:59,  3.62s/it][A
Training...:  89% 2328/2609 [2:26:11<16:19,  3.49s/it][A
Training...:  89% 2329/2609 [2:26:14<15:48,  3.39s/it][A
Training...:  89% 2330/2609 [2:26:17<15:14,  3.28s/it][A
Training...:  89% 2331/2609 [2:26:20<14:45,  3.18s/it][A
Training...:  89% 2332/2609 [2:26:23<14:10,  3.07s/it][A
Training...:  89% 2333/2609 [2:26:26<13:43,  2.98s/it][A
Training...:  89% 2334/2609 [2:26:29<13:18,  2.91s/it][A
Training...:  89% 2335/2609 [2:26:31<12:50,  2.81s/it][A
Training...:  90% 2336/2609 [2:26:34<12:15,  2.69s/it][A
Training...:  90% 2337/2609 [2:26:36<11:37,  2.57s/it][A
Training...:  90% 2338/2609 [2:26:38<10:56,  2.42s/it][A
Training...:  90% 2339/2609 [2:26:40<10:24,  2.31s/it][A
Training...:  90% 2340/2609 [2:26:42<09:55,  2.21s/it][A
Training...:  90% 2341/2609 [2:26:44<09:26,  2.11s/it][A
Training...:  90% 2342/2609 [2:26:46<08:53,  2.00s/it][A
Training...:  90% 2343/2609 [2:26:47<08:24,  1.90s/it][A
Training...:  90% 2344/2609 [2:26:49<07:52,  1.78s/it][A
Training...:  90% 2345/2609 [2:26:50<07:19,  1.66s/it][A
Training...:  90% 2346/2609 [2:26:51<06:44,  1.54s/it][A
Training...:  90% 2347/2609 [2:26:52<06:08,  1.40s/it][A
Training...:  90% 2348/2609 [2:26:53<05:29,  1.26s/it][A
Training...:  90% 2349/2609 [2:26:54<04:49,  1.11s/it][A
Training...:  90% 2350/2609 [2:26:55<04:04,  1.06it/s][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:36:23<22:42:03, 9080.38s/it]
Training...:  90% 2350/2609 [2:27:03<04:04,  1.06it/s][A
Training...:  90% 2351/2609 [2:27:03<13:39,  3.17s/it][A
Training...:  90% 2352/2609 [2:27:10<18:38,  4.35s/it][A
Training...:  90% 2353/2609 [2:27:17<21:21,  5.01s/it][A
Training...:  90% 2354/2609 [2:27:23<22:44,  5.35s/it][A
Training...:  90% 2355/2609 [2:27:29<23:23,  5.53s/it][A
Training...:  90% 2356/2609 [2:27:35<23:34,  5.59s/it][A
Training...:  90% 2357/2609 [2:27:40<23:26,  5.58s/it][A
Training...:  90% 2358/2609 [2:27:45<22:56,  5.48s/it][A
Training...:  90% 2359/2609 [2:27:51<22:26,  5.39s/it][A
Training...:  90% 2360/2609 [2:27:56<21:54,  5.28s/it][A
Training...:  90% 2361/2609 [2:28:00<21:16,  5.15s/it][A
Training...:  91% 2362/2609 [2:28:05<20:35,  5.00s/it][A
Training...:  91% 2363/2609 [2:28:10<20:04,  4.90s/it][A
Training...:  91% 2364/2609 [2:28:14<19:22,  4.75s/it][A
Training...:  91% 2365/2609 [2:28:18<18:47,  4.62s/it][A
Training...:  91% 2366/2609 [2:28:23<18:17,  4.52s/it][A
Training...:  91% 2367/2609 [2:28:27<17:43,  4.40s/it][A
Training...:  91% 2368/2609 [2:28:31<17:02,  4.24s/it][A
Training...:  91% 2369/2609 [2:28:35<16:34,  4.15s/it][A
Training...:  91% 2370/2609 [2:28:38<16:03,  4.03s/it][A
Training...:  91% 2371/2609 [2:28:42<15:29,  3.91s/it][A
Training...:  91% 2372/2609 [2:28:46<14:59,  3.80s/it][A
Training...:  91% 2373/2609 [2:28:49<14:31,  3.69s/it][A
Training...:  91% 2374/2609 [2:28:52<14:04,  3.59s/it][A
Training...:  91% 2375/2609 [2:28:56<13:35,  3.49s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:38:19<22:42:03, 9080.38s/it]
Training...:  91% 2375/2609 [2:28:59<13:35,  3.49s/it][A
Training...:  91% 2376/2609 [2:28:59<13:45,  3.54s/it][A
Training...:  91% 2377/2609 [2:29:02<13:09,  3.40s/it][A
Training...:  91% 2378/2609 [2:29:05<12:37,  3.28s/it][A
Training...:  91% 2379/2609 [2:29:08<12:11,  3.18s/it][A
Training...:  91% 2380/2609 [2:29:11<11:45,  3.08s/it][A
Training...:  91% 2381/2609 [2:29:14<11:22,  3.00s/it][A
Training...:  91% 2382/2609 [2:29:17<10:58,  2.90s/it][A
Training...:  91% 2383/2609 [2:29:19<10:35,  2.81s/it][A
Training...:  91% 2384/2609 [2:29:22<10:11,  2.72s/it][A
Training...:  91% 2385/2609 [2:29:24<09:49,  2.63s/it][A
Training...:  91% 2386/2609 [2:29:26<09:25,  2.54s/it][A
Training...:  91% 2387/2609 [2:29:29<09:07,  2.47s/it][A
Training...:  92% 2388/2609 [2:29:31<08:42,  2.37s/it][A
Training...:  92% 2389/2609 [2:29:33<08:19,  2.27s/it][A
Training...:  92% 2390/2609 [2:29:35<07:55,  2.17s/it][A
Training...:  92% 2391/2609 [2:29:37<07:31,  2.07s/it][A
Training...:  92% 2392/2609 [2:29:38<07:10,  1.98s/it][A
Training...:  92% 2393/2609 [2:29:40<06:49,  1.90s/it][A
Training...:  92% 2394/2609 [2:29:42<06:24,  1.79s/it][A
Training...:  92% 2395/2609 [2:29:43<06:00,  1.68s/it][A
Training...:  92% 2396/2609 [2:29:44<05:32,  1.56s/it][A
Training...:  92% 2397/2609 [2:29:46<05:04,  1.44s/it][A
Training...:  92% 2398/2609 [2:29:47<04:33,  1.30s/it][A
Training...:  92% 2399/2609 [2:29:47<04:00,  1.15s/it][A
Training...:  92% 2400/2609 [2:29:48<03:22,  1.03it/s][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:39:16<22:42:03, 9080.38s/it]
Training...:  92% 2400/2609 [2:29:56<03:22,  1.03it/s][A
Training...:  92% 2401/2609 [2:29:56<10:56,  3.16s/it][A
Training...:  92% 2402/2609 [2:30:03<14:50,  4.30s/it][A
Training...:  92% 2403/2609 [2:30:10<17:00,  4.96s/it][A
Training...:  92% 2404/2609 [2:30:16<18:07,  5.30s/it][A
Training...:  92% 2405/2609 [2:30:22<18:38,  5.48s/it][A
Training...:  92% 2406/2609 [2:30:27<18:40,  5.52s/it][A
Training...:  92% 2407/2609 [2:30:33<18:26,  5.48s/it][A
Training...:  92% 2408/2609 [2:30:38<18:07,  5.41s/it][A
Training...:  92% 2409/2609 [2:30:43<17:51,  5.36s/it][A
Training...:  92% 2410/2609 [2:30:48<17:23,  5.24s/it][A
Training...:  92% 2411/2609 [2:30:53<16:52,  5.11s/it][A
Training...:  92% 2412/2609 [2:30:57<16:15,  4.95s/it][A
Training...:  92% 2413/2609 [2:31:02<15:43,  4.81s/it][A
Training...:  93% 2414/2609 [2:31:06<15:13,  4.69s/it][A
Training...:  93% 2415/2609 [2:31:11<14:47,  4.58s/it][A
Training...:  93% 2416/2609 [2:31:15<14:17,  4.44s/it][A
Training...:  93% 2417/2609 [2:31:19<13:51,  4.33s/it][A
Training...:  93% 2418/2609 [2:31:23<13:25,  4.21s/it][A
Training...:  93% 2419/2609 [2:31:27<13:04,  4.13s/it][A
Training...:  93% 2420/2609 [2:31:30<12:36,  4.00s/it][A
Training...:  93% 2421/2609 [2:31:34<12:14,  3.91s/it][A
Training...:  93% 2422/2609 [2:31:38<11:48,  3.79s/it][A
Training...:  93% 2423/2609 [2:31:41<11:25,  3.69s/it][A
Training...:  93% 2424/2609 [2:31:44<11:03,  3.59s/it][A
Training...:  93% 2425/2609 [2:31:48<10:42,  3.49s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:41:12<22:42:03, 9080.38s/it]
Training...:  93% 2425/2609 [2:31:51<10:42,  3.49s/it][A
Training...:  93% 2426/2609 [2:31:51<10:48,  3.54s/it][A
Training...:  93% 2427/2609 [2:31:54<10:19,  3.40s/it][A
Training...:  93% 2428/2609 [2:31:57<09:53,  3.28s/it][A
Training...:  93% 2429/2609 [2:32:00<09:33,  3.18s/it][A
Training...:  93% 2430/2609 [2:32:03<09:14,  3.10s/it][A
Training...:  93% 2431/2609 [2:32:06<08:55,  3.01s/it][A
Training...:  93% 2432/2609 [2:32:09<08:37,  2.93s/it][A
Training...:  93% 2433/2609 [2:32:11<08:19,  2.84s/it][A
Training...:  93% 2434/2609 [2:32:14<07:59,  2.74s/it][A
Training...:  93% 2435/2609 [2:32:16<07:40,  2.65s/it][A
Training...:  93% 2436/2609 [2:32:19<07:21,  2.55s/it][A
Training...:  93% 2437/2609 [2:32:21<07:05,  2.47s/it][A
Training...:  93% 2438/2609 [2:32:23<06:45,  2.37s/it][A
Training...:  93% 2439/2609 [2:32:25<06:26,  2.28s/it][A
Training...:  94% 2440/2609 [2:32:27<06:08,  2.18s/it][A
Training...:  94% 2441/2609 [2:32:29<05:49,  2.08s/it][A
Training...:  94% 2442/2609 [2:32:31<05:30,  1.98s/it][A
Training...:  94% 2443/2609 [2:32:32<05:12,  1.88s/it][A
Training...:  94% 2444/2609 [2:32:34<04:53,  1.78s/it][A
Training...:  94% 2445/2609 [2:32:35<04:34,  1.67s/it][A
Training...:  94% 2446/2609 [2:32:37<04:13,  1.56s/it][A
Training...:  94% 2447/2609 [2:32:38<03:52,  1.43s/it][A
Training...:  94% 2448/2609 [2:32:39<03:28,  1.30s/it][A
Training...:  94% 2449/2609 [2:32:40<03:03,  1.15s/it][A
Training...:  94% 2450/2609 [2:32:40<02:33,  1.04it/s][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:42:09<22:42:03, 9080.38s/it]
Training...:  94% 2450/2609 [2:32:48<02:33,  1.04it/s][A
Training...:  94% 2451/2609 [2:32:48<08:17,  3.15s/it][A
Training...:  94% 2452/2609 [2:32:55<11:13,  4.29s/it][A
Training...:  94% 2453/2609 [2:33:02<12:56,  4.98s/it][A
Training...:  94% 2454/2609 [2:33:08<13:53,  5.38s/it][A
Training...:  94% 2455/2609 [2:33:14<14:17,  5.57s/it][A
Training...:  94% 2456/2609 [2:33:20<14:19,  5.62s/it][A
Training...:  94% 2457/2609 [2:33:25<14:07,  5.58s/it][A
Training...:  94% 2458/2609 [2:33:31<13:49,  5.49s/it][A
Training...:  94% 2459/2609 [2:33:36<13:33,  5.42s/it][A
Training...:  94% 2460/2609 [2:33:41<13:05,  5.27s/it][A
Training...:  94% 2461/2609 [2:33:46<12:42,  5.15s/it][A
Training...:  94% 2462/2609 [2:33:50<12:15,  5.01s/it][A
Training...:  94% 2463/2609 [2:33:55<11:53,  4.89s/it][A
Training...:  94% 2464/2609 [2:34:00<11:34,  4.79s/it][A
Training...:  94% 2465/2609 [2:34:04<11:13,  4.68s/it][A
Training...:  95% 2466/2609 [2:34:08<10:50,  4.55s/it][A
Training...:  95% 2467/2609 [2:34:12<10:27,  4.42s/it][A
Training...:  95% 2468/2609 [2:34:16<10:04,  4.29s/it][A
Training...:  95% 2469/2609 [2:34:20<09:43,  4.17s/it][A
Training...:  95% 2470/2609 [2:34:24<09:21,  4.04s/it][A
Training...:  95% 2471/2609 [2:34:28<09:01,  3.93s/it][A
Training...:  95% 2472/2609 [2:34:31<08:43,  3.82s/it][A
Training...:  95% 2473/2609 [2:34:35<08:25,  3.72s/it][A
Training...:  95% 2474/2609 [2:34:38<08:06,  3.61s/it][A
Training...:  95% 2475/2609 [2:34:41<07:53,  3.53s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:44:05<22:42:03, 9080.38s/it]
Training...:  95% 2475/2609 [2:34:45<07:53,  3.53s/it][A
Training...:  95% 2476/2609 [2:34:45<07:58,  3.59s/it][A
Training...:  95% 2477/2609 [2:34:48<07:36,  3.46s/it][A
Training...:  95% 2478/2609 [2:34:51<07:19,  3.36s/it][A
Training...:  95% 2479/2609 [2:34:54<07:03,  3.26s/it][A
Training...:  95% 2480/2609 [2:34:57<06:46,  3.15s/it][A
Training...:  95% 2481/2609 [2:35:00<06:30,  3.05s/it][A
Training...:  95% 2482/2609 [2:35:03<06:12,  2.93s/it][A
Training...:  95% 2483/2609 [2:35:05<05:57,  2.84s/it][A
Training...:  95% 2484/2609 [2:35:08<05:41,  2.73s/it][A
Training...:  95% 2485/2609 [2:35:10<05:26,  2.64s/it][A
Training...:  95% 2486/2609 [2:35:13<05:12,  2.54s/it][A
Training...:  95% 2487/2609 [2:35:15<04:58,  2.45s/it][A
Training...:  95% 2488/2609 [2:35:17<04:45,  2.36s/it][A
Training...:  95% 2489/2609 [2:35:19<04:31,  2.26s/it][A
Training...:  95% 2490/2609 [2:35:21<04:17,  2.16s/it][A
Training...:  95% 2491/2609 [2:35:23<04:04,  2.08s/it][A
Training...:  96% 2492/2609 [2:35:25<03:51,  1.98s/it][A
Training...:  96% 2493/2609 [2:35:26<03:38,  1.88s/it][A
Training...:  96% 2494/2609 [2:35:28<03:24,  1.78s/it][A
Training...:  96% 2495/2609 [2:35:29<03:11,  1.68s/it][A
Training...:  96% 2496/2609 [2:35:31<02:57,  1.57s/it][A
Training...:  96% 2497/2609 [2:35:32<02:42,  1.46s/it][A
Training...:  96% 2498/2609 [2:35:33<02:27,  1.33s/it][A
Training...:  96% 2499/2609 [2:35:34<02:09,  1.18s/it][A
Training...:  96% 2500/2609 [2:35:34<01:48,  1.01it/s][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:45:03<22:42:03, 9080.38s/it]
Training...:  96% 2500/2609 [2:35:43<01:48,  1.01it/s][A
Training...:  96% 2501/2609 [2:35:43<05:44,  3.19s/it][A
Training...:  96% 2502/2609 [2:35:50<07:44,  4.34s/it][A
Training...:  96% 2503/2609 [2:35:56<08:49,  4.99s/it][A
Training...:  96% 2504/2609 [2:36:02<09:22,  5.36s/it][A
Training...:  96% 2505/2609 [2:36:08<09:34,  5.52s/it][A
Training...:  96% 2506/2609 [2:36:14<09:33,  5.56s/it][A
Training...:  96% 2507/2609 [2:36:19<09:23,  5.53s/it][A
Training...:  96% 2508/2609 [2:36:24<09:04,  5.39s/it][A
Training...:  96% 2509/2609 [2:36:29<08:50,  5.31s/it][A
Training...:  96% 2510/2609 [2:36:34<08:32,  5.18s/it][A
Training...:  96% 2511/2609 [2:36:39<08:16,  5.07s/it][A
Training...:  96% 2512/2609 [2:36:44<07:56,  4.91s/it][A
Training...:  96% 2513/2609 [2:36:48<07:41,  4.80s/it][A
Training...:  96% 2514/2609 [2:36:53<07:23,  4.67s/it][A
Training...:  96% 2515/2609 [2:36:57<07:05,  4.53s/it][A
Training...:  96% 2516/2609 [2:37:01<06:49,  4.40s/it][A
Training...:  96% 2517/2609 [2:37:05<06:37,  4.32s/it][A
Training...:  97% 2518/2609 [2:37:09<06:23,  4.21s/it][A
Training...:  97% 2519/2609 [2:37:13<06:11,  4.12s/it][A
Training...:  97% 2520/2609 [2:37:17<05:56,  4.01s/it][A
Training...:  97% 2521/2609 [2:37:20<05:43,  3.90s/it][A
Training...:  97% 2522/2609 [2:37:24<05:27,  3.76s/it][A
Training...:  97% 2523/2609 [2:37:27<05:13,  3.65s/it][A
Training...:  97% 2524/2609 [2:37:30<05:01,  3.55s/it][A
Training...:  97% 2525/2609 [2:37:34<04:49,  3.45s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:46:58<22:42:03, 9080.38s/it]
Training...:  97% 2525/2609 [2:37:37<04:49,  3.45s/it][A
Training...:  97% 2526/2609 [2:37:37<04:50,  3.50s/it][A
Training...:  97% 2527/2609 [2:37:40<04:36,  3.37s/it][A
Training...:  97% 2528/2609 [2:37:43<04:23,  3.26s/it][A
Training...:  97% 2529/2609 [2:37:46<04:12,  3.16s/it][A
Training...:  97% 2530/2609 [2:37:49<04:01,  3.06s/it][A
Training...:  97% 2531/2609 [2:37:52<03:51,  2.97s/it][A
Training...:  97% 2532/2609 [2:37:55<03:41,  2.88s/it][A
Training...:  97% 2533/2609 [2:37:57<03:32,  2.80s/it][A
Training...:  97% 2534/2609 [2:38:00<03:22,  2.69s/it][A
Training...:  97% 2535/2609 [2:38:02<03:13,  2.61s/it][A
Training...:  97% 2536/2609 [2:38:04<03:04,  2.53s/it][A
Training...:  97% 2537/2609 [2:38:07<02:55,  2.44s/it][A
Training...:  97% 2538/2609 [2:38:09<02:46,  2.35s/it][A
Training...:  97% 2539/2609 [2:38:11<02:38,  2.26s/it][A
Training...:  97% 2540/2609 [2:38:13<02:29,  2.16s/it][A
Training...:  97% 2541/2609 [2:38:15<02:20,  2.07s/it][A
Training...:  97% 2542/2609 [2:38:16<02:12,  1.97s/it][A
Training...:  97% 2543/2609 [2:38:18<02:04,  1.88s/it][A
Training...:  98% 2544/2609 [2:38:20<01:55,  1.78s/it][A
Training...:  98% 2545/2609 [2:38:21<01:47,  1.68s/it][A
Training...:  98% 2546/2609 [2:38:22<01:38,  1.57s/it][A
Training...:  98% 2547/2609 [2:38:23<01:30,  1.45s/it][A
Training...:  98% 2548/2609 [2:38:25<01:20,  1.33s/it][A
Training...:  98% 2549/2609 [2:38:25<01:10,  1.18s/it][A
Training...:  98% 2550/2609 [2:38:26<00:59,  1.01s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:47:55<22:42:03, 9080.38s/it]
Training...:  98% 2550/2609 [2:38:34<00:59,  1.01s/it][A
Training...:  98% 2551/2609 [2:38:34<03:05,  3.20s/it][A
Training...:  98% 2552/2609 [2:38:41<04:08,  4.36s/it][A
Training...:  98% 2553/2609 [2:38:48<04:43,  5.06s/it][A
Training...:  98% 2554/2609 [2:38:54<05:00,  5.47s/it][A
Training...:  98% 2555/2609 [2:39:01<05:06,  5.67s/it][A
Training...:  98% 2556/2609 [2:39:06<05:03,  5.73s/it][A
Training...:  98% 2557/2609 [2:39:12<04:57,  5.72s/it][A
Training...:  98% 2558/2609 [2:39:18<04:46,  5.61s/it][A
Training...:  98% 2559/2609 [2:39:23<04:35,  5.51s/it][A
Training...:  98% 2560/2609 [2:39:28<04:24,  5.40s/it][A
Training...:  98% 2561/2609 [2:39:33<04:12,  5.27s/it][A
Training...:  98% 2562/2609 [2:39:38<03:59,  5.09s/it][A
Training...:  98% 2563/2609 [2:39:42<03:46,  4.93s/it][A
Training...:  98% 2564/2609 [2:39:47<03:34,  4.77s/it][A
Training...:  98% 2565/2609 [2:39:51<03:24,  4.64s/it][A
Training...:  98% 2566/2609 [2:39:55<03:12,  4.47s/it][A
Training...:  98% 2567/2609 [2:39:59<03:02,  4.35s/it][A
Training...:  98% 2568/2609 [2:40:03<02:52,  4.21s/it][A
Training...:  98% 2569/2609 [2:40:07<02:43,  4.10s/it][A
Training...:  99% 2570/2609 [2:40:10<02:35,  3.98s/it][A
Training...:  99% 2571/2609 [2:40:14<02:27,  3.89s/it][A
Training...:  99% 2572/2609 [2:40:18<02:19,  3.78s/it][A
Training...:  99% 2573/2609 [2:40:21<02:12,  3.68s/it][A
Training...:  99% 2574/2609 [2:40:24<02:05,  3.57s/it][A
Training...:  99% 2575/2609 [2:40:28<01:57,  3.47s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:49:51<22:42:03, 9080.38s/it]
Training...:  99% 2575/2609 [2:40:31<01:57,  3.47s/it][A
Training...:  99% 2576/2609 [2:40:31<01:55,  3.50s/it][A
Training...:  99% 2577/2609 [2:40:34<01:47,  3.36s/it][A
Training...:  99% 2578/2609 [2:40:37<01:40,  3.25s/it][A
Training...:  99% 2579/2609 [2:40:40<01:35,  3.17s/it][A
Training...:  99% 2580/2609 [2:40:43<01:28,  3.06s/it][A
Training...:  99% 2581/2609 [2:40:46<01:22,  2.96s/it][A
Training...:  99% 2582/2609 [2:40:48<01:17,  2.87s/it][A
Training...:  99% 2583/2609 [2:40:51<01:12,  2.78s/it][A
Training...:  99% 2584/2609 [2:40:53<01:07,  2.69s/it][A
Training...:  99% 2585/2609 [2:40:56<01:02,  2.60s/it][A
Training...:  99% 2586/2609 [2:40:58<00:57,  2.51s/it][A
Training...:  99% 2587/2609 [2:41:00<00:53,  2.43s/it][A
Training...:  99% 2588/2609 [2:41:03<00:49,  2.34s/it][A
Training...:  99% 2589/2609 [2:41:05<00:44,  2.25s/it][A
Training...:  99% 2590/2609 [2:41:07<00:40,  2.15s/it][A
Training...:  99% 2591/2609 [2:41:08<00:37,  2.07s/it][A
Training...:  99% 2592/2609 [2:41:10<00:33,  1.99s/it][A
Training...:  99% 2593/2609 [2:41:12<00:30,  1.90s/it][A
Training...:  99% 2594/2609 [2:41:13<00:27,  1.81s/it][A
Training...:  99% 2595/2609 [2:41:15<00:23,  1.70s/it][A
Training...: 100% 2596/2609 [2:41:16<00:20,  1.58s/it][A
Training...: 100% 2597/2609 [2:41:17<00:17,  1.47s/it][A
Training...: 100% 2598/2609 [2:41:18<00:14,  1.34s/it][A
Training...: 100% 2599/2609 [2:41:19<00:11,  1.20s/it][A
Training...: 100% 2600/2609 [2:41:20<00:09,  1.01s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  55% 11/20 [30:50:48<22:42:03, 9080.38s/it]
Training...: 100% 2600/2609 [2:41:28<00:09,  1.01s/it][A
Training...: 100% 2601/2609 [2:41:28<00:24,  3.08s/it][A
Training...: 100% 2602/2609 [2:41:33<00:26,  3.80s/it][A
Training...: 100% 2603/2609 [2:41:38<00:24,  4.04s/it][A
Training...: 100% 2604/2609 [2:41:42<00:20,  4.01s/it][A
Training...: 100% 2605/2609 [2:41:45<00:15,  3.85s/it][A
Training...: 100% 2606/2609 [2:41:48<00:10,  3.62s/it][A
Training...: 100% 2607/2609 [2:41:51<00:06,  3.30s/it][A
Training...: 100% 2608/2609 [2:41:53<00:02,  2.95s/it][A
Training...: 100% 2609/2609 [2:41:55<00:00,  2.55s/it][ATraining...: 100% 2609/2609 [2:41:55<00:00,  3.72s/it]
Step... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [30:51:15<20:36:30, 9273.77s/it]
Training...:   0% 0/2609 [00:00<?, ?it/s][AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |)
Step... (30025 | Loss: 0.027710741385817528, Learning Rate: 4.0355556848226115e-05, Gradient Norm: 0.42759114503860474)
Step... (30050 | Loss: 0.0825340673327446, Learning Rate: 4.0305047150468454e-05, Gradient Norm: 0.5754551291465759)
Step... (30075 | Loss: 0.032430313527584076, Learning Rate: 4.0254544728668407e-05, Gradient Norm: 0.8603841066360474)
Step... (30100 | Loss: 0.0728042796254158, Learning Rate: 4.020404230686836e-05, Gradient Norm: 0.5802236199378967)
Step... (30125 | Loss: 0.02884972281754017, Learning Rate: 4.01535326091107e-05, Gradient Norm: 0.5366095900535583)
Step... (30150 | Loss: 0.053360119462013245, Learning Rate: 4.010303018731065e-05, Gradient Norm: 0.4558906853199005)
Step... (30175 | Loss: 0.03226679563522339, Learning Rate: 4.0052527765510604e-05, Gradient Norm: 0.5572094321250916)
Step... (30200 | Loss: 0.08041401207447052, Learning Rate: 4.000201806775294e-05, Gradient Norm: 0.7217079997062683)
Step... (30225 | Loss: 0.030498629435896873, Learning Rate: 3.9951515645952895e-05, Gradient Norm: 0.6142529845237732)
Step... (30250 | Loss: 0.08602209389209747, Learning Rate: 3.990100958617404e-05, Gradient Norm: 0.8246989250183105)
Step... (30275 | Loss: 0.01403599139302969, Learning Rate: 3.985050352639519e-05, Gradient Norm: 0.47686582803726196)
Step... (30300 | Loss: 0.08193399012088776, Learning Rate: 3.979999746661633e-05, Gradient Norm: 0.5813226699829102)
Step... (30325 | Loss: 0.013419218361377716, Learning Rate: 3.9749495044816285e-05, Gradient Norm: 0.4045601189136505)
Step... (30350 | Loss: 0.06500943750143051, Learning Rate: 3.969898898503743e-05, Gradient Norm: 0.5855444073677063)
Step... (30375 | Loss: 0.034008972346782684, Learning Rate: 3.964848292525858e-05, Gradient Norm: 0.5414121150970459)
Step... (30400 | Loss: 0.08774390816688538, Learning Rate: 3.959798050345853e-05, Gradient Norm: 0.6771883964538574)
Step... (30425 | Loss: 0.015880491584539413, Learning Rate: 3.954747080570087e-05, Gradient Norm: 0.4503212869167328)
Step... (30450 | Loss: 0.08363322913646698, Learning Rate: 3.949696838390082e-05, Gradient Norm: 0.5835826992988586)
Step... (30475 | Loss: 0.02336573414504528, Learning Rate: 3.9446465962100774e-05, Gradient Norm: 0.5399197936058044)
Step... (30500 | Loss: 0.08082951605319977, Learning Rate: 3.939595626434311e-05, Gradient Norm: 1.606601357460022)
Step... (30525 | Loss: 0.018812594935297966, Learning Rate: 3.9345453842543066e-05, Gradient Norm: 0.4596891701221466)
Step... (30550 | Loss: 0.07975298911333084, Learning Rate: 3.929495142074302e-05, Gradient Norm: 0.5814024209976196)
Step... (30575 | Loss: 0.02365768700838089, Learning Rate: 3.924444172298536e-05, Gradient Norm: 0.46898117661476135)
Step... (30600 | Loss: 0.08143807202577591, Learning Rate: 3.919393930118531e-05, Gradient Norm: 0.669086217880249)
Step... (30625 | Loss: 0.01792769879102707, Learning Rate: 3.914343687938526e-05, Gradient Norm: 0.5512362718582153)
Step... (30650 | Loss: 0.11715143173933029, Learning Rate: 3.90929271816276e-05, Gradient Norm: 0.6779001355171204)
Step... (30675 | Loss: 0.025560958310961723, Learning Rate: 3.9042424759827554e-05, Gradient Norm: 0.45182451605796814)
Step... (30700 | Loss: 0.12488672137260437, Learning Rate: 3.899192233802751e-05, Gradient Norm: 0.7502744793891907)
Step... (30725 | Loss: 0.03214423730969429, Learning Rate: 3.8941412640269846e-05, Gradient Norm: 0.7418437600135803)
Step... (30750 | Loss: 0.09253658354282379, Learning Rate: 3.88909102184698e-05, Gradient Norm: 0.6045203804969788)
Step... (30775 | Loss: 0.030495228245854378, Learning Rate: 3.884040779666975e-05, Gradient Norm: 0.6770585179328918)
Step... (30800 | Loss: 0.06284935772418976, Learning Rate: 3.878989809891209e-05, Gradient Norm: 0.4273100793361664)
Step... (30825 | Loss: 0.027572117745876312, Learning Rate: 3.873939567711204e-05, Gradient Norm: 0.5587465167045593)
Step... (30850 | Loss: 0.0756361186504364, Learning Rate: 3.868888961733319e-05, Gradient Norm: 0.7973960041999817)
Step... (30875 | Loss: 0.018511828035116196, Learning Rate: 3.8638383557554334e-05, Gradient Norm: 0.39510583877563477)
Step... (30900 | Loss: 0.08136938512325287, Learning Rate: 3.858787749777548e-05, Gradient Norm: 0.6086845397949219)
Step... (30925 | Loss: 0.018420638516545296, Learning Rate: 3.8537371437996626e-05, Gradient Norm: 0.3919050991535187)
Step... (30950 | Loss: 0.08517114073038101, Learning Rate: 3.848686537821777e-05, Gradient Norm: 0.6923214197158813)
Step... (30975 | Loss: 0.016979632899165154, Learning Rate: 3.8436362956417724e-05, Gradient Norm: 0.4305305778980255)
Step... (31000 | Loss: 0.07826698571443558, Learning Rate: 3.838585689663887e-05, Gradient Norm: 0.6662347316741943)
Step... (31025 | Loss: 0.015352402813732624, Learning Rate: 3.8335350836860016e-05, Gradient Norm: 0.45898327231407166)
Step... (31050 | Loss: 0.08039488643407822, Learning Rate: 3.828484841505997e-05, Gradient Norm: 0.5980846285820007)
Step... (31075 | Loss: 0.024351265281438828, Learning Rate: 3.823433871730231e-05, Gradient Norm: 0.4914085268974304)
Step... (31100 | Loss: 0.06969055533409119, Learning Rate: 3.818383629550226e-05, Gradient Norm: 0.532801628112793)
Step... (31125 | Loss: 0.016168437898159027, Learning Rate: 3.813333387370221e-05, Gradient Norm: 0.38814041018486023)
Step... (31150 | Loss: 0.10293076932430267, Learning Rate: 3.808282417594455e-05, Gradient Norm: 0.6547330617904663)
Step... (31175 | Loss: 0.030119948089122772, Learning Rate: 3.8032321754144505e-05, Gradient Norm: 0.6253169775009155)
Step... (31200 | Loss: 0.08340699970722198, Learning Rate: 3.798181933234446e-05, Gradient Norm: 0.6953029036521912)
Step... (31225 | Loss: 0.015862811356782913, Learning Rate: 3.7931309634586796e-05, Gradient Norm: 0.40406399965286255)
Step... (31250 | Loss: 0.07739442586898804, Learning Rate: 3.788080721278675e-05, Gradient Norm: 0.6268002390861511)
Step... (31275 | Loss: 0.03140522912144661, Learning Rate: 3.78303047909867e-05, Gradient Norm: 0.7018623948097229)
Step... (31300 | Loss: 0.09037121385335922, Learning Rate: 3.777979509322904e-05, Gradient Norm: 0.758651852607727)

Training...:   0% 1/2609 [00:07<5:15:09,  7.25s/it][A
Training...:   0% 2/2609 [00:14<5:08:24,  7.10s/it][A
Training...:   0% 3/2609 [00:20<4:58:30,  6.87s/it][A
Training...:   0% 4/2609 [00:27<4:47:25,  6.62s/it][A
Training...:   0% 5/2609 [00:32<4:35:51,  6.36s/it][A
Training...:   0% 6/2609 [00:38<4:24:54,  6.11s/it][A
Training...:   0% 7/2609 [00:44<4:17:48,  5.94s/it][A
Training...:   0% 8/2609 [00:49<4:07:44,  5.71s/it][A
Training...:   0% 9/2609 [00:54<3:59:46,  5.53s/it][A
Training...:   0% 10/2609 [00:59<3:51:27,  5.34s/it][A
Training...:   0% 11/2609 [01:04<3:44:49,  5.19s/it][A
Training...:   0% 12/2609 [01:08<3:37:41,  5.03s/it][A
Training...:   0% 13/2609 [01:13<3:32:28,  4.91s/it][A
Training...:   1% 14/2609 [01:18<3:27:27,  4.80s/it][A
Training...:   1% 15/2609 [01:22<3:21:37,  4.66s/it][A
Training...:   1% 16/2609 [01:26<3:14:59,  4.51s/it][A                                                                                                                                                                    
                                                    [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [30:52:48<20:36:30, 9273.77s/it]
Training...:   1% 16/2609 [01:31<3:14:59,  4.51s/it][A
Training...:   1% 17/2609 [01:31<3:16:58,  4.56s/it][A
Training...:   1% 18/2609 [01:35<3:08:14,  4.36s/it][A
Training...:   1% 19/2609 [01:39<3:02:56,  4.24s/it][A
Training...:   1% 20/2609 [01:42<2:56:41,  4.09s/it][A
Training...:   1% 21/2609 [01:46<2:51:46,  3.98s/it][A
Training...:   1% 22/2609 [01:50<2:46:25,  3.86s/it][A
Training...:   1% 23/2609 [01:53<2:41:37,  3.75s/it][A
Training...:   1% 24/2609 [01:57<2:36:46,  3.64s/it][A
Training...:   1% 25/2609 [02:00<2:32:16,  3.54s/it][A
Training...:   1% 26/2609 [02:03<2:27:56,  3.44s/it][A
Training...:   1% 27/2609 [02:06<2:23:56,  3.35s/it][A
Training...:   1% 28/2609 [02:09<2:19:41,  3.25s/it][A
Training...:   1% 29/2609 [02:12<2:15:28,  3.15s/it][A
Training...:   1% 30/2609 [02:15<2:11:38,  3.06s/it][A
Training...:   1% 31/2609 [02:18<2:08:10,  2.98s/it][A
Training...:   1% 32/2609 [02:21<2:04:28,  2.90s/it][A
Training...:   1% 33/2609 [02:23<2:00:30,  2.81s/it][A
Training...:   1% 34/2609 [02:26<1:56:57,  2.73s/it][A
Training...:   1% 35/2609 [02:28<1:53:32,  2.65s/it][A
Training...:   1% 36/2609 [02:30<1:49:15,  2.55s/it][A
Training...:   1% 37/2609 [02:33<1:44:57,  2.45s/it][A
Training...:   1% 38/2609 [02:35<1:40:32,  2.35s/it][A
Training...:   1% 39/2609 [02:37<1:36:28,  2.25s/it][A
Training...:   2% 40/2609 [02:39<1:32:24,  2.16s/it][A
Training...:   2% 41/2609 [02:41<1:28:05,  2.06s/it][A                                                                                                                                                                    
                                                    [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [30:54:00<20:36:30, 9273.77s/it]
Training...:   2% 41/2609 [02:43<1:28:05,  2.06s/it][A
Training...:   2% 42/2609 [02:43<1:29:32,  2.09s/it][A
Training...:   2% 43/2609 [02:44<1:23:23,  1.95s/it][A
Training...:   2% 44/2609 [02:46<1:17:47,  1.82s/it][A
Training...:   2% 45/2609 [02:47<1:12:21,  1.69s/it][A
Training...:   2% 46/2609 [02:49<1:07:26,  1.58s/it][A
Training...:   2% 47/2609 [02:50<1:02:03,  1.45s/it][A
Training...:   2% 48/2609 [02:51<56:21,  1.32s/it]  [A
Training...:   2% 49/2609 [02:52<49:54,  1.17s/it][A
Training...:   2% 50/2609 [02:52<42:17,  1.01it/s][A
Training...:   2% 51/2609 [02:59<1:59:59,  2.81s/it][A
Training...:   2% 52/2609 [03:06<2:54:38,  4.10s/it][A
Training...:   2% 53/2609 [03:13<3:25:59,  4.84s/it][A
Training...:   2% 54/2609 [03:19<3:43:47,  5.26s/it][A
Training...:   2% 55/2609 [03:25<3:52:09,  5.45s/it][A
Training...:   2% 56/2609 [03:31<3:54:09,  5.50s/it][A
Training...:   2% 57/2609 [03:36<3:54:26,  5.51s/it][A
Training...:   2% 58/2609 [03:41<3:50:53,  5.43s/it][A
Training...:   2% 59/2609 [03:47<3:47:00,  5.34s/it][A
Training...:   2% 60/2609 [03:51<3:41:27,  5.21s/it][A
Training...:   2% 61/2609 [03:56<3:35:39,  5.08s/it][A
Training...:   2% 62/2609 [04:01<3:28:39,  4.92s/it][A
Training...:   2% 63/2609 [04:05<3:23:34,  4.80s/it][A
Training...:   2% 64/2609 [04:10<3:17:21,  4.65s/it][A
Training...:   2% 65/2609 [04:14<3:11:51,  4.52s/it][A
Training...:   3% 66/2609 [04:18<3:06:01,  4.39s/it][A                                                                                                                                                                    
                                                    [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [30:55:39<20:36:30, 9273.77s/it]
Training...:   3% 66/2609 [04:23<3:06:01,  4.39s/it][A
Training...:   3% 67/2609 [04:23<3:10:19,  4.49s/it][A
Training...:   3% 68/2609 [04:27<3:03:14,  4.33s/it][A
Training...:   3% 69/2609 [04:31<2:58:55,  4.23s/it][A
Training...:   3% 70/2609 [04:34<2:53:04,  4.09s/it][A
Training...:   3% 71/2609 [04:38<2:47:39,  3.96s/it][A
Training...:   3% 72/2609 [04:42<2:42:55,  3.85s/it][A
Training...:   3% 73/2609 [04:45<2:37:52,  3.74s/it][A
Training...:   3% 74/2609 [04:48<2:33:07,  3.62s/it][A
Training...:   3% 75/2609 [04:52<2:28:09,  3.51s/it][A
Training...:   3% 76/2609 [04:55<2:23:08,  3.39s/it][A
Training...:   3% 77/2609 [04:58<2:18:43,  3.29s/it][A
Training...:   3% 78/2609 [05:01<2:14:57,  3.20s/it][A
Training...:   3% 79/2609 [05:04<2:11:46,  3.13s/it][A
Training...:   3% 80/2609 [05:07<2:08:10,  3.04s/it][A
Training...:   3% 81/2609 [05:09<2:04:01,  2.94s/it][A
Training...:   3% 82/2609 [05:12<2:00:12,  2.85s/it][A
Training...:   3% 83/2609 [05:15<1:56:16,  2.76s/it][A
Training...:   3% 84/2609 [05:17<1:52:18,  2.67s/it][A
Training...:   3% 85/2609 [05:19<1:49:02,  2.59s/it][A
Training...:   3% 86/2609 [05:22<1:45:17,  2.50s/it][A
Training...:   3% 87/2609 [05:24<1:42:02,  2.43s/it][A
Training...:   3% 88/2609 [05:26<1:37:51,  2.33s/it][A
Training...:   3% 89/2609 [05:28<1:34:18,  2.25s/it][A
Training...:   3% 90/2609 [05:30<1:30:03,  2.15s/it][A
Training...:   3% 91/2609 [05:32<1:26:19,  2.06s/it][A                                                                                                                                                                    
                                                    [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [30:56:51<20:36:30, 9273.77s/it]
Training...:   3% 91/2609 [05:34<1:26:19,  2.06s/it][A
Training...:   4% 92/2609 [05:34<1:27:48,  2.09s/it][A
Training...:   4% 93/2609 [05:36<1:22:02,  1.96s/it][A
Training...:   4% 94/2609 [05:37<1:16:21,  1.82s/it][A
Training...:   4% 95/2609 [05:39<1:11:36,  1.71s/it][A
Training...:   4% 96/2609 [05:40<1:06:16,  1.58s/it][A
Training...:   4% 97/2609 [05:41<1:01:07,  1.46s/it][A
Training...:   4% 98/2609 [05:42<55:36,  1.33s/it]  [A
Training...:   4% 99/2609 [05:43<49:24,  1.18s/it][A
Training...:   4% 100/2609 [05:44<41:57,  1.00s/it][A
Training...:   4% 101/2609 [05:51<1:58:51,  2.84s/it][A
Training...:   4% 102/2609 [05:58<2:51:58,  4.12s/it][A
Training...:   4% 103/2609 [06:04<3:22:06,  4.84s/it][A
Training...:   4% 104/2609 [06:10<3:38:26,  5.23s/it][A
Training...:   4% 105/2609 [06:16<3:47:31,  5.45s/it][A
Training...:   4% 106/2609 [06:22<3:50:01,  5.51s/it][A
Training...:   4% 107/2609 [06:28<3:49:43,  5.51s/it][A
Training...:   4% 108/2609 [06:33<3:46:16,  5.43s/it][A
Training...:   4% 109/2609 [06:38<3:41:10,  5.31s/it][A
Training...:   4% 110/2609 [06:43<3:35:30,  5.17s/it][A
Training...:   4% 111/2609 [06:47<3:30:00,  5.04s/it][A
Training...:   4% 112/2609 [06:52<3:23:45,  4.90s/it][A
Training...:   4% 113/2609 [06:56<3:18:43,  4.78s/it][A
Training...:   4% 114/2609 [07:01<3:12:38,  4.63s/it][A
Training...:   4% 115/2609 [07:05<3:07:21,  4.51s/it][A
Training...:   4% 116/2609 [07:09<3:02:11,  4.39s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [30:58:31<20:36:30, 9273.77s/it]
Training...:   4% 116/2609 [07:14<3:02:11,  4.39s/it][A
Training...:   4% 117/2609 [07:14<3:06:02,  4.48s/it][A
Training...:   5% 118/2609 [07:18<2:59:11,  4.32s/it][A
Training...:   5% 119/2609 [07:22<2:53:39,  4.18s/it][A
Training...:   5% 120/2609 [07:25<2:47:29,  4.04s/it][A
Training...:   5% 121/2609 [07:29<2:42:10,  3.91s/it][A
Training...:   5% 122/2609 [07:32<2:37:13,  3.79s/it][A
Training...:   5% 123/2609 [07:36<2:32:18,  3.68s/it][A
Training...:   5% 124/2609 [07:39<2:27:51,  3.57s/it][A
Training...:   5% 125/2609 [07:42<2:23:57,  3.48s/it][A
Training...:   5% 126/2609 [07:46<2:19:38,  3.37s/it][A
Training...:   5% 127/2609 [07:49<2:15:52,  3.28s/it][A
Training...:   5% 128/2609 [07:52<2:12:02,  3.19s/it][A
Training...:   5% 129/2609 [07:54<2:08:05,  3.10s/it][A
Training...:   5% 130/2609 [07:57<2:04:15,  3.01s/it][A
Training...:   5% 131/2609 [08:00<2:00:16,  2.91s/it][A
Training...:   5% 132/2609 [08:03<1:56:19,  2.82s/it][A
Training...:   5% 133/2609 [08:05<1:53:02,  2.74s/it][A
Training...:   5% 134/2609 [08:08<1:49:27,  2.65s/it][A
Training...:   5% 135/2609 [08:10<1:45:34,  2.56s/it][A
Training...:   5% 136/2609 [08:12<1:42:03,  2.48s/it][A
Training...:   5% 137/2609 [08:14<1:38:15,  2.39s/it][A
Training...:   5% 138/2609 [08:16<1:34:15,  2.29s/it][A
Training...:   5% 139/2609 [08:18<1:30:29,  2.20s/it][A
Training...:   5% 140/2609 [08:20<1:26:46,  2.11s/it][A
Training...:   5% 141/2609 [08:22<1:23:01,  2.02s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [30:59:41<20:36:30, 9273.77s/it]
Training...:   5% 141/2609 [08:24<1:23:01,  2.02s/it][A
Training...:   5% 142/2609 [08:24<1:23:27,  2.03s/it][A
Training...:   5% 143/2609 [08:26<1:17:53,  1.90s/it][A
Training...:   6% 144/2609 [08:27<1:13:07,  1.78s/it][A
Training...:   6% 145/2609 [08:29<1:08:41,  1.67s/it][A
Training...:   6% 146/2609 [08:30<1:04:00,  1.56s/it][A
Training...:   6% 147/2609 [08:31<59:07,  1.44s/it]  [A
Training...:   6% 148/2609 [08:32<53:58,  1.32s/it][A
Training...:   6% 149/2609 [08:33<47:57,  1.17s/it][A
Training...:   6% 150/2609 [08:34<40:23,  1.01it/s][A
Training...:   6% 151/2609 [08:41<1:55:56,  2.83s/it][A
Training...:   6% 152/2609 [08:48<2:48:42,  4.12s/it][A
Training...:   6% 153/2609 [08:54<3:18:45,  4.86s/it][A
Training...:   6% 154/2609 [09:01<3:37:00,  5.30s/it][A
Training...:   6% 155/2609 [09:07<3:46:58,  5.55s/it][A
Training...:   6% 156/2609 [09:13<3:48:48,  5.60s/it][A
Training...:   6% 157/2609 [09:18<3:47:40,  5.57s/it][A
Training...:   6% 158/2609 [09:23<3:43:11,  5.46s/it][A
Training...:   6% 159/2609 [09:28<3:39:04,  5.36s/it][A
Training...:   6% 160/2609 [09:33<3:33:18,  5.23s/it][A
Training...:   6% 161/2609 [09:38<3:29:26,  5.13s/it][A
Training...:   6% 162/2609 [09:43<3:24:05,  5.00s/it][A
Training...:   6% 163/2609 [09:47<3:17:17,  4.84s/it][A
Training...:   6% 164/2609 [09:52<3:11:12,  4.69s/it][A
Training...:   6% 165/2609 [09:56<3:05:23,  4.55s/it][A
Training...:   6% 166/2609 [10:00<3:00:23,  4.43s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:01:22<20:36:30, 9273.77s/it]
Training...:   6% 166/2609 [10:05<3:00:23,  4.43s/it][A
Training...:   6% 167/2609 [10:05<3:04:13,  4.53s/it][A
Training...:   6% 168/2609 [10:09<2:56:22,  4.34s/it][A
Training...:   6% 169/2609 [10:13<2:50:35,  4.19s/it][A
Training...:   7% 170/2609 [10:16<2:44:43,  4.05s/it][A
Training...:   7% 171/2609 [10:20<2:39:27,  3.92s/it][A
Training...:   7% 172/2609 [10:24<2:34:31,  3.80s/it][A
Training...:   7% 173/2609 [10:27<2:30:16,  3.70s/it][A
Training...:   7% 174/2609 [10:30<2:25:05,  3.58s/it][A
Training...:   7% 175/2609 [10:33<2:20:49,  3.47s/it][A
Training...:   7% 176/2609 [10:37<2:16:13,  3.36s/it][A
Training...:   7% 177/2609 [10:40<2:12:10,  3.26s/it][A
Training...:   7% 178/2609 [10:43<2:08:12,  3.16s/it][A
Training...:   7% 179/2609 [10:45<2:04:12,  3.07s/it][A
Training...:   7% 180/2609 [10:48<2:01:05,  2.99s/it][A
Training...:   7% 181/2609 [10:51<1:58:01,  2.92s/it][A
Training...:   7% 182/2609 [10:54<1:54:12,  2.82s/it][A
Training...:   7% 183/2609 [10:56<1:50:41,  2.74s/it][A
Training...:   7% 184/2609 [10:58<1:46:40,  2.64s/it][A
Training...:   7% 185/2609 [11:01<1:42:55,  2.55s/it][A
Training...:   7% 186/2609 [11:03<1:39:37,  2.47s/it][A
Training...:   7% 187/2609 [11:05<1:36:12,  2.38s/it][A
Training...:   7% 188/2609 [11:07<1:32:33,  2.29s/it][A
Training...:   7% 189/2609 [11:09<1:29:21,  2.22s/it][A
Training...:   7% 190/2609 [11:11<1:25:47,  2.13s/it][A
Training...:   7% 191/2609 [11:13<1:22:03,  2.04s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:02:32<20:36:30, 9273.77s/it]
Training...:   7% 191/2609 [11:15<1:22:03,  2.04s/it][A
Training...:   7% 192/2609 [11:15<1:23:31,  2.07s/it][A
Training...:   7% 193/2609 [11:17<1:18:17,  1.94s/it][A
Training...:   7% 194/2609 [11:18<1:12:44,  1.81s/it][A
Training...:   7% 195/2609 [11:20<1:07:56,  1.69s/it][A
Training...:   8% 196/2609 [11:21<1:03:01,  1.57s/it][A
Training...:   8% 197/2609 [11:22<58:24,  1.45s/it]  [A
Training...:   8% 198/2609 [11:23<52:57,  1.32s/it][A
Training...:   8% 199/2609 [11:24<46:15,  1.15s/it][A
Training...:   8% 200/2609 [11:25<38:58,  1.03it/s][A
Training...:   8% 201/2609 [11:32<1:54:55,  2.86s/it][A
Training...:   8% 202/2609 [11:39<2:46:04,  4.14s/it][A
Training...:   8% 203/2609 [11:46<3:17:21,  4.92s/it][A
Training...:   8% 204/2609 [11:52<3:35:10,  5.37s/it][A
Training...:   8% 205/2609 [11:58<3:43:39,  5.58s/it][A
Training...:   8% 206/2609 [12:04<3:46:13,  5.65s/it][A
Training...:   8% 207/2609 [12:10<3:47:21,  5.68s/it][A
Training...:   8% 208/2609 [12:15<3:44:15,  5.60s/it][A
Training...:   8% 209/2609 [12:21<3:39:54,  5.50s/it][A
Training...:   8% 210/2609 [12:26<3:33:56,  5.35s/it][A
Training...:   8% 211/2609 [12:30<3:28:47,  5.22s/it][A
Training...:   8% 212/2609 [12:35<3:22:57,  5.08s/it][A
Training...:   8% 213/2609 [12:40<3:17:46,  4.95s/it][A
Training...:   8% 214/2609 [12:44<3:12:12,  4.82s/it][A
Training...:   8% 215/2609 [12:49<3:07:25,  4.70s/it][A
Training...:   8% 216/2609 [12:53<3:01:59,  4.56s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:04:15<20:36:30, 9273.77s/it]
Training...:   8% 216/2609 [12:58<3:01:59,  4.56s/it][A
Training...:   8% 217/2609 [12:58<3:05:32,  4.65s/it][A
Training...:   8% 218/2609 [13:02<2:58:44,  4.49s/it][A
Training...:   8% 219/2609 [13:06<2:53:38,  4.36s/it][A
Training...:   8% 220/2609 [13:10<2:47:37,  4.21s/it][A
Training...:   8% 221/2609 [13:14<2:42:07,  4.07s/it][A
Training...:   9% 222/2609 [13:17<2:36:00,  3.92s/it][A
Training...:   9% 223/2609 [13:21<2:31:36,  3.81s/it][A
Training...:   9% 224/2609 [13:24<2:27:02,  3.70s/it][A
Training...:   9% 225/2609 [13:28<2:22:38,  3.59s/it][A
Training...:   9% 226/2609 [13:31<2:18:11,  3.48s/it][A
Training...:   9% 227/2609 [13:34<2:13:50,  3.37s/it][A
Training...:   9% 228/2609 [13:37<2:09:37,  3.27s/it][A
Training...:   9% 229/2609 [13:40<2:06:14,  3.18s/it][A
Training...:   9% 230/2609 [13:43<2:02:10,  3.08s/it][A
Training...:   9% 231/2609 [13:46<1:59:04,  3.00s/it][A
Training...:   9% 232/2609 [13:48<1:55:07,  2.91s/it][A
Training...:   9% 233/2609 [13:51<1:52:00,  2.83s/it][A
Training...:   9% 234/2609 [13:53<1:48:50,  2.75s/it][A
Training...:   9% 235/2609 [13:56<1:45:18,  2.66s/it][A
Training...:   9% 236/2609 [13:58<1:41:39,  2.57s/it][A
Training...:   9% 237/2609 [14:01<1:37:55,  2.48s/it][A
Training...:   9% 238/2609 [14:03<1:34:26,  2.39s/it][A
Training...:   9% 239/2609 [14:05<1:30:47,  2.30s/it][A
Training...:   9% 240/2609 [14:07<1:26:56,  2.20s/it][A
Training...:   9% 241/2609 [14:09<1:22:48,  2.10s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:05:28<20:36:30, 9273.77s/it]
Training...:   9% 241/2609 [14:11<1:22:48,  2.10s/it][A
Training...:   9% 242/2609 [14:11<1:23:57,  2.13s/it][A
Training...:   9% 243/2609 [14:13<1:18:39,  1.99s/it][A
Training...:   9% 244/2609 [14:14<1:13:28,  1.86s/it][A
Training...:   9% 245/2609 [14:16<1:08:36,  1.74s/it][A
Training...:   9% 246/2609 [14:17<1:03:22,  1.61s/it][A
Training...:   9% 247/2609 [14:18<57:51,  1.47s/it]  [A
Training...:  10% 248/2609 [14:19<52:03,  1.32s/it][A
Training...:  10% 249/2609 [14:20<45:43,  1.16s/it][A
Training...:  10% 250/2609 [14:20<38:24,  1.02it/s][A
Training...:  10% 251/2609 [14:27<1:51:48,  2.85s/it][A
Training...:  10% 252/2609 [14:35<2:41:48,  4.12s/it][A
Training...:  10% 253/2609 [14:41<3:10:18,  4.85s/it][A
Training...:  10% 254/2609 [14:47<3:28:08,  5.30s/it][A
Training...:  10% 255/2609 [14:54<3:36:20,  5.51s/it][A
Training...:  10% 256/2609 [14:59<3:38:56,  5.58s/it][A
Training...:  10% 257/2609 [15:05<3:38:12,  5.57s/it][A
Training...:  10% 258/2609 [15:10<3:33:47,  5.46s/it][A
Training...:  10% 259/2609 [15:15<3:29:46,  5.36s/it][A
Training...:  10% 260/2609 [15:20<3:24:46,  5.23s/it][A
Training...:  10% 261/2609 [15:25<3:21:03,  5.14s/it][A
Training...:  10% 262/2609 [15:30<3:16:53,  5.03s/it][A
Training...:  10% 263/2609 [15:34<3:12:00,  4.91s/it][A
Training...:  10% 264/2609 [15:39<3:05:30,  4.75s/it][A
Training...:  10% 265/2609 [15:43<2:59:48,  4.60s/it][A
Training...:  10% 266/2609 [15:47<2:54:34,  4.47s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:07:09<20:36:30, 9273.77s/it]
Training...:  10% 266/2609 [15:52<2:54:34,  4.47s/it][A
Training...:  10% 267/2609 [15:52<2:57:18,  4.54s/it][A
Training...:  10% 268/2609 [15:56<2:49:25,  4.34s/it][A
Training...:  10% 269/2609 [16:00<2:44:10,  4.21s/it][A
Training...:  10% 270/2609 [16:03<2:38:35,  4.07s/it][A
Training...:  10% 271/2609 [16:07<2:33:40,  3.94s/it][A
Training...:  10% 272/2609 [16:11<2:28:47,  3.82s/it][A
Training...:  10% 273/2609 [16:14<2:24:45,  3.72s/it][A
Training...:  11% 274/2609 [16:18<2:25:11,  3.73s/it][A
Training...:  11% 275/2609 [16:21<2:19:56,  3.60s/it][A
Training...:  11% 276/2609 [16:24<2:15:22,  3.48s/it][A
Training...:  11% 277/2609 [16:27<2:10:51,  3.37s/it][A
Training...:  11% 278/2609 [16:30<2:06:25,  3.25s/it][A
Training...:  11% 279/2609 [16:33<2:02:38,  3.16s/it][A
Training...:  11% 280/2609 [16:36<1:59:49,  3.09s/it][A
Training...:  11% 281/2609 [16:39<1:55:59,  2.99s/it][A
Training...:  11% 282/2609 [16:42<1:52:32,  2.90s/it][A
Training...:  11% 283/2609 [16:44<1:49:04,  2.81s/it][A
Training...:  11% 284/2609 [16:47<1:45:51,  2.73s/it][A
Training...:  11% 285/2609 [16:49<1:42:33,  2.65s/it][A
Training...:  11% 286/2609 [16:52<1:39:11,  2.56s/it][A
Training...:  11% 287/2609 [16:54<1:35:47,  2.48s/it][A
Training...:  11% 288/2609 [16:56<1:32:22,  2.39s/it][A
Training...:  11% 289/2609 [16:58<1:28:59,  2.30s/it][A
Training...:  11% 290/2609 [17:00<1:25:16,  2.21s/it][A
Training...:  11% 291/2609 [17:02<1:21:24,  2.11s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:08:21<20:36:30, 9273.77s/it]
Training...:  11% 291/2609 [17:04<1:21:24,  2.11s/it][A
Training...:  11% 292/2609 [17:04<1:22:39,  2.14s/it][A
Training...:  11% 293/2609 [17:06<1:17:19,  2.00s/it][A
Training...:  11% 294/2609 [17:08<1:12:27,  1.88s/it][A
Training...:  11% 295/2609 [17:09<1:07:11,  1.74s/it][A
Training...:  11% 296/2609 [17:10<1:01:58,  1.61s/it][A
Training...:  11% 297/2609 [17:11<56:45,  1.47s/it]  [A
Training...:  11% 298/2609 [17:12<51:11,  1.33s/it][A
Training...:  11% 299/2609 [17:13<45:00,  1.17s/it][A
Training...:  11% 300/2609 [17:14<37:51,  1.02it/s][A
Training...:  12% 301/2609 [17:21<1:48:22,  2.82s/it][A
Training...:  12% 302/2609 [17:28<2:36:45,  4.08s/it][A
Training...:  12% 303/2609 [17:34<3:05:09,  4.82s/it][A
Training...:  12% 304/2609 [17:41<3:20:35,  5.22s/it][A
Training...:  12% 305/2609 [17:47<3:28:49,  5.44s/it][A
Training...:  12% 306/2609 [17:52<3:32:04,  5.53s/it][A
Training...:  12% 307/2609 [17:58<3:31:53,  5.52s/it][A
Training...:  12% 308/2609 [18:03<3:30:22,  5.49s/it][A
Training...:  12% 309/2609 [18:08<3:26:44,  5.39s/it][A
Training...:  12% 310/2609 [18:13<3:20:36,  5.24s/it][A
Training...:  12% 311/2609 [18:18<3:14:44,  5.08s/it][A
Training...:  12% 312/2609 [18:23<3:08:33,  4.93s/it][A
Training...:  12% 313/2609 [18:27<3:03:40,  4.80s/it][A
Training...:  12% 314/2609 [18:31<2:58:02,  4.65s/it][A
Training...:  12% 315/2609 [18:36<2:53:22,  4.53s/it][A
Training...:  12% 316/2609 [18:40<2:47:45,  4.39s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:10:01<20:36:30, 9273.77s/it]
Training...:  12% 316/2609 [18:44<2:47:45,  4.39s/it][A
Training...:  12% 317/2609 [18:44<2:50:44,  4.47s/it][A
Training...:  12% 318/2609 [18:48<2:43:46,  4.29s/it][A
Training...:  12% 319/2609 [18:52<2:38:21,  4.15s/it][A
Training...:  12% 320/2609 [18:56<2:32:33,  4.00s/it][A
Training...:  12% 321/2609 [18:59<2:27:38,  3.87s/it][A
Training...:  12% 322/2609 [19:03<2:22:47,  3.75s/it][A
Training...:  12% 323/2609 [19:06<2:18:40,  3.64s/it][A
Training...:  12% 324/2609 [19:09<2:14:33,  3.53s/it][A
Training...:  12% 325/2609 [19:13<2:11:05,  3.44s/it][A
Training...:  12% 326/2609 [19:16<2:06:50,  3.33s/it][A
Training...:  13% 327/2609 [19:19<2:02:57,  3.23s/it][A
Training...:  13% 328/2609 [19:22<1:59:39,  3.15s/it][A
Training...:  13% 329/2609 [19:25<1:56:29,  3.07s/it][A
Training...:  13% 330/2609 [19:27<1:52:56,  2.97s/it][A
Training...:  13% 331/2609 [19:30<1:49:24,  2.88s/it][A
Training...:  13% 332/2609 [19:33<1:45:54,  2.79s/it][A
Training...:  13% 333/2609 [19:35<1:42:38,  2.71s/it][A
Training...:  13% 334/2609 [19:37<1:39:10,  2.62s/it][A
Training...:  13% 335/2609 [19:40<1:36:03,  2.53s/it][A
Training...:  13% 336/2609 [19:42<1:32:35,  2.44s/it][A
Training...:  13% 337/2609 [19:44<1:29:39,  2.37s/it][A
Training...:  13% 338/2609 [19:46<1:26:24,  2.28s/it][A
Training...:  13% 339/2609 [19:48<1:23:15,  2.20s/it][A
Training...:  13% 340/2609 [19:50<1:19:58,  2.11s/it][A
Training...:  13% 341/2609 [19:52<1:16:23,  2.02s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:11:11<20:36:30, 9273.77s/it]
Training...:  13% 341/2609 [19:54<1:16:23,  2.02s/it][A
Training...:  13% 342/2609 [19:54<1:18:18,  2.07s/it][A
Training...:  13% 343/2609 [19:56<1:13:28,  1.95s/it][A
Training...:  13% 344/2609 [19:57<1:08:22,  1.81s/it][A
Training...:  13% 345/2609 [19:59<1:03:36,  1.69s/it][A
Training...:  13% 346/2609 [20:00<58:49,  1.56s/it]  [A
Training...:  13% 347/2609 [20:01<53:58,  1.43s/it][A
Training...:  13% 348/2609 [20:02<48:53,  1.30s/it][A
Training...:  13% 349/2609 [20:03<43:21,  1.15s/it][A
Training...:  13% 350/2609 [20:03<36:23,  1.03it/s][A
Training...:  13% 351/2609 [20:11<1:47:02,  2.84s/it][A
Training...:  13% 352/2609 [20:18<2:34:43,  4.11s/it][A
Training...:  14% 353/2609 [20:24<3:03:56,  4.89s/it][A
Training...:  14% 354/2609 [20:31<3:21:04,  5.35s/it][A
Training...:  14% 355/2609 [20:37<3:31:30,  5.63s/it][A
Training...:  14% 356/2609 [20:43<3:34:01,  5.70s/it][A
Training...:  14% 357/2609 [20:49<3:32:19,  5.66s/it][A
Training...:  14% 358/2609 [20:54<3:29:15,  5.58s/it][A
Training...:  14% 359/2609 [20:59<3:25:31,  5.48s/it][A
Training...:  14% 360/2609 [21:04<3:19:43,  5.33s/it][A
Training...:  14% 361/2609 [21:09<3:14:32,  5.19s/it][A
Training...:  14% 362/2609 [21:14<3:08:21,  5.03s/it][A
Training...:  14% 363/2609 [21:18<3:02:42,  4.88s/it][A
Training...:  14% 364/2609 [21:23<2:56:27,  4.72s/it][A
Training...:  14% 365/2609 [21:27<2:51:43,  4.59s/it][A
Training...:  14% 366/2609 [21:31<2:45:56,  4.44s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:12:52<20:36:30, 9273.77s/it]
Training...:  14% 366/2609 [21:36<2:45:56,  4.44s/it][A
Training...:  14% 367/2609 [21:36<2:47:53,  4.49s/it][A
Training...:  14% 368/2609 [21:39<2:40:32,  4.30s/it][A
Training...:  14% 369/2609 [21:43<2:34:41,  4.14s/it][A
Training...:  14% 370/2609 [21:47<2:29:09,  4.00s/it][A
Training...:  14% 371/2609 [21:50<2:24:41,  3.88s/it][A
Training...:  14% 372/2609 [21:54<2:19:24,  3.74s/it][A
Training...:  14% 373/2609 [21:57<2:15:19,  3.63s/it][A
Training...:  14% 374/2609 [22:01<2:11:10,  3.52s/it][A
Training...:  14% 375/2609 [22:04<2:07:28,  3.42s/it][A
Training...:  14% 376/2609 [22:07<2:03:34,  3.32s/it][A
Training...:  14% 377/2609 [22:10<2:00:22,  3.24s/it][A
Training...:  14% 378/2609 [22:13<1:57:05,  3.15s/it][A
Training...:  15% 379/2609 [22:16<1:54:08,  3.07s/it][A
Training...:  15% 380/2609 [22:19<1:51:21,  3.00s/it][A
Training...:  15% 381/2609 [22:21<1:48:44,  2.93s/it][A
Training...:  15% 382/2609 [22:24<1:45:09,  2.83s/it][A
Training...:  15% 383/2609 [22:26<1:42:08,  2.75s/it][A
Training...:  15% 384/2609 [22:29<1:38:57,  2.67s/it][A
Training...:  15% 385/2609 [22:31<1:36:05,  2.59s/it][A
Training...:  15% 386/2609 [22:34<1:33:11,  2.52s/it][A
Training...:  15% 387/2609 [22:36<1:30:13,  2.44s/it][A
Training...:  15% 388/2609 [22:38<1:26:36,  2.34s/it][A
Training...:  15% 389/2609 [22:40<1:23:16,  2.25s/it][A
Training...:  15% 390/2609 [22:42<1:20:09,  2.17s/it][A
Training...:  15% 391/2609 [22:44<1:16:54,  2.08s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:14:03<20:36:30, 9273.77s/it]
Training...:  15% 391/2609 [22:46<1:16:54,  2.08s/it][A
Training...:  15% 392/2609 [22:46<1:18:11,  2.12s/it][A
Training...:  15% 393/2609 [22:48<1:12:57,  1.98s/it][A
Training...:  15% 394/2609 [22:49<1:08:21,  1.85s/it][A
Training...:  15% 395/2609 [22:51<1:03:44,  1.73s/it][A
Training...:  15% 396/2609 [22:52<58:55,  1.60s/it]  [A
Training...:  15% 397/2609 [22:53<53:55,  1.46s/it][A
Training...:  15% 398/2609 [22:54<48:35,  1.32s/it][A
Training...:  15% 399/2609 [22:55<42:38,  1.16s/it][A
Training...:  15% 400/2609 [22:56<36:08,  1.02it/s][A
Training...:  15% 401/2609 [23:03<1:45:24,  2.86s/it][A
Training...:  15% 402/2609 [23:10<2:33:08,  4.16s/it][A
Training...:  15% 403/2609 [23:17<2:59:03,  4.87s/it][A
Training...:  15% 404/2609 [23:23<3:13:22,  5.26s/it][A
Training...:  16% 405/2609 [23:29<3:20:30,  5.46s/it][A
Training...:  16% 406/2609 [23:34<3:22:26,  5.51s/it][A
Training...:  16% 407/2609 [23:40<3:21:37,  5.49s/it][A
Training...:  16% 408/2609 [23:45<3:17:56,  5.40s/it][A
Training...:  16% 409/2609 [23:50<3:14:06,  5.29s/it][A
Training...:  16% 410/2609 [23:55<3:08:38,  5.15s/it][A
Training...:  16% 411/2609 [24:00<3:04:20,  5.03s/it][A
Training...:  16% 412/2609 [24:04<2:59:00,  4.89s/it][A
Training...:  16% 413/2609 [24:09<2:54:58,  4.78s/it][A
Training...:  16% 414/2609 [24:13<2:50:06,  4.65s/it][A
Training...:  16% 415/2609 [24:17<2:45:35,  4.53s/it][A
Training...:  16% 416/2609 [24:21<2:41:42,  4.42s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:15:43<20:36:30, 9273.77s/it]
Training...:  16% 416/2609 [24:26<2:41:42,  4.42s/it][A
Training...:  16% 417/2609 [24:26<2:44:41,  4.51s/it][A
Training...:  16% 418/2609 [24:30<2:38:09,  4.33s/it][A
Training...:  16% 419/2609 [24:34<2:32:49,  4.19s/it][A
Training...:  16% 420/2609 [24:38<2:27:27,  4.04s/it][A
Training...:  16% 421/2609 [24:41<2:23:34,  3.94s/it][A
Training...:  16% 422/2609 [24:45<2:20:17,  3.85s/it][A
Training...:  16% 423/2609 [24:48<2:16:28,  3.75s/it][A
Training...:  16% 424/2609 [24:52<2:12:08,  3.63s/it][A
Training...:  16% 425/2609 [24:55<2:07:33,  3.50s/it][A
Training...:  16% 426/2609 [24:58<2:03:28,  3.39s/it][A
Training...:  16% 427/2609 [25:01<2:00:10,  3.30s/it][A
Training...:  16% 428/2609 [25:04<1:56:29,  3.20s/it][A
Training...:  16% 429/2609 [25:07<1:53:03,  3.11s/it][A
Training...:  16% 430/2609 [25:10<1:49:51,  3.03s/it][A
Training...:  17% 431/2609 [25:13<1:46:46,  2.94s/it][A
Training...:  17% 432/2609 [25:15<1:43:07,  2.84s/it][A
Training...:  17% 433/2609 [25:18<1:40:30,  2.77s/it][A
Training...:  17% 434/2609 [25:20<1:36:54,  2.67s/it][A
Training...:  17% 435/2609 [25:23<1:34:14,  2.60s/it][A
Training...:  17% 436/2609 [25:25<1:31:03,  2.51s/it][A
Training...:  17% 437/2609 [25:27<1:28:06,  2.43s/it][A
Training...:  17% 438/2609 [25:29<1:25:03,  2.35s/it][A
Training...:  17% 439/2609 [25:32<1:22:22,  2.28s/it][A
Training...:  17% 440/2609 [25:34<1:19:03,  2.19s/it][A
Training...:  17% 441/2609 [25:35<1:15:45,  2.10s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:16:54<20:36:30, 9273.77s/it]
Training...:  17% 441/2609 [25:38<1:15:45,  2.10s/it][A
Training...:  17% 442/2609 [25:38<1:17:06,  2.14s/it][A
Training...:  17% 443/2609 [25:39<1:12:18,  2.00s/it][A
Training...:  17% 444/2609 [25:41<1:07:16,  1.86s/it][A
Training...:  17% 445/2609 [25:42<1:03:00,  1.75s/it][A
Training...:  17% 446/2609 [25:44<57:50,  1.60s/it]  [A
Training...:  17% 447/2609 [25:45<52:47,  1.47s/it][A
Training...:  17% 448/2609 [25:46<47:34,  1.32s/it][A
Training...:  17% 449/2609 [25:47<41:54,  1.16s/it][A
Training...:  17% 450/2609 [25:47<35:37,  1.01it/s][A
Training...:  17% 451/2609 [25:54<1:41:42,  2.83s/it][A
Training...:  17% 452/2609 [26:01<2:27:32,  4.10s/it][A
Training...:  17% 453/2609 [26:08<2:53:23,  4.83s/it][A
Training...:  17% 454/2609 [26:14<3:08:37,  5.25s/it][A
Training...:  17% 455/2609 [26:20<3:15:52,  5.46s/it][A
Training...:  17% 456/2609 [26:26<3:17:33,  5.51s/it][A
Training...:  18% 457/2609 [26:31<3:17:28,  5.51s/it][A
Training...:  18% 458/2609 [26:36<3:14:41,  5.43s/it][A
Training...:  18% 459/2609 [26:42<3:11:46,  5.35s/it][A
Training...:  18% 460/2609 [26:46<3:06:28,  5.21s/it][A
Training...:  18% 461/2609 [26:51<3:01:57,  5.08s/it][A
Training...:  18% 462/2609 [26:56<2:56:59,  4.95s/it][A
Training...:  18% 463/2609 [27:00<2:51:58,  4.81s/it][A
Training...:  18% 464/2609 [27:05<2:46:41,  4.66s/it][A
Training...:  18% 465/2609 [27:09<2:41:46,  4.53s/it][A
Training...:  18% 466/2609 [27:13<2:38:12,  4.43s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:18:35<20:36:30, 9273.77s/it]
Training...:  18% 466/2609 [27:18<2:38:12,  4.43s/it][A
Training...:  18% 467/2609 [27:18<2:41:09,  4.51s/it][A
Training...:  18% 468/2609 [27:22<2:34:28,  4.33s/it][A
Training...:  18% 469/2609 [27:26<2:29:13,  4.18s/it][A
Training...:  18% 470/2609 [27:29<2:23:27,  4.02s/it][A
Training...:  18% 471/2609 [27:33<2:19:01,  3.90s/it][A
Training...:  18% 472/2609 [27:36<2:14:40,  3.78s/it][A
Training...:  18% 473/2609 [27:40<2:10:39,  3.67s/it][A
Training...:  18% 474/2609 [27:43<2:06:24,  3.55s/it][A
Training...:  18% 475/2609 [27:46<2:02:47,  3.45s/it][A
Training...:  18% 476/2609 [27:49<1:58:55,  3.35s/it][A
Training...:  18% 477/2609 [27:52<1:56:04,  3.27s/it][A
Training...:  18% 478/2609 [27:55<1:52:18,  3.16s/it][A
Training...:  18% 479/2609 [27:58<1:49:16,  3.08s/it][A
Training...:  18% 480/2609 [28:01<1:46:24,  3.00s/it][A
Training...:  18% 481/2609 [28:04<1:43:29,  2.92s/it][A
Training...:  18% 482/2609 [28:06<1:40:11,  2.83s/it][A
Training...:  19% 483/2609 [28:09<1:37:21,  2.75s/it][A
Training...:  19% 484/2609 [28:11<1:34:14,  2.66s/it][A
Training...:  19% 485/2609 [28:14<1:31:07,  2.57s/it][A
Training...:  19% 486/2609 [28:16<1:28:13,  2.49s/it][A
Training...:  19% 487/2609 [28:18<1:25:21,  2.41s/it][A
Training...:  19% 488/2609 [28:20<1:22:00,  2.32s/it][A
Training...:  19% 489/2609 [28:22<1:18:44,  2.23s/it][A
Training...:  19% 490/2609 [28:24<1:15:26,  2.14s/it][A
Training...:  19% 491/2609 [28:26<1:12:08,  2.04s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:19:45<20:36:30, 9273.77s/it]
Training...:  19% 491/2609 [28:28<1:12:08,  2.04s/it][A
Training...:  19% 492/2609 [28:28<1:13:15,  2.08s/it][A
Training...:  19% 493/2609 [28:30<1:08:21,  1.94s/it][A
Training...:  19% 494/2609 [28:31<1:04:02,  1.82s/it][A
Training...:  19% 495/2609 [28:33<59:35,  1.69s/it]  [A
Training...:  19% 496/2609 [28:34<54:55,  1.56s/it][A
Training...:  19% 497/2609 [28:35<50:23,  1.43s/it][A
Training...:  19% 498/2609 [28:36<45:24,  1.29s/it][A
Training...:  19% 499/2609 [28:37<40:11,  1.14s/it][A
Training...:  19% 500/2609 [28:38<33:54,  1.04it/s][A
Training...:  19% 501/2609 [28:45<1:39:37,  2.84s/it][A
Training...:  19% 502/2609 [28:52<2:24:13,  4.11s/it][A
Training...:  19% 503/2609 [28:58<2:50:37,  4.86s/it][A
Training...:  19% 504/2609 [29:05<3:05:14,  5.28s/it][A
Training...:  19% 505/2609 [29:11<3:12:41,  5.49s/it][A
Training...:  19% 506/2609 [29:17<3:17:38,  5.64s/it][A
Training...:  19% 507/2609 [29:22<3:18:37,  5.67s/it][A
Training...:  19% 508/2609 [29:28<3:14:42,  5.56s/it][A
Training...:  20% 509/2609 [29:33<3:10:37,  5.45s/it][A
Training...:  20% 510/2609 [29:38<3:04:38,  5.28s/it][A
Training...:  20% 511/2609 [29:43<3:00:28,  5.16s/it][A
Training...:  20% 512/2609 [29:47<2:55:41,  5.03s/it][A
Training...:  20% 513/2609 [29:52<2:51:19,  4.90s/it][A
Training...:  20% 514/2609 [29:56<2:45:24,  4.74s/it][A
Training...:  20% 515/2609 [30:01<2:40:33,  4.60s/it][A
Training...:  20% 516/2609 [30:05<2:36:04,  4.47s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:21:26<20:36:30, 9273.77s/it]
Training...:  20% 516/2609 [30:10<2:36:04,  4.47s/it][A
Training...:  20% 517/2609 [30:10<2:39:02,  4.56s/it][A
Training...:  20% 518/2609 [30:13<2:32:28,  4.38s/it][A
Training...:  20% 519/2609 [30:17<2:27:01,  4.22s/it][A
Training...:  20% 520/2609 [30:21<2:21:53,  4.08s/it][A
Training...:  20% 521/2609 [30:25<2:17:55,  3.96s/it][A
Training...:  20% 522/2609 [30:28<2:13:42,  3.84s/it][A
Training...:  20% 523/2609 [30:32<2:10:13,  3.75s/it][A
Training...:  20% 524/2609 [30:35<2:06:36,  3.64s/it][A
Training...:  20% 525/2609 [30:39<2:03:35,  3.56s/it][A
Training...:  20% 526/2609 [30:42<2:00:10,  3.46s/it][A
Training...:  20% 527/2609 [30:45<1:57:38,  3.39s/it][A
Training...:  20% 528/2609 [30:48<1:54:25,  3.30s/it][A
Training...:  20% 529/2609 [30:51<1:50:46,  3.20s/it][A
Training...:  20% 530/2609 [30:54<1:47:58,  3.12s/it][A
Training...:  20% 531/2609 [30:57<1:44:46,  3.03s/it][A
Training...:  20% 532/2609 [31:00<1:41:21,  2.93s/it][A
Training...:  20% 533/2609 [31:02<1:37:52,  2.83s/it][A
Training...:  20% 534/2609 [31:05<1:34:25,  2.73s/it][A
Training...:  21% 535/2609 [31:07<1:31:03,  2.63s/it][A
Training...:  21% 536/2609 [31:09<1:27:47,  2.54s/it][A
Training...:  21% 537/2609 [31:12<1:24:50,  2.46s/it][A
Training...:  21% 538/2609 [31:14<1:21:38,  2.37s/it][A
Training...:  21% 539/2609 [31:16<1:18:31,  2.28s/it][A
Training...:  21% 540/2609 [31:18<1:14:50,  2.17s/it][A
Training...:  21% 541/2609 [31:20<1:11:37,  2.08s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:22:39<20:36:30, 9273.77s/it]
Training...:  21% 541/2609 [31:22<1:11:37,  2.08s/it][A
Training...:  21% 542/2609 [31:22<1:12:53,  2.12s/it][A
Training...:  21% 543/2609 [31:24<1:08:12,  1.98s/it][A
Training...:  21% 544/2609 [31:25<1:03:16,  1.84s/it][A
Training...:  21% 545/2609 [31:26<59:07,  1.72s/it]  [A
Training...:  21% 546/2609 [31:28<54:39,  1.59s/it][A
Training...:  21% 547/2609 [31:29<50:11,  1.46s/it][A
Training...:  21% 548/2609 [31:30<45:25,  1.32s/it][A
Training...:  21% 549/2609 [31:31<40:10,  1.17s/it][A
Training...:  21% 550/2609 [31:31<33:55,  1.01it/s][A
Training...:  21% 551/2609 [31:38<1:36:21,  2.81s/it][A
Training...:  21% 552/2609 [31:45<2:18:52,  4.05s/it][A
Training...:  21% 553/2609 [31:52<2:44:03,  4.79s/it][A
Training...:  21% 554/2609 [31:58<2:57:36,  5.19s/it][A
Training...:  21% 555/2609 [32:04<3:05:03,  5.41s/it][A
Training...:  21% 556/2609 [32:09<3:06:15,  5.44s/it][A
Training...:  21% 557/2609 [32:15<3:05:53,  5.44s/it][A
Training...:  21% 558/2609 [32:20<3:03:44,  5.37s/it][A
Training...:  21% 559/2609 [32:25<3:01:26,  5.31s/it][A
Training...:  21% 560/2609 [32:30<2:56:58,  5.18s/it][A
Training...:  22% 561/2609 [32:35<2:52:56,  5.07s/it][A
Training...:  22% 562/2609 [32:39<2:47:59,  4.92s/it][A
Training...:  22% 563/2609 [32:44<2:43:39,  4.80s/it][A
Training...:  22% 564/2609 [32:48<2:39:49,  4.69s/it][A
Training...:  22% 565/2609 [32:53<2:36:33,  4.60s/it][A
Training...:  22% 566/2609 [32:57<2:31:31,  4.45s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:24:18<20:36:30, 9273.77s/it]
Training...:  22% 566/2609 [33:02<2:31:31,  4.45s/it][A
Training...:  22% 567/2609 [33:02<2:33:44,  4.52s/it][A
Training...:  22% 568/2609 [33:05<2:26:46,  4.31s/it][A
Training...:  22% 569/2609 [33:09<2:21:34,  4.16s/it][A
Training...:  22% 570/2609 [33:13<2:16:41,  4.02s/it][A
Training...:  22% 571/2609 [33:17<2:13:00,  3.92s/it][A
Training...:  22% 572/2609 [33:20<2:09:14,  3.81s/it][A
Training...:  22% 573/2609 [33:24<2:06:08,  3.72s/it][A
Training...:  22% 574/2609 [33:27<2:01:59,  3.60s/it][A
Training...:  22% 575/2609 [33:30<1:58:30,  3.50s/it][A
Training...:  22% 576/2609 [33:33<1:55:11,  3.40s/it][A
Training...:  22% 577/2609 [33:36<1:51:41,  3.30s/it][A
Training...:  22% 578/2609 [33:39<1:48:10,  3.20s/it][A
Training...:  22% 579/2609 [33:42<1:45:18,  3.11s/it][A
Training...:  22% 580/2609 [33:45<1:42:37,  3.03s/it][A
Training...:  22% 581/2609 [33:48<1:39:48,  2.95s/it][A
Training...:  22% 582/2609 [33:51<1:36:44,  2.86s/it][A
Training...:  22% 583/2609 [33:53<1:34:01,  2.78s/it][A
Training...:  22% 584/2609 [33:56<1:31:04,  2.70s/it][A
Training...:  22% 585/2609 [33:58<1:28:19,  2.62s/it][A
Training...:  22% 586/2609 [34:00<1:25:00,  2.52s/it][A
Training...:  22% 587/2609 [34:03<1:22:07,  2.44s/it][A
Training...:  23% 588/2609 [34:05<1:19:06,  2.35s/it][A
Training...:  23% 589/2609 [34:07<1:16:08,  2.26s/it][A
Training...:  23% 590/2609 [34:09<1:12:39,  2.16s/it][A
Training...:  23% 591/2609 [34:11<1:09:13,  2.06s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:25:30<20:36:30, 9273.77s/it]
Training...:  23% 591/2609 [34:13<1:09:13,  2.06s/it][A
Training...:  23% 592/2609 [34:13<1:10:22,  2.09s/it][A
Training...:  23% 593/2609 [34:14<1:05:32,  1.95s/it][A
Training...:  23% 594/2609 [34:16<1:00:40,  1.81s/it][A
Training...:  23% 595/2609 [34:17<56:08,  1.67s/it]  [A
Training...:  23% 596/2609 [34:19<52:12,  1.56s/it][A
Training...:  23% 597/2609 [34:20<48:05,  1.43s/it][A
Training...:  23% 598/2609 [34:21<43:20,  1.29s/it][A
Training...:  23% 599/2609 [34:21<38:26,  1.15s/it][A
Training...:  23% 600/2609 [34:22<32:36,  1.03it/s][A
Training...:  23% 601/2609 [34:29<1:33:28,  2.79s/it][A
Training...:  23% 602/2609 [34:36<2:15:16,  4.04s/it][A
Training...:  23% 603/2609 [34:43<2:40:45,  4.81s/it][A
Training...:  23% 604/2609 [34:49<2:54:43,  5.23s/it][A
Training...:  23% 605/2609 [34:55<3:02:07,  5.45s/it][A
Training...:  23% 606/2609 [35:00<3:03:22,  5.49s/it][A
Training...:  23% 607/2609 [35:06<3:04:03,  5.52s/it][A
Training...:  23% 608/2609 [35:11<3:01:18,  5.44s/it][A
Training...:  23% 609/2609 [35:16<2:57:39,  5.33s/it][A
Training...:  23% 610/2609 [35:21<2:53:11,  5.20s/it][A
Training...:  23% 611/2609 [35:26<2:49:27,  5.09s/it][A
Training...:  23% 612/2609 [35:31<2:44:38,  4.95s/it][A
Training...:  23% 613/2609 [35:35<2:41:27,  4.85s/it][A
Training...:  24% 614/2609 [35:40<2:37:16,  4.73s/it][A
Training...:  24% 615/2609 [35:44<2:33:02,  4.60s/it][A
Training...:  24% 616/2609 [35:48<2:28:12,  4.46s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:27:10<20:36:30, 9273.77s/it]
Training...:  24% 616/2609 [35:53<2:28:12,  4.46s/it][A
Training...:  24% 617/2609 [35:53<2:30:37,  4.54s/it][A
Training...:  24% 618/2609 [35:57<2:24:21,  4.35s/it][A
Training...:  24% 619/2609 [36:01<2:19:12,  4.20s/it][A
Training...:  24% 620/2609 [36:04<2:14:11,  4.05s/it][A
Training...:  24% 621/2609 [36:08<2:09:57,  3.92s/it][A
Training...:  24% 622/2609 [36:11<2:05:50,  3.80s/it][A
Training...:  24% 623/2609 [36:15<2:01:32,  3.67s/it][A
Training...:  24% 624/2609 [36:18<1:57:30,  3.55s/it][A
Training...:  24% 625/2609 [36:21<1:53:51,  3.44s/it][A
Training...:  24% 626/2609 [36:24<1:50:04,  3.33s/it][A
Training...:  24% 627/2609 [36:27<1:47:04,  3.24s/it][A
Training...:  24% 628/2609 [36:30<1:43:52,  3.15s/it][A
Training...:  24% 629/2609 [36:33<1:41:42,  3.08s/it][A
Training...:  24% 630/2609 [36:36<1:37:50,  2.97s/it][A
Training...:  24% 631/2609 [36:39<1:34:27,  2.87s/it][A
Training...:  24% 632/2609 [36:41<1:31:31,  2.78s/it][A
Training...:  24% 633/2609 [36:44<1:28:30,  2.69s/it][A
Training...:  24% 634/2609 [36:46<1:25:17,  2.59s/it][A
Training...:  24% 635/2609 [36:48<1:22:37,  2.51s/it][A
Training...:  24% 636/2609 [36:51<1:20:07,  2.44s/it][A
Training...:  24% 637/2609 [36:53<1:16:55,  2.34s/it][A
Training...:  24% 638/2609 [36:55<1:13:35,  2.24s/it][A
Training...:  24% 639/2609 [36:57<1:10:26,  2.15s/it][A
Training...:  25% 640/2609 [36:58<1:07:30,  2.06s/it][A
Training...:  25% 641/2609 [37:00<1:04:30,  1.97s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:28:19<20:36:30, 9273.77s/it]
Training...:  25% 641/2609 [37:02<1:04:30,  1.97s/it][A
Training...:  25% 642/2609 [37:02<1:04:37,  1.97s/it][A
Training...:  25% 643/2609 [37:04<1:00:20,  1.84s/it][A
Training...:  25% 644/2609 [37:05<56:12,  1.72s/it]  [A
Training...:  25% 645/2609 [37:06<52:11,  1.59s/it][A
Training...:  25% 646/2609 [37:08<48:08,  1.47s/it][A
Training...:  25% 647/2609 [37:09<44:07,  1.35s/it][A
Training...:  25% 648/2609 [37:10<39:59,  1.22s/it][A
Training...:  25% 649/2609 [37:10<35:49,  1.10s/it][A
Training...:  25% 650/2609 [37:11<30:27,  1.07it/s][A
Training...:  25% 651/2609 [37:18<1:30:54,  2.79s/it][A
Training...:  25% 652/2609 [37:25<2:11:40,  4.04s/it][A
Training...:  25% 653/2609 [37:32<2:35:30,  4.77s/it][A
Training...:  25% 654/2609 [37:38<2:50:06,  5.22s/it][A
Training...:  25% 655/2609 [37:44<2:58:38,  5.49s/it][A
Training...:  25% 656/2609 [37:50<3:01:35,  5.58s/it][A
Training...:  25% 657/2609 [37:55<3:02:33,  5.61s/it][A
Training...:  25% 658/2609 [38:01<2:59:04,  5.51s/it][A
Training...:  25% 659/2609 [38:06<2:56:17,  5.42s/it][A
Training...:  25% 660/2609 [38:11<2:52:06,  5.30s/it][A
Training...:  25% 661/2609 [38:16<2:48:05,  5.18s/it][A
Training...:  25% 662/2609 [38:20<2:43:03,  5.02s/it][A
Training...:  25% 663/2609 [38:25<2:38:52,  4.90s/it][A
Training...:  25% 664/2609 [38:30<2:34:44,  4.77s/it][A
Training...:  25% 665/2609 [38:34<2:30:21,  4.64s/it][A
Training...:  26% 666/2609 [38:38<2:25:31,  4.49s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:30:00<20:36:30, 9273.77s/it]
Training...:  26% 666/2609 [38:43<2:25:31,  4.49s/it][A
Training...:  26% 667/2609 [38:43<2:27:44,  4.56s/it][A
Training...:  26% 668/2609 [38:47<2:22:32,  4.41s/it][A
Training...:  26% 669/2609 [38:51<2:18:47,  4.29s/it][A
Training...:  26% 670/2609 [38:55<2:13:44,  4.14s/it][A
Training...:  26% 671/2609 [38:58<2:09:15,  4.00s/it][A
Training...:  26% 672/2609 [39:02<2:04:39,  3.86s/it][A
Training...:  26% 673/2609 [39:05<2:00:53,  3.75s/it][A
Training...:  26% 674/2609 [39:09<1:57:02,  3.63s/it][A
Training...:  26% 675/2609 [39:12<1:53:27,  3.52s/it][A
Training...:  26% 676/2609 [39:15<1:50:00,  3.41s/it][A
Training...:  26% 677/2609 [39:18<1:46:30,  3.31s/it][A
Training...:  26% 678/2609 [39:21<1:43:05,  3.20s/it][A
Training...:  26% 679/2609 [39:24<1:40:28,  3.12s/it][A
Training...:  26% 680/2609 [39:27<1:38:00,  3.05s/it][A
Training...:  26% 681/2609 [39:30<1:35:28,  2.97s/it][A
Training...:  26% 682/2609 [39:32<1:31:58,  2.86s/it][A
Training...:  26% 683/2609 [39:35<1:28:45,  2.77s/it][A
Training...:  26% 684/2609 [39:37<1:25:41,  2.67s/it][A
Training...:  26% 685/2609 [39:40<1:22:48,  2.58s/it][A
Training...:  26% 686/2609 [39:42<1:19:51,  2.49s/it][A
Training...:  26% 687/2609 [39:44<1:17:05,  2.41s/it][A
Training...:  26% 688/2609 [39:46<1:14:15,  2.32s/it][A
Training...:  26% 689/2609 [39:48<1:11:28,  2.23s/it][A
Training...:  26% 690/2609 [39:50<1:08:35,  2.14s/it][A
Training...:  26% 691/2609 [39:52<1:05:41,  2.06s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:31:11<20:36:30, 9273.77s/it]
Training...:  26% 691/2609 [39:54<1:05:41,  2.06s/it][A
Training...:  27% 692/2609 [39:54<1:06:58,  2.10s/it][A
Training...:  27% 693/2609 [39:56<1:02:58,  1.97s/it][A
Training...:  27% 694/2609 [39:58<58:49,  1.84s/it]  [A
Training...:  27% 695/2609 [39:59<55:03,  1.73s/it][A
Training...:  27% 696/2609 [40:00<50:59,  1.60s/it][A
Training...:  27% 697/2609 [40:01<46:58,  1.47s/it][A
Training...:  27% 698/2609 [40:02<42:28,  1.33s/it][A
Training...:  27% 699/2609 [40:03<37:26,  1.18s/it][A
Training...:  27% 700/2609 [40:04<31:26,  1.01it/s][A
Training...:  27% 701/2609 [40:11<1:29:14,  2.81s/it][A
Training...:  27% 702/2609 [40:18<2:10:17,  4.10s/it][A
Training...:  27% 703/2609 [40:25<2:34:26,  4.86s/it][A
Training...:  27% 704/2609 [40:31<2:47:33,  5.28s/it][A
Training...:  27% 705/2609 [40:37<2:54:33,  5.50s/it][A
Training...:  27% 706/2609 [40:43<2:57:11,  5.59s/it][A
Training...:  27% 707/2609 [40:48<2:56:45,  5.58s/it][A
Training...:  27% 708/2609 [40:53<2:52:58,  5.46s/it][A
Training...:  27% 709/2609 [40:59<2:49:18,  5.35s/it][A
Training...:  27% 710/2609 [41:03<2:45:13,  5.22s/it][A
Training...:  27% 711/2609 [41:08<2:41:58,  5.12s/it][A
Training...:  27% 712/2609 [41:13<2:37:23,  4.98s/it][A
Training...:  27% 713/2609 [41:18<2:34:01,  4.87s/it][A
Training...:  27% 714/2609 [41:22<2:30:00,  4.75s/it][A
Training...:  27% 715/2609 [41:27<2:27:06,  4.66s/it][A
Training...:  27% 716/2609 [41:31<2:21:44,  4.49s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:32:52<20:36:30, 9273.77s/it]
Training...:  27% 716/2609 [41:35<2:21:44,  4.49s/it][A
Training...:  27% 717/2609 [41:35<2:24:07,  4.57s/it][A
Training...:  28% 718/2609 [41:39<2:17:32,  4.36s/it][A
Training...:  28% 719/2609 [41:43<2:13:04,  4.22s/it][A
Training...:  28% 720/2609 [41:47<2:08:24,  4.08s/it][A
Training...:  28% 721/2609 [41:51<2:04:37,  3.96s/it][A
Training...:  28% 722/2609 [41:54<2:00:42,  3.84s/it][A
Training...:  28% 723/2609 [41:58<1:57:08,  3.73s/it][A
Training...:  28% 724/2609 [42:01<1:53:27,  3.61s/it][A
Training...:  28% 725/2609 [42:04<1:50:14,  3.51s/it][A
Training...:  28% 726/2609 [42:07<1:46:37,  3.40s/it][A
Training...:  28% 727/2609 [42:10<1:43:24,  3.30s/it][A
Training...:  28% 728/2609 [42:13<1:40:35,  3.21s/it][A
Training...:  28% 729/2609 [42:16<1:37:56,  3.13s/it][A
Training...:  28% 730/2609 [42:19<1:34:53,  3.03s/it][A
Training...:  28% 731/2609 [42:22<1:31:41,  2.93s/it][A
Training...:  28% 732/2609 [42:24<1:28:27,  2.83s/it][A
Training...:  28% 733/2609 [42:27<1:25:38,  2.74s/it][A
Training...:  28% 734/2609 [42:29<1:22:50,  2.65s/it][A
Training...:  28% 735/2609 [42:32<1:20:04,  2.56s/it][A
Training...:  28% 736/2609 [42:34<1:17:05,  2.47s/it][A
Training...:  28% 737/2609 [42:36<1:14:34,  2.39s/it][A
Training...:  28% 738/2609 [42:38<1:11:43,  2.30s/it][A
Training...:  28% 739/2609 [42:40<1:09:16,  2.22s/it][A
Training...:  28% 740/2609 [42:42<1:06:50,  2.15s/it][A
Training...:  28% 741/2609 [42:44<1:04:18,  2.07s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:34:03<20:36:30, 9273.77s/it]
Training...:  28% 741/2609 [42:46<1:04:18,  2.07s/it][A
Training...:  28% 742/2609 [42:46<1:05:31,  2.11s/it][A
Training...:  28% 743/2609 [42:48<1:01:23,  1.97s/it][A
Training...:  29% 744/2609 [42:50<56:47,  1.83s/it]  [A
Training...:  29% 745/2609 [42:51<53:01,  1.71s/it][A
Training...:  29% 746/2609 [42:52<48:48,  1.57s/it][A
Training...:  29% 747/2609 [42:53<44:56,  1.45s/it][A
Training...:  29% 748/2609 [42:54<40:44,  1.31s/it][A
Training...:  29% 749/2609 [42:55<36:29,  1.18s/it][A
Training...:  29% 750/2609 [42:56<31:10,  1.01s/it][A
Training...:  29% 751/2609 [43:03<1:27:24,  2.82s/it][A
Training...:  29% 752/2609 [43:10<2:07:12,  4.11s/it][A
Training...:  29% 753/2609 [43:17<2:30:47,  4.87s/it][A
Training...:  29% 754/2609 [43:23<2:44:28,  5.32s/it][A
Training...:  29% 755/2609 [43:29<2:50:28,  5.52s/it][A
Training...:  29% 756/2609 [43:35<2:52:54,  5.60s/it][A
Training...:  29% 757/2609 [43:40<2:52:35,  5.59s/it][A
Training...:  29% 758/2609 [43:46<2:49:41,  5.50s/it][A
Training...:  29% 759/2609 [43:51<2:46:49,  5.41s/it][A
Training...:  29% 760/2609 [43:56<2:43:51,  5.32s/it][A
Training...:  29% 761/2609 [44:01<2:41:24,  5.24s/it][A
Training...:  29% 762/2609 [44:06<2:36:00,  5.07s/it][A
Training...:  29% 763/2609 [44:10<2:31:30,  4.92s/it][A
Training...:  29% 764/2609 [44:15<2:26:25,  4.76s/it][A
Training...:  29% 765/2609 [44:19<2:22:01,  4.62s/it][A
Training...:  29% 766/2609 [44:23<2:17:25,  4.47s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:35:45<20:36:30, 9273.77s/it]
Training...:  29% 766/2609 [44:28<2:17:25,  4.47s/it][A
Training...:  29% 767/2609 [44:28<2:19:58,  4.56s/it][A
Training...:  29% 768/2609 [44:32<2:13:44,  4.36s/it][A
Training...:  29% 769/2609 [44:36<2:09:34,  4.23s/it][A
Training...:  30% 770/2609 [44:39<2:05:01,  4.08s/it][A
Training...:  30% 771/2609 [44:43<2:00:45,  3.94s/it][A
Training...:  30% 772/2609 [44:47<1:56:53,  3.82s/it][A
Training...:  30% 773/2609 [44:50<1:53:22,  3.71s/it][A
Training...:  30% 774/2609 [44:53<1:50:08,  3.60s/it][A
Training...:  30% 775/2609 [44:57<1:47:20,  3.51s/it][A
Training...:  30% 776/2609 [45:00<1:43:58,  3.40s/it][A
Training...:  30% 777/2609 [45:03<1:41:13,  3.32s/it][A
Training...:  30% 778/2609 [45:06<1:38:04,  3.21s/it][A
Training...:  30% 779/2609 [45:09<1:35:06,  3.12s/it][A
Training...:  30% 780/2609 [45:12<1:31:57,  3.02s/it][A
Training...:  30% 781/2609 [45:14<1:28:38,  2.91s/it][A
Training...:  30% 782/2609 [45:17<1:25:23,  2.80s/it][A
Training...:  30% 783/2609 [45:19<1:22:57,  2.73s/it][A
Training...:  30% 784/2609 [45:22<1:20:14,  2.64s/it][A
Training...:  30% 785/2609 [45:24<1:17:38,  2.55s/it][A
Training...:  30% 786/2609 [45:26<1:14:55,  2.47s/it][A
Training...:  30% 787/2609 [45:29<1:11:55,  2.37s/it][A
Training...:  30% 788/2609 [45:31<1:09:02,  2.28s/it][A
Training...:  30% 789/2609 [45:33<1:06:16,  2.18s/it][A
Training...:  30% 790/2609 [45:34<1:03:36,  2.10s/it][A
Training...:  30% 791/2609 [45:36<1:00:51,  2.01s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:36:55<20:36:30, 9273.77s/it]
Training...:  30% 791/2609 [45:38<1:00:51,  2.01s/it][A
Training...:  30% 792/2609 [45:38<1:01:44,  2.04s/it][A
Training...:  30% 793/2609 [45:40<57:44,  1.91s/it]  [A
Training...:  30% 794/2609 [45:41<53:52,  1.78s/it][A
Training...:  30% 795/2609 [45:43<50:27,  1.67s/it][A
Training...:  31% 796/2609 [45:44<47:03,  1.56s/it][A
Training...:  31% 797/2609 [45:45<43:26,  1.44s/it][A
Training...:  31% 798/2609 [45:46<39:22,  1.30s/it][A
Training...:  31% 799/2609 [45:47<34:40,  1.15s/it][A
Training...:  31% 800/2609 [45:48<29:18,  1.03it/s][A
Training...:  31% 801/2609 [45:55<1:25:13,  2.83s/it][A
Training...:  31% 802/2609 [46:02<2:02:16,  4.06s/it][A
Training...:  31% 803/2609 [46:08<2:24:00,  4.78s/it][A
Training...:  31% 804/2609 [46:14<2:35:47,  5.18s/it][A
Training...:  31% 805/2609 [46:20<2:42:30,  5.40s/it][A
Training...:  31% 806/2609 [46:26<2:46:36,  5.54s/it][A
Training...:  31% 807/2609 [46:32<2:46:43,  5.55s/it][A
Training...:  31% 808/2609 [46:37<2:42:52,  5.43s/it][A
Training...:  31% 809/2609 [46:42<2:39:30,  5.32s/it][A
Training...:  31% 810/2609 [46:47<2:35:41,  5.19s/it][A
Training...:  31% 811/2609 [46:52<2:32:11,  5.08s/it][A
Training...:  31% 812/2609 [46:56<2:27:13,  4.92s/it][A
Training...:  31% 813/2609 [47:01<2:23:37,  4.80s/it][A
Training...:  31% 814/2609 [47:05<2:19:19,  4.66s/it][A
Training...:  31% 815/2609 [47:09<2:14:54,  4.51s/it][A
Training...:  31% 816/2609 [47:13<2:10:33,  4.37s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:38:35<20:36:30, 9273.77s/it]
Training...:  31% 816/2609 [47:18<2:10:33,  4.37s/it][A
Training...:  31% 817/2609 [47:18<2:13:04,  4.46s/it][A
Training...:  31% 818/2609 [47:22<2:07:32,  4.27s/it][A
Training...:  31% 819/2609 [47:26<2:03:24,  4.14s/it][A
Training...:  31% 820/2609 [47:29<1:59:23,  4.00s/it][A
Training...:  31% 821/2609 [47:33<1:55:48,  3.89s/it][A
Training...:  32% 822/2609 [47:36<1:51:37,  3.75s/it][A
Training...:  32% 823/2609 [47:40<1:48:20,  3.64s/it][A
Training...:  32% 824/2609 [47:43<1:45:03,  3.53s/it][A
Training...:  32% 825/2609 [47:46<1:41:56,  3.43s/it][A
Training...:  32% 826/2609 [47:49<1:38:44,  3.32s/it][A
Training...:  32% 827/2609 [47:52<1:36:34,  3.25s/it][A
Training...:  32% 828/2609 [47:55<1:33:28,  3.15s/it][A
Training...:  32% 829/2609 [47:58<1:30:46,  3.06s/it][A
Training...:  32% 830/2609 [48:01<1:28:15,  2.98s/it][A
Training...:  32% 831/2609 [48:04<1:25:52,  2.90s/it][A
Training...:  32% 832/2609 [48:06<1:23:14,  2.81s/it][A
Training...:  32% 833/2609 [48:09<1:21:02,  2.74s/it][A
Training...:  32% 834/2609 [48:11<1:18:22,  2.65s/it][A
Training...:  32% 835/2609 [48:14<1:15:45,  2.56s/it][A
Training...:  32% 836/2609 [48:16<1:13:30,  2.49s/it][A
Training...:  32% 837/2609 [48:18<1:10:45,  2.40s/it][A
Training...:  32% 838/2609 [48:20<1:07:59,  2.30s/it][A
Training...:  32% 839/2609 [48:22<1:05:29,  2.22s/it][A
Training...:  32% 840/2609 [48:24<1:02:37,  2.12s/it][A
Training...:  32% 841/2609 [48:26<1:00:05,  2.04s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:39:45<20:36:30, 9273.77s/it]
Training...:  32% 841/2609 [48:28<1:00:05,  2.04s/it][A
Training...:  32% 842/2609 [48:28<1:01:07,  2.08s/it][A
Training...:  32% 843/2609 [48:30<57:11,  1.94s/it]  [A
Training...:  32% 844/2609 [48:31<53:33,  1.82s/it][A
Training...:  32% 845/2609 [48:33<50:00,  1.70s/it][A
Training...:  32% 846/2609 [48:34<46:18,  1.58s/it][A
Training...:  32% 847/2609 [48:35<42:36,  1.45s/it][A
Training...:  33% 848/2609 [48:36<38:39,  1.32s/it][A
Training...:  33% 849/2609 [48:37<34:25,  1.17s/it][A
Training...:  33% 850/2609 [48:38<29:23,  1.00s/it][A
Training...:  33% 851/2609 [48:45<1:23:24,  2.85s/it][A
Training...:  33% 852/2609 [48:52<2:02:00,  4.17s/it][A
Training...:  33% 853/2609 [48:59<2:23:55,  4.92s/it][A
Training...:  33% 854/2609 [49:05<2:36:09,  5.34s/it][A
Training...:  33% 855/2609 [49:11<2:42:08,  5.55s/it][A
Training...:  33% 856/2609 [49:17<2:43:16,  5.59s/it][A
Training...:  33% 857/2609 [49:22<2:42:32,  5.57s/it][A
Training...:  33% 858/2609 [49:27<2:39:32,  5.47s/it][A
Training...:  33% 859/2609 [49:33<2:37:35,  5.40s/it][A
Training...:  33% 860/2609 [49:37<2:32:57,  5.25s/it][A
Training...:  33% 861/2609 [49:42<2:29:33,  5.13s/it][A
Training...:  33% 862/2609 [49:47<2:25:14,  4.99s/it][A
Training...:  33% 863/2609 [49:52<2:21:20,  4.86s/it][A
Training...:  33% 864/2609 [49:56<2:16:16,  4.69s/it][A
Training...:  33% 865/2609 [50:00<2:12:12,  4.55s/it][A
Training...:  33% 866/2609 [50:04<2:07:51,  4.40s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:41:26<20:36:30, 9273.77s/it]
Training...:  33% 866/2609 [50:09<2:07:51,  4.40s/it][A
Training...:  33% 867/2609 [50:09<2:10:08,  4.48s/it][A
Training...:  33% 868/2609 [50:13<2:04:33,  4.29s/it][A
Training...:  33% 869/2609 [50:17<2:01:22,  4.19s/it][A
Training...:  33% 870/2609 [50:20<1:56:50,  4.03s/it][A
Training...:  33% 871/2609 [50:24<1:53:06,  3.91s/it][A
Training...:  33% 872/2609 [50:27<1:49:24,  3.78s/it][A
Training...:  33% 873/2609 [50:31<1:46:17,  3.67s/it][A
Training...:  33% 874/2609 [50:34<1:43:08,  3.57s/it][A
Training...:  34% 875/2609 [50:37<1:40:15,  3.47s/it][A
Training...:  34% 876/2609 [50:41<1:37:34,  3.38s/it][A
Training...:  34% 877/2609 [50:44<1:35:17,  3.30s/it][A
Training...:  34% 878/2609 [50:47<1:33:05,  3.23s/it][A
Training...:  34% 879/2609 [50:50<1:31:05,  3.16s/it][A
Training...:  34% 880/2609 [50:53<1:28:34,  3.07s/it][A
Training...:  34% 881/2609 [50:55<1:25:37,  2.97s/it][A
Training...:  34% 882/2609 [50:58<1:22:24,  2.86s/it][A
Training...:  34% 883/2609 [51:00<1:19:49,  2.78s/it][A
Training...:  34% 884/2609 [51:03<1:16:52,  2.67s/it][A
Training...:  34% 885/2609 [51:05<1:14:06,  2.58s/it][A
Training...:  34% 886/2609 [51:08<1:11:20,  2.48s/it][A
Training...:  34% 887/2609 [51:10<1:08:50,  2.40s/it][A
Training...:  34% 888/2609 [51:12<1:06:25,  2.32s/it][A
Training...:  34% 889/2609 [51:14<1:03:56,  2.23s/it][A
Training...:  34% 890/2609 [51:16<1:01:22,  2.14s/it][A
Training...:  34% 891/2609 [51:18<58:44,  2.05s/it]  [A                                                                                                                                                                    
                                                   [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:42:37<20:36:30, 9273.77s/it]
Training...:  34% 891/2609 [51:20<58:44,  2.05s/it][A
Training...:  34% 892/2609 [51:20<59:37,  2.08s/it][A
Training...:  34% 893/2609 [51:21<55:48,  1.95s/it][A
Training...:  34% 894/2609 [51:23<52:10,  1.83s/it][A
Training...:  34% 895/2609 [51:24<48:42,  1.71s/it][A
Training...:  34% 896/2609 [51:26<44:57,  1.57s/it][A
Training...:  34% 897/2609 [51:27<41:17,  1.45s/it][A
Training...:  34% 898/2609 [51:28<37:20,  1.31s/it][A
Training...:  34% 899/2609 [51:29<33:06,  1.16s/it][A
Training...:  34% 900/2609 [51:29<28:03,  1.02it/s][A
Training...:  35% 901/2609 [51:36<1:21:35,  2.87s/it][A
Training...:  35% 902/2609 [51:44<1:57:34,  4.13s/it][A
Training...:  35% 903/2609 [51:50<2:18:04,  4.86s/it][A
Training...:  35% 904/2609 [51:56<2:30:10,  5.28s/it][A
Training...:  35% 905/2609 [52:02<2:36:01,  5.49s/it][A
Training...:  35% 906/2609 [52:08<2:37:21,  5.54s/it][A
Training...:  35% 907/2609 [52:14<2:37:22,  5.55s/it][A
Training...:  35% 908/2609 [52:19<2:34:57,  5.47s/it][A
Training...:  35% 909/2609 [52:24<2:32:23,  5.38s/it][A
Training...:  35% 910/2609 [52:29<2:28:04,  5.23s/it][A
Training...:  35% 911/2609 [52:34<2:25:17,  5.13s/it][A
Training...:  35% 912/2609 [52:39<2:21:17,  5.00s/it][A
Training...:  35% 913/2609 [52:43<2:17:50,  4.88s/it][A
Training...:  35% 914/2609 [52:47<2:13:35,  4.73s/it][A
Training...:  35% 915/2609 [52:52<2:10:17,  4.61s/it][A
Training...:  35% 916/2609 [52:56<2:07:16,  4.51s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:44:18<20:36:30, 9273.77s/it]
Training...:  35% 916/2609 [53:01<2:07:16,  4.51s/it][A
Training...:  35% 917/2609 [53:01<2:10:16,  4.62s/it][A
Training...:  35% 918/2609 [53:05<2:05:03,  4.44s/it][A
Training...:  35% 919/2609 [53:09<2:00:08,  4.27s/it][A
Training...:  35% 920/2609 [53:13<1:55:39,  4.11s/it][A
Training...:  35% 921/2609 [53:16<1:51:55,  3.98s/it][A
Training...:  35% 922/2609 [53:20<1:48:10,  3.85s/it][A
Training...:  35% 923/2609 [53:23<1:44:57,  3.73s/it][A
Training...:  35% 924/2609 [53:27<1:41:37,  3.62s/it][A
Training...:  35% 925/2609 [53:30<1:39:13,  3.54s/it][A
Training...:  35% 926/2609 [53:33<1:36:12,  3.43s/it][A
Training...:  36% 927/2609 [53:36<1:33:42,  3.34s/it][A
Training...:  36% 928/2609 [53:39<1:30:44,  3.24s/it][A
Training...:  36% 929/2609 [53:42<1:28:16,  3.15s/it][A
Training...:  36% 930/2609 [53:45<1:25:21,  3.05s/it][A
Training...:  36% 931/2609 [53:48<1:22:40,  2.96s/it][A
Training...:  36% 932/2609 [53:50<1:20:16,  2.87s/it][A
Training...:  36% 933/2609 [53:53<1:17:50,  2.79s/it][A
Training...:  36% 934/2609 [53:56<1:15:16,  2.70s/it][A
Training...:  36% 935/2609 [53:58<1:12:34,  2.60s/it][A
Training...:  36% 936/2609 [54:00<1:10:26,  2.53s/it][A
Training...:  36% 937/2609 [54:03<1:07:51,  2.44s/it][A
Training...:  36% 938/2609 [54:05<1:05:15,  2.34s/it][A
Training...:  36% 939/2609 [54:07<1:02:42,  2.25s/it][A
Training...:  36% 940/2609 [54:09<1:00:06,  2.16s/it][A
Training...:  36% 941/2609 [54:10<57:39,  2.07s/it]  [A                                                                                                                                                                    
                                                   [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:45:29<20:36:30, 9273.77s/it]
Training...:  36% 941/2609 [54:13<57:39,  2.07s/it][A
Training...:  36% 942/2609 [54:13<58:16,  2.10s/it][A
Training...:  36% 943/2609 [54:14<54:24,  1.96s/it][A
Training...:  36% 944/2609 [54:16<50:50,  1.83s/it][A
Training...:  36% 945/2609 [54:17<47:18,  1.71s/it][A
Training...:  36% 946/2609 [54:19<43:51,  1.58s/it][A
Training...:  36% 947/2609 [54:20<40:23,  1.46s/it][A
Training...:  36% 948/2609 [54:21<36:27,  1.32s/it][A
Training...:  36% 949/2609 [54:21<32:01,  1.16s/it][A
Training...:  36% 950/2609 [54:22<27:02,  1.02it/s][A
Training...:  36% 951/2609 [54:29<1:17:23,  2.80s/it][A
Training...:  36% 952/2609 [54:36<1:53:02,  4.09s/it][A
Training...:  37% 953/2609 [54:43<2:13:30,  4.84s/it][A
Training...:  37% 954/2609 [54:49<2:25:23,  5.27s/it][A
Training...:  37% 955/2609 [54:55<2:31:33,  5.50s/it][A
Training...:  37% 956/2609 [55:01<2:32:17,  5.53s/it][A
Training...:  37% 957/2609 [55:06<2:31:49,  5.51s/it][A
Training...:  37% 958/2609 [55:11<2:29:24,  5.43s/it][A
Training...:  37% 959/2609 [55:16<2:26:30,  5.33s/it][A
Training...:  37% 960/2609 [55:21<2:22:59,  5.20s/it][A
Training...:  37% 961/2609 [55:26<2:19:27,  5.08s/it][A
Training...:  37% 962/2609 [55:31<2:15:27,  4.93s/it][A
Training...:  37% 963/2609 [55:35<2:11:45,  4.80s/it][A
Training...:  37% 964/2609 [55:40<2:08:20,  4.68s/it][A
Training...:  37% 965/2609 [55:44<2:05:11,  4.57s/it][A
Training...:  37% 966/2609 [55:48<2:01:16,  4.43s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:47:10<20:36:30, 9273.77s/it]
Training...:  37% 966/2609 [55:53<2:01:16,  4.43s/it][A
Training...:  37% 967/2609 [55:53<2:03:08,  4.50s/it][A
Training...:  37% 968/2609 [55:57<1:58:03,  4.32s/it][A
Training...:  37% 969/2609 [56:01<1:55:14,  4.22s/it][A
Training...:  37% 970/2609 [56:04<1:51:32,  4.08s/it][A
Training...:  37% 971/2609 [56:08<1:48:44,  3.98s/it][A
Training...:  37% 972/2609 [56:12<1:45:39,  3.87s/it][A
Training...:  37% 973/2609 [56:15<1:42:56,  3.78s/it][A
Training...:  37% 974/2609 [56:19<1:39:03,  3.64s/it][A
Training...:  37% 975/2609 [56:22<1:36:22,  3.54s/it][A
Training...:  37% 976/2609 [56:25<1:33:07,  3.42s/it][A
Training...:  37% 977/2609 [56:28<1:30:19,  3.32s/it][A
Training...:  37% 978/2609 [56:31<1:27:30,  3.22s/it][A
Training...:  38% 979/2609 [56:34<1:25:08,  3.13s/it][A
Training...:  38% 980/2609 [56:37<1:22:51,  3.05s/it][A
Training...:  38% 981/2609 [56:40<1:20:26,  2.96s/it][A
Training...:  38% 982/2609 [56:42<1:17:49,  2.87s/it][A
Training...:  38% 983/2609 [56:45<1:15:53,  2.80s/it][A
Training...:  38% 984/2609 [56:47<1:13:18,  2.71s/it][A
Training...:  38% 985/2609 [56:50<1:10:50,  2.62s/it][A
Training...:  38% 986/2609 [56:52<1:08:40,  2.54s/it][A
Training...:  38% 987/2609 [56:54<1:06:00,  2.44s/it][A
Training...:  38% 988/2609 [56:57<1:03:26,  2.35s/it][A
Training...:  38% 989/2609 [56:59<1:00:58,  2.26s/it][A
Training...:  38% 990/2609 [57:01<58:12,  2.16s/it]  [A
Training...:  38% 991/2609 [57:02<55:34,  2.06s/it][A                                                                                                                                                                    
                                                   [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:48:21<20:36:30, 9273.77s/it]
Training...:  38% 991/2609 [57:05<55:34,  2.06s/it][A
Training...:  38% 992/2609 [57:05<56:18,  2.09s/it][A
Training...:  38% 993/2609 [57:06<52:37,  1.95s/it][A
Training...:  38% 994/2609 [57:08<49:03,  1.82s/it][A
Training...:  38% 995/2609 [57:09<45:31,  1.69s/it][A
Training...:  38% 996/2609 [57:10<42:06,  1.57s/it][A
Training...:  38% 997/2609 [57:11<38:24,  1.43s/it][A
Training...:  38% 998/2609 [57:12<34:28,  1.28s/it][A
Training...:  38% 999/2609 [57:13<30:24,  1.13s/it][A
Training...:  38% 1000/2609 [57:14<25:37,  1.05it/s][A
Training...:  38% 1001/2609 [57:21<1:14:57,  2.80s/it][A
Training...:  38% 1002/2609 [57:28<1:49:35,  4.09s/it][A
Training...:  38% 1003/2609 [57:35<2:10:07,  4.86s/it][A
Training...:  38% 1004/2609 [57:41<2:21:29,  5.29s/it][A
Training...:  39% 1005/2609 [57:47<2:26:22,  5.48s/it][A
Training...:  39% 1006/2609 [57:53<2:28:46,  5.57s/it][A
Training...:  39% 1007/2609 [57:58<2:28:05,  5.55s/it][A
Training...:  39% 1008/2609 [58:03<2:26:27,  5.49s/it][A
Training...:  39% 1009/2609 [58:09<2:23:49,  5.39s/it][A
Training...:  39% 1010/2609 [58:14<2:20:18,  5.26s/it][A
Training...:  39% 1011/2609 [58:18<2:16:45,  5.13s/it][A
Training...:  39% 1012/2609 [58:23<2:12:52,  4.99s/it][A
Training...:  39% 1013/2609 [58:28<2:09:35,  4.87s/it][A
Training...:  39% 1014/2609 [58:32<2:05:34,  4.72s/it][A
Training...:  39% 1015/2609 [58:36<2:03:01,  4.63s/it][A
Training...:  39% 1016/2609 [58:41<2:00:13,  4.53s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:50:02<20:36:30, 9273.77s/it]
Training...:  39% 1016/2609 [58:45<2:00:13,  4.53s/it][A
Training...:  39% 1017/2609 [58:45<2:02:03,  4.60s/it][A
Training...:  39% 1018/2609 [58:49<1:56:29,  4.39s/it][A
Training...:  39% 1019/2609 [58:53<1:52:39,  4.25s/it][A
Training...:  39% 1020/2609 [58:57<1:48:41,  4.10s/it][A
Training...:  39% 1021/2609 [59:01<1:45:10,  3.97s/it][A
Training...:  39% 1022/2609 [59:04<1:42:09,  3.86s/it][A
Training...:  39% 1023/2609 [59:08<1:39:14,  3.75s/it][A
Training...:  39% 1024/2609 [59:11<1:36:28,  3.65s/it][A
Training...:  39% 1025/2609 [59:15<1:33:46,  3.55s/it][A
Training...:  39% 1026/2609 [59:18<1:31:07,  3.45s/it][A
Training...:  39% 1027/2609 [59:21<1:28:22,  3.35s/it][A
Training...:  39% 1028/2609 [59:24<1:26:04,  3.27s/it][A
Training...:  39% 1029/2609 [59:27<1:23:25,  3.17s/it][A
Training...:  39% 1030/2609 [59:30<1:21:00,  3.08s/it][A
Training...:  40% 1031/2609 [59:33<1:18:26,  2.98s/it][A
Training...:  40% 1032/2609 [59:35<1:15:50,  2.89s/it][A
Training...:  40% 1033/2609 [59:38<1:13:34,  2.80s/it][A
Training...:  40% 1034/2609 [59:40<1:11:22,  2.72s/it][A
Training...:  40% 1035/2609 [59:43<1:09:10,  2.64s/it][A
Training...:  40% 1036/2609 [59:45<1:06:47,  2.55s/it][A
Training...:  40% 1037/2609 [59:47<1:04:41,  2.47s/it][A
Training...:  40% 1038/2609 [59:50<1:02:10,  2.37s/it][A
Training...:  40% 1039/2609 [59:52<59:31,  2.27s/it]  [A
Training...:  40% 1040/2609 [59:54<57:22,  2.19s/it][A
Training...:  40% 1041/2609 [59:55<54:47,  2.10s/it][A                                                                                                                                                                    
                                                    [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:51:15<20:36:30, 9273.77s/it]
Training...:  40% 1041/2609 [59:58<54:47,  2.10s/it][A
Training...:  40% 1042/2609 [59:58<55:41,  2.13s/it][A
Training...:  40% 1043/2609 [59:59<52:07,  2.00s/it][A
Training...:  40% 1044/2609 [1:00:01<48:14,  1.85s/it][A
Training...:  40% 1045/2609 [1:00:02<45:04,  1.73s/it][A
Training...:  40% 1046/2609 [1:00:04<41:31,  1.59s/it][A
Training...:  40% 1047/2609 [1:00:05<38:10,  1.47s/it][A
Training...:  40% 1048/2609 [1:00:06<34:32,  1.33s/it][A
Training...:  40% 1049/2609 [1:00:07<30:27,  1.17s/it][A
Training...:  40% 1050/2609 [1:00:07<25:39,  1.01it/s][A
Training...:  40% 1051/2609 [1:00:14<1:13:46,  2.84s/it][A
Training...:  40% 1052/2609 [1:00:21<1:46:30,  4.10s/it][A
Training...:  40% 1053/2609 [1:00:28<2:05:51,  4.85s/it][A
Training...:  40% 1054/2609 [1:00:34<2:17:11,  5.29s/it][A
Training...:  40% 1055/2609 [1:00:40<2:22:46,  5.51s/it][A
Training...:  40% 1056/2609 [1:00:46<2:24:39,  5.59s/it][A
Training...:  41% 1057/2609 [1:00:52<2:24:47,  5.60s/it][A
Training...:  41% 1058/2609 [1:00:57<2:21:48,  5.49s/it][A
Training...:  41% 1059/2609 [1:01:02<2:19:11,  5.39s/it][A
Training...:  41% 1060/2609 [1:01:07<2:16:55,  5.30s/it][A
Training...:  41% 1061/2609 [1:01:12<2:13:52,  5.19s/it][A
Training...:  41% 1062/2609 [1:01:17<2:09:46,  5.03s/it][A
Training...:  41% 1063/2609 [1:01:21<2:06:20,  4.90s/it][A
Training...:  41% 1064/2609 [1:01:26<2:02:18,  4.75s/it][A
Training...:  41% 1065/2609 [1:01:30<1:58:18,  4.60s/it][A
Training...:  41% 1066/2609 [1:01:34<1:55:04,  4.47s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:52:56<20:36:30, 9273.77s/it]
Training...:  41% 1066/2609 [1:01:39<1:55:04,  4.47s/it][A
Training...:  41% 1067/2609 [1:01:39<1:56:56,  4.55s/it][A
Training...:  41% 1068/2609 [1:01:43<1:51:52,  4.36s/it][A
Training...:  41% 1069/2609 [1:01:47<1:48:07,  4.21s/it][A
Training...:  41% 1070/2609 [1:01:50<1:44:01,  4.06s/it][A
Training...:  41% 1071/2609 [1:01:54<1:40:54,  3.94s/it][A
Training...:  41% 1072/2609 [1:01:58<1:37:42,  3.81s/it][A
Training...:  41% 1073/2609 [1:02:01<1:34:30,  3.69s/it][A
Training...:  41% 1074/2609 [1:02:04<1:31:24,  3.57s/it][A
Training...:  41% 1075/2609 [1:02:08<1:28:35,  3.47s/it][A
Training...:  41% 1076/2609 [1:02:11<1:26:08,  3.37s/it][A
Training...:  41% 1077/2609 [1:02:14<1:23:32,  3.27s/it][A
Training...:  41% 1078/2609 [1:02:17<1:21:06,  3.18s/it][A
Training...:  41% 1079/2609 [1:02:20<1:18:59,  3.10s/it][A
Training...:  41% 1080/2609 [1:02:22<1:16:42,  3.01s/it][A
Training...:  41% 1081/2609 [1:02:25<1:14:40,  2.93s/it][A
Training...:  41% 1082/2609 [1:02:28<1:12:38,  2.85s/it][A
Training...:  42% 1083/2609 [1:02:30<1:10:18,  2.76s/it][A
Training...:  42% 1084/2609 [1:02:33<1:07:56,  2.67s/it][A
Training...:  42% 1085/2609 [1:02:35<1:05:59,  2.60s/it][A
Training...:  42% 1086/2609 [1:02:38<1:03:52,  2.52s/it][A
Training...:  42% 1087/2609 [1:02:40<1:01:53,  2.44s/it][A
Training...:  42% 1088/2609 [1:02:42<59:28,  2.35s/it]  [A
Training...:  42% 1089/2609 [1:02:44<57:12,  2.26s/it][A
Training...:  42% 1090/2609 [1:02:46<55:34,  2.20s/it][A
Training...:  42% 1091/2609 [1:02:48<53:04,  2.10s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:54:07<20:36:30, 9273.77s/it]
Training...:  42% 1091/2609 [1:02:50<53:04,  2.10s/it][A
Training...:  42% 1092/2609 [1:02:50<53:47,  2.13s/it][A
Training...:  42% 1093/2609 [1:02:52<50:25,  2.00s/it][A
Training...:  42% 1094/2609 [1:02:53<47:04,  1.86s/it][A
Training...:  42% 1095/2609 [1:02:55<43:52,  1.74s/it][A
Training...:  42% 1096/2609 [1:02:56<40:31,  1.61s/it][A
Training...:  42% 1097/2609 [1:02:57<37:19,  1.48s/it][A
Training...:  42% 1098/2609 [1:02:58<33:55,  1.35s/it][A
Training...:  42% 1099/2609 [1:02:59<30:01,  1.19s/it][A
Training...:  42% 1100/2609 [1:03:00<25:17,  1.01s/it][A
Training...:  42% 1101/2609 [1:03:07<1:11:24,  2.84s/it][A
Training...:  42% 1102/2609 [1:03:14<1:42:36,  4.09s/it][A
Training...:  42% 1103/2609 [1:03:20<2:01:38,  4.85s/it][A
Training...:  42% 1104/2609 [1:03:27<2:12:15,  5.27s/it][A
Training...:  42% 1105/2609 [1:03:33<2:17:07,  5.47s/it][A
Training...:  42% 1106/2609 [1:03:39<2:20:07,  5.59s/it][A
Training...:  42% 1107/2609 [1:03:44<2:21:06,  5.64s/it][A
Training...:  42% 1108/2609 [1:03:50<2:19:29,  5.58s/it][A
Training...:  43% 1109/2609 [1:03:55<2:15:53,  5.44s/it][A
Training...:  43% 1110/2609 [1:04:00<2:12:06,  5.29s/it][A
Training...:  43% 1111/2609 [1:04:05<2:08:55,  5.16s/it][A
Training...:  43% 1112/2609 [1:04:09<2:05:22,  5.02s/it][A
Training...:  43% 1113/2609 [1:04:14<2:02:22,  4.91s/it][A
Training...:  43% 1114/2609 [1:04:18<1:58:52,  4.77s/it][A
Training...:  43% 1115/2609 [1:04:23<1:55:39,  4.65s/it][A
Training...:  43% 1116/2609 [1:04:27<1:51:47,  4.49s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:55:48<20:36:30, 9273.77s/it]
Training...:  43% 1116/2609 [1:04:32<1:51:47,  4.49s/it][A
Training...:  43% 1117/2609 [1:04:32<1:53:24,  4.56s/it][A
Training...:  43% 1118/2609 [1:04:36<1:48:24,  4.36s/it][A
Training...:  43% 1119/2609 [1:04:39<1:45:15,  4.24s/it][A
Training...:  43% 1120/2609 [1:04:43<1:41:38,  4.10s/it][A
Training...:  43% 1121/2609 [1:04:47<1:38:40,  3.98s/it][A
Training...:  43% 1122/2609 [1:04:51<1:35:30,  3.85s/it][A
Training...:  43% 1123/2609 [1:04:54<1:32:44,  3.74s/it][A
Training...:  43% 1124/2609 [1:04:57<1:29:40,  3.62s/it][A
Training...:  43% 1125/2609 [1:05:01<1:27:14,  3.53s/it][A
Training...:  43% 1126/2609 [1:05:04<1:24:30,  3.42s/it][A
Training...:  43% 1127/2609 [1:05:07<1:21:59,  3.32s/it][A
Training...:  43% 1128/2609 [1:05:10<1:19:13,  3.21s/it][A
Training...:  43% 1129/2609 [1:05:13<1:17:23,  3.14s/it][A
Training...:  43% 1130/2609 [1:05:16<1:15:10,  3.05s/it][A
Training...:  43% 1131/2609 [1:05:18<1:13:15,  2.97s/it][A
Training...:  43% 1132/2609 [1:05:21<1:10:50,  2.88s/it][A
Training...:  43% 1133/2609 [1:05:24<1:08:59,  2.80s/it][A
Training...:  43% 1134/2609 [1:05:26<1:06:32,  2.71s/it][A
Training...:  44% 1135/2609 [1:05:29<1:04:09,  2.61s/it][A
Training...:  44% 1136/2609 [1:05:31<1:01:51,  2.52s/it][A
Training...:  44% 1137/2609 [1:05:33<59:51,  2.44s/it]  [A
Training...:  44% 1138/2609 [1:05:35<57:17,  2.34s/it][A
Training...:  44% 1139/2609 [1:05:37<54:57,  2.24s/it][A
Training...:  44% 1140/2609 [1:05:39<52:25,  2.14s/it][A
Training...:  44% 1141/2609 [1:05:41<50:11,  2.05s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:57:00<20:36:30, 9273.77s/it]
Training...:  44% 1141/2609 [1:05:43<50:11,  2.05s/it][A
Training...:  44% 1142/2609 [1:05:43<50:04,  2.05s/it][A
Training...:  44% 1143/2609 [1:05:45<46:52,  1.92s/it][A
Training...:  44% 1144/2609 [1:05:46<44:06,  1.81s/it][A
Training...:  44% 1145/2609 [1:05:48<41:18,  1.69s/it][A
Training...:  44% 1146/2609 [1:05:49<38:08,  1.56s/it][A
Training...:  44% 1147/2609 [1:05:50<35:01,  1.44s/it][A
Training...:  44% 1148/2609 [1:05:51<31:37,  1.30s/it][A
Training...:  44% 1149/2609 [1:05:52<28:05,  1.15s/it][A
Training...:  44% 1150/2609 [1:05:52<23:40,  1.03it/s][A
Training...:  44% 1151/2609 [1:06:00<1:09:38,  2.87s/it][A
Training...:  44% 1152/2609 [1:06:07<1:40:31,  4.14s/it][A
Training...:  44% 1153/2609 [1:06:13<1:58:27,  4.88s/it][A
Training...:  44% 1154/2609 [1:06:20<2:08:56,  5.32s/it][A
Training...:  44% 1155/2609 [1:06:26<2:13:47,  5.52s/it][A
Training...:  44% 1156/2609 [1:06:31<2:14:52,  5.57s/it][A
Training...:  44% 1157/2609 [1:06:37<2:14:38,  5.56s/it][A
Training...:  44% 1158/2609 [1:06:42<2:12:11,  5.47s/it][A
Training...:  44% 1159/2609 [1:06:47<2:09:51,  5.37s/it][A
Training...:  44% 1160/2609 [1:06:52<2:06:37,  5.24s/it][A
Training...:  44% 1161/2609 [1:06:57<2:03:57,  5.14s/it][A
Training...:  45% 1162/2609 [1:07:02<2:00:18,  4.99s/it][A
Training...:  45% 1163/2609 [1:07:07<1:57:40,  4.88s/it][A
Training...:  45% 1164/2609 [1:07:11<1:54:12,  4.74s/it][A
Training...:  45% 1165/2609 [1:07:15<1:51:26,  4.63s/it][A
Training...:  45% 1166/2609 [1:07:19<1:48:11,  4.50s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:58:41<20:36:30, 9273.77s/it]
Training...:  45% 1166/2609 [1:07:24<1:48:11,  4.50s/it][A
Training...:  45% 1167/2609 [1:07:24<1:50:05,  4.58s/it][A
Training...:  45% 1168/2609 [1:07:28<1:45:37,  4.40s/it][A
Training...:  45% 1169/2609 [1:07:32<1:43:36,  4.32s/it][A
Training...:  45% 1170/2609 [1:07:36<1:39:20,  4.14s/it][A
Training...:  45% 1171/2609 [1:07:40<1:37:05,  4.05s/it][A
Training...:  45% 1172/2609 [1:07:44<1:33:45,  3.91s/it][A
Training...:  45% 1173/2609 [1:07:47<1:30:38,  3.79s/it][A
Training...:  45% 1174/2609 [1:07:50<1:27:44,  3.67s/it][A
Training...:  45% 1175/2609 [1:07:54<1:25:17,  3.57s/it][A
Training...:  45% 1176/2609 [1:07:57<1:22:11,  3.44s/it][A
Training...:  45% 1177/2609 [1:08:00<1:19:59,  3.35s/it][A
Training...:  45% 1178/2609 [1:08:03<1:17:45,  3.26s/it][A
Training...:  45% 1179/2609 [1:08:06<1:15:44,  3.18s/it][A
Training...:  45% 1180/2609 [1:08:09<1:13:13,  3.07s/it][A
Training...:  45% 1181/2609 [1:08:12<1:11:16,  3.00s/it][A
Training...:  45% 1182/2609 [1:08:14<1:08:46,  2.89s/it][A
Training...:  45% 1183/2609 [1:08:17<1:06:34,  2.80s/it][A
Training...:  45% 1184/2609 [1:08:19<1:04:20,  2.71s/it][A
Training...:  45% 1185/2609 [1:08:22<1:02:10,  2.62s/it][A
Training...:  45% 1186/2609 [1:08:24<59:57,  2.53s/it]  [A
Training...:  45% 1187/2609 [1:08:26<57:48,  2.44s/it][A
Training...:  46% 1188/2609 [1:08:29<55:33,  2.35s/it][A
Training...:  46% 1189/2609 [1:08:31<53:18,  2.25s/it][A
Training...:  46% 1190/2609 [1:08:32<51:00,  2.16s/it][A
Training...:  46% 1191/2609 [1:08:34<48:54,  2.07s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [31:59:53<20:36:30, 9273.77s/it]
Training...:  46% 1191/2609 [1:08:37<48:54,  2.07s/it][A
Training...:  46% 1192/2609 [1:08:37<49:47,  2.11s/it][A
Training...:  46% 1193/2609 [1:08:38<46:25,  1.97s/it][A
Training...:  46% 1194/2609 [1:08:40<43:18,  1.84s/it][A
Training...:  46% 1195/2609 [1:08:41<40:25,  1.72s/it][A
Training...:  46% 1196/2609 [1:08:42<37:27,  1.59s/it][A
Training...:  46% 1197/2609 [1:08:44<34:20,  1.46s/it][A
Training...:  46% 1198/2609 [1:08:45<30:59,  1.32s/it][A
Training...:  46% 1199/2609 [1:08:45<27:32,  1.17s/it][A
Training...:  46% 1200/2609 [1:08:46<23:19,  1.01it/s][A
Training...:  46% 1201/2609 [1:08:53<1:06:08,  2.82s/it][A
Training...:  46% 1202/2609 [1:09:00<1:36:02,  4.10s/it][A
Training...:  46% 1203/2609 [1:09:07<1:53:04,  4.83s/it][A
Training...:  46% 1204/2609 [1:09:13<2:03:48,  5.29s/it][A
Training...:  46% 1205/2609 [1:09:19<2:08:57,  5.51s/it][A
Training...:  46% 1206/2609 [1:09:25<2:10:51,  5.60s/it][A
Training...:  46% 1207/2609 [1:09:30<2:09:53,  5.56s/it][A
Training...:  46% 1208/2609 [1:09:36<2:07:30,  5.46s/it][A
Training...:  46% 1209/2609 [1:09:41<2:05:18,  5.37s/it][A
Training...:  46% 1210/2609 [1:09:46<2:01:50,  5.23s/it][A
Training...:  46% 1211/2609 [1:09:51<1:59:54,  5.15s/it][A
Training...:  46% 1212/2609 [1:09:55<1:57:38,  5.05s/it][A
Training...:  46% 1213/2609 [1:10:00<1:53:53,  4.89s/it][A
Training...:  47% 1214/2609 [1:10:04<1:50:25,  4.75s/it][A
Training...:  47% 1215/2609 [1:10:09<1:46:50,  4.60s/it][A
Training...:  47% 1216/2609 [1:10:13<1:43:07,  4.44s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:01:34<20:36:30, 9273.77s/it]
Training...:  47% 1216/2609 [1:10:17<1:43:07,  4.44s/it][A
Training...:  47% 1217/2609 [1:10:17<1:44:57,  4.52s/it][A
Training...:  47% 1218/2609 [1:10:21<1:40:14,  4.32s/it][A
Training...:  47% 1219/2609 [1:10:25<1:36:32,  4.17s/it][A
Training...:  47% 1220/2609 [1:10:29<1:33:00,  4.02s/it][A
Training...:  47% 1221/2609 [1:10:32<1:29:55,  3.89s/it][A
Training...:  47% 1222/2609 [1:10:36<1:27:10,  3.77s/it][A
Training...:  47% 1223/2609 [1:10:39<1:24:44,  3.67s/it][A
Training...:  47% 1224/2609 [1:10:43<1:22:00,  3.55s/it][A
Training...:  47% 1225/2609 [1:10:46<1:20:02,  3.47s/it][A
Training...:  47% 1226/2609 [1:10:49<1:17:33,  3.36s/it][A
Training...:  47% 1227/2609 [1:10:52<1:15:27,  3.28s/it][A
Training...:  47% 1228/2609 [1:10:55<1:13:08,  3.18s/it][A
Training...:  47% 1229/2609 [1:10:58<1:11:27,  3.11s/it][A
Training...:  47% 1230/2609 [1:11:01<1:09:23,  3.02s/it][A
Training...:  47% 1231/2609 [1:11:03<1:07:29,  2.94s/it][A
Training...:  47% 1232/2609 [1:11:06<1:05:21,  2.85s/it][A
Training...:  47% 1233/2609 [1:11:09<1:03:47,  2.78s/it][A
Training...:  47% 1234/2609 [1:11:11<1:01:36,  2.69s/it][A
Training...:  47% 1235/2609 [1:11:14<59:29,  2.60s/it]  [A
Training...:  47% 1236/2609 [1:11:16<57:19,  2.50s/it][A
Training...:  47% 1237/2609 [1:11:18<55:15,  2.42s/it][A
Training...:  47% 1238/2609 [1:11:20<52:58,  2.32s/it][A
Training...:  47% 1239/2609 [1:11:22<50:49,  2.23s/it][A
Training...:  48% 1240/2609 [1:11:24<48:43,  2.14s/it][A
Training...:  48% 1241/2609 [1:11:26<46:36,  2.04s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:02:45<20:36:30, 9273.77s/it]
Training...:  48% 1241/2609 [1:11:28<46:36,  2.04s/it][A
Training...:  48% 1242/2609 [1:11:28<47:39,  2.09s/it][A
Training...:  48% 1243/2609 [1:11:30<44:41,  1.96s/it][A
Training...:  48% 1244/2609 [1:11:31<41:36,  1.83s/it][A
Training...:  48% 1245/2609 [1:11:33<38:55,  1.71s/it][A
Training...:  48% 1246/2609 [1:11:34<36:05,  1.59s/it][A
Training...:  48% 1247/2609 [1:11:35<33:22,  1.47s/it][A
Training...:  48% 1248/2609 [1:11:36<30:17,  1.34s/it][A
Training...:  48% 1249/2609 [1:11:37<26:47,  1.18s/it][A
Training...:  48% 1250/2609 [1:11:38<22:28,  1.01it/s][A
Training...:  48% 1251/2609 [1:11:45<1:04:37,  2.86s/it][A
Training...:  48% 1252/2609 [1:11:52<1:32:44,  4.10s/it][A
Training...:  48% 1253/2609 [1:11:59<1:50:13,  4.88s/it][A
Training...:  48% 1254/2609 [1:12:05<2:00:17,  5.33s/it][A
Training...:  48% 1255/2609 [1:12:11<2:05:43,  5.57s/it][A
Training...:  48% 1256/2609 [1:12:17<2:06:25,  5.61s/it][A
Training...:  48% 1257/2609 [1:12:22<2:06:12,  5.60s/it][A
Training...:  48% 1258/2609 [1:12:28<2:04:10,  5.52s/it][A
Training...:  48% 1259/2609 [1:12:33<2:02:08,  5.43s/it][A
Training...:  48% 1260/2609 [1:12:38<1:58:02,  5.25s/it][A
Training...:  48% 1261/2609 [1:12:42<1:54:58,  5.12s/it][A
Training...:  48% 1262/2609 [1:12:47<1:51:21,  4.96s/it][A
Training...:  48% 1263/2609 [1:12:51<1:47:34,  4.80s/it][A
Training...:  48% 1264/2609 [1:12:56<1:43:49,  4.63s/it][A
Training...:  48% 1265/2609 [1:13:00<1:41:01,  4.51s/it][A
Training...:  49% 1266/2609 [1:13:04<1:37:39,  4.36s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:04:25<20:36:30, 9273.77s/it]
Training...:  49% 1266/2609 [1:13:09<1:37:39,  4.36s/it][A
Training...:  49% 1267/2609 [1:13:09<1:39:21,  4.44s/it][A
Training...:  49% 1268/2609 [1:13:12<1:35:13,  4.26s/it][A
Training...:  49% 1269/2609 [1:13:16<1:31:45,  4.11s/it][A
Training...:  49% 1270/2609 [1:13:20<1:28:27,  3.96s/it][A
Training...:  49% 1271/2609 [1:13:23<1:25:45,  3.85s/it][A
Training...:  49% 1272/2609 [1:13:27<1:23:04,  3.73s/it][A
Training...:  49% 1273/2609 [1:13:30<1:20:41,  3.62s/it][A
Training...:  49% 1274/2609 [1:13:34<1:18:19,  3.52s/it][A
Training...:  49% 1275/2609 [1:13:37<1:16:33,  3.44s/it][A
Training...:  49% 1276/2609 [1:13:40<1:15:01,  3.38s/it][A
Training...:  49% 1277/2609 [1:13:43<1:12:37,  3.27s/it][A
Training...:  49% 1278/2609 [1:13:46<1:10:23,  3.17s/it][A
Training...:  49% 1279/2609 [1:13:49<1:08:00,  3.07s/it][A
Training...:  49% 1280/2609 [1:13:52<1:05:55,  2.98s/it][A
Training...:  49% 1281/2609 [1:13:54<1:04:10,  2.90s/it][A
Training...:  49% 1282/2609 [1:13:57<1:01:45,  2.79s/it][A
Training...:  49% 1283/2609 [1:13:59<59:57,  2.71s/it]  [A
Training...:  49% 1284/2609 [1:14:02<58:01,  2.63s/it][A
Training...:  49% 1285/2609 [1:14:04<56:07,  2.54s/it][A
Training...:  49% 1286/2609 [1:14:06<54:23,  2.47s/it][A
Training...:  49% 1287/2609 [1:14:09<52:25,  2.38s/it][A
Training...:  49% 1288/2609 [1:14:11<50:28,  2.29s/it][A
Training...:  49% 1289/2609 [1:14:13<48:37,  2.21s/it][A
Training...:  49% 1290/2609 [1:14:15<46:38,  2.12s/it][A
Training...:  49% 1291/2609 [1:14:16<44:33,  2.03s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:05:35<20:36:30, 9273.77s/it]
Training...:  49% 1291/2609 [1:14:18<44:33,  2.03s/it][A
Training...:  50% 1292/2609 [1:14:18<44:39,  2.03s/it][A
Training...:  50% 1293/2609 [1:14:20<41:42,  1.90s/it][A
Training...:  50% 1294/2609 [1:14:22<38:57,  1.78s/it][A
Training...:  50% 1295/2609 [1:14:23<36:14,  1.65s/it][A
Training...:  50% 1296/2609 [1:14:24<33:40,  1.54s/it][A
Training...:  50% 1297/2609 [1:14:25<31:15,  1.43s/it][A
Training...:  50% 1298/2609 [1:14:26<28:10,  1.29s/it][A
Training...:  50% 1299/2609 [1:14:27<24:50,  1.14s/it][A
Training...:  50% 1300/2609 [1:14:28<20:59,  1.04it/s][A
Training...:  50% 1301/2609 [1:14:35<1:01:54,  2.84s/it][A
Training...:  50% 1302/2609 [1:14:42<1:29:50,  4.12s/it][A
Training...:  50% 1303/2609 [1:14:49<1:46:42,  4.90s/it][A
Training...:  50% 1304/2609 [1:14:55<1:55:19,  5.30s/it][A
Training...:  50% 1305/2609 [1:15:01<2:00:16,  5.53s/it][A
Training...:  50% 1306/2609 [1:15:07<2:02:00,  5.62s/it][A
Training...:  50% 1307/2609 [1:15:12<2:01:22,  5.59s/it][A
Training...:  50% 1308/2609 [1:15:18<1:58:53,  5.48s/it][A
Training...:  50% 1309/2609 [1:15:23<1:56:27,  5.37s/it][A
Training...:  50% 1310/2609 [1:15:28<1:53:50,  5.26s/it][A
Training...:  50% 1311/2609 [1:15:33<1:52:12,  5.19s/it][A
Training...:  50% 1312/2609 [1:15:37<1:48:41,  5.03s/it][A
Training...:  50% 1313/2609 [1:15:42<1:46:05,  4.91s/it][A
Training...:  50% 1314/2609 [1:15:46<1:42:33,  4.75s/it][A
Training...:  50% 1315/2609 [1:15:51<1:39:51,  4.63s/it][A
Training...:  50% 1316/2609 [1:15:55<1:36:45,  4.49s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:07:16<20:36:30, 9273.77s/it]
Training...:  50% 1316/2609 [1:16:00<1:36:45,  4.49s/it][A
Training...:  50% 1317/2609 [1:16:00<1:38:29,  4.57s/it][A
Training...:  51% 1318/2609 [1:16:04<1:34:43,  4.40s/it][A
Training...:  51% 1319/2609 [1:16:08<1:31:32,  4.26s/it][A
Training...:  51% 1320/2609 [1:16:11<1:28:08,  4.10s/it][A
Training...:  51% 1321/2609 [1:16:15<1:25:17,  3.97s/it][A
Training...:  51% 1322/2609 [1:16:19<1:22:22,  3.84s/it][A
Training...:  51% 1323/2609 [1:16:22<1:20:01,  3.73s/it][A
Training...:  51% 1324/2609 [1:16:25<1:17:23,  3.61s/it][A
Training...:  51% 1325/2609 [1:16:29<1:15:11,  3.51s/it][A
Training...:  51% 1326/2609 [1:16:32<1:12:49,  3.41s/it][A
Training...:  51% 1327/2609 [1:16:35<1:10:30,  3.30s/it][A
Training...:  51% 1328/2609 [1:16:38<1:08:14,  3.20s/it][A
Training...:  51% 1329/2609 [1:16:41<1:06:26,  3.11s/it][A
Training...:  51% 1330/2609 [1:16:44<1:04:33,  3.03s/it][A
Training...:  51% 1331/2609 [1:16:46<1:02:38,  2.94s/it][A
Training...:  51% 1332/2609 [1:16:49<1:00:30,  2.84s/it][A
Training...:  51% 1333/2609 [1:16:51<58:35,  2.75s/it]  [A
Training...:  51% 1334/2609 [1:16:54<57:00,  2.68s/it][A
Training...:  51% 1335/2609 [1:16:56<55:08,  2.60s/it][A
Training...:  51% 1336/2609 [1:16:59<53:12,  2.51s/it][A
Training...:  51% 1337/2609 [1:17:01<51:27,  2.43s/it][A
Training...:  51% 1338/2609 [1:17:03<49:27,  2.33s/it][A
Training...:  51% 1339/2609 [1:17:05<47:20,  2.24s/it][A
Training...:  51% 1340/2609 [1:17:07<45:20,  2.14s/it][A
Training...:  51% 1341/2609 [1:17:09<43:26,  2.06s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:08:28<20:36:30, 9273.77s/it]
Training...:  51% 1341/2609 [1:17:11<43:26,  2.06s/it][A
Training...:  51% 1342/2609 [1:17:11<43:24,  2.06s/it][A
Training...:  51% 1343/2609 [1:17:13<40:38,  1.93s/it][A
Training...:  52% 1344/2609 [1:17:14<37:54,  1.80s/it][A
Training...:  52% 1345/2609 [1:17:15<35:29,  1.69s/it][A
Training...:  52% 1346/2609 [1:17:17<32:57,  1.57s/it][A
Training...:  52% 1347/2609 [1:17:18<30:25,  1.45s/it][A
Training...:  52% 1348/2609 [1:17:19<27:35,  1.31s/it][A
Training...:  52% 1349/2609 [1:17:20<24:29,  1.17s/it][A
Training...:  52% 1350/2609 [1:17:20<20:47,  1.01it/s][A
Training...:  52% 1351/2609 [1:17:28<1:00:07,  2.87s/it][A
Training...:  52% 1352/2609 [1:17:35<1:27:30,  4.18s/it][A
Training...:  52% 1353/2609 [1:17:42<1:43:58,  4.97s/it][A
Training...:  52% 1354/2609 [1:17:48<1:52:46,  5.39s/it][A
Training...:  52% 1355/2609 [1:17:54<1:57:13,  5.61s/it][A
Training...:  52% 1356/2609 [1:18:00<1:58:03,  5.65s/it][A
Training...:  52% 1357/2609 [1:18:05<1:57:38,  5.64s/it][A
Training...:  52% 1358/2609 [1:18:11<1:55:33,  5.54s/it][A
Training...:  52% 1359/2609 [1:18:16<1:53:26,  5.45s/it][A
Training...:  52% 1360/2609 [1:18:21<1:50:14,  5.30s/it][A
Training...:  52% 1361/2609 [1:18:26<1:47:20,  5.16s/it][A
Training...:  52% 1362/2609 [1:18:30<1:44:10,  5.01s/it][A
Training...:  52% 1363/2609 [1:18:35<1:41:33,  4.89s/it][A
Training...:  52% 1364/2609 [1:18:39<1:38:12,  4.73s/it][A
Training...:  52% 1365/2609 [1:18:44<1:35:42,  4.62s/it][A
Training...:  52% 1366/2609 [1:18:48<1:32:39,  4.47s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:10:09<20:36:30, 9273.77s/it]
Training...:  52% 1366/2609 [1:18:53<1:32:39,  4.47s/it][A
Training...:  52% 1367/2609 [1:18:53<1:34:30,  4.57s/it][A
Training...:  52% 1368/2609 [1:18:57<1:30:39,  4.38s/it][A
Training...:  52% 1369/2609 [1:19:01<1:28:23,  4.28s/it][A
Training...:  53% 1370/2609 [1:19:04<1:25:31,  4.14s/it][A
Training...:  53% 1371/2609 [1:19:08<1:22:50,  4.02s/it][A
Training...:  53% 1372/2609 [1:19:12<1:20:20,  3.90s/it][A
Training...:  53% 1373/2609 [1:19:15<1:17:43,  3.77s/it][A
Training...:  53% 1374/2609 [1:19:19<1:15:08,  3.65s/it][A
Training...:  53% 1375/2609 [1:19:22<1:13:14,  3.56s/it][A
Training...:  53% 1376/2609 [1:19:25<1:11:09,  3.46s/it][A
Training...:  53% 1377/2609 [1:19:28<1:08:58,  3.36s/it][A
Training...:  53% 1378/2609 [1:19:31<1:06:30,  3.24s/it][A
Training...:  53% 1379/2609 [1:19:34<1:04:44,  3.16s/it][A
Training...:  53% 1380/2609 [1:19:37<1:02:43,  3.06s/it][A
Training...:  53% 1381/2609 [1:19:40<1:00:40,  2.96s/it][A
Training...:  53% 1382/2609 [1:19:43<59:08,  2.89s/it]  [A
Training...:  53% 1383/2609 [1:19:45<57:27,  2.81s/it][A
Training...:  53% 1384/2609 [1:19:48<55:33,  2.72s/it][A
Training...:  53% 1385/2609 [1:19:50<53:19,  2.61s/it][A
Training...:  53% 1386/2609 [1:19:52<51:15,  2.51s/it][A
Training...:  53% 1387/2609 [1:19:55<49:44,  2.44s/it][A
Training...:  53% 1388/2609 [1:19:57<47:44,  2.35s/it][A
Training...:  53% 1389/2609 [1:19:59<45:40,  2.25s/it][A
Training...:  53% 1390/2609 [1:20:01<43:31,  2.14s/it][A
Training...:  53% 1391/2609 [1:20:03<41:29,  2.04s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:11:21<20:36:30, 9273.77s/it]
Training...:  53% 1391/2609 [1:20:05<41:29,  2.04s/it][A
Training...:  53% 1392/2609 [1:20:05<42:08,  2.08s/it][A
Training...:  53% 1393/2609 [1:20:06<39:09,  1.93s/it][A
Training...:  53% 1394/2609 [1:20:08<36:38,  1.81s/it][A
Training...:  53% 1395/2609 [1:20:09<34:05,  1.68s/it][A
Training...:  54% 1396/2609 [1:20:10<31:36,  1.56s/it][A
Training...:  54% 1397/2609 [1:20:12<29:04,  1.44s/it][A
Training...:  54% 1398/2609 [1:20:13<26:21,  1.31s/it][A
Training...:  54% 1399/2609 [1:20:13<23:21,  1.16s/it][A
Training...:  54% 1400/2609 [1:20:14<19:41,  1.02it/s][A
Training...:  54% 1401/2609 [1:20:21<56:56,  2.83s/it][A
Training...:  54% 1402/2609 [1:20:28<1:22:37,  4.11s/it][A
Training...:  54% 1403/2609 [1:20:35<1:37:21,  4.84s/it][A
Training...:  54% 1404/2609 [1:20:41<1:45:56,  5.28s/it][A
Training...:  54% 1405/2609 [1:20:47<1:50:02,  5.48s/it][A
Training...:  54% 1406/2609 [1:20:53<1:51:38,  5.57s/it][A
Training...:  54% 1407/2609 [1:20:58<1:51:32,  5.57s/it][A
Training...:  54% 1408/2609 [1:21:04<1:49:47,  5.49s/it][A
Training...:  54% 1409/2609 [1:21:09<1:47:57,  5.40s/it][A
Training...:  54% 1410/2609 [1:21:14<1:45:33,  5.28s/it][A
Training...:  54% 1411/2609 [1:21:19<1:43:10,  5.17s/it][A
Training...:  54% 1412/2609 [1:21:23<1:40:13,  5.02s/it][A
Training...:  54% 1413/2609 [1:21:28<1:37:29,  4.89s/it][A
Training...:  54% 1414/2609 [1:21:32<1:34:43,  4.76s/it][A
Training...:  54% 1415/2609 [1:21:37<1:32:05,  4.63s/it][A
Training...:  54% 1416/2609 [1:21:41<1:29:19,  4.49s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:13:03<20:36:30, 9273.77s/it]
Training...:  54% 1416/2609 [1:21:46<1:29:19,  4.49s/it][A
Training...:  54% 1417/2609 [1:21:46<1:31:14,  4.59s/it][A
Training...:  54% 1418/2609 [1:21:50<1:27:31,  4.41s/it][A
Training...:  54% 1419/2609 [1:21:54<1:25:36,  4.32s/it][A
Training...:  54% 1420/2609 [1:21:58<1:22:32,  4.16s/it][A
Training...:  54% 1421/2609 [1:22:01<1:19:43,  4.03s/it][A
Training...:  55% 1422/2609 [1:22:05<1:17:07,  3.90s/it][A
Training...:  55% 1423/2609 [1:22:09<1:14:54,  3.79s/it][A
Training...:  55% 1424/2609 [1:22:12<1:12:45,  3.68s/it][A
Training...:  55% 1425/2609 [1:22:15<1:10:26,  3.57s/it][A
Training...:  55% 1426/2609 [1:22:19<1:08:27,  3.47s/it][A
Training...:  55% 1427/2609 [1:22:22<1:06:15,  3.36s/it][A
Training...:  55% 1428/2609 [1:22:25<1:04:21,  3.27s/it][A
Training...:  55% 1429/2609 [1:22:28<1:02:19,  3.17s/it][A
Training...:  55% 1430/2609 [1:22:30<1:00:10,  3.06s/it][A
Training...:  55% 1431/2609 [1:22:33<58:32,  2.98s/it]  [A
Training...:  55% 1432/2609 [1:22:36<56:41,  2.89s/it][A
Training...:  55% 1433/2609 [1:22:38<54:45,  2.79s/it][A
Training...:  55% 1434/2609 [1:22:41<53:01,  2.71s/it][A
Training...:  55% 1435/2609 [1:22:43<51:23,  2.63s/it][A
Training...:  55% 1436/2609 [1:22:46<49:43,  2.54s/it][A
Training...:  55% 1437/2609 [1:22:48<48:09,  2.47s/it][A
Training...:  55% 1438/2609 [1:22:50<46:11,  2.37s/it][A
Training...:  55% 1439/2609 [1:22:52<44:18,  2.27s/it][A
Training...:  55% 1440/2609 [1:22:54<42:30,  2.18s/it][A
Training...:  55% 1441/2609 [1:22:56<40:24,  2.08s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:14:15<20:36:30, 9273.77s/it]
Training...:  55% 1441/2609 [1:22:58<40:24,  2.08s/it][A
Training...:  55% 1442/2609 [1:22:58<40:50,  2.10s/it][A
Training...:  55% 1443/2609 [1:23:00<38:06,  1.96s/it][A
Training...:  55% 1444/2609 [1:23:01<35:38,  1.84s/it][A
Training...:  55% 1445/2609 [1:23:03<33:24,  1.72s/it][A
Training...:  55% 1446/2609 [1:23:04<30:57,  1.60s/it][A
Training...:  55% 1447/2609 [1:23:05<28:19,  1.46s/it][A
Training...:  56% 1448/2609 [1:23:06<25:31,  1.32s/it][A
Training...:  56% 1449/2609 [1:23:07<22:38,  1.17s/it][A
Training...:  56% 1450/2609 [1:23:08<19:13,  1.01it/s][A
Training...:  56% 1451/2609 [1:23:15<55:34,  2.88s/it][A
Training...:  56% 1452/2609 [1:23:22<1:20:16,  4.16s/it][A
Training...:  56% 1453/2609 [1:23:29<1:34:27,  4.90s/it][A
Training...:  56% 1454/2609 [1:23:35<1:42:16,  5.31s/it][A
Training...:  56% 1455/2609 [1:23:41<1:45:49,  5.50s/it][A
Training...:  56% 1456/2609 [1:23:47<1:46:56,  5.56s/it][A
Training...:  56% 1457/2609 [1:23:52<1:47:04,  5.58s/it][A
Training...:  56% 1458/2609 [1:23:58<1:45:26,  5.50s/it][A
Training...:  56% 1459/2609 [1:24:03<1:43:56,  5.42s/it][A
Training...:  56% 1460/2609 [1:24:08<1:41:25,  5.30s/it][A
Training...:  56% 1461/2609 [1:24:13<1:39:33,  5.20s/it][A
Training...:  56% 1462/2609 [1:24:18<1:36:49,  5.06s/it][A
Training...:  56% 1463/2609 [1:24:22<1:33:52,  4.91s/it][A
Training...:  56% 1464/2609 [1:24:27<1:30:50,  4.76s/it][A
Training...:  56% 1465/2609 [1:24:31<1:28:02,  4.62s/it][A
Training...:  56% 1466/2609 [1:24:35<1:25:04,  4.47s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:15:56<20:36:30, 9273.77s/it]
Training...:  56% 1466/2609 [1:24:40<1:25:04,  4.47s/it][A
Training...:  56% 1467/2609 [1:24:40<1:26:04,  4.52s/it][A
Training...:  56% 1468/2609 [1:24:44<1:23:01,  4.37s/it][A
Training...:  56% 1469/2609 [1:24:48<1:21:28,  4.29s/it][A
Training...:  56% 1470/2609 [1:24:51<1:18:16,  4.12s/it][A
Training...:  56% 1471/2609 [1:24:55<1:15:34,  3.99s/it][A
Training...:  56% 1472/2609 [1:24:59<1:12:49,  3.84s/it][A
Training...:  56% 1473/2609 [1:25:02<1:10:57,  3.75s/it][A
Training...:  56% 1474/2609 [1:25:05<1:08:42,  3.63s/it][A
Training...:  57% 1475/2609 [1:25:09<1:06:40,  3.53s/it][A
Training...:  57% 1476/2609 [1:25:12<1:04:35,  3.42s/it][A
Training...:  57% 1477/2609 [1:25:15<1:02:52,  3.33s/it][A
Training...:  57% 1478/2609 [1:25:18<1:00:50,  3.23s/it][A
Training...:  57% 1479/2609 [1:25:21<59:24,  3.15s/it]  [A
Training...:  57% 1480/2609 [1:25:24<57:39,  3.06s/it][A
Training...:  57% 1481/2609 [1:25:27<56:11,  2.99s/it][A
Training...:  57% 1482/2609 [1:25:29<54:26,  2.90s/it][A
Training...:  57% 1483/2609 [1:25:32<52:49,  2.82s/it][A
Training...:  57% 1484/2609 [1:25:35<51:11,  2.73s/it][A
Training...:  57% 1485/2609 [1:25:37<49:33,  2.65s/it][A
Training...:  57% 1486/2609 [1:25:39<47:56,  2.56s/it][A
Training...:  57% 1487/2609 [1:25:42<46:13,  2.47s/it][A
Training...:  57% 1488/2609 [1:25:44<44:30,  2.38s/it][A
Training...:  57% 1489/2609 [1:25:46<42:53,  2.30s/it][A
Training...:  57% 1490/2609 [1:25:48<41:11,  2.21s/it][A
Training...:  57% 1491/2609 [1:25:50<39:34,  2.12s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:17:09<20:36:30, 9273.77s/it]
Training...:  57% 1491/2609 [1:25:52<39:34,  2.12s/it][A
Training...:  57% 1492/2609 [1:25:52<40:06,  2.15s/it][A
Training...:  57% 1493/2609 [1:25:54<37:26,  2.01s/it][A
Training...:  57% 1494/2609 [1:25:55<35:05,  1.89s/it][A
Training...:  57% 1495/2609 [1:25:57<32:44,  1.76s/it][A
Training...:  57% 1496/2609 [1:25:58<30:20,  1.64s/it][A
Training...:  57% 1497/2609 [1:25:59<28:04,  1.52s/it][A
Training...:  57% 1498/2609 [1:26:00<25:19,  1.37s/it][A
Training...:  57% 1499/2609 [1:26:01<22:17,  1.21s/it][A
Training...:  57% 1500/2609 [1:26:02<18:43,  1.01s/it][A
Training...:  58% 1501/2609 [1:26:09<51:47,  2.81s/it][A
Training...:  58% 1502/2609 [1:26:16<1:15:20,  4.08s/it][A
Training...:  58% 1503/2609 [1:26:22<1:28:50,  4.82s/it][A
Training...:  58% 1504/2609 [1:26:29<1:36:13,  5.22s/it][A
Training...:  58% 1505/2609 [1:26:34<1:39:58,  5.43s/it][A
Training...:  58% 1506/2609 [1:26:40<1:40:39,  5.48s/it][A
Training...:  58% 1507/2609 [1:26:46<1:40:42,  5.48s/it][A
Training...:  58% 1508/2609 [1:26:51<1:38:42,  5.38s/it][A
Training...:  58% 1509/2609 [1:26:56<1:36:30,  5.26s/it][A
Training...:  58% 1510/2609 [1:27:00<1:33:45,  5.12s/it][A
Training...:  58% 1511/2609 [1:27:05<1:31:21,  4.99s/it][A
Training...:  58% 1512/2609 [1:27:10<1:28:43,  4.85s/it][A
Training...:  58% 1513/2609 [1:27:14<1:26:37,  4.74s/it][A
Training...:  58% 1514/2609 [1:27:18<1:24:09,  4.61s/it][A
Training...:  58% 1515/2609 [1:27:23<1:22:21,  4.52s/it][A
Training...:  58% 1516/2609 [1:27:27<1:20:30,  4.42s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:18:48<20:36:30, 9273.77s/it]
Training...:  58% 1516/2609 [1:27:32<1:20:30,  4.42s/it][A
Training...:  58% 1517/2609 [1:27:32<1:21:40,  4.49s/it][A
Training...:  58% 1518/2609 [1:27:35<1:18:09,  4.30s/it][A
Training...:  58% 1519/2609 [1:27:39<1:15:41,  4.17s/it][A
Training...:  58% 1520/2609 [1:27:43<1:12:49,  4.01s/it][A
Training...:  58% 1521/2609 [1:27:47<1:10:52,  3.91s/it][A
Training...:  58% 1522/2609 [1:27:50<1:08:22,  3.77s/it][A
Training...:  58% 1523/2609 [1:27:54<1:06:28,  3.67s/it][A
Training...:  58% 1524/2609 [1:27:57<1:04:26,  3.56s/it][A
Training...:  58% 1525/2609 [1:28:00<1:02:33,  3.46s/it][A
Training...:  58% 1526/2609 [1:28:03<1:00:43,  3.36s/it][A
Training...:  59% 1527/2609 [1:28:06<59:03,  3.28s/it]  [A
Training...:  59% 1528/2609 [1:28:09<57:12,  3.18s/it][A
Training...:  59% 1529/2609 [1:28:12<55:44,  3.10s/it][A
Training...:  59% 1530/2609 [1:28:15<54:05,  3.01s/it][A
Training...:  59% 1531/2609 [1:28:18<52:34,  2.93s/it][A
Training...:  59% 1532/2609 [1:28:20<50:45,  2.83s/it][A
Training...:  59% 1533/2609 [1:28:23<49:09,  2.74s/it][A
Training...:  59% 1534/2609 [1:28:25<47:24,  2.65s/it][A
Training...:  59% 1535/2609 [1:28:28<45:45,  2.56s/it][A
Training...:  59% 1536/2609 [1:28:30<43:59,  2.46s/it][A
Training...:  59% 1537/2609 [1:28:32<42:21,  2.37s/it][A
Training...:  59% 1538/2609 [1:28:34<40:49,  2.29s/it][A
Training...:  59% 1539/2609 [1:28:36<39:21,  2.21s/it][A
Training...:  59% 1540/2609 [1:28:38<37:53,  2.13s/it][A
Training...:  59% 1541/2609 [1:28:40<36:26,  2.05s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:19:59<20:36:30, 9273.77s/it]
Training...:  59% 1541/2609 [1:28:42<36:26,  2.05s/it][A
Training...:  59% 1542/2609 [1:28:42<37:13,  2.09s/it][A
Training...:  59% 1543/2609 [1:28:44<34:50,  1.96s/it][A
Training...:  59% 1544/2609 [1:28:45<32:15,  1.82s/it][A
Training...:  59% 1545/2609 [1:28:47<29:56,  1.69s/it][A
Training...:  59% 1546/2609 [1:28:48<27:30,  1.55s/it][A
Training...:  59% 1547/2609 [1:28:49<25:11,  1.42s/it][A
Training...:  59% 1548/2609 [1:28:50<22:43,  1.29s/it][A
Training...:  59% 1549/2609 [1:28:51<20:08,  1.14s/it][A
Training...:  59% 1550/2609 [1:28:51<17:01,  1.04it/s][A
Training...:  59% 1551/2609 [1:28:58<48:59,  2.78s/it][A
Training...:  59% 1552/2609 [1:29:05<1:11:30,  4.06s/it][A
Training...:  60% 1553/2609 [1:29:12<1:24:33,  4.80s/it][A
Training...:  60% 1554/2609 [1:29:18<1:32:08,  5.24s/it][A
Training...:  60% 1555/2609 [1:29:24<1:35:56,  5.46s/it][A
Training...:  60% 1556/2609 [1:29:30<1:36:55,  5.52s/it][A
Training...:  60% 1557/2609 [1:29:35<1:36:50,  5.52s/it][A
Training...:  60% 1558/2609 [1:29:41<1:35:46,  5.47s/it][A
Training...:  60% 1559/2609 [1:29:46<1:35:25,  5.45s/it][A
Training...:  60% 1560/2609 [1:29:51<1:32:59,  5.32s/it][A
Training...:  60% 1561/2609 [1:29:56<1:30:37,  5.19s/it][A
Training...:  60% 1562/2609 [1:30:01<1:27:40,  5.02s/it][A
Training...:  60% 1563/2609 [1:30:05<1:25:25,  4.90s/it][A
Training...:  60% 1564/2609 [1:30:10<1:22:36,  4.74s/it][A
Training...:  60% 1565/2609 [1:30:14<1:20:40,  4.64s/it][A
Training...:  60% 1566/2609 [1:30:18<1:18:14,  4.50s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:21:40<20:36:30, 9273.77s/it]
Training...:  60% 1566/2609 [1:30:23<1:18:14,  4.50s/it][A
Training...:  60% 1567/2609 [1:30:23<1:19:36,  4.58s/it][A
Training...:  60% 1568/2609 [1:30:27<1:16:46,  4.43s/it][A
Training...:  60% 1569/2609 [1:30:31<1:14:52,  4.32s/it][A
Training...:  60% 1570/2609 [1:30:35<1:12:01,  4.16s/it][A
Training...:  60% 1571/2609 [1:30:39<1:09:39,  4.03s/it][A
Training...:  60% 1572/2609 [1:30:42<1:07:30,  3.91s/it][A
Training...:  60% 1573/2609 [1:30:46<1:07:05,  3.89s/it][A
Training...:  60% 1574/2609 [1:30:49<1:04:25,  3.74s/it][A
Training...:  60% 1575/2609 [1:30:53<1:02:19,  3.62s/it][A
Training...:  60% 1576/2609 [1:30:56<1:00:08,  3.49s/it][A
Training...:  60% 1577/2609 [1:30:59<58:18,  3.39s/it]  [A
Training...:  60% 1578/2609 [1:31:02<56:24,  3.28s/it][A
Training...:  61% 1579/2609 [1:31:05<55:17,  3.22s/it][A
Training...:  61% 1580/2609 [1:31:08<53:23,  3.11s/it][A
Training...:  61% 1581/2609 [1:31:11<51:56,  3.03s/it][A
Training...:  61% 1582/2609 [1:31:14<50:18,  2.94s/it][A
Training...:  61% 1583/2609 [1:31:16<48:44,  2.85s/it][A
Training...:  61% 1584/2609 [1:31:19<47:06,  2.76s/it][A
Training...:  61% 1585/2609 [1:31:21<45:35,  2.67s/it][A
Training...:  61% 1586/2609 [1:31:24<44:03,  2.58s/it][A
Training...:  61% 1587/2609 [1:31:26<42:29,  2.49s/it][A
Training...:  61% 1588/2609 [1:31:28<41:06,  2.42s/it][A
Training...:  61% 1589/2609 [1:31:30<39:28,  2.32s/it][A
Training...:  61% 1590/2609 [1:31:32<37:54,  2.23s/it][A
Training...:  61% 1591/2609 [1:31:34<36:16,  2.14s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:22:53<20:36:30, 9273.77s/it]
Training...:  61% 1591/2609 [1:31:36<36:16,  2.14s/it][A
Training...:  61% 1592/2609 [1:31:36<36:40,  2.16s/it][A
Training...:  61% 1593/2609 [1:31:38<34:25,  2.03s/it][A
Training...:  61% 1594/2609 [1:31:40<32:06,  1.90s/it][A
Training...:  61% 1595/2609 [1:31:41<30:02,  1.78s/it][A
Training...:  61% 1596/2609 [1:31:43<27:41,  1.64s/it][A
Training...:  61% 1597/2609 [1:31:44<25:26,  1.51s/it][A
Training...:  61% 1598/2609 [1:31:45<23:04,  1.37s/it][A
Training...:  61% 1599/2609 [1:31:46<20:16,  1.20s/it][A
Training...:  61% 1600/2609 [1:31:46<16:57,  1.01s/it][A
Training...:  61% 1601/2609 [1:31:53<47:51,  2.85s/it][A
Training...:  61% 1602/2609 [1:32:00<1:08:25,  4.08s/it][A
Training...:  61% 1603/2609 [1:32:07<1:21:26,  4.86s/it][A
Training...:  61% 1604/2609 [1:32:13<1:29:11,  5.32s/it][A
Training...:  62% 1605/2609 [1:32:19<1:32:50,  5.55s/it][A
Training...:  62% 1606/2609 [1:32:25<1:33:22,  5.59s/it][A
Training...:  62% 1607/2609 [1:32:31<1:32:43,  5.55s/it][A
Training...:  62% 1608/2609 [1:32:36<1:30:42,  5.44s/it][A
Training...:  62% 1609/2609 [1:32:41<1:28:38,  5.32s/it][A
Training...:  62% 1610/2609 [1:32:46<1:25:58,  5.16s/it][A
Training...:  62% 1611/2609 [1:32:50<1:24:00,  5.05s/it][A
Training...:  62% 1612/2609 [1:32:55<1:21:38,  4.91s/it][A
Training...:  62% 1613/2609 [1:32:59<1:19:15,  4.77s/it][A
Training...:  62% 1614/2609 [1:33:04<1:16:52,  4.64s/it][A
Training...:  62% 1615/2609 [1:33:08<1:14:40,  4.51s/it][A
Training...:  62% 1616/2609 [1:33:12<1:12:31,  4.38s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:24:34<20:36:30, 9273.77s/it]
Training...:  62% 1616/2609 [1:33:17<1:12:31,  4.38s/it][A
Training...:  62% 1617/2609 [1:33:17<1:14:00,  4.48s/it][A
Training...:  62% 1618/2609 [1:33:21<1:10:53,  4.29s/it][A
Training...:  62% 1619/2609 [1:33:24<1:08:38,  4.16s/it][A
Training...:  62% 1620/2609 [1:33:28<1:05:56,  4.00s/it][A
Training...:  62% 1621/2609 [1:33:32<1:03:46,  3.87s/it][A
Training...:  62% 1622/2609 [1:33:35<1:01:49,  3.76s/it][A
Training...:  62% 1623/2609 [1:33:39<59:54,  3.65s/it]  [A
Training...:  62% 1624/2609 [1:33:42<57:58,  3.53s/it][A
Training...:  62% 1625/2609 [1:33:45<56:20,  3.44s/it][A
Training...:  62% 1626/2609 [1:33:48<54:40,  3.34s/it][A
Training...:  62% 1627/2609 [1:33:51<53:12,  3.25s/it][A
Training...:  62% 1628/2609 [1:33:54<51:55,  3.18s/it][A
Training...:  62% 1629/2609 [1:33:57<50:45,  3.11s/it][A
Training...:  62% 1630/2609 [1:34:00<49:18,  3.02s/it][A
Training...:  63% 1631/2609 [1:34:03<47:58,  2.94s/it][A
Training...:  63% 1632/2609 [1:34:05<46:17,  2.84s/it][A
Training...:  63% 1633/2609 [1:34:08<44:48,  2.75s/it][A
Training...:  63% 1634/2609 [1:34:10<43:17,  2.66s/it][A
Training...:  63% 1635/2609 [1:34:13<41:50,  2.58s/it][A
Training...:  63% 1636/2609 [1:34:15<40:30,  2.50s/it][A
Training...:  63% 1637/2609 [1:34:17<39:05,  2.41s/it][A
Training...:  63% 1638/2609 [1:34:19<37:34,  2.32s/it][A
Training...:  63% 1639/2609 [1:34:21<36:15,  2.24s/it][A
Training...:  63% 1640/2609 [1:34:23<34:53,  2.16s/it][A
Training...:  63% 1641/2609 [1:34:25<33:32,  2.08s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:25:44<20:36:30, 9273.77s/it]
Training...:  63% 1641/2609 [1:34:27<33:32,  2.08s/it][A
Training...:  63% 1642/2609 [1:34:27<33:36,  2.09s/it][A
Training...:  63% 1643/2609 [1:34:29<31:17,  1.94s/it][A
Training...:  63% 1644/2609 [1:34:30<29:13,  1.82s/it][A
Training...:  63% 1645/2609 [1:34:32<27:22,  1.70s/it][A
Training...:  63% 1646/2609 [1:34:33<25:23,  1.58s/it][A
Training...:  63% 1647/2609 [1:34:34<23:21,  1.46s/it][A
Training...:  63% 1648/2609 [1:34:35<21:09,  1.32s/it][A
Training...:  63% 1649/2609 [1:34:36<18:32,  1.16s/it][A
Training...:  63% 1650/2609 [1:34:37<15:36,  1.02it/s][A
Training...:  63% 1651/2609 [1:34:44<45:39,  2.86s/it][A
Training...:  63% 1652/2609 [1:34:51<1:05:56,  4.13s/it][A
Training...:  63% 1653/2609 [1:34:58<1:17:42,  4.88s/it][A
Training...:  63% 1654/2609 [1:35:04<1:24:27,  5.31s/it][A
Training...:  63% 1655/2609 [1:35:10<1:27:25,  5.50s/it][A
Training...:  63% 1656/2609 [1:35:16<1:28:35,  5.58s/it][A
Training...:  64% 1657/2609 [1:35:21<1:28:31,  5.58s/it][A
Training...:  64% 1658/2609 [1:35:27<1:26:51,  5.48s/it][A
Training...:  64% 1659/2609 [1:35:32<1:25:01,  5.37s/it][A
Training...:  64% 1660/2609 [1:35:36<1:22:33,  5.22s/it][A
Training...:  64% 1661/2609 [1:35:41<1:20:43,  5.11s/it][A
Training...:  64% 1662/2609 [1:35:46<1:18:16,  4.96s/it][A
Training...:  64% 1663/2609 [1:35:51<1:16:24,  4.85s/it][A
Training...:  64% 1664/2609 [1:35:55<1:14:03,  4.70s/it][A
Training...:  64% 1665/2609 [1:35:59<1:12:05,  4.58s/it][A
Training...:  64% 1666/2609 [1:36:03<1:09:56,  4.45s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:27:25<20:36:30, 9273.77s/it]
Training...:  64% 1666/2609 [1:36:08<1:09:56,  4.45s/it][A
Training...:  64% 1667/2609 [1:36:08<1:11:11,  4.53s/it][A
Training...:  64% 1668/2609 [1:36:12<1:08:04,  4.34s/it][A
Training...:  64% 1669/2609 [1:36:16<1:05:32,  4.18s/it][A
Training...:  64% 1670/2609 [1:36:19<1:03:04,  4.03s/it][A
Training...:  64% 1671/2609 [1:36:23<1:01:16,  3.92s/it][A
Training...:  64% 1672/2609 [1:36:27<59:55,  3.84s/it]  [A
Training...:  64% 1673/2609 [1:36:30<58:36,  3.76s/it][A
Training...:  64% 1674/2609 [1:36:34<57:11,  3.67s/it][A
Training...:  64% 1675/2609 [1:36:37<55:58,  3.60s/it][A
Training...:  64% 1676/2609 [1:36:41<54:53,  3.53s/it][A
Training...:  64% 1677/2609 [1:36:44<53:18,  3.43s/it][A
Training...:  64% 1678/2609 [1:36:47<51:37,  3.33s/it][A
Training...:  64% 1679/2609 [1:36:50<49:59,  3.23s/it][A
Training...:  64% 1680/2609 [1:36:53<48:21,  3.12s/it][A
Training...:  64% 1681/2609 [1:36:56<46:50,  3.03s/it][A
Training...:  64% 1682/2609 [1:36:58<45:15,  2.93s/it][A
Training...:  65% 1683/2609 [1:37:01<43:49,  2.84s/it][A
Training...:  65% 1684/2609 [1:37:03<42:19,  2.75s/it][A
Training...:  65% 1685/2609 [1:37:06<40:49,  2.65s/it][A
Training...:  65% 1686/2609 [1:37:08<39:18,  2.56s/it][A
Training...:  65% 1687/2609 [1:37:10<37:53,  2.47s/it][A
Training...:  65% 1688/2609 [1:37:13<36:33,  2.38s/it][A
Training...:  65% 1689/2609 [1:37:15<34:58,  2.28s/it][A
Training...:  65% 1690/2609 [1:37:17<33:20,  2.18s/it][A
Training...:  65% 1691/2609 [1:37:18<31:50,  2.08s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:28:37<20:36:30, 9273.77s/it]
Training...:  65% 1691/2609 [1:37:21<31:50,  2.08s/it][A
Training...:  65% 1692/2609 [1:37:21<32:21,  2.12s/it][A
Training...:  65% 1693/2609 [1:37:22<30:17,  1.98s/it][A
Training...:  65% 1694/2609 [1:37:24<28:11,  1.85s/it][A
Training...:  65% 1695/2609 [1:37:25<26:20,  1.73s/it][A
Training...:  65% 1696/2609 [1:37:27<24:24,  1.60s/it][A
Training...:  65% 1697/2609 [1:37:28<22:26,  1.48s/it][A
Training...:  65% 1698/2609 [1:37:29<20:26,  1.35s/it][A
Training...:  65% 1699/2609 [1:37:30<18:07,  1.20s/it][A
Training...:  65% 1700/2609 [1:37:30<15:15,  1.01s/it][A
Training...:  65% 1701/2609 [1:37:37<42:53,  2.83s/it][A
Training...:  65% 1702/2609 [1:37:44<1:01:59,  4.10s/it][A
Training...:  65% 1703/2609 [1:37:51<1:12:56,  4.83s/it][A
Training...:  65% 1704/2609 [1:37:57<1:19:28,  5.27s/it][A
Training...:  65% 1705/2609 [1:38:03<1:22:37,  5.48s/it][A
Training...:  65% 1706/2609 [1:38:09<1:23:13,  5.53s/it][A
Training...:  65% 1707/2609 [1:38:14<1:23:01,  5.52s/it][A
Training...:  65% 1708/2609 [1:38:20<1:21:32,  5.43s/it][A
Training...:  66% 1709/2609 [1:38:25<1:20:01,  5.33s/it][A
Training...:  66% 1710/2609 [1:38:30<1:17:55,  5.20s/it][A
Training...:  66% 1711/2609 [1:38:34<1:16:02,  5.08s/it][A
Training...:  66% 1712/2609 [1:38:39<1:13:39,  4.93s/it][A
Training...:  66% 1713/2609 [1:38:43<1:11:31,  4.79s/it][A
Training...:  66% 1714/2609 [1:38:48<1:09:18,  4.65s/it][A
Training...:  66% 1715/2609 [1:38:52<1:07:35,  4.54s/it][A
Training...:  66% 1716/2609 [1:38:56<1:05:28,  4.40s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:30:18<20:36:30, 9273.77s/it]
Training...:  66% 1716/2609 [1:39:01<1:05:28,  4.40s/it][A
Training...:  66% 1717/2609 [1:39:01<1:06:39,  4.48s/it][A
Training...:  66% 1718/2609 [1:39:05<1:03:46,  4.29s/it][A
Training...:  66% 1719/2609 [1:39:08<1:01:26,  4.14s/it][A
Training...:  66% 1720/2609 [1:39:12<59:15,  4.00s/it]  [A
Training...:  66% 1721/2609 [1:39:16<57:34,  3.89s/it][A
Training...:  66% 1722/2609 [1:39:19<56:02,  3.79s/it][A
Training...:  66% 1723/2609 [1:39:23<55:13,  3.74s/it][A
Training...:  66% 1724/2609 [1:39:26<53:56,  3.66s/it][A
Training...:  66% 1725/2609 [1:39:30<52:56,  3.59s/it][A
Training...:  66% 1726/2609 [1:39:33<51:11,  3.48s/it][A
Training...:  66% 1727/2609 [1:39:36<49:09,  3.34s/it][A
Training...:  66% 1728/2609 [1:39:39<47:12,  3.22s/it][A
Training...:  66% 1729/2609 [1:39:42<45:35,  3.11s/it][A
Training...:  66% 1730/2609 [1:39:45<44:09,  3.01s/it][A
Training...:  66% 1731/2609 [1:39:47<42:36,  2.91s/it][A
Training...:  66% 1732/2609 [1:39:50<41:02,  2.81s/it][A
Training...:  66% 1733/2609 [1:39:52<39:40,  2.72s/it][A
Training...:  66% 1734/2609 [1:39:55<38:28,  2.64s/it][A
Training...:  67% 1735/2609 [1:39:57<37:13,  2.56s/it][A
Training...:  67% 1736/2609 [1:39:59<35:50,  2.46s/it][A
Training...:  67% 1737/2609 [1:40:02<34:33,  2.38s/it][A
Training...:  67% 1738/2609 [1:40:04<33:08,  2.28s/it][A
Training...:  67% 1739/2609 [1:40:06<31:55,  2.20s/it][A
Training...:  67% 1740/2609 [1:40:08<30:30,  2.11s/it][A
Training...:  67% 1741/2609 [1:40:09<29:14,  2.02s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:31:28<20:36:30, 9273.77s/it]
Step... (31325 | Loss: 0.012719660997390747, Learning Rate: 3.772929267142899e-05, Gradient Norm: 0.35417798161506653)
Step... (31350 | Loss: 0.0051836855709552765, Learning Rate: 3.7678790249628946e-05, Gradient Norm: 0.2903490960597992)
Step... (31375 | Loss: 0.02417684718966484, Learning Rate: 3.7628280551871285e-05, Gradient Norm: 0.477671355009079)
Step... (31400 | Loss: 0.006699209567159414, Learning Rate: 3.757777813007124e-05, Gradient Norm: 0.32448017597198486)
Step... (31425 | Loss: 0.026462364941835403, Learning Rate: 3.752727570827119e-05, Gradient Norm: 0.9017822742462158)
Step... (31450 | Loss: 0.004964027553796768, Learning Rate: 3.747676601051353e-05, Gradient Norm: 0.5709219574928284)
Step... (31475 | Loss: 0.02852560393512249, Learning Rate: 3.742626358871348e-05, Gradient Norm: 0.4889886677265167)
Step... (31500 | Loss: 0.009588705375790596, Learning Rate: 3.737575752893463e-05, Gradient Norm: 0.44749459624290466)
Step... (31525 | Loss: 0.020081572234630585, Learning Rate: 3.7325251469155774e-05, Gradient Norm: 0.4248208999633789)
Step... (31550 | Loss: 0.004745309241116047, Learning Rate: 3.727474540937692e-05, Gradient Norm: 0.23030073940753937)
Step... (31575 | Loss: 0.017884939908981323, Learning Rate: 3.722424298757687e-05, Gradient Norm: 0.4004254639148712)
Step... (31600 | Loss: 0.005862943362444639, Learning Rate: 3.717373692779802e-05, Gradient Norm: 0.3825589120388031)
Step... (31625 | Loss: 0.012413926422595978, Learning Rate: 3.7123230868019164e-05, Gradient Norm: 0.4000198543071747)
Step... (31650 | Loss: 0.009246092289686203, Learning Rate: 3.7072728446219116e-05, Gradient Norm: 0.4834713637828827)
Step... (31675 | Loss: 0.012738106772303581, Learning Rate: 3.7022218748461455e-05, Gradient Norm: 0.3084346055984497)
Step... (31700 | Loss: 0.011721768416464329, Learning Rate: 3.697171632666141e-05, Gradient Norm: 0.4810674786567688)
Step... (31725 | Loss: 0.027207694947719574, Learning Rate: 3.692121390486136e-05, Gradient Norm: 0.5451217293739319)
Step... (31750 | Loss: 0.004278875421732664, Learning Rate: 3.68707042071037e-05, Gradient Norm: 0.6108210682868958)
Step... (31775 | Loss: 0.008296731859445572, Learning Rate: 3.682020178530365e-05, Gradient Norm: 0.25631746649742126)
Step... (31800 | Loss: 0.00180376588832587, Learning Rate: 3.6769699363503605e-05, Gradient Norm: 0.13333462178707123)
Step... (31825 | Loss: 0.018831709399819374, Learning Rate: 3.6719189665745944e-05, Gradient Norm: 0.45464888215065)
Step... (31850 | Loss: 0.011501193977892399, Learning Rate: 3.66686872439459e-05, Gradient Norm: 0.4643159508705139)
Step... (31875 | Loss: 0.01846444047987461, Learning Rate: 3.661818482214585e-05, Gradient Norm: 0.4018951952457428)
Step... (31900 | Loss: 0.015094473026692867, Learning Rate: 3.656767512438819e-05, Gradient Norm: 0.5550323128700256)
Step... (31925 | Loss: 0.017575573176145554, Learning Rate: 3.651717270258814e-05, Gradient Norm: 0.40089234709739685)
Step... (31950 | Loss: 0.010847539640963078, Learning Rate: 3.646666300483048e-05, Gradient Norm: 0.5052450895309448)
Step... (31975 | Loss: 0.021977541968226433, Learning Rate: 3.641616058303043e-05, Gradient Norm: 0.41776707768440247)
Step... (32000 | Loss: 0.006141018588095903, Learning Rate: 3.6365658161230385e-05, Gradient Norm: 0.42946961522102356)
Step... (32025 | Loss: 0.019418852403759956, Learning Rate: 3.6315148463472724e-05, Gradient Norm: 0.44395315647125244)
Step... (32050 | Loss: 0.025923654437065125, Learning Rate: 3.626464604167268e-05, Gradient Norm: 0.4983116090297699)
Step... (32075 | Loss: 0.01665751449763775, Learning Rate: 3.621414361987263e-05, Gradient Norm: 0.36552074551582336)
Step... (32100 | Loss: 0.009928842075169086, Learning Rate: 3.616363392211497e-05, Gradient Norm: 0.38641786575317383)
Step... (32125 | Loss: 0.01865999586880207, Learning Rate: 3.611313150031492e-05, Gradient Norm: 0.6432072520256042)
Step... (32150 | Loss: 0.005060501862317324, Learning Rate: 3.606262544053607e-05, Gradient Norm: 0.251176655292511)
Step... (32175 | Loss: 0.0224303882569Training...:  67% 1741/2609 [1:40:12<29:14,  2.02s/it][A
Training...:  67% 1742/2609 [1:40:12<29:40,  2.05s/it][A07463, Learning Rate: 3.601211938075721e-05, Gradient Norm: 0.4919297993183136)
Step... (32200 | Loss: 0.006142276339232922, Learning Rate: 3.596161332097836e-05, Gradient Norm: 0.42327266931533813)
Step... (32225 | Loss: 0.014306661672890186, Learning Rate: 3.591111089917831e-05, Gradient Norm: 0.3605961203575134)
Step... (32250 | Loss: 0.0038753312546759844, Learning Rate: 3.586060483939946e-05, Gradient Norm: 0.2252652943134308)
Step... (32275 | Loss: 0.030521882697939873, Learning Rate: 3.58100987796206e-05, Gradient Norm: 0.5423377752304077)
Step... (32300 | Loss: 0.008817334659397602, Learning Rate: 3.5759596357820556e-05, Gradient Norm: 0.5008856058120728)
Step... (32325 | Loss: 0.026460370048880577, Learning Rate: 3.5709086660062894e-05, Gradient Norm: 0.60381680727005)
Step... (32350 | Loss: 0.006738427560776472, Learning Rate: 3.565858423826285e-05, Gradient Norm: 0.40741288661956787)
Step... (32375 | Loss: 0.03894583508372307, Learning Rate: 3.56080818164628e-05, Gradient Norm: 0.6594797968864441)
Step... (32400 | Loss: 0.0058863162994384766, Learning Rate: 3.555757211870514e-05, Gradient Norm: 0.3271360993385315)
Step... (32425 | Loss: 0.029945382848381996, Learning Rate: 3.550706969690509e-05, Gradient Norm: 0.7238894701004028)
Step... (32450 | Loss: 0.008444858714938164, Learning Rate: 3.5456567275105044e-05, Gradient Norm: 0.40398892760276794)
Step... (32475 | Loss: 0.021836157888174057, Learning Rate: 3.540605757734738e-05, Gradient Norm: 0.42054057121276855)
Step... (32500 | Loss: 0.00492118438705802, Learning Rate: 3.5355555155547336e-05, Gradient Norm: 0.22729362547397614)
Step... (32525 | Loss: 0.022320039570331573, Learning Rate: 3.530505273374729e-05, Gradient Norm: 0.4468570947647095)
Step... (32550 | Loss: 0.005197235848754644, Learning Rate: 3.525454303598963e-05, Gradient Norm: 0.3304624855518341)
Step... (32575 | Loss: 0.020764632150530815, Learning Rate: 3.520404061418958e-05, Gradient Norm: 0.5312708020210266)
Step... (32600 | Loss: 0.0033969171345233917, Learning Rate: 3.515353819238953e-05, Gradient Norm: 0.2743673026561737)
Step... (32625 | Loss: 0.016361432150006294, Learning Rate: 3.510302849463187e-05, Gradient Norm: 0.40769392251968384)
Step... (32650 | Loss: 0.008231209591031075, Learning Rate: 3.5052526072831824e-05, Gradient Norm: 0.6503119468688965)
Step... (32675 | Loss: 0.011130191385746002, Learning Rate: 3.500202365103178e-05, Gradient Norm: 0.39683815836906433)
Step... (32700 | Loss: 0.006726025138050318, Learning Rate: 3.4951513953274116e-05, Gradient Norm: 0.4165879189968109)
Step... (32725 | Loss: 0.017922313883900642, Learning Rate: 3.490101153147407e-05, Gradient Norm: 0.4588472545146942)
Step... (32750 | Loss: 0.012345202267169952, Learning Rate: 3.4850505471695215e-05, Gradient Norm: 0.46152082085609436)
Step... (32775 | Loss: 0.02703682892024517, Learning Rate: 3.479999941191636e-05, Gradient Norm: 0.4552181661128998)
Step... (32800 | Loss: 0.006028177682310343, Learning Rate: 3.4749493352137506e-05, Gradient Norm: 0.3392173945903778)
Step... (32825 | Loss: 0.025637637823820114, Learning Rate: 3.469899093033746e-05, Gradient Norm: 0.5960758328437805)
Step... (32850 | Loss: 0.005544441752135754, Learning Rate: 3.4648484870558605e-05, Gradient Norm: 0.38107937574386597)
Step... (32875 | Loss: 0.0296844020485878, Learning Rate: 3.459797881077975e-05, Gradient Norm: 0.5373289585113525)
Step... (32900 | Loss: 0.00447557820007205, Learning Rate: 3.45474763889797e-05, Gradient Norm: 0.24164849519729614)
Step... (32925 | Loss: 0.018704179674386978, Learning Rate: 3.449696669122204e-05, Gradient Norm: 0.3932768702507019)
Step... (32950 | Loss: 0.005108554847538471, Learning Rate: 3.4446464269421995e-05, Gradient Norm: 0.33534500002861023)
Step... (32975 | Loss: 0.048823945224285126, Learning Rate: 3.439595457166433e-05, Gradient Norm: 0.7566004395484924)
Step... (33000 | Loss: 0.003466785652562976, Learning Rate: 3.4345452149864286e-05, Gradient Norm: 0.2781374454498291)
Step... (33025 | Loss: 0.024523712694644928, Learning Rate: 3.429494972806424e-05, Gradient Norm: 0.3834829032421112)

Training...:  67% 1743/2609 [1:40:13<28:15,  1.96s/it][A
Training...:  67% 1744/2609 [1:40:15<26:15,  1.82s/it][A
Training...:  67% 1745/2609 [1:40:16<24:20,  1.69s/it][A
Training...:  67% 1746/2609 [1:40:17<22:26,  1.56s/it][A
Training...:  67% 1747/2609 [1:40:19<20:34,  1.43s/it][A
Training...:  67% 1748/2609 [1:40:20<18:36,  1.30s/it][A
Training...:  67% 1749/2609 [1:40:20<16:28,  1.15s/it][A
Training...:  67% 1750/2609 [1:40:21<13:58,  1.02it/s][A
Training...:  67% 1751/2609 [1:40:28<40:11,  2.81s/it][A
Training...:  67% 1752/2609 [1:40:35<58:35,  4.10s/it][A
Training...:  67% 1753/2609 [1:40:42<1:09:15,  4.85s/it][A
Training...:  67% 1754/2609 [1:40:48<1:15:08,  5.27s/it][A
Training...:  67% 1755/2609 [1:40:54<1:17:50,  5.47s/it][A
Training...:  67% 1756/2609 [1:41:00<1:18:46,  5.54s/it][A
Training...:  67% 1757/2609 [1:41:05<1:18:18,  5.51s/it][A
Training...:  67% 1758/2609 [1:41:10<1:17:03,  5.43s/it][A
Training...:  67% 1759/2609 [1:41:15<1:15:30,  5.33s/it][A
Training...:  67% 1760/2609 [1:41:20<1:13:43,  5.21s/it][A
Training...:  67% 1761/2609 [1:41:25<1:11:51,  5.08s/it][A
Training...:  68% 1762/2609 [1:41:30<1:09:55,  4.95s/it][A
Training...:  68% 1763/2609 [1:41:34<1:08:17,  4.84s/it][A
Training...:  68% 1764/2609 [1:41:39<1:06:25,  4.72s/it][A
Training...:  68% 1765/2609 [1:41:43<1:04:28,  4.58s/it][A
Training...:  68% 1766/2609 [1:41:47<1:02:38,  4.46s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:33:09<20:36:30, 9273.77s/it]
Training...:  68% 1766/2609 [1:41:52<1:02:38,  4.46s/it][A
Training...:  68% 1767/2609 [1:41:52<1:03:39,  4.54s/it][A
Training...:  68% 1768/2609 [1:41:56<1:01:24,  4.38s/it][A
Training...:  68% 1769/2609 [1:42:00<59:37,  4.26s/it]  [A
Training...:  68% 1770/2609 [1:42:04<57:30,  4.11s/it][A
Training...:  68% 1771/2609 [1:42:07<55:27,  3.97s/it][A
Training...:  68% 1772/2609 [1:42:11<53:34,  3.84s/it][A
Training...:  68% 1773/2609 [1:42:14<51:53,  3.72s/it][A
Training...:  68% 1774/2609 [1:42:18<50:06,  3.60s/it][A
Training...:  68% 1775/2609 [1:42:21<48:41,  3.50s/it][A
Training...:  68% 1776/2609 [1:42:24<47:15,  3.40s/it][A
Training...:  68% 1777/2609 [1:42:27<45:58,  3.32s/it][A
Training...:  68% 1778/2609 [1:42:30<44:43,  3.23s/it][A
Training...:  68% 1779/2609 [1:42:33<43:34,  3.15s/it][A
Training...:  68% 1780/2609 [1:42:36<42:12,  3.06s/it][A
Training...:  68% 1781/2609 [1:42:39<41:03,  2.98s/it][A
Training...:  68% 1782/2609 [1:42:41<39:34,  2.87s/it][A
Training...:  68% 1783/2609 [1:42:44<38:19,  2.78s/it][A
Training...:  68% 1784/2609 [1:42:46<36:59,  2.69s/it][A
Training...:  68% 1785/2609 [1:42:49<35:47,  2.61s/it][A
Training...:  68% 1786/2609 [1:42:51<34:32,  2.52s/it][A
Training...:  68% 1787/2609 [1:42:53<33:16,  2.43s/it][A
Training...:  69% 1788/2609 [1:42:56<31:55,  2.33s/it][A
Training...:  69% 1789/2609 [1:42:58<30:38,  2.24s/it][A
Training...:  69% 1790/2609 [1:42:59<29:11,  2.14s/it][A
Training...:  69% 1791/2609 [1:43:01<27:45,  2.04s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:34:20<20:36:30, 9273.77s/it]
Training...:  69% 1791/2609 [1:43:03<27:45,  2.04s/it][A
Training...:  69% 1792/2609 [1:43:03<28:12,  2.07s/it][A
Training...:  69% 1793/2609 [1:43:05<26:23,  1.94s/it][A
Training...:  69% 1794/2609 [1:43:07<24:32,  1.81s/it][A
Training...:  69% 1795/2609 [1:43:08<22:59,  1.69s/it][A
Training...:  69% 1796/2609 [1:43:09<21:10,  1.56s/it][A
Training...:  69% 1797/2609 [1:43:10<19:18,  1.43s/it][A
Training...:  69% 1798/2609 [1:43:11<17:25,  1.29s/it][A
Training...:  69% 1799/2609 [1:43:12<15:28,  1.15s/it][A
Training...:  69% 1800/2609 [1:43:13<13:04,  1.03it/s][A
Training...:  69% 1801/2609 [1:43:20<37:57,  2.82s/it][A
Training...:  69% 1802/2609 [1:43:27<55:16,  4.11s/it][A
Training...:  69% 1803/2609 [1:43:33<1:04:53,  4.83s/it][A
Training...:  69% 1804/2609 [1:43:40<1:10:36,  5.26s/it][A
Training...:  69% 1805/2609 [1:43:46<1:14:12,  5.54s/it][A
Training...:  69% 1806/2609 [1:43:52<1:14:53,  5.60s/it][A
Training...:  69% 1807/2609 [1:43:57<1:14:17,  5.56s/it][A
Training...:  69% 1808/2609 [1:44:02<1:12:38,  5.44s/it][A
Training...:  69% 1809/2609 [1:44:07<1:11:18,  5.35s/it][A
Training...:  69% 1810/2609 [1:44:12<1:09:18,  5.20s/it][A
Training...:  69% 1811/2609 [1:44:17<1:07:22,  5.07s/it][A
Training...:  69% 1812/2609 [1:44:22<1:05:17,  4.92s/it][A
Training...:  69% 1813/2609 [1:44:26<1:03:31,  4.79s/it][A
Training...:  70% 1814/2609 [1:44:30<1:01:34,  4.65s/it][A
Training...:  70% 1815/2609 [1:44:35<1:00:10,  4.55s/it][A
Training...:  70% 1816/2609 [1:44:39<58:36,  4.43s/it]  [A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:36:00<20:36:30, 9273.77s/it]
Training...:  70% 1816/2609 [1:44:44<58:36,  4.43s/it][A
Training...:  70% 1817/2609 [1:44:44<59:39,  4.52s/it][A
Training...:  70% 1818/2609 [1:44:48<57:17,  4.35s/it][A
Training...:  70% 1819/2609 [1:44:51<55:17,  4.20s/it][A
Training...:  70% 1820/2609 [1:44:55<53:21,  4.06s/it][A
Training...:  70% 1821/2609 [1:44:59<51:43,  3.94s/it][A
Training...:  70% 1822/2609 [1:45:02<50:03,  3.82s/it][A
Training...:  70% 1823/2609 [1:45:06<48:35,  3.71s/it][A
Training...:  70% 1824/2609 [1:45:09<47:05,  3.60s/it][A
Training...:  70% 1825/2609 [1:45:12<45:42,  3.50s/it][A
Training...:  70% 1826/2609 [1:45:15<44:12,  3.39s/it][A
Training...:  70% 1827/2609 [1:45:19<42:56,  3.30s/it][A
Training...:  70% 1828/2609 [1:45:22<41:37,  3.20s/it][A
Training...:  70% 1829/2609 [1:45:24<40:32,  3.12s/it][A
Training...:  70% 1830/2609 [1:45:27<39:19,  3.03s/it][A
Training...:  70% 1831/2609 [1:45:30<38:18,  2.95s/it][A
Training...:  70% 1832/2609 [1:45:33<37:09,  2.87s/it][A
Training...:  70% 1833/2609 [1:45:35<36:04,  2.79s/it][A
Training...:  70% 1834/2609 [1:45:38<35:00,  2.71s/it][A
Training...:  70% 1835/2609 [1:45:40<33:58,  2.63s/it][A
Training...:  70% 1836/2609 [1:45:43<32:46,  2.54s/it][A
Training...:  70% 1837/2609 [1:45:45<31:37,  2.46s/it][A
Training...:  70% 1838/2609 [1:45:47<30:25,  2.37s/it][A
Training...:  70% 1839/2609 [1:45:49<29:10,  2.27s/it][A
Training...:  71% 1840/2609 [1:45:51<27:49,  2.17s/it][A
Training...:  71% 1841/2609 [1:45:53<26:35,  2.08s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:37:12<20:36:30, 9273.77s/it]
Training...:  71% 1841/2609 [1:45:55<26:35,  2.08s/it][A
Training...:  71% 1842/2609 [1:45:55<26:52,  2.10s/it][A
Training...:  71% 1843/2609 [1:45:57<25:14,  1.98s/it][A
Training...:  71% 1844/2609 [1:45:58<23:37,  1.85s/it][A
Training...:  71% 1845/2609 [1:46:00<21:58,  1.73s/it][A
Training...:  71% 1846/2609 [1:46:01<20:17,  1.60s/it][A
Training...:  71% 1847/2609 [1:46:02<18:32,  1.46s/it][A
Training...:  71% 1848/2609 [1:46:03<16:45,  1.32s/it][A
Training...:  71% 1849/2609 [1:46:04<14:53,  1.18s/it][A
Training...:  71% 1850/2609 [1:46:05<12:35,  1.00it/s][A
Training...:  71% 1851/2609 [1:46:12<36:11,  2.86s/it][A
Training...:  71% 1852/2609 [1:46:19<51:47,  4.10s/it][A
Training...:  71% 1853/2609 [1:46:25<1:00:50,  4.83s/it][A
Training...:  71% 1854/2609 [1:46:32<1:05:50,  5.23s/it][A
Training...:  71% 1855/2609 [1:46:37<1:08:09,  5.42s/it][A
Training...:  71% 1856/2609 [1:46:43<1:09:01,  5.50s/it][A
Training...:  71% 1857/2609 [1:46:49<1:09:11,  5.52s/it][A
Training...:  71% 1858/2609 [1:46:54<1:08:03,  5.44s/it][A
Training...:  71% 1859/2609 [1:46:59<1:07:02,  5.36s/it][A
Training...:  71% 1860/2609 [1:47:04<1:05:06,  5.22s/it][A
Training...:  71% 1861/2609 [1:47:09<1:03:26,  5.09s/it][A
Training...:  71% 1862/2609 [1:47:13<1:01:29,  4.94s/it][A
Training...:  71% 1863/2609 [1:47:18<59:51,  4.81s/it]  [A
Training...:  71% 1864/2609 [1:47:22<58:14,  4.69s/it][A
Training...:  71% 1865/2609 [1:47:27<56:34,  4.56s/it][A
Training...:  72% 1866/2609 [1:47:31<54:36,  4.41s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:38:52<20:36:30, 9273.77s/it]
Training...:  72% 1866/2609 [1:47:35<54:36,  4.41s/it][A
Training...:  72% 1867/2609 [1:47:35<55:42,  4.50s/it][A
Training...:  72% 1868/2609 [1:47:39<53:25,  4.33s/it][A
Training...:  72% 1869/2609 [1:47:43<51:38,  4.19s/it][A
Training...:  72% 1870/2609 [1:47:47<49:47,  4.04s/it][A
Training...:  72% 1871/2609 [1:47:50<48:09,  3.92s/it][A
Training...:  72% 1872/2609 [1:47:54<46:24,  3.78s/it][A
Training...:  72% 1873/2609 [1:47:57<45:10,  3.68s/it][A
Training...:  72% 1874/2609 [1:48:01<43:40,  3.57s/it][A
Training...:  72% 1875/2609 [1:48:04<42:31,  3.48s/it][A
Training...:  72% 1876/2609 [1:48:07<41:04,  3.36s/it][A
Training...:  72% 1877/2609 [1:48:10<39:55,  3.27s/it][A
Training...:  72% 1878/2609 [1:48:13<38:34,  3.17s/it][A
Training...:  72% 1879/2609 [1:48:16<37:27,  3.08s/it][A
Training...:  72% 1880/2609 [1:48:19<36:35,  3.01s/it][A
Training...:  72% 1881/2609 [1:48:21<35:28,  2.92s/it][A
Training...:  72% 1882/2609 [1:48:24<34:17,  2.83s/it][A
Training...:  72% 1883/2609 [1:48:27<33:15,  2.75s/it][A
Training...:  72% 1884/2609 [1:48:29<32:09,  2.66s/it][A
Training...:  72% 1885/2609 [1:48:31<31:08,  2.58s/it][A
Training...:  72% 1886/2609 [1:48:34<30:11,  2.51s/it][A
Training...:  72% 1887/2609 [1:48:36<29:17,  2.43s/it][A
Training...:  72% 1888/2609 [1:48:38<28:15,  2.35s/it][A
Training...:  72% 1889/2609 [1:48:40<27:17,  2.27s/it][A
Training...:  72% 1890/2609 [1:48:42<26:01,  2.17s/it][A
Training...:  72% 1891/2609 [1:48:44<24:52,  2.08s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:40:03<20:36:30, 9273.77s/it]
Training...:  72% 1891/2609 [1:48:46<24:52,  2.08s/it][A
Training...:  73% 1892/2609 [1:48:46<25:09,  2.11s/it][A
Training...:  73% 1893/2609 [1:48:48<23:32,  1.97s/it][A
Training...:  73% 1894/2609 [1:48:49<21:51,  1.83s/it][A
Training...:  73% 1895/2609 [1:48:51<20:15,  1.70s/it][A
Training...:  73% 1896/2609 [1:48:52<18:47,  1.58s/it][A
Training...:  73% 1897/2609 [1:48:53<17:15,  1.45s/it][A
Training...:  73% 1898/2609 [1:48:54<15:40,  1.32s/it][A
Training...:  73% 1899/2609 [1:48:55<13:51,  1.17s/it][A
Training...:  73% 1900/2609 [1:48:56<11:46,  1.00it/s][A
Training...:  73% 1901/2609 [1:49:03<33:19,  2.82s/it][A
Training...:  73% 1902/2609 [1:49:10<48:11,  4.09s/it][A
Training...:  73% 1903/2609 [1:49:16<56:30,  4.80s/it][A
Training...:  73% 1904/2609 [1:49:22<1:01:19,  5.22s/it][A
Training...:  73% 1905/2609 [1:49:28<1:03:40,  5.43s/it][A
Training...:  73% 1906/2609 [1:49:34<1:04:42,  5.52s/it][A
Training...:  73% 1907/2609 [1:49:40<1:04:47,  5.54s/it][A
Training...:  73% 1908/2609 [1:49:45<1:03:29,  5.43s/it][A
Training...:  73% 1909/2609 [1:49:50<1:02:09,  5.33s/it][A
Training...:  73% 1910/2609 [1:49:55<1:00:25,  5.19s/it][A
Training...:  73% 1911/2609 [1:50:00<59:05,  5.08s/it]  [A
Training...:  73% 1912/2609 [1:50:04<57:15,  4.93s/it][A
Training...:  73% 1913/2609 [1:50:09<55:57,  4.82s/it][A
Training...:  73% 1914/2609 [1:50:13<54:12,  4.68s/it][A
Training...:  73% 1915/2609 [1:50:17<52:41,  4.56s/it][A
Training...:  73% 1916/2609 [1:50:21<50:57,  4.41s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:41:43<20:36:30, 9273.77s/it]
Training...:  73% 1916/2609 [1:50:26<50:57,  4.41s/it][A
Training...:  73% 1917/2609 [1:50:26<51:51,  4.50s/it][A
Training...:  74% 1918/2609 [1:50:30<49:39,  4.31s/it][A
Training...:  74% 1919/2609 [1:50:34<47:44,  4.15s/it][A
Training...:  74% 1920/2609 [1:50:38<46:03,  4.01s/it][A
Training...:  74% 1921/2609 [1:50:41<44:39,  3.89s/it][A
Training...:  74% 1922/2609 [1:50:45<43:21,  3.79s/it][A
Training...:  74% 1923/2609 [1:50:48<42:12,  3.69s/it][A
Training...:  74% 1924/2609 [1:50:51<40:54,  3.58s/it][A
Training...:  74% 1925/2609 [1:50:55<39:52,  3.50s/it][A
Training...:  74% 1926/2609 [1:50:58<38:42,  3.40s/it][A
Training...:  74% 1927/2609 [1:51:01<37:41,  3.32s/it][A
Training...:  74% 1928/2609 [1:51:04<36:33,  3.22s/it][A
Training...:  74% 1929/2609 [1:51:07<35:32,  3.14s/it][A
Training...:  74% 1930/2609 [1:51:10<34:29,  3.05s/it][A
Training...:  74% 1931/2609 [1:51:13<33:35,  2.97s/it][A
Training...:  74% 1932/2609 [1:51:15<32:35,  2.89s/it][A
Training...:  74% 1933/2609 [1:51:18<31:35,  2.80s/it][A
Training...:  74% 1934/2609 [1:51:20<30:34,  2.72s/it][A
Training...:  74% 1935/2609 [1:51:23<29:35,  2.63s/it][A
Training...:  74% 1936/2609 [1:51:25<28:33,  2.55s/it][A
Training...:  74% 1937/2609 [1:51:28<27:37,  2.47s/it][A
Training...:  74% 1938/2609 [1:51:30<26:39,  2.38s/it][A
Training...:  74% 1939/2609 [1:51:32<25:43,  2.30s/it][A
Training...:  74% 1940/2609 [1:51:34<24:38,  2.21s/it][A
Training...:  74% 1941/2609 [1:51:36<23:38,  2.12s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:42:55<20:36:30, 9273.77s/it]
Training...:  74% 1941/2609 [1:51:38<23:38,  2.12s/it][A
Training...:  74% 1942/2609 [1:51:38<23:49,  2.14s/it][A
Training...:  74% 1943/2609 [1:51:40<22:17,  2.01s/it][A
Training...:  75% 1944/2609 [1:51:41<20:38,  1.86s/it][A
Training...:  75% 1945/2609 [1:51:43<19:08,  1.73s/it][A
Training...:  75% 1946/2609 [1:51:44<17:33,  1.59s/it][A
Training...:  75% 1947/2609 [1:51:45<16:03,  1.46s/it][A
Training...:  75% 1948/2609 [1:51:46<14:27,  1.31s/it][A
Training...:  75% 1949/2609 [1:51:47<12:44,  1.16s/it][A
Training...:  75% 1950/2609 [1:51:47<10:37,  1.03it/s][A
Training...:  75% 1951/2609 [1:51:55<31:16,  2.85s/it][A
Training...:  75% 1952/2609 [1:52:02<45:17,  4.14s/it][A
Training...:  75% 1953/2609 [1:52:08<53:05,  4.86s/it][A
Training...:  75% 1954/2609 [1:52:14<57:26,  5.26s/it][A
Training...:  75% 1955/2609 [1:52:20<59:38,  5.47s/it][A
Training...:  75% 1956/2609 [1:52:26<1:00:07,  5.52s/it][A
Training...:  75% 1957/2609 [1:52:32<59:57,  5.52s/it]  [A
Training...:  75% 1958/2609 [1:52:37<58:46,  5.42s/it][A
Training...:  75% 1959/2609 [1:52:42<58:03,  5.36s/it][A
Training...:  75% 1960/2609 [1:52:47<56:37,  5.23s/it][A
Training...:  75% 1961/2609 [1:52:52<55:23,  5.13s/it][A
Training...:  75% 1962/2609 [1:52:56<53:44,  4.98s/it][A
Training...:  75% 1963/2609 [1:53:01<52:11,  4.85s/it][A
Training...:  75% 1964/2609 [1:53:05<50:17,  4.68s/it][A
Training...:  75% 1965/2609 [1:53:10<49:02,  4.57s/it][A
Training...:  75% 1966/2609 [1:53:14<47:27,  4.43s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:44:35<20:36:30, 9273.77s/it]
Training...:  75% 1966/2609 [1:53:18<47:27,  4.43s/it][A
Training...:  75% 1967/2609 [1:53:18<48:20,  4.52s/it][A
Training...:  75% 1968/2609 [1:53:22<46:18,  4.33s/it][A
Training...:  75% 1969/2609 [1:53:26<44:40,  4.19s/it][A
Training...:  76% 1970/2609 [1:53:30<42:58,  4.04s/it][A
Training...:  76% 1971/2609 [1:53:33<41:32,  3.91s/it][A
Training...:  76% 1972/2609 [1:53:37<40:13,  3.79s/it][A
Training...:  76% 1973/2609 [1:53:40<39:07,  3.69s/it][A
Training...:  76% 1974/2609 [1:53:44<37:48,  3.57s/it][A
Training...:  76% 1975/2609 [1:53:47<36:37,  3.47s/it][A
Training...:  76% 1976/2609 [1:53:50<35:24,  3.36s/it][A
Training...:  76% 1977/2609 [1:53:53<34:25,  3.27s/it][A
Training...:  76% 1978/2609 [1:53:56<33:14,  3.16s/it][A
Training...:  76% 1979/2609 [1:53:59<32:23,  3.08s/it][A
Training...:  76% 1980/2609 [1:54:02<31:28,  3.00s/it][A
Training...:  76% 1981/2609 [1:54:04<30:27,  2.91s/it][A
Training...:  76% 1982/2609 [1:54:07<29:30,  2.82s/it][A
Training...:  76% 1983/2609 [1:54:10<28:40,  2.75s/it][A
Training...:  76% 1984/2609 [1:54:12<27:44,  2.66s/it][A
Training...:  76% 1985/2609 [1:54:14<26:46,  2.57s/it][A
Training...:  76% 1986/2609 [1:54:17<25:48,  2.48s/it][A
Training...:  76% 1987/2609 [1:54:19<24:59,  2.41s/it][A
Training...:  76% 1988/2609 [1:54:21<23:56,  2.31s/it][A
Training...:  76% 1989/2609 [1:54:23<22:58,  2.22s/it][A
Training...:  76% 1990/2609 [1:54:25<22:01,  2.13s/it][A
Training...:  76% 1991/2609 [1:54:27<21:00,  2.04s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:45:46<20:36:30, 9273.77s/it]
Training...:  76% 1991/2609 [1:54:29<21:00,  2.04s/it][A
Training...:  76% 1992/2609 [1:54:29<21:26,  2.08s/it][A
Training...:  76% 1993/2609 [1:54:31<19:58,  1.95s/it][A
Training...:  76% 1994/2609 [1:54:32<18:35,  1.81s/it][A
Training...:  76% 1995/2609 [1:54:33<17:23,  1.70s/it][A
Training...:  77% 1996/2609 [1:54:35<16:06,  1.58s/it][A
Training...:  77% 1997/2609 [1:54:36<14:46,  1.45s/it][A
Training...:  77% 1998/2609 [1:54:37<13:22,  1.31s/it][A
Training...:  77% 1999/2609 [1:54:38<11:47,  1.16s/it][A
Training...:  77% 2000/2609 [1:54:38<09:56,  1.02it/s][A
Training...:  77% 2001/2609 [1:54:46<28:56,  2.86s/it][A
Training...:  77% 2002/2609 [1:54:53<41:49,  4.13s/it][A
Training...:  77% 2003/2609 [1:54:59<49:15,  4.88s/it][A
Training...:  77% 2004/2609 [1:55:05<53:16,  5.28s/it][A
Training...:  77% 2005/2609 [1:55:11<55:09,  5.48s/it][A
Training...:  77% 2006/2609 [1:55:17<55:31,  5.52s/it][A
Training...:  77% 2007/2609 [1:55:22<55:08,  5.50s/it][A
Training...:  77% 2008/2609 [1:55:28<54:16,  5.42s/it][A
Training...:  77% 2009/2609 [1:55:33<53:13,  5.32s/it][A
Training...:  77% 2010/2609 [1:55:38<51:33,  5.16s/it][A
Training...:  77% 2011/2609 [1:55:42<50:11,  5.04s/it][A
Training...:  77% 2012/2609 [1:55:47<48:28,  4.87s/it][A
Training...:  77% 2013/2609 [1:55:51<47:08,  4.75s/it][A
Training...:  77% 2014/2609 [1:55:56<45:38,  4.60s/it][A
Training...:  77% 2015/2609 [1:56:00<44:21,  4.48s/it][A
Training...:  77% 2016/2609 [1:56:04<42:55,  4.34s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:47:25<20:36:30, 9273.77s/it]
Training...:  77% 2016/2609 [1:56:08<42:55,  4.34s/it][A
Training...:  77% 2017/2609 [1:56:08<43:37,  4.42s/it][A
Training...:  77% 2018/2609 [1:56:12<41:48,  4.24s/it][A
Training...:  77% 2019/2609 [1:56:16<40:14,  4.09s/it][A
Training...:  77% 2020/2609 [1:56:20<38:53,  3.96s/it][A
Training...:  77% 2021/2609 [1:56:23<37:51,  3.86s/it][A
Training...:  78% 2022/2609 [1:56:27<36:47,  3.76s/it][A
Training...:  78% 2023/2609 [1:56:30<35:39,  3.65s/it][A
Training...:  78% 2024/2609 [1:56:33<34:33,  3.54s/it][A
Training...:  78% 2025/2609 [1:56:37<33:30,  3.44s/it][A
Training...:  78% 2026/2609 [1:56:40<32:29,  3.34s/it][A
Training...:  78% 2027/2609 [1:56:43<31:38,  3.26s/it][A
Training...:  78% 2028/2609 [1:56:46<30:45,  3.18s/it][A
Training...:  78% 2029/2609 [1:56:49<29:54,  3.09s/it][A
Training...:  78% 2030/2609 [1:56:52<29:06,  3.02s/it][A
Training...:  78% 2031/2609 [1:56:54<28:22,  2.95s/it][A
Training...:  78% 2032/2609 [1:56:57<27:37,  2.87s/it][A
Training...:  78% 2033/2609 [1:57:00<26:56,  2.81s/it][A
Training...:  78% 2034/2609 [1:57:02<26:03,  2.72s/it][A
Training...:  78% 2035/2609 [1:57:05<25:08,  2.63s/it][A
Training...:  78% 2036/2609 [1:57:07<24:08,  2.53s/it][A
Training...:  78% 2037/2609 [1:57:09<23:23,  2.45s/it][A
Training...:  78% 2038/2609 [1:57:11<22:23,  2.35s/it][A
Training...:  78% 2039/2609 [1:57:13<21:30,  2.26s/it][A
Training...:  78% 2040/2609 [1:57:15<20:35,  2.17s/it][A
Training...:  78% 2041/2609 [1:57:17<19:39,  2.08s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:48:36<20:36:30, 9273.77s/it]
Training...:  78% 2041/2609 [1:57:19<19:39,  2.08s/it][A
Training...:  78% 2042/2609 [1:57:19<19:55,  2.11s/it][A
Training...:  78% 2043/2609 [1:57:21<18:37,  1.97s/it][A
Training...:  78% 2044/2609 [1:57:23<17:18,  1.84s/it][A
Training...:  78% 2045/2609 [1:57:24<15:59,  1.70s/it][A
Training...:  78% 2046/2609 [1:57:25<14:41,  1.57s/it][A
Training...:  78% 2047/2609 [1:57:26<13:26,  1.43s/it][A
Training...:  78% 2048/2609 [1:57:27<12:03,  1.29s/it][A
Training...:  79% 2049/2609 [1:57:28<10:37,  1.14s/it][A
Training...:  79% 2050/2609 [1:57:29<08:53,  1.05it/s][A
Training...:  79% 2051/2609 [1:57:36<26:04,  2.80s/it][A
Training...:  79% 2052/2609 [1:57:43<37:51,  4.08s/it][A
Training...:  79% 2053/2609 [1:57:49<44:47,  4.83s/it][A
Training...:  79% 2054/2609 [1:57:56<48:26,  5.24s/it][A
Training...:  79% 2055/2609 [1:58:01<49:57,  5.41s/it][A
Training...:  79% 2056/2609 [1:58:07<50:23,  5.47s/it][A
Training...:  79% 2057/2609 [1:58:13<50:36,  5.50s/it][A
Training...:  79% 2058/2609 [1:58:18<49:39,  5.41s/it][A
Training...:  79% 2059/2609 [1:58:23<48:33,  5.30s/it][A
Training...:  79% 2060/2609 [1:58:28<47:14,  5.16s/it][A
Training...:  79% 2061/2609 [1:58:32<45:55,  5.03s/it][A
Training...:  79% 2062/2609 [1:58:37<44:26,  4.87s/it][A
Training...:  79% 2063/2609 [1:58:41<43:25,  4.77s/it][A
Training...:  79% 2064/2609 [1:58:46<42:01,  4.63s/it][A
Training...:  79% 2065/2609 [1:58:50<40:51,  4.51s/it][A
Training...:  79% 2066/2609 [1:58:54<39:55,  4.41s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:50:16<20:36:30, 9273.77s/it]
Training...:  79% 2066/2609 [1:58:59<39:55,  4.41s/it][A
Training...:  79% 2067/2609 [1:58:59<40:47,  4.52s/it][A
Training...:  79% 2068/2609 [1:59:03<38:48,  4.30s/it][A
Training...:  79% 2069/2609 [1:59:06<37:23,  4.15s/it][A
Training...:  79% 2070/2609 [1:59:10<35:51,  3.99s/it][A
Training...:  79% 2071/2609 [1:59:14<34:48,  3.88s/it][A
Training...:  79% 2072/2609 [1:59:17<33:40,  3.76s/it][A
Training...:  79% 2073/2609 [1:59:21<32:41,  3.66s/it][A
Training...:  79% 2074/2609 [1:59:24<31:36,  3.54s/it][A
Training...:  80% 2075/2609 [1:59:27<30:45,  3.46s/it][A
Training...:  80% 2076/2609 [1:59:30<29:48,  3.36s/it][A
Training...:  80% 2077/2609 [1:59:33<28:50,  3.25s/it][A
Training...:  80% 2078/2609 [1:59:36<27:56,  3.16s/it][A
Training...:  80% 2079/2609 [1:59:39<27:04,  3.06s/it][A
Training...:  80% 2080/2609 [1:59:42<26:14,  2.98s/it][A
Training...:  80% 2081/2609 [1:59:44<25:29,  2.90s/it][A
Training...:  80% 2082/2609 [1:59:47<24:42,  2.81s/it][A
Training...:  80% 2083/2609 [1:59:50<24:01,  2.74s/it][A
Training...:  80% 2084/2609 [1:59:52<23:10,  2.65s/it][A
Training...:  80% 2085/2609 [1:59:54<22:24,  2.57s/it][A
Training...:  80% 2086/2609 [1:59:57<21:41,  2.49s/it][A
Training...:  80% 2087/2609 [1:59:59<20:58,  2.41s/it][A
Training...:  80% 2088/2609 [2:00:01<20:07,  2.32s/it][A
Training...:  80% 2089/2609 [2:00:03<19:24,  2.24s/it][A
Training...:  80% 2090/2609 [2:00:05<18:33,  2.15s/it][A
Training...:  80% 2091/2609 [2:00:07<17:46,  2.06s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:51:26<20:36:30, 9273.77s/it]
Training...:  80% 2091/2609 [2:00:09<17:46,  2.06s/it][A
Training...:  80% 2092/2609 [2:00:09<17:57,  2.08s/it][A
Training...:  80% 2093/2609 [2:00:11<16:45,  1.95s/it][A
Training...:  80% 2094/2609 [2:00:12<15:36,  1.82s/it][A
Training...:  80% 2095/2609 [2:00:14<14:27,  1.69s/it][A
Training...:  80% 2096/2609 [2:00:15<13:19,  1.56s/it][A
Training...:  80% 2097/2609 [2:00:16<12:09,  1.42s/it][A
Training...:  80% 2098/2609 [2:00:17<10:49,  1.27s/it][A
Training...:  80% 2099/2609 [2:00:18<09:28,  1.11s/it][A
Training...:  80% 2100/2609 [2:00:18<07:57,  1.07it/s][A
Training...:  81% 2101/2609 [2:00:25<23:35,  2.79s/it][A
Training...:  81% 2102/2609 [2:00:32<34:22,  4.07s/it][A
Training...:  81% 2103/2609 [2:00:39<40:34,  4.81s/it][A
Training...:  81% 2104/2609 [2:00:45<44:41,  5.31s/it][A
Training...:  81% 2105/2609 [2:00:52<46:49,  5.57s/it][A
Training...:  81% 2106/2609 [2:00:57<47:13,  5.63s/it][A
Training...:  81% 2107/2609 [2:01:03<46:50,  5.60s/it][A
Training...:  81% 2108/2609 [2:01:08<45:46,  5.48s/it][A
Training...:  81% 2109/2609 [2:01:13<44:57,  5.39s/it][A
Training...:  81% 2110/2609 [2:01:18<43:42,  5.26s/it][A
Training...:  81% 2111/2609 [2:01:23<42:31,  5.12s/it][A
Training...:  81% 2112/2609 [2:01:28<41:12,  4.98s/it][A
Training...:  81% 2113/2609 [2:01:32<40:08,  4.86s/it][A
Training...:  81% 2114/2609 [2:01:37<38:45,  4.70s/it][A
Training...:  81% 2115/2609 [2:01:41<37:36,  4.57s/it][A
Training...:  81% 2116/2609 [2:01:45<36:31,  4.44s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:53:07<20:36:30, 9273.77s/it]
Training...:  81% 2116/2609 [2:01:50<36:31,  4.44s/it][A
Training...:  81% 2117/2609 [2:01:50<37:13,  4.54s/it][A
Training...:  81% 2118/2609 [2:01:54<35:35,  4.35s/it][A
Training...:  81% 2119/2609 [2:01:57<34:20,  4.20s/it][A
Training...:  81% 2120/2609 [2:02:01<33:08,  4.07s/it][A
Training...:  81% 2121/2609 [2:02:05<32:12,  3.96s/it][A
Training...:  81% 2122/2609 [2:02:08<31:06,  3.83s/it][A
Training...:  81% 2123/2609 [2:02:12<30:11,  3.73s/it][A
Training...:  81% 2124/2609 [2:02:15<29:11,  3.61s/it][A
Training...:  81% 2125/2609 [2:02:19<28:19,  3.51s/it][A
Training...:  81% 2126/2609 [2:02:22<27:20,  3.40s/it][A
Training...:  82% 2127/2609 [2:02:25<26:35,  3.31s/it][A
Training...:  82% 2128/2609 [2:02:28<25:46,  3.21s/it][A
Training...:  82% 2129/2609 [2:02:31<25:10,  3.15s/it][A
Training...:  82% 2130/2609 [2:02:34<24:22,  3.05s/it][A
Training...:  82% 2131/2609 [2:02:36<23:38,  2.97s/it][A
Training...:  82% 2132/2609 [2:02:39<22:49,  2.87s/it][A
Training...:  82% 2133/2609 [2:02:42<22:02,  2.78s/it][A
Training...:  82% 2134/2609 [2:02:44<21:13,  2.68s/it][A
Training...:  82% 2135/2609 [2:02:46<20:31,  2.60s/it][A
Training...:  82% 2136/2609 [2:02:49<19:48,  2.51s/it][A
Training...:  82% 2137/2609 [2:02:51<19:05,  2.43s/it][A
Training...:  82% 2138/2609 [2:02:53<18:22,  2.34s/it][A
Training...:  82% 2139/2609 [2:02:55<17:39,  2.25s/it][A
Training...:  82% 2140/2609 [2:02:57<16:49,  2.15s/it][A
Training...:  82% 2141/2609 [2:02:59<15:59,  2.05s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:54:18<20:36:30, 9273.77s/it]
Training...:  82% 2141/2609 [2:03:01<15:59,  2.05s/it][A
Training...:  82% 2142/2609 [2:03:01<16:13,  2.08s/it][A
Training...:  82% 2143/2609 [2:03:03<15:10,  1.95s/it][A
Training...:  82% 2144/2609 [2:03:04<14:08,  1.83s/it][A
Training...:  82% 2145/2609 [2:03:06<13:12,  1.71s/it][A
Training...:  82% 2146/2609 [2:03:07<12:12,  1.58s/it][A
Training...:  82% 2147/2609 [2:03:08<11:11,  1.45s/it][A
Training...:  82% 2148/2609 [2:03:09<10:04,  1.31s/it][A
Training...:  82% 2149/2609 [2:03:10<08:51,  1.16s/it][A
Training...:  82% 2150/2609 [2:03:10<07:28,  1.02it/s][A
Training...:  82% 2151/2609 [2:03:18<21:28,  2.81s/it][A
Training...:  82% 2152/2609 [2:03:25<31:13,  4.10s/it][A
Training...:  83% 2153/2609 [2:03:31<36:52,  4.85s/it][A
Training...:  83% 2154/2609 [2:03:37<39:39,  5.23s/it][A
Training...:  83% 2155/2609 [2:03:43<41:04,  5.43s/it][A
Training...:  83% 2156/2609 [2:03:49<41:21,  5.48s/it][A
Training...:  83% 2157/2609 [2:03:54<41:12,  5.47s/it][A
Training...:  83% 2158/2609 [2:04:00<40:38,  5.41s/it][A
Training...:  83% 2159/2609 [2:04:05<39:55,  5.32s/it][A
Training...:  83% 2160/2609 [2:04:10<38:52,  5.20s/it][A
Training...:  83% 2161/2609 [2:04:14<37:54,  5.08s/it][A
Training...:  83% 2162/2609 [2:04:19<36:47,  4.94s/it][A
Training...:  83% 2163/2609 [2:04:23<35:38,  4.79s/it][A
Training...:  83% 2164/2609 [2:04:28<34:26,  4.64s/it][A
Training...:  83% 2165/2609 [2:04:32<33:27,  4.52s/it][A
Training...:  83% 2166/2609 [2:04:36<32:19,  4.38s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:55:58<20:36:30, 9273.77s/it]
Training...:  83% 2166/2609 [2:04:41<32:19,  4.38s/it][A
Training...:  83% 2167/2609 [2:04:41<32:56,  4.47s/it][A
Training...:  83% 2168/2609 [2:04:45<31:32,  4.29s/it][A
Training...:  83% 2169/2609 [2:04:48<30:27,  4.15s/it][A
Training...:  83% 2170/2609 [2:04:52<29:21,  4.01s/it][A
Training...:  83% 2171/2609 [2:04:56<28:28,  3.90s/it][A
Training...:  83% 2172/2609 [2:04:59<27:36,  3.79s/it][A
Training...:  83% 2173/2609 [2:05:03<26:50,  3.69s/it][A
Training...:  83% 2174/2609 [2:05:06<25:57,  3.58s/it][A
Training...:  83% 2175/2609 [2:05:09<25:06,  3.47s/it][A
Training...:  83% 2176/2609 [2:05:12<24:20,  3.37s/it][A
Training...:  83% 2177/2609 [2:05:16<23:43,  3.29s/it][A
Training...:  83% 2178/2609 [2:05:19<22:55,  3.19s/it][A
Training...:  84% 2179/2609 [2:05:21<22:12,  3.10s/it][A
Training...:  84% 2180/2609 [2:05:24<21:22,  2.99s/it][A
Training...:  84% 2181/2609 [2:05:27<20:42,  2.90s/it][A
Training...:  84% 2182/2609 [2:05:29<19:55,  2.80s/it][A
Training...:  84% 2183/2609 [2:05:32<19:23,  2.73s/it][A
Training...:  84% 2184/2609 [2:05:34<18:48,  2.66s/it][A
Training...:  84% 2185/2609 [2:05:37<18:12,  2.58s/it][A
Training...:  84% 2186/2609 [2:05:39<17:36,  2.50s/it][A
Training...:  84% 2187/2609 [2:05:41<16:58,  2.41s/it][A
Training...:  84% 2188/2609 [2:05:43<16:17,  2.32s/it][A
Training...:  84% 2189/2609 [2:05:46<15:38,  2.23s/it][A
Training...:  84% 2190/2609 [2:05:47<14:55,  2.14s/it][A
Training...:  84% 2191/2609 [2:05:49<14:16,  2.05s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:57:08<20:36:30, 9273.77s/it]
Training...:  84% 2191/2609 [2:05:51<14:16,  2.05s/it][A
Training...:  84% 2192/2609 [2:05:51<14:28,  2.08s/it][A
Training...:  84% 2193/2609 [2:05:53<13:28,  1.94s/it][A
Training...:  84% 2194/2609 [2:05:55<12:31,  1.81s/it][A
Training...:  84% 2195/2609 [2:05:56<11:36,  1.68s/it][A
Training...:  84% 2196/2609 [2:05:57<10:42,  1.56s/it][A
Training...:  84% 2197/2609 [2:05:58<09:48,  1.43s/it][A
Training...:  84% 2198/2609 [2:05:59<08:48,  1.29s/it][A
Training...:  84% 2199/2609 [2:06:00<07:43,  1.13s/it][A
Training...:  84% 2200/2609 [2:06:01<06:33,  1.04it/s][A
Training...:  84% 2201/2609 [2:06:08<19:11,  2.82s/it][A
Training...:  84% 2202/2609 [2:06:15<27:55,  4.12s/it][A
Training...:  84% 2203/2609 [2:06:22<33:07,  4.90s/it][A
Training...:  84% 2204/2609 [2:06:28<35:54,  5.32s/it][A
Training...:  85% 2205/2609 [2:06:34<37:07,  5.51s/it][A
Training...:  85% 2206/2609 [2:06:40<37:20,  5.56s/it][A
Training...:  85% 2207/2609 [2:06:45<37:06,  5.54s/it][A
Training...:  85% 2208/2609 [2:06:50<36:17,  5.43s/it][A
Training...:  85% 2209/2609 [2:06:55<35:32,  5.33s/it][A
Training...:  85% 2210/2609 [2:07:00<34:35,  5.20s/it][A
Training...:  85% 2211/2609 [2:07:05<33:47,  5.09s/it][A
Training...:  85% 2212/2609 [2:07:10<32:43,  4.95s/it][A
Training...:  85% 2213/2609 [2:07:14<31:52,  4.83s/it][A
Training...:  85% 2214/2609 [2:07:19<30:55,  4.70s/it][A
Training...:  85% 2215/2609 [2:07:23<30:03,  4.58s/it][A
Training...:  85% 2216/2609 [2:07:27<29:01,  4.43s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [32:58:49<20:36:30, 9273.77s/it]
Training...:  85% 2216/2609 [2:07:32<29:01,  4.43s/it][A
Training...:  85% 2217/2609 [2:07:32<29:28,  4.51s/it][A
Training...:  85% 2218/2609 [2:07:36<28:08,  4.32s/it][A
Training...:  85% 2219/2609 [2:07:39<27:10,  4.18s/it][A
Training...:  85% 2220/2609 [2:07:43<26:08,  4.03s/it][A
Training...:  85% 2221/2609 [2:07:47<25:28,  3.94s/it][A
Training...:  85% 2222/2609 [2:07:50<24:44,  3.84s/it][A
Training...:  85% 2223/2609 [2:07:54<24:02,  3.74s/it][A
Training...:  85% 2224/2609 [2:07:57<23:12,  3.62s/it][A
Training...:  85% 2225/2609 [2:08:01<22:23,  3.50s/it][A
Training...:  85% 2226/2609 [2:08:04<21:34,  3.38s/it][A
Training...:  85% 2227/2609 [2:08:07<20:58,  3.29s/it][A
Training...:  85% 2228/2609 [2:08:10<20:18,  3.20s/it][A
Training...:  85% 2229/2609 [2:08:13<19:39,  3.10s/it][A
Training...:  85% 2230/2609 [2:08:15<19:01,  3.01s/it][A
Training...:  86% 2231/2609 [2:08:18<18:31,  2.94s/it][A
Training...:  86% 2232/2609 [2:08:21<17:49,  2.84s/it][A
Training...:  86% 2233/2609 [2:08:23<17:14,  2.75s/it][A
Training...:  86% 2234/2609 [2:08:26<16:37,  2.66s/it][A
Training...:  86% 2235/2609 [2:08:28<16:00,  2.57s/it][A
Training...:  86% 2236/2609 [2:08:30<15:25,  2.48s/it][A
Training...:  86% 2237/2609 [2:08:33<14:52,  2.40s/it][A
Training...:  86% 2238/2609 [2:08:35<14:17,  2.31s/it][A
Training...:  86% 2239/2609 [2:08:37<13:48,  2.24s/it][A
Training...:  86% 2240/2609 [2:08:39<13:15,  2.16s/it][A
Training...:  86% 2241/2609 [2:08:41<12:42,  2.07s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [33:00:00<20:36:30, 9273.77s/it]
Training...:  86% 2241/2609 [2:08:43<12:42,  2.07s/it][A
Training...:  86% 2242/2609 [2:08:43<12:58,  2.12s/it][A
Training...:  86% 2243/2609 [2:08:44<12:06,  1.98s/it][A
Training...:  86% 2244/2609 [2:08:46<11:12,  1.84s/it][A
Training...:  86% 2245/2609 [2:08:47<10:23,  1.71s/it][A
Training...:  86% 2246/2609 [2:08:49<09:31,  1.57s/it][A
Training...:  86% 2247/2609 [2:08:50<08:40,  1.44s/it][A
Training...:  86% 2248/2609 [2:08:51<07:47,  1.29s/it][A
Training...:  86% 2249/2609 [2:08:52<06:50,  1.14s/it][A
Training...:  86% 2250/2609 [2:08:52<05:43,  1.04it/s][A
Training...:  86% 2251/2609 [2:08:59<16:57,  2.84s/it][A
Training...:  86% 2252/2609 [2:09:06<24:30,  4.12s/it][A
Training...:  86% 2253/2609 [2:09:13<28:56,  4.88s/it][A
Training...:  86% 2254/2609 [2:09:19<31:23,  5.31s/it][A
Training...:  86% 2255/2609 [2:09:25<32:20,  5.48s/it][A
Training...:  86% 2256/2609 [2:09:31<32:35,  5.54s/it][A
Training...:  87% 2257/2609 [2:09:36<32:28,  5.54s/it][A
Training...:  87% 2258/2609 [2:09:42<31:54,  5.45s/it][A
Training...:  87% 2259/2609 [2:09:47<31:12,  5.35s/it][A
Training...:  87% 2260/2609 [2:09:52<30:15,  5.20s/it][A
Training...:  87% 2261/2609 [2:09:56<29:22,  5.06s/it][A
Training...:  87% 2262/2609 [2:10:01<28:19,  4.90s/it][A
Training...:  87% 2263/2609 [2:10:05<27:31,  4.77s/it][A
Training...:  87% 2264/2609 [2:10:10<26:37,  4.63s/it][A
Training...:  87% 2265/2609 [2:10:14<26:02,  4.54s/it][A
Training...:  87% 2266/2609 [2:10:18<25:25,  4.45s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [33:01:40<20:36:30, 9273.77s/it]
Training...:  87% 2266/2609 [2:10:23<25:25,  4.45s/it][A
Training...:  87% 2267/2609 [2:10:23<25:56,  4.55s/it][A
Training...:  87% 2268/2609 [2:10:27<24:35,  4.33s/it][A
Training...:  87% 2269/2609 [2:10:31<23:33,  4.16s/it][A
Training...:  87% 2270/2609 [2:10:34<22:34,  4.00s/it][A
Training...:  87% 2271/2609 [2:10:38<21:46,  3.86s/it][A
Training...:  87% 2272/2609 [2:10:41<20:59,  3.74s/it][A
Training...:  87% 2273/2609 [2:10:45<20:20,  3.63s/it][A
Training...:  87% 2274/2609 [2:10:48<19:40,  3.53s/it][A
Training...:  87% 2275/2609 [2:10:51<19:01,  3.42s/it][A
Training...:  87% 2276/2609 [2:10:54<18:24,  3.32s/it][A
Training...:  87% 2277/2609 [2:10:57<17:50,  3.22s/it][A
Training...:  87% 2278/2609 [2:11:00<17:15,  3.13s/it][A
Training...:  87% 2279/2609 [2:11:03<16:46,  3.05s/it][A
Training...:  87% 2280/2609 [2:11:06<16:10,  2.95s/it][A
Training...:  87% 2281/2609 [2:11:08<15:36,  2.86s/it][A
Training...:  87% 2282/2609 [2:11:11<15:05,  2.77s/it][A
Training...:  88% 2283/2609 [2:11:13<14:35,  2.68s/it][A
Training...:  88% 2284/2609 [2:11:16<14:06,  2.61s/it][A
Training...:  88% 2285/2609 [2:11:18<13:37,  2.52s/it][A
Training...:  88% 2286/2609 [2:11:20<13:08,  2.44s/it][A
Training...:  88% 2287/2609 [2:11:22<12:36,  2.35s/it][A
Training...:  88% 2288/2609 [2:11:24<12:02,  2.25s/it][A
Training...:  88% 2289/2609 [2:11:26<11:31,  2.16s/it][A
Training...:  88% 2290/2609 [2:11:28<10:59,  2.07s/it][A
Training...:  88% 2291/2609 [2:11:30<10:29,  1.98s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [33:02:49<20:36:30, 9273.77s/it]
Training...:  88% 2291/2609 [2:11:32<10:29,  1.98s/it][A
Training...:  88% 2292/2609 [2:11:32<10:31,  1.99s/it][A
Training...:  88% 2293/2609 [2:11:34<09:49,  1.87s/it][A
Training...:  88% 2294/2609 [2:11:35<09:10,  1.75s/it][A
Training...:  88% 2295/2609 [2:11:36<08:31,  1.63s/it][A
Training...:  88% 2296/2609 [2:11:38<07:54,  1.51s/it][A
Training...:  88% 2297/2609 [2:11:39<07:14,  1.39s/it][A
Training...:  88% 2298/2609 [2:11:40<06:32,  1.26s/it][A
Training...:  88% 2299/2609 [2:11:41<05:46,  1.12s/it][A
Training...:  88% 2300/2609 [2:11:41<04:50,  1.07it/s][A
Training...:  88% 2301/2609 [2:11:48<14:17,  2.78s/it][A
Training...:  88% 2302/2609 [2:11:55<20:50,  4.07s/it][A
Training...:  88% 2303/2609 [2:12:02<24:33,  4.82s/it][A
Training...:  88% 2304/2609 [2:12:08<26:30,  5.22s/it][A
Training...:  88% 2305/2609 [2:12:14<27:33,  5.44s/it][A
Training...:  88% 2306/2609 [2:12:20<27:44,  5.49s/it][A
Training...:  88% 2307/2609 [2:12:25<27:51,  5.53s/it][A
Training...:  88% 2308/2609 [2:12:30<27:17,  5.44s/it][A
Training...:  89% 2309/2609 [2:12:35<26:36,  5.32s/it][A
Training...:  89% 2310/2609 [2:12:40<25:49,  5.18s/it][A
Training...:  89% 2311/2609 [2:12:45<25:07,  5.06s/it][A
Training...:  89% 2312/2609 [2:12:50<24:20,  4.92s/it][A
Training...:  89% 2313/2609 [2:12:54<23:41,  4.80s/it][A
Training...:  89% 2314/2609 [2:12:59<22:54,  4.66s/it][A
Training...:  89% 2315/2609 [2:13:03<22:08,  4.52s/it][A
Training...:  89% 2316/2609 [2:13:07<21:24,  4.38s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [33:04:28<20:36:30, 9273.77s/it]
Training...:  89% 2316/2609 [2:13:11<21:24,  4.38s/it][A
Training...:  89% 2317/2609 [2:13:11<21:39,  4.45s/it][A
Training...:  89% 2318/2609 [2:13:15<20:42,  4.27s/it][A
Training...:  89% 2319/2609 [2:13:19<19:57,  4.13s/it][A
Training...:  89% 2320/2609 [2:13:23<19:11,  3.98s/it][A
Training...:  89% 2321/2609 [2:13:26<18:35,  3.87s/it][A
Training...:  89% 2322/2609 [2:13:30<17:59,  3.76s/it][A
Training...:  89% 2323/2609 [2:13:33<17:26,  3.66s/it][A
Training...:  89% 2324/2609 [2:13:36<16:51,  3.55s/it][A
Training...:  89% 2325/2609 [2:13:40<16:20,  3.45s/it][A
Training...:  89% 2326/2609 [2:13:43<15:47,  3.35s/it][A
Training...:  89% 2327/2609 [2:13:46<15:20,  3.26s/it][A
Training...:  89% 2328/2609 [2:13:49<14:51,  3.17s/it][A
Training...:  89% 2329/2609 [2:13:52<14:25,  3.09s/it][A
Training...:  89% 2330/2609 [2:13:55<13:57,  3.00s/it][A
Training...:  89% 2331/2609 [2:13:57<13:31,  2.92s/it][A
Training...:  89% 2332/2609 [2:14:00<13:05,  2.83s/it][A
Training...:  89% 2333/2609 [2:14:03<12:42,  2.76s/it][A
Training...:  89% 2334/2609 [2:14:05<12:13,  2.67s/it][A
Training...:  89% 2335/2609 [2:14:07<11:45,  2.58s/it][A
Training...:  90% 2336/2609 [2:14:10<11:19,  2.49s/it][A
Training...:  90% 2337/2609 [2:14:12<10:49,  2.39s/it][A
Training...:  90% 2338/2609 [2:14:14<10:24,  2.30s/it][A
Training...:  90% 2339/2609 [2:14:16<10:02,  2.23s/it][A
Training...:  90% 2340/2609 [2:14:18<09:36,  2.14s/it][A
Training...:  90% 2341/2609 [2:14:20<09:11,  2.06s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [33:05:39<20:36:30, 9273.77s/it]
Training...:  90% 2341/2609 [2:14:22<09:11,  2.06s/it][A
Training...:  90% 2342/2609 [2:14:22<09:19,  2.09s/it][A
Training...:  90% 2343/2609 [2:14:24<08:43,  1.97s/it][A
Training...:  90% 2344/2609 [2:14:25<08:06,  1.84s/it][A
Training...:  90% 2345/2609 [2:14:27<07:30,  1.71s/it][A
Training...:  90% 2346/2609 [2:14:28<06:54,  1.57s/it][A
Training...:  90% 2347/2609 [2:14:29<06:16,  1.44s/it][A
Training...:  90% 2348/2609 [2:14:30<05:39,  1.30s/it][A
Training...:  90% 2349/2609 [2:14:31<05:00,  1.16s/it][A
Training...:  90% 2350/2609 [2:14:31<04:12,  1.03it/s][A
Training...:  90% 2351/2609 [2:14:38<12:07,  2.82s/it][A
Training...:  90% 2352/2609 [2:14:45<17:26,  4.07s/it][A
Training...:  90% 2353/2609 [2:14:52<20:51,  4.89s/it][A
Training...:  90% 2354/2609 [2:14:59<22:38,  5.33s/it][A
Training...:  90% 2355/2609 [2:15:04<23:23,  5.53s/it][A
Training...:  90% 2356/2609 [2:15:10<23:25,  5.56s/it][A
Training...:  90% 2357/2609 [2:15:16<23:19,  5.55s/it][A
Training...:  90% 2358/2609 [2:15:21<22:47,  5.45s/it][A
Training...:  90% 2359/2609 [2:15:26<22:20,  5.36s/it][A
Training...:  90% 2360/2609 [2:15:31<21:36,  5.21s/it][A
Training...:  90% 2361/2609 [2:15:36<21:01,  5.09s/it][A
Training...:  91% 2362/2609 [2:15:40<20:20,  4.94s/it][A
Training...:  91% 2363/2609 [2:15:45<19:44,  4.81s/it][A
Training...:  91% 2364/2609 [2:15:49<19:06,  4.68s/it][A
Training...:  91% 2365/2609 [2:15:53<18:30,  4.55s/it][A
Training...:  91% 2366/2609 [2:15:58<17:53,  4.42s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [33:07:19<20:36:30, 9273.77s/it]
Training...:  91% 2366/2609 [2:16:02<17:53,  4.42s/it][A
Training...:  91% 2367/2609 [2:16:02<18:10,  4.50s/it][A
Training...:  91% 2368/2609 [2:16:06<17:21,  4.32s/it][A
Training...:  91% 2369/2609 [2:16:10<16:39,  4.17s/it][A
Training...:  91% 2370/2609 [2:16:14<16:02,  4.03s/it][A
Training...:  91% 2371/2609 [2:16:17<15:31,  3.91s/it][A
Training...:  91% 2372/2609 [2:16:21<15:00,  3.80s/it][A
Training...:  91% 2373/2609 [2:16:24<14:32,  3.70s/it][A
Training...:  91% 2374/2609 [2:16:28<14:00,  3.58s/it][A
Training...:  91% 2375/2609 [2:16:31<13:35,  3.49s/it][A
Training...:  91% 2376/2609 [2:16:34<13:09,  3.39s/it][A
Training...:  91% 2377/2609 [2:16:37<12:45,  3.30s/it][A
Training...:  91% 2378/2609 [2:16:40<12:17,  3.19s/it][A
Training...:  91% 2379/2609 [2:16:43<11:54,  3.11s/it][A
Training...:  91% 2380/2609 [2:16:46<11:33,  3.03s/it][A
Training...:  91% 2381/2609 [2:16:49<11:11,  2.95s/it][A
Training...:  91% 2382/2609 [2:16:51<10:47,  2.85s/it][A
Training...:  91% 2383/2609 [2:16:54<10:25,  2.77s/it][A
Training...:  91% 2384/2609 [2:16:56<10:01,  2.68s/it][A
Training...:  91% 2385/2609 [2:16:59<09:41,  2.60s/it][A
Training...:  91% 2386/2609 [2:17:01<09:19,  2.51s/it][A
Training...:  91% 2387/2609 [2:17:03<08:58,  2.43s/it][A
Training...:  92% 2388/2609 [2:17:05<08:34,  2.33s/it][A
Training...:  92% 2389/2609 [2:17:07<08:12,  2.24s/it][A
Training...:  92% 2390/2609 [2:17:09<07:51,  2.15s/it][A
Training...:  92% 2391/2609 [2:17:11<07:30,  2.07s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [33:08:30<20:36:30, 9273.77s/it]
Training...:  92% 2391/2609 [2:17:13<07:30,  2.07s/it][A
Training...:  92% 2392/2609 [2:17:13<07:38,  2.11s/it][A
Training...:  92% 2393/2609 [2:17:15<07:09,  1.99s/it][A
Training...:  92% 2394/2609 [2:17:17<06:38,  1.85s/it][A
Training...:  92% 2395/2609 [2:17:18<06:08,  1.72s/it][A
Training...:  92% 2396/2609 [2:17:19<05:37,  1.58s/it][A
Training...:  92% 2397/2609 [2:17:20<05:06,  1.45s/it][A
Training...:  92% 2398/2609 [2:17:21<04:34,  1.30s/it][A
Training...:  92% 2399/2609 [2:17:22<04:00,  1.14s/it][A
Training...:  92% 2400/2609 [2:17:23<03:21,  1.04it/s][A
Training...:  92% 2401/2609 [2:17:30<09:45,  2.82s/it][A
Training...:  92% 2402/2609 [2:17:37<13:58,  4.05s/it][A
Training...:  92% 2403/2609 [2:17:43<16:31,  4.81s/it][A
Training...:  92% 2404/2609 [2:17:50<17:58,  5.26s/it][A
Training...:  92% 2405/2609 [2:17:56<18:38,  5.48s/it][A
Training...:  92% 2406/2609 [2:18:01<18:48,  5.56s/it][A
Training...:  92% 2407/2609 [2:18:07<18:42,  5.55s/it][A
Training...:  92% 2408/2609 [2:18:12<18:17,  5.46s/it][A
Training...:  92% 2409/2609 [2:18:17<17:51,  5.36s/it][A
Training...:  92% 2410/2609 [2:18:22<17:19,  5.22s/it][A
Training...:  92% 2411/2609 [2:18:27<16:52,  5.11s/it][A
Training...:  92% 2412/2609 [2:18:32<16:17,  4.96s/it][A
Training...:  92% 2413/2609 [2:18:36<15:46,  4.83s/it][A
Training...:  93% 2414/2609 [2:18:41<15:16,  4.70s/it][A
Training...:  93% 2415/2609 [2:18:45<14:49,  4.59s/it][A
Training...:  93% 2416/2609 [2:18:49<14:22,  4.47s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [33:10:11<20:36:30, 9273.77s/it]
Training...:  93% 2416/2609 [2:18:54<14:22,  4.47s/it][A
Training...:  93% 2417/2609 [2:18:54<14:33,  4.55s/it][A
Training...:  93% 2418/2609 [2:18:58<13:53,  4.36s/it][A
Training...:  93% 2419/2609 [2:19:02<13:21,  4.22s/it][A
Training...:  93% 2420/2609 [2:19:05<12:47,  4.06s/it][A
Training...:  93% 2421/2609 [2:19:09<12:22,  3.95s/it][A
Training...:  93% 2422/2609 [2:19:13<11:57,  3.84s/it][A
Training...:  93% 2423/2609 [2:19:16<11:32,  3.72s/it][A
Training...:  93% 2424/2609 [2:19:19<11:08,  3.61s/it][A
Training...:  93% 2425/2609 [2:19:23<10:46,  3.51s/it][A
Training...:  93% 2426/2609 [2:19:26<10:25,  3.42s/it][A
Training...:  93% 2427/2609 [2:19:29<10:07,  3.34s/it][A
Training...:  93% 2428/2609 [2:19:32<09:46,  3.24s/it][A
Training...:  93% 2429/2609 [2:19:35<09:24,  3.13s/it][A
Training...:  93% 2430/2609 [2:19:38<09:02,  3.03s/it][A
Training...:  93% 2431/2609 [2:19:40<08:44,  2.94s/it][A
Training...:  93% 2432/2609 [2:19:43<08:23,  2.85s/it][A
Training...:  93% 2433/2609 [2:19:46<08:04,  2.75s/it][A
Training...:  93% 2434/2609 [2:19:48<07:44,  2.65s/it][A
Training...:  93% 2435/2609 [2:19:50<07:27,  2.57s/it][A
Training...:  93% 2436/2609 [2:19:53<07:08,  2.48s/it][A
Training...:  93% 2437/2609 [2:19:55<06:52,  2.40s/it][A
Training...:  93% 2438/2609 [2:19:57<06:34,  2.31s/it][A
Training...:  93% 2439/2609 [2:19:59<06:20,  2.24s/it][A
Training...:  94% 2440/2609 [2:20:01<06:03,  2.15s/it][A
Training...:  94% 2441/2609 [2:20:03<05:43,  2.05s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [33:11:22<20:36:30, 9273.77s/it]
Training...:  94% 2441/2609 [2:20:05<05:43,  2.05s/it][A
Training...:  94% 2442/2609 [2:20:05<05:48,  2.08s/it][A
Training...:  94% 2443/2609 [2:20:07<05:24,  1.95s/it][A
Training...:  94% 2444/2609 [2:20:08<05:01,  1.83s/it][A
Training...:  94% 2445/2609 [2:20:10<04:41,  1.71s/it][A
Training...:  94% 2446/2609 [2:20:11<04:18,  1.59s/it][A
Training...:  94% 2447/2609 [2:20:12<03:56,  1.46s/it][A
Training...:  94% 2448/2609 [2:20:13<03:32,  1.32s/it][A
Training...:  94% 2449/2609 [2:20:14<03:07,  1.17s/it][A
Training...:  94% 2450/2609 [2:20:14<02:38,  1.00it/s][A
Training...:  94% 2451/2609 [2:20:22<07:30,  2.85s/it][A
Training...:  94% 2452/2609 [2:20:29<10:44,  4.11s/it][A
Training...:  94% 2453/2609 [2:20:35<12:33,  4.83s/it][A
Training...:  94% 2454/2609 [2:20:41<13:34,  5.25s/it][A
Training...:  94% 2455/2609 [2:20:47<14:04,  5.48s/it][A
Training...:  94% 2456/2609 [2:20:53<14:08,  5.54s/it][A
Training...:  94% 2457/2609 [2:20:59<14:05,  5.56s/it][A
Training...:  94% 2458/2609 [2:21:04<13:49,  5.49s/it][A
Training...:  94% 2459/2609 [2:21:09<13:32,  5.42s/it][A
Training...:  94% 2460/2609 [2:21:14<13:06,  5.28s/it][A
Training...:  94% 2461/2609 [2:21:19<12:45,  5.17s/it][A
Training...:  94% 2462/2609 [2:21:24<12:19,  5.03s/it][A
Training...:  94% 2463/2609 [2:21:28<11:57,  4.91s/it][A
Training...:  94% 2464/2609 [2:21:33<11:41,  4.83s/it][A
Training...:  94% 2465/2609 [2:21:38<11:21,  4.73s/it][A
Training...:  95% 2466/2609 [2:21:42<10:51,  4.56s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [33:13:03<20:36:30, 9273.77s/it]
Training...:  95% 2466/2609 [2:21:47<10:51,  4.56s/it][A
Training...:  95% 2467/2609 [2:21:47<10:55,  4.62s/it][A
Training...:  95% 2468/2609 [2:21:51<10:23,  4.42s/it][A
Training...:  95% 2469/2609 [2:21:54<09:57,  4.27s/it][A
Training...:  95% 2470/2609 [2:21:58<09:31,  4.11s/it][A
Training...:  95% 2471/2609 [2:22:02<09:11,  4.00s/it][A
Training...:  95% 2472/2609 [2:22:05<08:50,  3.87s/it][A
Training...:  95% 2473/2609 [2:22:09<08:31,  3.76s/it][A
Training...:  95% 2474/2609 [2:22:12<08:12,  3.65s/it][A
Training...:  95% 2475/2609 [2:22:16<07:55,  3.55s/it][A
Training...:  95% 2476/2609 [2:22:19<07:39,  3.45s/it][A
Training...:  95% 2477/2609 [2:22:22<07:26,  3.38s/it][A
Training...:  95% 2478/2609 [2:22:25<07:08,  3.27s/it][A
Training...:  95% 2479/2609 [2:22:28<06:53,  3.18s/it][A
Training...:  95% 2480/2609 [2:22:31<06:35,  3.06s/it][A
Training...:  95% 2481/2609 [2:22:34<06:19,  2.96s/it][A
Training...:  95% 2482/2609 [2:22:36<06:02,  2.85s/it][A
Training...:  95% 2483/2609 [2:22:39<05:46,  2.75s/it][A
Training...:  95% 2484/2609 [2:22:41<05:30,  2.64s/it][A
Training...:  95% 2485/2609 [2:22:43<05:17,  2.56s/it][A
Training...:  95% 2486/2609 [2:22:46<05:03,  2.47s/it][A
Training...:  95% 2487/2609 [2:22:48<04:52,  2.39s/it][A
Training...:  95% 2488/2609 [2:22:50<04:40,  2.32s/it][A
Training...:  95% 2489/2609 [2:22:52<04:26,  2.22s/it][A
Training...:  95% 2490/2609 [2:22:54<04:14,  2.14s/it][A
Training...:  95% 2491/2609 [2:22:56<04:02,  2.06s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [33:14:15<20:36:30, 9273.77s/it]
Training...:  95% 2491/2609 [2:22:58<04:02,  2.06s/it][A
Training...:  96% 2492/2609 [2:22:58<04:04,  2.09s/it][A
Training...:  96% 2493/2609 [2:23:00<03:46,  1.96s/it][A
Training...:  96% 2494/2609 [2:23:01<03:29,  1.83s/it][A
Training...:  96% 2495/2609 [2:23:03<03:15,  1.71s/it][A
Training...:  96% 2496/2609 [2:23:04<02:59,  1.59s/it][A
Training...:  96% 2497/2609 [2:23:05<02:42,  1.45s/it][A
Training...:  96% 2498/2609 [2:23:06<02:25,  1.31s/it][A
Training...:  96% 2499/2609 [2:23:07<02:07,  1.16s/it][A
Training...:  96% 2500/2609 [2:23:07<01:45,  1.04it/s][A
Training...:  96% 2501/2609 [2:23:15<05:03,  2.81s/it][A
Training...:  96% 2502/2609 [2:23:22<07:21,  4.13s/it][A
Training...:  96% 2503/2609 [2:23:28<08:39,  4.90s/it][A
Training...:  96% 2504/2609 [2:23:35<09:18,  5.32s/it][A
Training...:  96% 2505/2609 [2:23:41<09:40,  5.58s/it][A
Training...:  96% 2506/2609 [2:23:47<09:41,  5.65s/it][A
Training...:  96% 2507/2609 [2:23:52<09:36,  5.65s/it][A
Training...:  96% 2508/2609 [2:23:58<09:19,  5.54s/it][A
Training...:  96% 2509/2609 [2:24:03<09:02,  5.42s/it][A
Training...:  96% 2510/2609 [2:24:08<08:42,  5.28s/it][A
Training...:  96% 2511/2609 [2:24:13<08:25,  5.16s/it][A
Training...:  96% 2512/2609 [2:24:17<08:03,  4.99s/it][A
Training...:  96% 2513/2609 [2:24:22<07:46,  4.86s/it][A
Training...:  96% 2514/2609 [2:24:26<07:27,  4.71s/it][A
Training...:  96% 2515/2609 [2:24:31<07:13,  4.61s/it][A
Training...:  96% 2516/2609 [2:24:35<06:56,  4.48s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [33:15:56<20:36:30, 9273.77s/it]
Training...:  96% 2516/2609 [2:24:39<06:56,  4.48s/it][A
Training...:  96% 2517/2609 [2:24:39<06:59,  4.56s/it][A
Training...:  97% 2518/2609 [2:24:43<06:39,  4.39s/it][A
Training...:  97% 2519/2609 [2:24:47<06:22,  4.24s/it][A
Training...:  97% 2520/2609 [2:24:51<06:03,  4.08s/it][A
Training...:  97% 2521/2609 [2:24:55<05:48,  3.96s/it][A
Training...:  97% 2522/2609 [2:24:58<05:32,  3.82s/it][A
Training...:  97% 2523/2609 [2:25:02<05:19,  3.71s/it][A
Training...:  97% 2524/2609 [2:25:05<05:06,  3.60s/it][A
Training...:  97% 2525/2609 [2:25:08<04:54,  3.51s/it][A
Training...:  97% 2526/2609 [2:25:12<04:44,  3.42s/it][A
Training...:  97% 2527/2609 [2:25:15<04:33,  3.34s/it][A
Training...:  97% 2528/2609 [2:25:18<04:21,  3.22s/it][A
Training...:  97% 2529/2609 [2:25:21<04:10,  3.13s/it][A
Training...:  97% 2530/2609 [2:25:23<04:00,  3.04s/it][A
Training...:  97% 2531/2609 [2:25:26<03:50,  2.95s/it][A
Training...:  97% 2532/2609 [2:25:29<03:38,  2.84s/it][A
Training...:  97% 2533/2609 [2:25:31<03:30,  2.77s/it][A
Training...:  97% 2534/2609 [2:25:34<03:20,  2.67s/it][A
Training...:  97% 2535/2609 [2:25:36<03:10,  2.57s/it][A
Training...:  97% 2536/2609 [2:25:38<03:00,  2.47s/it][A
Training...:  97% 2537/2609 [2:25:41<02:51,  2.39s/it][A
Training...:  97% 2538/2609 [2:25:43<02:42,  2.29s/it][A
Training...:  97% 2539/2609 [2:25:45<02:34,  2.21s/it][A
Training...:  97% 2540/2609 [2:25:47<02:25,  2.11s/it][A
Training...:  97% 2541/2609 [2:25:48<02:17,  2.02s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [33:17:07<20:36:30, 9273.77s/it]
Training...:  97% 2541/2609 [2:25:50<02:17,  2.02s/it][A
Training...:  97% 2542/2609 [2:25:50<02:18,  2.07s/it][A
Training...:  97% 2543/2609 [2:25:52<02:08,  1.94s/it][A
Training...:  98% 2544/2609 [2:25:54<01:57,  1.81s/it][A
Training...:  98% 2545/2609 [2:25:55<01:47,  1.69s/it][A
Training...:  98% 2546/2609 [2:25:56<01:37,  1.55s/it][A
Training...:  98% 2547/2609 [2:25:57<01:28,  1.43s/it][A
Training...:  98% 2548/2609 [2:25:58<01:19,  1.30s/it][A
Training...:  98% 2549/2609 [2:25:59<01:09,  1.16s/it][A
Training...:  98% 2550/2609 [2:26:00<00:57,  1.03it/s][A
Training...:  98% 2551/2609 [2:26:07<02:42,  2.80s/it][A
Training...:  98% 2552/2609 [2:26:14<03:50,  4.04s/it][A
Training...:  98% 2553/2609 [2:26:20<04:27,  4.78s/it][A
Training...:  98% 2554/2609 [2:26:27<04:47,  5.22s/it][A
Training...:  98% 2555/2609 [2:26:33<04:54,  5.46s/it][A
Training...:  98% 2556/2609 [2:26:38<04:51,  5.51s/it][A
Training...:  98% 2557/2609 [2:26:44<04:46,  5.50s/it][A
Training...:  98% 2558/2609 [2:26:49<04:35,  5.41s/it][A
Training...:  98% 2559/2609 [2:26:54<04:25,  5.32s/it][A
Training...:  98% 2560/2609 [2:26:59<04:13,  5.18s/it][A
Training...:  98% 2561/2609 [2:27:04<04:02,  5.06s/it][A
Training...:  98% 2562/2609 [2:27:08<03:50,  4.91s/it][A
Training...:  98% 2563/2609 [2:27:13<03:40,  4.80s/it][A
Training...:  98% 2564/2609 [2:27:17<03:31,  4.70s/it][A
Training...:  98% 2565/2609 [2:27:22<03:22,  4.60s/it][A
Training...:  98% 2566/2609 [2:27:26<03:11,  4.46s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [33:18:47<20:36:30, 9273.77s/it]
Training...:  98% 2566/2609 [2:27:30<03:11,  4.46s/it][A
Training...:  98% 2567/2609 [2:27:30<03:11,  4.56s/it][A
Training...:  98% 2568/2609 [2:27:34<02:58,  4.36s/it][A
Training...:  98% 2569/2609 [2:27:38<02:47,  4.19s/it][A
Training...:  99% 2570/2609 [2:27:42<02:37,  4.04s/it][A
Training...:  99% 2571/2609 [2:27:45<02:29,  3.92s/it][A
Training...:  99% 2572/2609 [2:27:49<02:21,  3.82s/it][A
Training...:  99% 2573/2609 [2:27:53<02:13,  3.72s/it][A
Training...:  99% 2574/2609 [2:27:56<02:05,  3.60s/it][A
Training...:  99% 2575/2609 [2:27:59<01:58,  3.50s/it][A
Training...:  99% 2576/2609 [2:28:02<01:51,  3.39s/it][A
Training...:  99% 2577/2609 [2:28:05<01:45,  3.30s/it][A
Training...:  99% 2578/2609 [2:28:08<01:38,  3.19s/it][A
Training...:  99% 2579/2609 [2:28:11<01:32,  3.10s/it][A
Training...:  99% 2580/2609 [2:28:14<01:27,  3.01s/it][A
Training...:  99% 2581/2609 [2:28:17<01:21,  2.92s/it][A
Training...:  99% 2582/2609 [2:28:19<01:16,  2.84s/it][A
Training...:  99% 2583/2609 [2:28:22<01:11,  2.75s/it][A
Training...:  99% 2584/2609 [2:28:24<01:06,  2.65s/it][A
Training...:  99% 2585/2609 [2:28:27<01:01,  2.57s/it][A
Training...:  99% 2586/2609 [2:28:29<00:57,  2.48s/it][A
Training...:  99% 2587/2609 [2:28:31<00:53,  2.41s/it][A
Training...:  99% 2588/2609 [2:28:33<00:48,  2.32s/it][A
Training...:  99% 2589/2609 [2:28:35<00:44,  2.23s/it][A
Training...:  99% 2590/2609 [2:28:37<00:40,  2.13s/it][A
Training...:  99% 2591/2609 [2:28:39<00:36,  2.04s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  60% 12/20 [33:19:58<20:36:30, 9273.77s/it]
Training...:  99% 2591/2609 [2:28:41<00:36,  2.04s/it][A
Training...:  99% 2592/2609 [2:28:41<00:35,  2.07s/it][A
Training...:  99% 2593/2609 [2:28:43<00:31,  1.94s/it][A
Training...:  99% 2594/2609 [2:28:44<00:27,  1.82s/it][A
Training...:  99% 2595/2609 [2:28:46<00:23,  1.69s/it][A
Training...: 100% 2596/2609 [2:28:47<00:20,  1.56s/it][A
Training...: 100% 2597/2609 [2:28:48<00:17,  1.44s/it][A
Training...: 100% 2598/2609 [2:28:49<00:14,  1.32s/it][A
Training...: 100% 2599/2609 [2:28:50<00:11,  1.17s/it][A
Training...: 100% 2600/2609 [2:28:51<00:08,  1.01it/s][A
Training...: 100% 2601/2609 [2:28:57<00:21,  2.63s/it][A
Training...: 100% 2602/2609 [2:29:02<00:24,  3.46s/it][A
Training...: 100% 2603/2609 [2:29:07<00:22,  3.81s/it][A
Training...: 100% 2604/2609 [2:29:11<00:19,  3.87s/it][A
Training...: 100% 2605/2609 [2:29:15<00:15,  3.81s/it][A
Training...: 100% 2606/2609 [2:29:18<00:10,  3.60s/it][A
Training...: 100% 2607/2609 [2:29:20<00:06,  3.31s/it][A
Training...: 100% 2608/2609 [2:29:23<00:02,  2.95s/it][A
Training...: 100% 2609/2609 [2:29:24<00:00,  2.55s/it][ATraining...: 100% 2609/2609 [2:29:24<00:00,  3.44s/it]
Step... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:20:41<17:51:03, 9180.57s/it]Step... (33050 | Loss: 0.0034638126380741596, Learning Rate: 3.424444003030658e-05, Gradient Norm: 0.26113182306289673)
Step... (33075 | Loss: 0.02056470699608326, Learning Rate: 3.419393760850653e-05, Gradient Norm: 0.534144937992096)
Step... (33100 | Loss: 0.01472068578004837, Learning Rate: 3.414343518670648e-05, Gradient Norm: 0.5968658328056335)
Step... (33125 | Loss: 0.02688540332019329, Learning Rate: 3.409292548894882e-05, Gradient Norm: 0.6115913391113281)
Step... (33150 | Loss: 0.0027223641518503428, Learning Rate: 3.4042423067148775e-05, Gradient Norm: 0.18185308575630188)
Step... (33175 | Loss: 0.020437689498066902, Learning Rate: 3.399192064534873e-05, Gradient Norm: 0.405509889125824)
Step... (33200 | Loss: 0.015463120304048061, Learning Rate: 3.3941410947591066e-05, Gradient Norm: 0.5402204990386963)
Step... (33225 | Loss: 0.028351983055472374, Learning Rate: 3.389090852579102e-05, Gradient Norm: 0.47271785140037537)
Step... (33250 | Loss: 0.008251060731709003, Learning Rate: 3.384040610399097e-05, Gradient Norm: 0.3138020932674408)
Step... (33275 | Loss: 0.021704059094190598, Learning Rate: 3.378989640623331e-05, Gradient Norm: 0.5018923878669739)
Step... (33300 | Loss: 0.007982278242707253, Learning Rate: 3.3739393984433264e-05, Gradient Norm: 0.7576082944869995)
Step... (33325 | Loss: 0.0267412681132555, Learning Rate: 3.3688891562633216e-05, Gradient Norm: 0.46146976947784424)
Step... (33350 | Loss: 0.02224217727780342, Learning Rate: 3.3638381864875555e-05, Gradient Norm: 0.5938565731048584)
Step... (33375 | Loss: 0.024530494585633278, Learning Rate: 3.358787944307551e-05, Gradient Norm: 0.5072959065437317)
Step... (33400 | Loss: 0.006906312424689531, Learning Rate: 3.3537373383296654e-05, Gradient Norm: 0.390593945980072)
Step... (33425 | Loss: 0.03783965855836868, Learning Rate: 3.34868673235178e-05, Gradient Norm: 0.6158933639526367)
Step... (33450 | Loss: 0.01777779869735241, Learning Rate: 3.343636490171775e-05, Gradient Norm: 0.6289765238761902)
Step... (33475 | Loss: 0.022614359855651855, Learning Rate: 3.33858588419389e-05, Gradient Norm: 0.42816823720932007)
Step... (33500 | Loss: 0.0051277391612529755, Learning Rate: 3.3335352782160044e-05, Gradient Norm: 0.3289831876754761)
Step... (33525 | Loss: 0.016428649425506592, Learning Rate: 3.328484672238119e-05, Gradient Norm: 0.3700675964355469)
Step... (33550 | Loss: 0.01463286392390728, Learning Rate: 3.323434430058114e-05, Gradient Norm: 0.6627784371376038)
Step... (33575 | Loss: 0.01837504468858242, Learning Rate: 3.318383460282348e-05, Gradient Norm: 0.49000439047813416)
Step... (33600 | Loss: 0.008563080802559853, Learning Rate: 3.3133332181023434e-05, Gradient Norm: 0.6294958591461182)
Step... (33625 | Loss: 0.02587907761335373, Learning Rate: 3.308282975922339e-05, Gradient Norm: 0.56451416015625)
Step... (33650 | Loss: 0.0034335653763264418, Learning Rate: 3.3032320061465725e-05, Gradient Norm: 0.2042609006166458)
Step... (33675 | Loss: 0.011714057065546513, Learning Rate: 3.298181763966568e-05, Gradient Norm: 0.38853731751441956)
Step... (33700 | Loss: 0.00804764125496149, Learning Rate: 3.293131521786563e-05, Gradient Norm: 0.38468706607818604)
Step... (33725 | Loss: 0.013670227490365505, Learning Rate: 3.288080552010797e-05, Gradient Norm: 0.3549536168575287)
Step... (33750 | Loss: 0.009708703495562077, Learning Rate: 3.283030309830792e-05, Gradient Norm: 0.5347089767456055)
Step... (33775 | Loss: 0.015179612673819065, Learning Rate: 3.2779800676507875e-05, Gradient Norm: 0.394573837518692)
Step... (33800 | Loss: 0.0225770715624094, Learning Rate: 3.2729290978750214e-05, Gradient Norm: 0.7015783786773682)
Step... (33825 | Loss: 0.03338125720620155, Learning Rate: 3.267878855695017e-05, Gradient Norm: 0.5780896544456482)
Step... (33850 | Loss: 0.011765933595597744, Learning Rate: 3.262828613515012e-05, Gradient Norm: 0.6132174134254456)
Step... (33875 | Loss: 0.03090762533247471, Learning Rate: 3.257777643739246e-05, Gradient Norm: 0.5364728569984436)
Step... (33900 | Loss: 0.0034995998721569777, Learning Rate: 3.252727401559241e-05, Gradient Norm: 0.24184773862361908)

Training...:   0% 0/2609 [00:00<?, ?it/s][A
Training...:   0% 1/2609 [00:07<5:20:35,  7.38s/it][A
Training...:   0% 2/2609 [00:14<5:12:55,  7.20s/it][A
Training...:   0% 3/2609 [00:21<5:00:13,  6.91s/it][A
Training...:   0% 4/2609 [00:27<4:53:45,  6.77s/it][A
Training...:   0% 5/2609 [00:33<4:40:59,  6.47s/it][A
Training...:   0% 6/2609 [00:39<4:29:13,  6.21s/it][A
Training...:   0% 7/2609 [00:44<4:20:08,  6.00s/it][A                                                                                                                                                                    
                                                   [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:21:33<17:51:03, 9180.57s/it]
Training...:   0% 7/2609 [00:50<4:20:08,  6.00s/it][A
Training...:   0% 8/2609 [00:50<4:21:13,  6.03s/it][A
Training...:   0% 9/2609 [00:56<4:09:07,  5.75s/it][A
Training...:   0% 10/2609 [01:01<3:59:09,  5.52s/it][A
Training...:   0% 11/2609 [01:05<3:50:44,  5.33s/it][A
Training...:   0% 12/2609 [01:10<3:42:36,  5.14s/it][A
Training...:   0% 13/2609 [01:15<3:34:51,  4.97s/it][A
Training...:   1% 14/2609 [01:19<3:28:04,  4.81s/it][A
Training...:   1% 15/2609 [01:23<3:21:31,  4.66s/it][A
Training...:   1% 16/2609 [01:28<3:15:32,  4.52s/it][A
Training...:   1% 17/2609 [01:32<3:09:46,  4.39s/it][A
Training...:   1% 18/2609 [01:36<3:04:37,  4.28s/it][A
Training...:   1% 19/2609 [01:40<3:00:09,  4.17s/it][A
Training...:   1% 20/2609 [01:43<2:55:25,  4.07s/it][A
Training...:   1% 21/2609 [01:47<2:50:27,  3.95s/it][A
Training...:   1% 22/2609 [01:51<2:45:41,  3.84s/it][A
Training...:   1% 23/2609 [01:54<2:41:40,  3.75s/it][A
Training...:   1% 24/2609 [01:58<2:37:24,  3.65s/it][A
Training...:   1% 25/2609 [02:01<2:33:28,  3.56s/it][A
Training...:   1% 26/2609 [02:04<2:29:05,  3.46s/it][A
Training...:   1% 27/2609 [02:08<2:25:30,  3.38s/it][A
Training...:   1% 28/2609 [02:11<2:23:08,  3.33s/it][A
Training...:   1% 29/2609 [02:14<2:19:12,  3.24s/it][A
Training...:   1% 30/2609 [02:17<2:15:30,  3.15s/it][A
Training...:   1% 31/2609 [02:20<2:11:12,  3.05s/it][A
Training...:   1% 32/2609 [02:22<2:06:44,  2.95s/it][A                                                                                                                                                                    
                                                    [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:23:08<17:51:03, 9180.57s/it]
Training...:   1% 32/2609 [02:25<2:06:44,  2.95s/it][A
Training...:   1% 33/2609 [02:25<2:08:02,  2.98s/it][A
Training...:   1% 34/2609 [02:28<2:01:51,  2.84s/it][A
Training...:   1% 35/2609 [02:30<1:56:00,  2.70s/it][A
Training...:   1% 36/2609 [02:32<1:50:37,  2.58s/it][A
Training...:   1% 37/2609 [02:35<1:45:33,  2.46s/it][A
Training...:   1% 38/2609 [02:37<1:40:48,  2.35s/it][A
Training...:   1% 39/2609 [02:39<1:36:08,  2.24s/it][A
Training...:   2% 40/2609 [02:41<1:31:53,  2.15s/it][A
Training...:   2% 41/2609 [02:42<1:27:18,  2.04s/it][A
Training...:   2% 42/2609 [02:44<1:22:58,  1.94s/it][A
Training...:   2% 43/2609 [02:46<1:18:09,  1.83s/it][A
Training...:   2% 44/2609 [02:47<1:13:39,  1.72s/it][A
Training...:   2% 45/2609 [02:49<1:08:52,  1.61s/it][A
Training...:   2% 46/2609 [02:50<1:04:02,  1.50s/it][A
Training...:   2% 47/2609 [02:51<58:28,  1.37s/it]  [A
Training...:   2% 48/2609 [02:52<52:32,  1.23s/it][A
Training...:   2% 49/2609 [02:52<46:05,  1.08s/it][A
Training...:   2% 50/2609 [02:53<38:44,  1.10it/s][A
Training...:   2% 51/2609 [03:00<1:59:05,  2.79s/it][A
Training...:   2% 52/2609 [03:07<2:54:09,  4.09s/it][A
Training...:   2% 53/2609 [03:14<3:25:45,  4.83s/it][A
Training...:   2% 54/2609 [03:20<3:43:17,  5.24s/it][A
Training...:   2% 55/2609 [03:26<3:52:55,  5.47s/it][A
Training...:   2% 56/2609 [03:32<3:55:41,  5.54s/it][A
Training...:   2% 57/2609 [03:37<3:56:14,  5.55s/it][A                                                                                                                                                                    
                                                    [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:24:26<17:51:03, 9180.57s/it]
Training...:   2% 57/2609 [03:43<3:56:14,  5.55s/it][A
Training...:   2% 58/2609 [03:43<4:02:38,  5.71s/it][A
Training...:   2% 59/2609 [03:49<3:55:52,  5.55s/it][A
Training...:   2% 60/2609 [03:54<3:47:24,  5.35s/it][A
Training...:   2% 61/2609 [03:58<3:40:48,  5.20s/it][A
Training...:   2% 62/2609 [04:03<3:32:53,  5.02s/it][A
Training...:   2% 63/2609 [04:08<3:27:52,  4.90s/it][A
Training...:   2% 64/2609 [04:12<3:22:37,  4.78s/it][A
Training...:   2% 65/2609 [04:16<3:15:42,  4.62s/it][A
Training...:   3% 66/2609 [04:20<3:09:06,  4.46s/it][A
Training...:   3% 67/2609 [04:24<3:04:04,  4.34s/it][A
Training...:   3% 68/2609 [04:28<2:58:40,  4.22s/it][A
Training...:   3% 69/2609 [04:32<2:54:07,  4.11s/it][A
Training...:   3% 70/2609 [04:36<2:49:33,  4.01s/it][A
Training...:   3% 71/2609 [04:40<2:45:07,  3.90s/it][A
Training...:   3% 72/2609 [04:43<2:40:36,  3.80s/it][A
Training...:   3% 73/2609 [04:47<2:36:26,  3.70s/it][A
Training...:   3% 74/2609 [04:50<2:32:18,  3.61s/it][A
Training...:   3% 75/2609 [04:53<2:28:14,  3.51s/it][A
Training...:   3% 76/2609 [04:57<2:23:45,  3.41s/it][A
Training...:   3% 77/2609 [05:00<2:20:11,  3.32s/it][A
Training...:   3% 78/2609 [05:03<2:16:26,  3.23s/it][A
Training...:   3% 79/2609 [05:06<2:13:28,  3.17s/it][A
Training...:   3% 80/2609 [05:09<2:10:08,  3.09s/it][A
Training...:   3% 81/2609 [05:11<2:06:49,  3.01s/it][A
Training...:   3% 82/2609 [05:14<2:02:09,  2.90s/it][A                                                                                                                                                                    
                                                    [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:26:00<17:51:03, 9180.57s/it]
Training...:   3% 82/2609 [05:17<2:02:09,  2.90s/it][A
Training...:   3% 83/2609 [05:17<2:03:43,  2.94s/it][A
Training...:   3% 84/2609 [05:20<1:57:52,  2.80s/it][A
Training...:   3% 85/2609 [05:22<1:52:53,  2.68s/it][A
Training...:   3% 86/2609 [05:24<1:48:23,  2.58s/it][A
Training...:   3% 87/2609 [05:27<1:43:58,  2.47s/it][A
Training...:   3% 88/2609 [05:29<1:39:35,  2.37s/it][A
Training...:   3% 89/2609 [05:31<1:35:28,  2.27s/it][A
Training...:   3% 90/2609 [05:33<1:30:50,  2.16s/it][A
Training...:   3% 91/2609 [05:35<1:27:36,  2.09s/it][A
Training...:   4% 92/2609 [05:36<1:23:41,  2.00s/it][A
Training...:   4% 93/2609 [05:38<1:19:45,  1.90s/it][A
Training...:   4% 94/2609 [05:40<1:15:35,  1.80s/it][A
Training...:   4% 95/2609 [05:41<1:11:02,  1.70s/it][A
Training...:   4% 96/2609 [05:42<1:06:09,  1.58s/it][A
Training...:   4% 97/2609 [05:44<1:01:27,  1.47s/it][A
Training...:   4% 98/2609 [05:45<56:06,  1.34s/it]  [A
Training...:   4% 99/2609 [05:45<49:40,  1.19s/it][A
Training...:   4% 100/2609 [05:46<41:30,  1.01it/s][A
Training...:   4% 101/2609 [05:53<1:57:24,  2.81s/it][A
Training...:   4% 102/2609 [06:00<2:50:06,  4.07s/it][A
Training...:   4% 103/2609 [06:07<3:22:20,  4.84s/it][A
Training...:   4% 104/2609 [06:13<3:42:15,  5.32s/it][A
Training...:   4% 105/2609 [06:19<3:50:28,  5.52s/it][A
Training...:   4% 106/2609 [06:25<3:54:00,  5.61s/it][A
Training...:   4% 107/2609 [06:31<3:54:25,  5.62s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:27:20<17:51:03, 9180.57s/it]
Training...:   4% 107/2609 [06:37<3:54:25,  5.62s/it][A
Training...:   4% 108/2609 [06:37<4:01:07,  5.78s/it][A
Training...:   4% 109/2609 [06:42<3:55:19,  5.65s/it][A
Training...:   4% 110/2609 [06:47<3:46:25,  5.44s/it][A
Training...:   4% 111/2609 [06:52<3:39:20,  5.27s/it][A
Training...:   4% 112/2609 [06:56<3:31:08,  5.07s/it][A
Training...:   4% 113/2609 [07:01<3:24:50,  4.92s/it][A
Training...:   4% 114/2609 [07:05<3:17:57,  4.76s/it][A
Training...:   4% 115/2609 [07:10<3:12:23,  4.63s/it][A
Training...:   4% 116/2609 [07:14<3:06:05,  4.48s/it][A
Training...:   4% 117/2609 [07:18<3:01:44,  4.38s/it][A
Training...:   5% 118/2609 [07:22<2:56:02,  4.24s/it][A
Training...:   5% 119/2609 [07:26<2:51:17,  4.13s/it][A
Training...:   5% 120/2609 [07:30<2:46:13,  4.01s/it][A
Training...:   5% 121/2609 [07:33<2:41:52,  3.90s/it][A
Training...:   5% 122/2609 [07:37<2:36:43,  3.78s/it][A
Training...:   5% 123/2609 [07:40<2:32:49,  3.69s/it][A
Training...:   5% 124/2609 [07:44<2:28:51,  3.59s/it][A
Training...:   5% 125/2609 [07:47<2:25:00,  3.50s/it][A
Training...:   5% 126/2609 [07:50<2:20:54,  3.40s/it][A
Training...:   5% 127/2609 [07:53<2:17:21,  3.32s/it][A
Training...:   5% 128/2609 [07:56<2:13:18,  3.22s/it][A
Training...:   5% 129/2609 [07:59<2:09:54,  3.14s/it][A
Training...:   5% 130/2609 [08:02<2:06:24,  3.06s/it][A
Training...:   5% 131/2609 [08:05<2:03:12,  2.98s/it][A
Training...:   5% 132/2609 [08:07<1:59:22,  2.89s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:28:53<17:51:03, 9180.57s/it]
Training...:   5% 132/2609 [08:10<1:59:22,  2.89s/it][A
Training...:   5% 133/2609 [08:10<2:01:23,  2.94s/it][A
Training...:   5% 134/2609 [08:13<1:55:33,  2.80s/it][A
Training...:   5% 135/2609 [08:15<1:50:48,  2.69s/it][A
Training...:   5% 136/2609 [08:18<1:47:49,  2.62s/it][A
Training...:   5% 137/2609 [08:20<1:43:26,  2.51s/it][A
Training...:   5% 138/2609 [08:22<1:39:08,  2.41s/it][A
Training...:   5% 139/2609 [08:24<1:34:27,  2.29s/it][A
Training...:   5% 140/2609 [08:26<1:29:53,  2.18s/it][A
Training...:   5% 141/2609 [08:28<1:26:36,  2.11s/it][A
Training...:   5% 142/2609 [08:30<1:22:45,  2.01s/it][A
Training...:   5% 143/2609 [08:32<1:18:18,  1.91s/it][A
Training...:   6% 144/2609 [08:33<1:13:07,  1.78s/it][A
Training...:   6% 145/2609 [08:35<1:08:37,  1.67s/it][A
Training...:   6% 146/2609 [08:36<1:03:37,  1.55s/it][A
Training...:   6% 147/2609 [08:37<58:49,  1.43s/it]  [A
Training...:   6% 148/2609 [08:38<53:30,  1.30s/it][A
Training...:   6% 149/2609 [08:39<47:38,  1.16s/it][A
Training...:   6% 150/2609 [08:39<40:17,  1.02it/s][A
Training...:   6% 151/2609 [08:46<1:55:51,  2.83s/it][A
Training...:   6% 152/2609 [08:53<2:47:02,  4.08s/it][A
Training...:   6% 153/2609 [09:00<3:16:55,  4.81s/it][A
Training...:   6% 154/2609 [09:06<3:33:40,  5.22s/it][A
Training...:   6% 155/2609 [09:12<3:42:03,  5.43s/it][A
Training...:   6% 156/2609 [09:18<3:44:36,  5.49s/it][A
Training...:   6% 157/2609 [09:23<3:44:34,  5.50s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:30:12<17:51:03, 9180.57s/it]
Training...:   6% 157/2609 [09:29<3:44:34,  5.50s/it][A
Training...:   6% 158/2609 [09:29<3:51:02,  5.66s/it][A
Training...:   6% 159/2609 [09:34<3:44:26,  5.50s/it][A
Training...:   6% 160/2609 [09:39<3:36:51,  5.31s/it][A
Training...:   6% 161/2609 [09:44<3:30:53,  5.17s/it][A
Training...:   6% 162/2609 [09:49<3:24:18,  5.01s/it][A
Training...:   6% 163/2609 [09:53<3:18:52,  4.88s/it][A
Training...:   6% 164/2609 [09:58<3:12:33,  4.73s/it][A
Training...:   6% 165/2609 [10:02<3:06:49,  4.59s/it][A
Training...:   6% 166/2609 [10:06<3:00:53,  4.44s/it][A
Training...:   6% 167/2609 [10:10<2:56:25,  4.33s/it][A
Training...:   6% 168/2609 [10:14<2:51:25,  4.21s/it][A
Training...:   6% 169/2609 [10:18<2:47:13,  4.11s/it][A
Training...:   7% 170/2609 [10:22<2:42:12,  3.99s/it][A
Training...:   7% 171/2609 [10:25<2:37:45,  3.88s/it][A
Training...:   7% 172/2609 [10:29<2:33:24,  3.78s/it][A
Training...:   7% 173/2609 [10:32<2:30:11,  3.70s/it][A
Training...:   7% 174/2609 [10:36<2:26:10,  3.60s/it][A
Training...:   7% 175/2609 [10:39<2:22:34,  3.51s/it][A
Training...:   7% 176/2609 [10:42<2:17:49,  3.40s/it][A
Training...:   7% 177/2609 [10:45<2:14:39,  3.32s/it][A
Training...:   7% 178/2609 [10:48<2:11:21,  3.24s/it][A
Training...:   7% 179/2609 [10:51<2:08:44,  3.18s/it][A
Training...:   7% 180/2609 [10:54<2:04:58,  3.09s/it][A
Training...:   7% 181/2609 [10:57<2:01:05,  2.99s/it][A
Training...:   7% 182/2609 [11:00<1:56:47,  2.89s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:31:46<17:51:03, 9180.57s/it]
Training...:   7% 182/2609 [11:03<1:56:47,  2.89s/it][A
Training...:   7% 183/2609 [11:03<1:58:38,  2.93s/it][A
Training...:   7% 184/2609 [11:05<1:53:32,  2.81s/it][A
Training...:   7% 185/2609 [11:08<1:49:09,  2.70s/it][A
Training...:   7% 186/2609 [11:10<1:44:39,  2.59s/it][A
Training...:   7% 187/2609 [11:12<1:40:37,  2.49s/it][A
Training...:   7% 188/2609 [11:14<1:37:06,  2.41s/it][A
Training...:   7% 189/2609 [11:17<1:32:56,  2.30s/it][A
Training...:   7% 190/2609 [11:18<1:28:45,  2.20s/it][A
Training...:   7% 191/2609 [11:20<1:24:36,  2.10s/it][A
Training...:   7% 192/2609 [11:22<1:20:42,  2.00s/it][A
Training...:   7% 193/2609 [11:24<1:16:19,  1.90s/it][A
Training...:   7% 194/2609 [11:25<1:11:55,  1.79s/it][A
Training...:   7% 195/2609 [11:27<1:07:31,  1.68s/it][A
Training...:   8% 196/2609 [11:28<1:02:29,  1.55s/it][A
Training...:   8% 197/2609 [11:29<57:49,  1.44s/it]  [A
Training...:   8% 198/2609 [11:30<52:18,  1.30s/it][A
Training...:   8% 199/2609 [11:31<45:54,  1.14s/it][A
Training...:   8% 200/2609 [11:31<38:37,  1.04it/s][A
Training...:   8% 201/2609 [11:39<1:53:13,  2.82s/it][A
Training...:   8% 202/2609 [11:46<2:43:57,  4.09s/it][A
Training...:   8% 203/2609 [11:52<3:13:11,  4.82s/it][A
Training...:   8% 204/2609 [11:58<3:30:08,  5.24s/it][A
Training...:   8% 205/2609 [12:04<3:38:27,  5.45s/it][A
Training...:   8% 206/2609 [12:10<3:40:45,  5.51s/it][A
Training...:   8% 207/2609 [12:16<3:40:33,  5.51s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:33:04<17:51:03, 9180.57s/it]
Training...:   8% 207/2609 [12:22<3:40:33,  5.51s/it][A
Training...:   8% 208/2609 [12:22<3:47:10,  5.68s/it][A
Training...:   8% 209/2609 [12:27<3:40:11,  5.50s/it][A
Training...:   8% 210/2609 [12:32<3:33:26,  5.34s/it][A
Training...:   8% 211/2609 [12:36<3:26:53,  5.18s/it][A
Training...:   8% 212/2609 [12:41<3:19:02,  4.98s/it][A
Training...:   8% 213/2609 [12:45<3:13:11,  4.84s/it][A
Training...:   8% 214/2609 [12:50<3:06:56,  4.68s/it][A
Training...:   8% 215/2609 [12:54<3:02:11,  4.57s/it][A
Training...:   8% 216/2609 [12:58<2:57:08,  4.44s/it][A
Training...:   8% 217/2609 [13:02<2:52:30,  4.33s/it][A
Training...:   8% 218/2609 [13:06<2:48:08,  4.22s/it][A
Training...:   8% 219/2609 [13:10<2:44:17,  4.12s/it][A
Training...:   8% 220/2609 [13:14<2:39:34,  4.01s/it][A
Training...:   8% 221/2609 [13:18<2:35:43,  3.91s/it][A
Training...:   9% 222/2609 [13:21<2:31:09,  3.80s/it][A
Training...:   9% 223/2609 [13:25<2:27:16,  3.70s/it][A
Training...:   9% 224/2609 [13:28<2:23:50,  3.62s/it][A
Training...:   9% 225/2609 [13:31<2:21:11,  3.55s/it][A
Training...:   9% 226/2609 [13:35<2:17:07,  3.45s/it][A
Training...:   9% 227/2609 [13:38<2:12:19,  3.33s/it][A
Training...:   9% 228/2609 [13:41<2:08:10,  3.23s/it][A
Training...:   9% 229/2609 [13:44<2:04:37,  3.14s/it][A
Training...:   9% 230/2609 [13:46<2:01:02,  3.05s/it][A
Training...:   9% 231/2609 [13:49<1:58:32,  2.99s/it][A
Training...:   9% 232/2609 [13:52<1:54:54,  2.90s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:34:38<17:51:03, 9180.57s/it]
Training...:   9% 232/2609 [13:55<1:54:54,  2.90s/it][A
Training...:   9% 233/2609 [13:55<1:57:02,  2.96s/it][A
Training...:   9% 234/2609 [13:58<1:51:36,  2.82s/it][A
Training...:   9% 235/2609 [14:00<1:47:10,  2.71s/it][A
Training...:   9% 236/2609 [14:02<1:42:50,  2.60s/it][A
Training...:   9% 237/2609 [14:05<1:39:40,  2.52s/it][A
Training...:   9% 238/2609 [14:07<1:35:15,  2.41s/it][A
Training...:   9% 239/2609 [14:09<1:31:05,  2.31s/it][A
Training...:   9% 240/2609 [14:11<1:27:07,  2.21s/it][A
Training...:   9% 241/2609 [14:13<1:23:10,  2.11s/it][A
Training...:   9% 242/2609 [14:15<1:19:03,  2.00s/it][A
Training...:   9% 243/2609 [14:16<1:15:06,  1.90s/it][A
Training...:   9% 244/2609 [14:18<1:10:45,  1.80s/it][A
Training...:   9% 245/2609 [14:19<1:06:20,  1.68s/it][A
Training...:   9% 246/2609 [14:20<1:01:32,  1.56s/it][A
Training...:   9% 247/2609 [14:22<56:43,  1.44s/it]  [A
Training...:  10% 248/2609 [14:23<51:44,  1.31s/it][A
Training...:  10% 249/2609 [14:23<46:10,  1.17s/it][A
Training...:  10% 250/2609 [14:24<39:26,  1.00s/it][A
Training...:  10% 251/2609 [14:31<1:52:22,  2.86s/it][A
Training...:  10% 252/2609 [14:38<2:42:35,  4.14s/it][A
Training...:  10% 253/2609 [14:45<3:10:37,  4.85s/it][A
Training...:  10% 254/2609 [14:51<3:27:09,  5.28s/it][A
Training...:  10% 255/2609 [14:57<3:35:57,  5.50s/it][A
Training...:  10% 256/2609 [15:03<3:37:50,  5.55s/it][A
Training...:  10% 257/2609 [15:08<3:38:02,  5.56s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:35:58<17:51:03, 9180.57s/it]
Training...:  10% 257/2609 [15:15<3:38:02,  5.56s/it][A
Training...:  10% 258/2609 [15:15<3:47:07,  5.80s/it][A
Training...:  10% 259/2609 [15:20<3:39:57,  5.62s/it][A
Training...:  10% 260/2609 [15:25<3:31:18,  5.40s/it][A
Training...:  10% 261/2609 [15:30<3:24:31,  5.23s/it][A
Training...:  10% 262/2609 [15:34<3:17:01,  5.04s/it][A
Training...:  10% 263/2609 [15:39<3:11:20,  4.89s/it][A
Training...:  10% 264/2609 [15:43<3:04:25,  4.72s/it][A
Training...:  10% 265/2609 [15:48<2:59:31,  4.60s/it][A
Training...:  10% 266/2609 [15:52<2:54:11,  4.46s/it][A
Training...:  10% 267/2609 [15:56<2:49:37,  4.35s/it][A
Training...:  10% 268/2609 [16:00<2:44:18,  4.21s/it][A
Training...:  10% 269/2609 [16:03<2:39:42,  4.10s/it][A
Training...:  10% 270/2609 [16:07<2:34:41,  3.97s/it][A
Training...:  10% 271/2609 [16:11<2:30:29,  3.86s/it][A
Training...:  10% 272/2609 [16:14<2:26:00,  3.75s/it][A
Training...:  10% 273/2609 [16:18<2:21:58,  3.65s/it][A
Training...:  11% 274/2609 [16:21<2:17:39,  3.54s/it][A
Training...:  11% 275/2609 [16:24<2:14:29,  3.46s/it][A
Training...:  11% 276/2609 [16:27<2:10:43,  3.36s/it][A
Training...:  11% 277/2609 [16:30<2:07:14,  3.27s/it][A
Training...:  11% 278/2609 [16:33<2:03:28,  3.18s/it][A
Training...:  11% 279/2609 [16:36<1:59:57,  3.09s/it][A
Training...:  11% 280/2609 [16:39<1:55:59,  2.99s/it][A
Training...:  11% 281/2609 [16:42<1:52:24,  2.90s/it][A
Training...:  11% 282/2609 [16:44<1:48:46,  2.80s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:37:30<17:51:03, 9180.57s/it]
Training...:  11% 282/2609 [16:47<1:48:46,  2.80s/it][A
Training...:  11% 283/2609 [16:47<1:50:46,  2.86s/it][A
Training...:  11% 284/2609 [16:50<1:45:53,  2.73s/it][A
Training...:  11% 285/2609 [16:52<1:41:47,  2.63s/it][A
Training...:  11% 286/2609 [16:54<1:37:58,  2.53s/it][A
Training...:  11% 287/2609 [16:57<1:34:50,  2.45s/it][A
Training...:  11% 288/2609 [16:59<1:31:22,  2.36s/it][A
Training...:  11% 289/2609 [17:01<1:27:12,  2.26s/it][A
Training...:  11% 290/2609 [17:03<1:23:26,  2.16s/it][A
Training...:  11% 291/2609 [17:05<1:19:23,  2.05s/it][A
Training...:  11% 292/2609 [17:06<1:15:23,  1.95s/it][A
Training...:  11% 293/2609 [17:08<1:11:23,  1.85s/it][A
Training...:  11% 294/2609 [17:09<1:07:20,  1.75s/it][A
Training...:  11% 295/2609 [17:11<1:03:22,  1.64s/it][A
Training...:  11% 296/2609 [17:12<58:55,  1.53s/it]  [A
Training...:  11% 297/2609 [17:13<54:17,  1.41s/it][A
Training...:  11% 298/2609 [17:14<48:57,  1.27s/it][A
Training...:  11% 299/2609 [17:15<43:20,  1.13s/it][A
Training...:  11% 300/2609 [17:15<36:48,  1.05it/s][A
Training...:  12% 301/2609 [17:23<1:48:00,  2.81s/it][A
Training...:  12% 302/2609 [17:30<2:37:49,  4.10s/it][A
Training...:  12% 303/2609 [17:36<3:06:06,  4.84s/it][A
Training...:  12% 304/2609 [17:42<3:21:30,  5.25s/it][A
Training...:  12% 305/2609 [17:48<3:29:10,  5.45s/it][A
Training...:  12% 306/2609 [17:54<3:31:10,  5.50s/it][A
Training...:  12% 307/2609 [17:59<3:30:03,  5.48s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:38:48<17:51:03, 9180.57s/it]
Training...:  12% 307/2609 [18:05<3:30:03,  5.48s/it][A
Training...:  12% 308/2609 [18:05<3:35:08,  5.61s/it][A
Training...:  12% 309/2609 [18:10<3:27:55,  5.42s/it][A
Training...:  12% 310/2609 [18:15<3:21:04,  5.25s/it][A
Training...:  12% 311/2609 [18:20<3:14:41,  5.08s/it][A
Training...:  12% 312/2609 [18:24<3:08:22,  4.92s/it][A
Training...:  12% 313/2609 [18:29<3:03:33,  4.80s/it][A
Training...:  12% 314/2609 [18:33<2:59:24,  4.69s/it][A
Training...:  12% 315/2609 [18:38<2:55:00,  4.58s/it][A
Training...:  12% 316/2609 [18:42<2:49:26,  4.43s/it][A
Training...:  12% 317/2609 [18:46<2:44:16,  4.30s/it][A
Training...:  12% 318/2609 [18:50<2:39:01,  4.16s/it][A
Training...:  12% 319/2609 [18:53<2:34:54,  4.06s/it][A
Training...:  12% 320/2609 [18:57<2:31:00,  3.96s/it][A
Training...:  12% 321/2609 [19:01<2:28:23,  3.89s/it][A
Training...:  12% 322/2609 [19:04<2:25:04,  3.81s/it][A
Training...:  12% 323/2609 [19:08<2:20:43,  3.69s/it][A
Training...:  12% 324/2609 [19:11<2:16:49,  3.59s/it][A
Training...:  12% 325/2609 [19:15<2:13:00,  3.49s/it][A
Training...:  12% 326/2609 [19:18<2:08:41,  3.38s/it][A
Training...:  13% 327/2609 [19:21<2:05:43,  3.31s/it][A
Training...:  13% 328/2609 [19:24<2:01:28,  3.20s/it][A
Training...:  13% 329/2609 [19:27<1:58:20,  3.11s/it][A
Training...:  13% 330/2609 [19:29<1:54:56,  3.03s/it][A
Training...:  13% 331/2609 [19:32<1:52:04,  2.95s/it][A
Training...:  13% 332/2609 [19:35<1:48:26,  2.86s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:40:21<17:51:03, 9180.57s/it]
Training...:  13% 332/2609 [19:38<1:48:26,  2.86s/it][A
Training...:  13% 333/2609 [19:38<1:50:37,  2.92s/it][A
Training...:  13% 334/2609 [19:40<1:45:30,  2.78s/it][A
Training...:  13% 335/2609 [19:43<1:40:49,  2.66s/it][A
Training...:  13% 336/2609 [19:45<1:37:05,  2.56s/it][A
Training...:  13% 337/2609 [19:47<1:33:33,  2.47s/it][A
Training...:  13% 338/2609 [19:50<1:29:33,  2.37s/it][A
Training...:  13% 339/2609 [19:52<1:26:18,  2.28s/it][A
Training...:  13% 340/2609 [19:54<1:22:50,  2.19s/it][A
Training...:  13% 341/2609 [19:55<1:19:30,  2.10s/it][A
Training...:  13% 342/2609 [19:57<1:15:26,  2.00s/it][A
Training...:  13% 343/2609 [19:59<1:11:23,  1.89s/it][A
Training...:  13% 344/2609 [20:00<1:07:00,  1.78s/it][A
Training...:  13% 345/2609 [20:02<1:02:19,  1.65s/it][A
Training...:  13% 346/2609 [20:03<57:18,  1.52s/it]  [A
Training...:  13% 347/2609 [20:04<52:38,  1.40s/it][A
Training...:  13% 348/2609 [20:05<47:31,  1.26s/it][A
Training...:  13% 349/2609 [20:06<42:08,  1.12s/it][A
Training...:  13% 350/2609 [20:06<35:36,  1.06it/s][A
Training...:  13% 351/2609 [20:13<1:44:47,  2.78s/it][A
Training...:  13% 352/2609 [20:20<2:33:00,  4.07s/it][A
Training...:  14% 353/2609 [20:27<3:00:29,  4.80s/it][A
Training...:  14% 354/2609 [20:33<3:16:08,  5.22s/it][A
Training...:  14% 355/2609 [20:39<3:24:50,  5.45s/it][A
Training...:  14% 356/2609 [20:45<3:27:33,  5.53s/it][A
Training...:  14% 357/2609 [20:50<3:28:13,  5.55s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:41:39<17:51:03, 9180.57s/it]
Training...:  14% 357/2609 [20:57<3:28:13,  5.55s/it][A
Training...:  14% 358/2609 [20:57<3:34:18,  5.71s/it][A
Training...:  14% 359/2609 [21:02<3:27:48,  5.54s/it][A
Training...:  14% 360/2609 [21:07<3:20:39,  5.35s/it][A
Training...:  14% 361/2609 [21:11<3:14:44,  5.20s/it][A
Training...:  14% 362/2609 [21:16<3:08:13,  5.03s/it][A
Training...:  14% 363/2609 [21:21<3:02:58,  4.89s/it][A
Training...:  14% 364/2609 [21:25<2:56:55,  4.73s/it][A
Training...:  14% 365/2609 [21:29<2:52:00,  4.60s/it][A
Training...:  14% 366/2609 [21:33<2:46:51,  4.46s/it][A
Training...:  14% 367/2609 [21:38<2:42:23,  4.35s/it][A
Training...:  14% 368/2609 [21:41<2:37:32,  4.22s/it][A
Training...:  14% 369/2609 [21:45<2:33:45,  4.12s/it][A
Training...:  14% 370/2609 [21:49<2:28:56,  3.99s/it][A
Training...:  14% 371/2609 [21:53<2:25:14,  3.89s/it][A
Training...:  14% 372/2609 [21:56<2:21:10,  3.79s/it][A
Training...:  14% 373/2609 [22:00<2:18:07,  3.71s/it][A
Training...:  14% 374/2609 [22:03<2:14:38,  3.61s/it][A
Training...:  14% 375/2609 [22:06<2:11:00,  3.52s/it][A
Training...:  14% 376/2609 [22:10<2:06:35,  3.40s/it][A
Training...:  14% 377/2609 [22:13<2:02:46,  3.30s/it][A
Training...:  14% 378/2609 [22:16<1:59:03,  3.20s/it][A
Training...:  15% 379/2609 [22:18<1:55:30,  3.11s/it][A
Training...:  15% 380/2609 [22:21<1:52:03,  3.02s/it][A
Training...:  15% 381/2609 [22:24<1:49:14,  2.94s/it][A
Training...:  15% 382/2609 [22:27<1:46:02,  2.86s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:43:13<17:51:03, 9180.57s/it]
Training...:  15% 382/2609 [22:30<1:46:02,  2.86s/it][A
Training...:  15% 383/2609 [22:30<1:47:51,  2.91s/it][A
Training...:  15% 384/2609 [22:32<1:43:00,  2.78s/it][A
Training...:  15% 385/2609 [22:35<1:38:47,  2.67s/it][A
Training...:  15% 386/2609 [22:37<1:35:03,  2.57s/it][A
Training...:  15% 387/2609 [22:39<1:31:13,  2.46s/it][A
Training...:  15% 388/2609 [22:41<1:26:56,  2.35s/it][A
Training...:  15% 389/2609 [22:43<1:22:56,  2.24s/it][A
Training...:  15% 390/2609 [22:45<1:18:53,  2.13s/it][A
Training...:  15% 391/2609 [22:47<1:15:13,  2.03s/it][A
Training...:  15% 392/2609 [22:49<1:11:26,  1.93s/it][A
Training...:  15% 393/2609 [22:50<1:07:55,  1.84s/it][A
Training...:  15% 394/2609 [22:52<1:04:12,  1.74s/it][A
Training...:  15% 395/2609 [22:53<1:00:07,  1.63s/it][A
Training...:  15% 396/2609 [22:54<55:56,  1.52s/it]  [A
Training...:  15% 397/2609 [22:56<51:50,  1.41s/it][A
Training...:  15% 398/2609 [22:57<47:17,  1.28s/it][A
Training...:  15% 399/2609 [22:57<42:28,  1.15s/it][A
Training...:  15% 400/2609 [22:58<36:12,  1.02it/s][A
Training...:  15% 401/2609 [23:05<1:43:41,  2.82s/it][A
Training...:  15% 402/2609 [23:12<2:30:49,  4.10s/it][A
Training...:  15% 403/2609 [23:19<2:57:34,  4.83s/it][A
Training...:  15% 404/2609 [23:25<3:11:38,  5.21s/it][A
Training...:  16% 405/2609 [23:31<3:19:06,  5.42s/it][A
Training...:  16% 406/2609 [23:36<3:21:29,  5.49s/it][A
Training...:  16% 407/2609 [23:42<3:21:15,  5.48s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:44:31<17:51:03, 9180.57s/it]
Training...:  16% 407/2609 [23:48<3:21:15,  5.48s/it][A
Training...:  16% 408/2609 [23:48<3:27:16,  5.65s/it][A
Training...:  16% 409/2609 [23:53<3:21:29,  5.50s/it][A
Training...:  16% 410/2609 [23:58<3:15:22,  5.33s/it][A
Training...:  16% 411/2609 [24:03<3:09:27,  5.17s/it][A
Training...:  16% 412/2609 [24:07<3:02:56,  5.00s/it][A
Training...:  16% 413/2609 [24:12<2:57:52,  4.86s/it][A
Training...:  16% 414/2609 [24:16<2:51:42,  4.69s/it][A
Training...:  16% 415/2609 [24:20<2:46:13,  4.55s/it][A
Training...:  16% 416/2609 [24:25<2:41:43,  4.42s/it][A
Training...:  16% 417/2609 [24:29<2:37:30,  4.31s/it][A
Training...:  16% 418/2609 [24:33<2:33:40,  4.21s/it][A
Training...:  16% 419/2609 [24:36<2:30:30,  4.12s/it][A
Training...:  16% 420/2609 [24:40<2:26:17,  4.01s/it][A
Training...:  16% 421/2609 [24:44<2:22:00,  3.89s/it][A
Training...:  16% 422/2609 [24:47<2:18:07,  3.79s/it][A
Training...:  16% 423/2609 [24:51<2:14:16,  3.69s/it][A
Training...:  16% 424/2609 [24:54<2:10:34,  3.59s/it][A
Training...:  16% 425/2609 [24:57<2:06:42,  3.48s/it][A
Training...:  16% 426/2609 [25:01<2:02:27,  3.37s/it][A
Training...:  16% 427/2609 [25:04<1:59:06,  3.28s/it][A
Training...:  16% 428/2609 [25:07<1:55:54,  3.19s/it][A
Training...:  16% 429/2609 [25:09<1:52:59,  3.11s/it][A
Training...:  16% 430/2609 [25:12<1:49:22,  3.01s/it][A
Training...:  17% 431/2609 [25:15<1:46:19,  2.93s/it][A
Training...:  17% 432/2609 [25:18<1:43:05,  2.84s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:46:03<17:51:03, 9180.57s/it]
Training...:  17% 432/2609 [25:21<1:43:05,  2.84s/it][A
Training...:  17% 433/2609 [25:21<1:44:37,  2.89s/it][A
Training...:  17% 434/2609 [25:23<1:40:00,  2.76s/it][A
Training...:  17% 435/2609 [25:25<1:35:47,  2.64s/it][A
Training...:  17% 436/2609 [25:28<1:32:57,  2.57s/it][A
Training...:  17% 437/2609 [25:30<1:29:00,  2.46s/it][A
Training...:  17% 438/2609 [25:32<1:25:08,  2.35s/it][A
Training...:  17% 439/2609 [25:34<1:21:34,  2.26s/it][A
Training...:  17% 440/2609 [25:36<1:18:13,  2.16s/it][A
Training...:  17% 441/2609 [25:38<1:15:08,  2.08s/it][A
Training...:  17% 442/2609 [25:40<1:11:28,  1.98s/it][A
Training...:  17% 443/2609 [25:41<1:07:45,  1.88s/it][A
Training...:  17% 444/2609 [25:43<1:03:35,  1.76s/it][A
Training...:  17% 445/2609 [25:44<1:00:09,  1.67s/it][A
Training...:  17% 446/2609 [25:46<56:05,  1.56s/it]  [A
Training...:  17% 447/2609 [25:47<51:54,  1.44s/it][A
Training...:  17% 448/2609 [25:48<47:02,  1.31s/it][A
Training...:  17% 449/2609 [25:49<41:26,  1.15s/it][A
Training...:  17% 450/2609 [25:49<34:41,  1.04it/s][A
Training...:  17% 451/2609 [25:56<1:41:08,  2.81s/it][A
Training...:  17% 452/2609 [26:03<2:26:53,  4.09s/it][A
Training...:  17% 453/2609 [26:10<2:54:18,  4.85s/it][A
Training...:  17% 454/2609 [26:16<3:09:21,  5.27s/it][A
Training...:  17% 455/2609 [26:22<3:17:15,  5.49s/it][A
Training...:  17% 456/2609 [26:28<3:19:49,  5.57s/it][A
Training...:  18% 457/2609 [26:33<3:19:10,  5.55s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:47:23<17:51:03, 9180.57s/it]
Training...:  18% 457/2609 [26:40<3:19:10,  5.55s/it][A
Training...:  18% 458/2609 [26:40<3:25:45,  5.74s/it][A
Training...:  18% 459/2609 [26:45<3:19:53,  5.58s/it][A
Training...:  18% 460/2609 [26:50<3:15:01,  5.45s/it][A
Training...:  18% 461/2609 [26:55<3:10:25,  5.32s/it][A
Training...:  18% 462/2609 [27:00<3:03:20,  5.12s/it][A
Training...:  18% 463/2609 [27:04<2:57:58,  4.98s/it][A
Training...:  18% 464/2609 [27:09<2:51:26,  4.80s/it][A
Training...:  18% 465/2609 [27:13<2:46:11,  4.65s/it][A
Training...:  18% 466/2609 [27:17<2:40:36,  4.50s/it][A
Training...:  18% 467/2609 [27:21<2:35:38,  4.36s/it][A
Training...:  18% 468/2609 [27:25<2:30:43,  4.22s/it][A
Training...:  18% 469/2609 [27:29<2:26:44,  4.11s/it][A
Training...:  18% 470/2609 [27:33<2:22:39,  4.00s/it][A
Training...:  18% 471/2609 [27:36<2:19:04,  3.90s/it][A
Training...:  18% 472/2609 [27:40<2:15:01,  3.79s/it][A
Training...:  18% 473/2609 [27:43<2:12:13,  3.71s/it][A
Training...:  18% 474/2609 [27:47<2:08:22,  3.61s/it][A
Training...:  18% 475/2609 [27:50<2:05:10,  3.52s/it][A
Training...:  18% 476/2609 [27:54<2:05:10,  3.52s/it][A
Training...:  18% 477/2609 [27:57<2:01:12,  3.41s/it][A
Training...:  18% 478/2609 [28:00<1:57:05,  3.30s/it][A
Training...:  18% 479/2609 [28:03<1:53:37,  3.20s/it][A
Training...:  18% 480/2609 [28:06<1:49:35,  3.09s/it][A
Training...:  18% 481/2609 [28:08<1:45:47,  2.98s/it][A
Training...:  18% 482/2609 [28:11<1:43:05,  2.91s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:48:57<17:51:03, 9180.57s/it]
Training...:  18% 482/2609 [28:14<1:43:05,  2.91s/it][A
Training...:  19% 483/2609 [28:14<1:44:17,  2.94s/it][A
Training...:  19% 484/2609 [28:17<1:39:30,  2.81s/it][A
Training...:  19% 485/2609 [28:19<1:35:22,  2.69s/it][A
Training...:  19% 486/2609 [28:21<1:31:34,  2.59s/it][A
Training...:  19% 487/2609 [28:24<1:27:50,  2.48s/it][A
Training...:  19% 488/2609 [28:26<1:24:07,  2.38s/it][A
Training...:  19% 489/2609 [28:28<1:20:28,  2.28s/it][A
Training...:  19% 490/2609 [28:30<1:16:56,  2.18s/it][A
Training...:  19% 491/2609 [28:32<1:13:40,  2.09s/it][A
Training...:  19% 492/2609 [28:33<1:10:06,  1.99s/it][A
Training...:  19% 493/2609 [28:35<1:07:01,  1.90s/it][A
Training...:  19% 494/2609 [28:37<1:03:18,  1.80s/it][A
Training...:  19% 495/2609 [28:38<59:19,  1.68s/it]  [A
Training...:  19% 496/2609 [28:39<55:09,  1.57s/it][A
Training...:  19% 497/2609 [28:40<50:44,  1.44s/it][A
Training...:  19% 498/2609 [28:41<46:07,  1.31s/it][A
Training...:  19% 499/2609 [28:42<40:52,  1.16s/it][A
Training...:  19% 500/2609 [28:43<34:26,  1.02it/s][A
Training...:  19% 501/2609 [28:50<1:40:05,  2.85s/it][A
Training...:  19% 502/2609 [28:57<2:23:52,  4.10s/it][A
Training...:  19% 503/2609 [29:04<2:51:54,  4.90s/it][A
Training...:  19% 504/2609 [29:10<3:10:30,  5.43s/it][A
Training...:  19% 505/2609 [29:17<3:17:30,  5.63s/it][A
Training...:  19% 506/2609 [29:22<3:19:40,  5.70s/it][A
Training...:  19% 507/2609 [29:28<3:19:10,  5.69s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:50:17<17:51:03, 9180.57s/it]
Training...:  19% 507/2609 [29:34<3:19:10,  5.69s/it][A
Training...:  19% 508/2609 [29:34<3:24:22,  5.84s/it][A
Training...:  20% 509/2609 [29:40<3:18:33,  5.67s/it][A
Training...:  20% 510/2609 [29:45<3:12:31,  5.50s/it][A
Training...:  20% 511/2609 [29:50<3:06:23,  5.33s/it][A
Training...:  20% 512/2609 [29:54<2:59:22,  5.13s/it][A
Training...:  20% 513/2609 [29:59<2:53:50,  4.98s/it][A
Training...:  20% 514/2609 [30:03<2:47:13,  4.79s/it][A
Training...:  20% 515/2609 [30:08<2:42:02,  4.64s/it][A
Training...:  20% 516/2609 [30:12<2:36:54,  4.50s/it][A
Training...:  20% 517/2609 [30:16<2:32:37,  4.38s/it][A
Training...:  20% 518/2609 [30:20<2:27:41,  4.24s/it][A
Training...:  20% 519/2609 [30:24<2:23:38,  4.12s/it][A
Training...:  20% 520/2609 [30:27<2:19:06,  4.00s/it][A
Training...:  20% 521/2609 [30:31<2:15:22,  3.89s/it][A
Training...:  20% 522/2609 [30:34<2:11:28,  3.78s/it][A
Training...:  20% 523/2609 [30:38<2:07:44,  3.67s/it][A
Training...:  20% 524/2609 [30:41<2:03:35,  3.56s/it][A
Training...:  20% 525/2609 [30:44<1:59:40,  3.45s/it][A
Training...:  20% 526/2609 [30:47<1:56:08,  3.35s/it][A
Training...:  20% 527/2609 [30:51<1:53:00,  3.26s/it][A
Training...:  20% 528/2609 [30:53<1:49:59,  3.17s/it][A
Training...:  20% 529/2609 [30:56<1:46:39,  3.08s/it][A
Training...:  20% 530/2609 [30:59<1:43:04,  2.97s/it][A
Training...:  20% 531/2609 [31:02<1:39:41,  2.88s/it][A
Training...:  20% 532/2609 [31:04<1:36:34,  2.79s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:51:50<17:51:03, 9180.57s/it]
Training...:  20% 532/2609 [31:07<1:36:34,  2.79s/it][A
Training...:  20% 533/2609 [31:07<1:38:19,  2.84s/it][A
Training...:  20% 534/2609 [31:10<1:33:58,  2.72s/it][A
Training...:  21% 535/2609 [31:12<1:30:19,  2.61s/it][A
Training...:  21% 536/2609 [31:14<1:26:43,  2.51s/it][A
Training...:  21% 537/2609 [31:17<1:23:47,  2.43s/it][A
Training...:  21% 538/2609 [31:19<1:20:28,  2.33s/it][A
Training...:  21% 539/2609 [31:21<1:17:26,  2.24s/it][A
Training...:  21% 540/2609 [31:23<1:14:12,  2.15s/it][A
Training...:  21% 541/2609 [31:24<1:10:56,  2.06s/it][A
Training...:  21% 542/2609 [31:26<1:07:56,  1.97s/it][A
Training...:  21% 543/2609 [31:28<1:04:33,  1.87s/it][A
Training...:  21% 544/2609 [31:29<1:01:01,  1.77s/it][A
Training...:  21% 545/2609 [31:31<57:39,  1.68s/it]  [A
Training...:  21% 546/2609 [31:32<53:26,  1.55s/it][A
Training...:  21% 547/2609 [31:33<49:20,  1.44s/it][A
Training...:  21% 548/2609 [31:34<44:33,  1.30s/it][A
Training...:  21% 549/2609 [31:35<39:27,  1.15s/it][A
Training...:  21% 550/2609 [31:36<33:35,  1.02it/s][A
Training...:  21% 551/2609 [31:43<1:36:54,  2.83s/it][A
Training...:  21% 552/2609 [31:50<2:19:28,  4.07s/it][A
Training...:  21% 553/2609 [31:56<2:44:45,  4.81s/it][A
Training...:  21% 554/2609 [32:03<2:59:10,  5.23s/it][A
Training...:  21% 555/2609 [32:08<3:06:20,  5.44s/it][A
Training...:  21% 556/2609 [32:14<3:07:57,  5.49s/it][A
Training...:  21% 557/2609 [32:20<3:07:51,  5.49s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:53:08<17:51:03, 9180.57s/it]
Training...:  21% 557/2609 [32:26<3:07:51,  5.49s/it][A
Training...:  21% 558/2609 [32:26<3:13:23,  5.66s/it][A
Training...:  21% 559/2609 [32:31<3:07:27,  5.49s/it][A
Training...:  21% 560/2609 [32:36<3:01:02,  5.30s/it][A
Training...:  22% 561/2609 [32:40<2:55:38,  5.15s/it][A
Training...:  22% 562/2609 [32:45<2:49:39,  4.97s/it][A
Training...:  22% 563/2609 [32:49<2:45:19,  4.85s/it][A
Training...:  22% 564/2609 [32:54<2:40:02,  4.70s/it][A
Training...:  22% 565/2609 [32:58<2:34:48,  4.54s/it][A
Training...:  22% 566/2609 [33:02<2:29:53,  4.40s/it][A
Training...:  22% 567/2609 [33:06<2:25:49,  4.28s/it][A
Training...:  22% 568/2609 [33:10<2:21:58,  4.17s/it][A
Training...:  22% 569/2609 [33:14<2:19:39,  4.11s/it][A
Training...:  22% 570/2609 [33:18<2:16:10,  4.01s/it][A
Training...:  22% 571/2609 [33:21<2:13:08,  3.92s/it][A
Training...:  22% 572/2609 [33:25<2:09:42,  3.82s/it][A
Training...:  22% 573/2609 [33:29<2:06:14,  3.72s/it][A
Training...:  22% 574/2609 [33:32<2:02:14,  3.60s/it][A
Training...:  22% 575/2609 [33:35<1:58:56,  3.51s/it][A
Training...:  22% 576/2609 [33:38<1:54:55,  3.39s/it][A
Training...:  22% 577/2609 [33:41<1:52:21,  3.32s/it][A
Training...:  22% 578/2609 [33:44<1:49:19,  3.23s/it][A
Training...:  22% 579/2609 [33:47<1:46:22,  3.14s/it][A
Training...:  22% 580/2609 [33:50<1:43:19,  3.06s/it][A
Training...:  22% 581/2609 [33:53<1:40:29,  2.97s/it][A
Training...:  22% 582/2609 [33:56<1:37:23,  2.88s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:54:42<17:51:03, 9180.57s/it]
Training...:  22% 582/2609 [33:59<1:37:23,  2.88s/it][A
Training...:  22% 583/2609 [33:59<1:39:12,  2.94s/it][A
Training...:  22% 584/2609 [34:01<1:34:52,  2.81s/it][A
Training...:  22% 585/2609 [34:04<1:30:58,  2.70s/it][A
Training...:  22% 586/2609 [34:06<1:27:20,  2.59s/it][A
Training...:  22% 587/2609 [34:08<1:24:03,  2.49s/it][A
Training...:  23% 588/2609 [34:10<1:20:41,  2.40s/it][A
Training...:  23% 589/2609 [34:13<1:17:19,  2.30s/it][A
Training...:  23% 590/2609 [34:15<1:13:58,  2.20s/it][A
Training...:  23% 591/2609 [34:16<1:10:44,  2.10s/it][A
Training...:  23% 592/2609 [34:18<1:07:03,  1.99s/it][A
Training...:  23% 593/2609 [34:20<1:03:45,  1.90s/it][A
Training...:  23% 594/2609 [34:21<1:00:16,  1.79s/it][A
Training...:  23% 595/2609 [34:23<56:58,  1.70s/it]  [A
Training...:  23% 596/2609 [34:24<53:05,  1.58s/it][A
Training...:  23% 597/2609 [34:25<49:16,  1.47s/it][A
Training...:  23% 598/2609 [34:26<44:42,  1.33s/it][A
Training...:  23% 599/2609 [34:27<39:23,  1.18s/it][A
Training...:  23% 600/2609 [34:28<32:53,  1.02it/s][A
Training...:  23% 601/2609 [34:35<1:35:30,  2.85s/it][A
Training...:  23% 602/2609 [34:42<2:17:41,  4.12s/it][A
Training...:  23% 603/2609 [34:49<2:42:19,  4.86s/it][A
Training...:  23% 604/2609 [34:55<2:55:55,  5.26s/it][A
Training...:  23% 605/2609 [35:01<3:03:14,  5.49s/it][A
Training...:  23% 606/2609 [35:06<3:04:44,  5.53s/it][A
Training...:  23% 607/2609 [35:12<3:04:31,  5.53s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:56:01<17:51:03, 9180.57s/it]
Training...:  23% 607/2609 [35:18<3:04:31,  5.53s/it][A
Training...:  23% 608/2609 [35:18<3:09:41,  5.69s/it][A
Training...:  23% 609/2609 [35:23<3:04:07,  5.52s/it][A
Training...:  23% 610/2609 [35:28<2:57:46,  5.34s/it][A
Training...:  23% 611/2609 [35:33<2:52:33,  5.18s/it][A
Training...:  23% 612/2609 [35:38<2:47:19,  5.03s/it][A
Training...:  23% 613/2609 [35:42<2:42:11,  4.88s/it][A
Training...:  24% 614/2609 [35:46<2:37:09,  4.73s/it][A
Training...:  24% 615/2609 [35:51<2:33:19,  4.61s/it][A
Training...:  24% 616/2609 [35:55<2:28:45,  4.48s/it][A
Training...:  24% 617/2609 [35:59<2:24:32,  4.35s/it][A
Training...:  24% 618/2609 [36:03<2:20:44,  4.24s/it][A
Training...:  24% 619/2609 [36:07<2:18:03,  4.16s/it][A
Training...:  24% 620/2609 [36:11<2:13:48,  4.04s/it][A
Training...:  24% 621/2609 [36:14<2:10:27,  3.94s/it][A
Training...:  24% 622/2609 [36:18<2:06:22,  3.82s/it][A
Training...:  24% 623/2609 [36:21<2:03:02,  3.72s/it][A
Training...:  24% 624/2609 [36:25<1:59:05,  3.60s/it][A
Training...:  24% 625/2609 [36:28<1:56:22,  3.52s/it][A
Training...:  24% 626/2609 [36:31<1:52:36,  3.41s/it][A
Training...:  24% 627/2609 [36:34<1:49:33,  3.32s/it][A
Training...:  24% 628/2609 [36:37<1:46:45,  3.23s/it][A
Training...:  24% 629/2609 [36:40<1:43:45,  3.14s/it][A
Training...:  24% 630/2609 [36:43<1:40:27,  3.05s/it][A
Training...:  24% 631/2609 [36:46<1:37:47,  2.97s/it][A
Training...:  24% 632/2609 [36:49<1:34:22,  2.86s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:57:34<17:51:03, 9180.57s/it]
Training...:  24% 632/2609 [36:52<1:34:22,  2.86s/it][A
Training...:  24% 633/2609 [36:52<1:36:10,  2.92s/it][A
Training...:  24% 634/2609 [36:54<1:31:36,  2.78s/it][A
Training...:  24% 635/2609 [36:56<1:28:05,  2.68s/it][A
Training...:  24% 636/2609 [36:59<1:24:35,  2.57s/it][A
Training...:  24% 637/2609 [37:01<1:21:25,  2.48s/it][A
Training...:  24% 638/2609 [37:03<1:18:09,  2.38s/it][A
Training...:  24% 639/2609 [37:05<1:14:50,  2.28s/it][A
Training...:  25% 640/2609 [37:07<1:11:42,  2.19s/it][A
Training...:  25% 641/2609 [37:09<1:08:41,  2.09s/it][A
Training...:  25% 642/2609 [37:11<1:05:12,  1.99s/it][A
Training...:  25% 643/2609 [37:13<1:02:03,  1.89s/it][A
Training...:  25% 644/2609 [37:14<58:22,  1.78s/it]  [A
Training...:  25% 645/2609 [37:16<55:06,  1.68s/it][A
Training...:  25% 646/2609 [37:17<51:29,  1.57s/it][A
Training...:  25% 647/2609 [37:18<47:33,  1.45s/it][A
Training...:  25% 648/2609 [37:19<43:01,  1.32s/it][A
Training...:  25% 649/2609 [37:20<37:49,  1.16s/it][A
Training...:  25% 650/2609 [37:20<31:36,  1.03it/s][A
Training...:  25% 651/2609 [37:28<1:33:32,  2.87s/it][A
Training...:  25% 652/2609 [37:35<2:13:31,  4.09s/it][A
Training...:  25% 653/2609 [37:41<2:36:29,  4.80s/it][A
Training...:  25% 654/2609 [37:47<2:50:04,  5.22s/it][A
Training...:  25% 655/2609 [37:53<2:57:06,  5.44s/it][A
Training...:  25% 656/2609 [37:59<2:59:16,  5.51s/it][A
Training...:  25% 657/2609 [38:04<2:58:50,  5.50s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [33:58:53<17:51:03, 9180.57s/it]
Training...:  25% 657/2609 [38:10<2:58:50,  5.50s/it][A
Training...:  25% 658/2609 [38:10<3:03:41,  5.65s/it][A
Training...:  25% 659/2609 [38:15<2:58:24,  5.49s/it][A
Training...:  25% 660/2609 [38:20<2:52:47,  5.32s/it][A
Training...:  25% 661/2609 [38:25<2:47:37,  5.16s/it][A
Training...:  25% 662/2609 [38:30<2:41:39,  4.98s/it][A
Training...:  25% 663/2609 [38:34<2:36:46,  4.83s/it][A
Training...:  25% 664/2609 [38:39<2:31:36,  4.68s/it][A
Training...:  25% 665/2609 [38:43<2:26:32,  4.52s/it][A
Training...:  26% 666/2609 [38:47<2:22:09,  4.39s/it][A
Training...:  26% 667/2609 [38:51<2:18:14,  4.27s/it][A
Training...:  26% 668/2609 [38:55<2:14:27,  4.16s/it][A
Training...:  26% 669/2609 [38:58<2:10:31,  4.04s/it][A
Training...:  26% 670/2609 [39:02<2:06:56,  3.93s/it][A
Training...:  26% 671/2609 [39:06<2:03:37,  3.83s/it][A
Training...:  26% 672/2609 [39:09<1:59:47,  3.71s/it][A
Training...:  26% 673/2609 [39:13<1:56:55,  3.62s/it][A
Training...:  26% 674/2609 [39:16<1:53:30,  3.52s/it][A
Training...:  26% 675/2609 [39:19<1:49:59,  3.41s/it][A
Training...:  26% 676/2609 [39:22<1:46:49,  3.32s/it][A
Training...:  26% 677/2609 [39:25<1:44:02,  3.23s/it][A
Training...:  26% 678/2609 [39:28<1:40:53,  3.13s/it][A
Training...:  26% 679/2609 [39:31<1:38:00,  3.05s/it][A
Training...:  26% 680/2609 [39:34<1:35:08,  2.96s/it][A
Training...:  26% 681/2609 [39:36<1:32:25,  2.88s/it][A
Training...:  26% 682/2609 [39:39<1:29:45,  2.80s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:00:25<17:51:03, 9180.57s/it]
Training...:  26% 682/2609 [39:42<1:29:45,  2.80s/it][A
Training...:  26% 683/2609 [39:42<1:31:24,  2.85s/it][A
Training...:  26% 684/2609 [39:44<1:27:27,  2.73s/it][A
Training...:  26% 685/2609 [39:47<1:24:15,  2.63s/it][A
Training...:  26% 686/2609 [39:49<1:20:49,  2.52s/it][A
Training...:  26% 687/2609 [39:51<1:18:17,  2.44s/it][A
Training...:  26% 688/2609 [39:53<1:15:14,  2.35s/it][A
Training...:  26% 689/2609 [39:55<1:12:04,  2.25s/it][A
Training...:  26% 690/2609 [39:57<1:09:10,  2.16s/it][A
Training...:  26% 691/2609 [39:59<1:05:49,  2.06s/it][A
Training...:  27% 692/2609 [40:01<1:02:41,  1.96s/it][A
Training...:  27% 693/2609 [40:03<59:52,  1.87s/it]  [A
Training...:  27% 694/2609 [40:04<56:32,  1.77s/it][A
Training...:  27% 695/2609 [40:06<53:26,  1.68s/it][A
Training...:  27% 696/2609 [40:07<49:48,  1.56s/it][A
Training...:  27% 697/2609 [40:08<45:51,  1.44s/it][A
Training...:  27% 698/2609 [40:09<41:36,  1.31s/it][A
Training...:  27% 699/2609 [40:10<37:05,  1.17s/it][A
Training...:  27% 700/2609 [40:10<31:21,  1.01it/s][A
Training...:  27% 701/2609 [40:18<1:30:56,  2.86s/it][A
Training...:  27% 702/2609 [40:25<2:09:32,  4.08s/it][A
Training...:  27% 703/2609 [40:31<2:33:04,  4.82s/it][A
Training...:  27% 704/2609 [40:37<2:44:40,  5.19s/it][A
Training...:  27% 705/2609 [40:43<2:51:20,  5.40s/it][A
Training...:  27% 706/2609 [40:49<2:53:59,  5.49s/it][A
Training...:  27% 707/2609 [40:54<2:54:05,  5.49s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:01:43<17:51:03, 9180.57s/it]
Training...:  27% 707/2609 [41:00<2:54:05,  5.49s/it][A
Training...:  27% 708/2609 [41:00<2:59:17,  5.66s/it][A
Training...:  27% 709/2609 [41:05<2:54:51,  5.52s/it][A
Training...:  27% 710/2609 [41:10<2:48:59,  5.34s/it][A
Training...:  27% 711/2609 [41:15<2:44:21,  5.20s/it][A
Training...:  27% 712/2609 [41:20<2:39:11,  5.03s/it][A
Training...:  27% 713/2609 [41:25<2:35:02,  4.91s/it][A
Training...:  27% 714/2609 [41:29<2:30:34,  4.77s/it][A
Training...:  27% 715/2609 [41:33<2:26:55,  4.65s/it][A
Training...:  27% 716/2609 [41:38<2:22:12,  4.51s/it][A
Training...:  27% 717/2609 [41:42<2:18:29,  4.39s/it][A
Training...:  28% 718/2609 [41:46<2:13:53,  4.25s/it][A
Training...:  28% 719/2609 [41:49<2:10:17,  4.14s/it][A
Training...:  28% 720/2609 [41:53<2:06:00,  4.00s/it][A
Training...:  28% 721/2609 [41:57<2:02:01,  3.88s/it][A
Training...:  28% 722/2609 [42:00<1:58:30,  3.77s/it][A
Training...:  28% 723/2609 [42:04<1:55:56,  3.69s/it][A
Training...:  28% 724/2609 [42:07<1:52:41,  3.59s/it][A
Training...:  28% 725/2609 [42:10<1:48:49,  3.47s/it][A
Training...:  28% 726/2609 [42:13<1:45:12,  3.35s/it][A
Training...:  28% 727/2609 [42:16<1:42:36,  3.27s/it][A
Training...:  28% 728/2609 [42:19<1:39:27,  3.17s/it][A
Training...:  28% 729/2609 [42:22<1:36:32,  3.08s/it][A
Training...:  28% 730/2609 [42:25<1:33:39,  2.99s/it][A
Training...:  28% 731/2609 [42:28<1:30:55,  2.90s/it][A
Training...:  28% 732/2609 [42:30<1:27:37,  2.80s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:03:16<17:51:03, 9180.57s/it]
Training...:  28% 732/2609 [42:33<1:27:37,  2.80s/it][A
Training...:  28% 733/2609 [42:33<1:29:26,  2.86s/it][A
Training...:  28% 734/2609 [42:36<1:25:24,  2.73s/it][A
Training...:  28% 735/2609 [42:38<1:22:07,  2.63s/it][A
Training...:  28% 736/2609 [42:40<1:18:35,  2.52s/it][A
Training...:  28% 737/2609 [42:43<1:15:27,  2.42s/it][A
Training...:  28% 738/2609 [42:45<1:12:33,  2.33s/it][A
Training...:  28% 739/2609 [42:47<1:09:40,  2.24s/it][A
Training...:  28% 740/2609 [42:49<1:06:28,  2.13s/it][A
Training...:  28% 741/2609 [42:50<1:03:38,  2.04s/it][A
Training...:  28% 742/2609 [42:52<1:00:30,  1.94s/it][A
Training...:  28% 743/2609 [42:54<57:32,  1.85s/it]  [A
Training...:  29% 744/2609 [42:55<54:33,  1.75s/it][A
Training...:  29% 745/2609 [42:57<51:32,  1.66s/it][A
Training...:  29% 746/2609 [42:58<47:54,  1.54s/it][A
Training...:  29% 747/2609 [42:59<44:23,  1.43s/it][A
Training...:  29% 748/2609 [43:00<40:26,  1.30s/it][A
Training...:  29% 749/2609 [43:01<36:09,  1.17s/it][A
Training...:  29% 750/2609 [43:02<30:35,  1.01it/s][A
Training...:  29% 751/2609 [43:09<1:28:30,  2.86s/it][A
Training...:  29% 752/2609 [43:16<2:07:40,  4.13s/it][A
Training...:  29% 753/2609 [43:23<2:31:11,  4.89s/it][A
Training...:  29% 754/2609 [43:29<2:44:24,  5.32s/it][A
Training...:  29% 755/2609 [43:35<2:51:44,  5.56s/it][A
Training...:  29% 756/2609 [43:41<2:53:57,  5.63s/it][A
Training...:  29% 757/2609 [43:46<2:53:35,  5.62s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:04:35<17:51:03, 9180.57s/it]
Training...:  29% 757/2609 [43:52<2:53:35,  5.62s/it][A
Training...:  29% 758/2609 [43:52<2:57:41,  5.76s/it][A
Training...:  29% 759/2609 [43:58<2:51:46,  5.57s/it][A
Training...:  29% 760/2609 [44:02<2:45:05,  5.36s/it][A
Training...:  29% 761/2609 [44:07<2:40:17,  5.20s/it][A
Training...:  29% 762/2609 [44:12<2:34:14,  5.01s/it][A
Training...:  29% 763/2609 [44:17<2:31:05,  4.91s/it][A
Training...:  29% 764/2609 [44:21<2:26:47,  4.77s/it][A
Training...:  29% 765/2609 [44:25<2:22:01,  4.62s/it][A
Training...:  29% 766/2609 [44:29<2:16:57,  4.46s/it][A
Training...:  29% 767/2609 [44:33<2:13:11,  4.34s/it][A
Training...:  29% 768/2609 [44:37<2:08:52,  4.20s/it][A
Training...:  29% 769/2609 [44:41<2:05:47,  4.10s/it][A
Training...:  30% 770/2609 [44:45<2:01:46,  3.97s/it][A
Training...:  30% 771/2609 [44:48<1:58:29,  3.87s/it][A
Training...:  30% 772/2609 [44:52<1:54:59,  3.76s/it][A
Training...:  30% 773/2609 [44:55<1:52:06,  3.66s/it][A
Training...:  30% 774/2609 [44:59<1:48:42,  3.55s/it][A
Training...:  30% 775/2609 [45:02<1:45:33,  3.45s/it][A
Training...:  30% 776/2609 [45:05<1:42:31,  3.36s/it][A
Training...:  30% 777/2609 [45:08<1:39:49,  3.27s/it][A
Training...:  30% 778/2609 [45:11<1:36:55,  3.18s/it][A
Training...:  30% 779/2609 [45:14<1:34:19,  3.09s/it][A
Training...:  30% 780/2609 [45:17<1:31:43,  3.01s/it][A
Training...:  30% 781/2609 [45:20<1:29:17,  2.93s/it][A
Training...:  30% 782/2609 [45:22<1:26:21,  2.84s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:06:08<17:51:03, 9180.57s/it]
Training...:  30% 782/2609 [45:25<1:26:21,  2.84s/it][A
Training...:  30% 783/2609 [45:25<1:27:31,  2.88s/it][A
Training...:  30% 784/2609 [45:28<1:23:36,  2.75s/it][A
Training...:  30% 785/2609 [45:30<1:20:22,  2.64s/it][A
Training...:  30% 786/2609 [45:32<1:17:21,  2.55s/it][A
Training...:  30% 787/2609 [45:35<1:14:47,  2.46s/it][A
Training...:  30% 788/2609 [45:37<1:11:47,  2.37s/it][A
Training...:  30% 789/2609 [45:39<1:08:42,  2.27s/it][A
Training...:  30% 790/2609 [45:41<1:05:54,  2.17s/it][A
Training...:  30% 791/2609 [45:43<1:02:56,  2.08s/it][A
Training...:  30% 792/2609 [45:44<59:55,  1.98s/it]  [A
Training...:  30% 793/2609 [45:46<56:58,  1.88s/it][A
Training...:  30% 794/2609 [45:47<53:43,  1.78s/it][A
Training...:  30% 795/2609 [45:49<50:20,  1.67s/it][A
Training...:  31% 796/2609 [45:50<46:43,  1.55s/it][A
Training...:  31% 797/2609 [45:51<42:58,  1.42s/it][A
Training...:  31% 798/2609 [45:52<38:56,  1.29s/it][A
Training...:  31% 799/2609 [45:53<34:24,  1.14s/it][A
Training...:  31% 800/2609 [45:54<29:01,  1.04it/s][A
Training...:  31% 801/2609 [46:01<1:23:47,  2.78s/it][A
Training...:  31% 802/2609 [46:08<2:02:23,  4.06s/it][A
Training...:  31% 803/2609 [46:14<2:25:25,  4.83s/it][A
Training...:  31% 804/2609 [46:21<2:37:59,  5.25s/it][A
Training...:  31% 805/2609 [46:26<2:43:44,  5.45s/it][A
Training...:  31% 806/2609 [46:32<2:44:26,  5.47s/it][A
Training...:  31% 807/2609 [46:38<2:45:08,  5.50s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:07:27<17:51:03, 9180.57s/it]
Training...:  31% 807/2609 [46:44<2:45:08,  5.50s/it][A
Training...:  31% 808/2609 [46:44<2:50:34,  5.68s/it][A
Training...:  31% 809/2609 [46:49<2:46:41,  5.56s/it][A
Training...:  31% 810/2609 [46:54<2:40:13,  5.34s/it][A
Training...:  31% 811/2609 [46:59<2:35:25,  5.19s/it][A
Training...:  31% 812/2609 [47:03<2:29:42,  5.00s/it][A
Training...:  31% 813/2609 [47:08<2:25:09,  4.85s/it][A
Training...:  31% 814/2609 [47:12<2:19:43,  4.67s/it][A
Training...:  31% 815/2609 [47:16<2:15:17,  4.52s/it][A
Training...:  31% 816/2609 [47:20<2:10:48,  4.38s/it][A
Training...:  31% 817/2609 [47:24<2:07:10,  4.26s/it][A
Training...:  31% 818/2609 [47:28<2:02:59,  4.12s/it][A
Training...:  31% 819/2609 [47:32<1:59:16,  4.00s/it][A
Training...:  31% 820/2609 [47:35<1:55:44,  3.88s/it][A
Training...:  31% 821/2609 [47:39<1:53:11,  3.80s/it][A
Training...:  32% 822/2609 [47:42<1:49:38,  3.68s/it][A
Training...:  32% 823/2609 [47:46<1:47:07,  3.60s/it][A
Training...:  32% 824/2609 [47:49<1:43:59,  3.50s/it][A
Training...:  32% 825/2609 [47:52<1:41:17,  3.41s/it][A
Training...:  32% 826/2609 [47:55<1:38:05,  3.30s/it][A
Training...:  32% 827/2609 [47:58<1:35:17,  3.21s/it][A
Training...:  32% 828/2609 [48:01<1:32:14,  3.11s/it][A
Training...:  32% 829/2609 [48:04<1:29:38,  3.02s/it][A
Training...:  32% 830/2609 [48:07<1:26:59,  2.93s/it][A
Training...:  32% 831/2609 [48:09<1:24:19,  2.85s/it][A
Training...:  32% 832/2609 [48:12<1:21:44,  2.76s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:08:58<17:51:03, 9180.57s/it]
Training...:  32% 832/2609 [48:15<1:21:44,  2.76s/it][A
Training...:  32% 833/2609 [48:15<1:23:14,  2.81s/it][A
Training...:  32% 834/2609 [48:17<1:19:32,  2.69s/it][A
Training...:  32% 835/2609 [48:19<1:16:27,  2.59s/it][A
Training...:  32% 836/2609 [48:22<1:13:02,  2.47s/it][A
Training...:  32% 837/2609 [48:24<1:10:05,  2.37s/it][A
Training...:  32% 838/2609 [48:26<1:07:02,  2.27s/it][A
Training...:  32% 839/2609 [48:28<1:04:07,  2.17s/it][A
Training...:  32% 840/2609 [48:30<1:01:10,  2.08s/it][A
Training...:  32% 841/2609 [48:31<58:43,  1.99s/it]  [A
Training...:  32% 842/2609 [48:33<55:57,  1.90s/it][A
Training...:  32% 843/2609 [48:35<53:07,  1.80s/it][A
Training...:  32% 844/2609 [48:36<50:20,  1.71s/it][A
Training...:  32% 845/2609 [48:38<47:19,  1.61s/it][A
Training...:  32% 846/2609 [48:39<44:16,  1.51s/it][A
Training...:  32% 847/2609 [48:40<40:56,  1.39s/it][A
Training...:  33% 848/2609 [48:41<37:23,  1.27s/it][A
Training...:  33% 849/2609 [48:42<33:05,  1.13s/it][A
Training...:  33% 850/2609 [48:42<28:00,  1.05it/s][A
Training...:  33% 851/2609 [48:49<1:22:57,  2.83s/it][A
Training...:  33% 852/2609 [48:57<2:02:16,  4.18s/it][A
Training...:  33% 853/2609 [49:03<2:24:10,  4.93s/it][A
Training...:  33% 854/2609 [49:10<2:37:09,  5.37s/it][A
Training...:  33% 855/2609 [49:16<2:42:51,  5.57s/it][A
Training...:  33% 856/2609 [49:22<2:44:12,  5.62s/it][A
Training...:  33% 857/2609 [49:27<2:44:01,  5.62s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:10:16<17:51:03, 9180.57s/it]
Training...:  33% 857/2609 [49:33<2:44:01,  5.62s/it][A
Training...:  33% 858/2609 [49:33<2:49:16,  5.80s/it][A
Training...:  33% 859/2609 [49:39<2:44:49,  5.65s/it][A
Training...:  33% 860/2609 [49:44<2:39:25,  5.47s/it][A
Training...:  33% 861/2609 [49:49<2:34:21,  5.30s/it][A
Training...:  33% 862/2609 [49:53<2:29:15,  5.13s/it][A
Training...:  33% 863/2609 [49:58<2:24:49,  4.98s/it][A
Training...:  33% 864/2609 [50:03<2:20:44,  4.84s/it][A
Training...:  33% 865/2609 [50:07<2:16:30,  4.70s/it][A
Training...:  33% 866/2609 [50:11<2:12:27,  4.56s/it][A
Training...:  33% 867/2609 [50:15<2:08:53,  4.44s/it][A
Training...:  33% 868/2609 [50:19<2:05:07,  4.31s/it][A
Training...:  33% 869/2609 [50:23<2:02:26,  4.22s/it][A
Training...:  33% 870/2609 [50:27<1:59:07,  4.11s/it][A
Training...:  33% 871/2609 [50:31<1:55:42,  3.99s/it][A
Training...:  33% 872/2609 [50:35<1:52:10,  3.87s/it][A
Training...:  33% 873/2609 [50:38<1:48:57,  3.77s/it][A
Training...:  33% 874/2609 [50:41<1:45:54,  3.66s/it][A
Training...:  34% 875/2609 [50:45<1:42:36,  3.55s/it][A
Training...:  34% 876/2609 [50:48<1:39:35,  3.45s/it][A
Training...:  34% 877/2609 [50:51<1:36:47,  3.35s/it][A
Training...:  34% 878/2609 [50:54<1:34:34,  3.28s/it][A
Training...:  34% 879/2609 [50:57<1:32:42,  3.22s/it][A
Training...:  34% 880/2609 [51:00<1:30:12,  3.13s/it][A
Training...:  34% 881/2609 [51:03<1:27:16,  3.03s/it][A
Training...:  34% 882/2609 [51:06<1:25:03,  2.96s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:11:52<17:51:03, 9180.57s/it]
Training...:  34% 882/2609 [51:09<1:25:03,  2.96s/it][A
Training...:  34% 883/2609 [51:09<1:26:33,  3.01s/it][A
Training...:  34% 884/2609 [51:11<1:22:37,  2.87s/it][A
Training...:  34% 885/2609 [51:14<1:18:56,  2.75s/it][A
Training...:  34% 886/2609 [51:16<1:15:24,  2.63s/it][A
Training...:  34% 887/2609 [51:19<1:12:24,  2.52s/it][A
Training...:  34% 888/2609 [51:21<1:09:09,  2.41s/it][A
Training...:  34% 889/2609 [51:23<1:06:04,  2.31s/it][A
Training...:  34% 890/2609 [51:25<1:02:54,  2.20s/it][A
Training...:  34% 891/2609 [51:27<59:56,  2.09s/it]  [A
Training...:  34% 892/2609 [51:28<57:02,  1.99s/it][A
Training...:  34% 893/2609 [51:30<54:12,  1.90s/it][A
Training...:  34% 894/2609 [51:32<50:53,  1.78s/it][A
Training...:  34% 895/2609 [51:33<47:49,  1.67s/it][A
Training...:  34% 896/2609 [51:34<44:30,  1.56s/it][A
Training...:  34% 897/2609 [51:35<41:08,  1.44s/it][A
Training...:  34% 898/2609 [51:36<37:21,  1.31s/it][A
Training...:  34% 899/2609 [51:37<33:07,  1.16s/it][A
Training...:  34% 900/2609 [51:38<28:22,  1.00it/s][A
Training...:  35% 901/2609 [51:45<1:21:19,  2.86s/it][A
Training...:  35% 902/2609 [51:52<1:57:41,  4.14s/it][A
Training...:  35% 903/2609 [51:59<2:19:06,  4.89s/it][A
Training...:  35% 904/2609 [52:05<2:30:38,  5.30s/it][A
Training...:  35% 905/2609 [52:11<2:36:21,  5.51s/it][A
Training...:  35% 906/2609 [52:17<2:37:51,  5.56s/it][A
Training...:  35% 907/2609 [52:22<2:37:46,  5.56s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:13:11<17:51:03, 9180.57s/it]
Training...:  35% 907/2609 [52:28<2:37:46,  5.56s/it][A
Training...:  35% 908/2609 [52:28<2:41:54,  5.71s/it][A
Training...:  35% 909/2609 [52:34<2:37:15,  5.55s/it][A
Training...:  35% 910/2609 [52:39<2:32:47,  5.40s/it][A
Training...:  35% 911/2609 [52:43<2:28:25,  5.24s/it][A
Training...:  35% 912/2609 [52:48<2:23:06,  5.06s/it][A
Training...:  35% 913/2609 [52:53<2:18:33,  4.90s/it][A
Training...:  35% 914/2609 [52:57<2:14:14,  4.75s/it][A
Training...:  35% 915/2609 [53:01<2:10:27,  4.62s/it][A
Training...:  35% 916/2609 [53:06<2:07:36,  4.52s/it][A
Training...:  35% 917/2609 [53:10<2:04:32,  4.42s/it][A
Training...:  35% 918/2609 [53:14<2:00:21,  4.27s/it][A
Training...:  35% 919/2609 [53:18<1:56:47,  4.15s/it][A
Training...:  35% 920/2609 [53:21<1:53:15,  4.02s/it][A
Training...:  35% 921/2609 [53:25<1:49:57,  3.91s/it][A
Training...:  35% 922/2609 [53:28<1:46:45,  3.80s/it][A
Training...:  35% 923/2609 [53:32<1:44:00,  3.70s/it][A
Training...:  35% 924/2609 [53:35<1:41:08,  3.60s/it][A
Training...:  35% 925/2609 [53:39<1:38:33,  3.51s/it][A
Training...:  35% 926/2609 [53:42<1:35:29,  3.40s/it][A
Training...:  36% 927/2609 [53:45<1:32:29,  3.30s/it][A
Training...:  36% 928/2609 [53:48<1:29:34,  3.20s/it][A
Training...:  36% 929/2609 [53:51<1:27:03,  3.11s/it][A
Training...:  36% 930/2609 [53:54<1:24:34,  3.02s/it][A
Training...:  36% 931/2609 [53:56<1:22:09,  2.94s/it][A
Training...:  36% 932/2609 [53:59<1:19:28,  2.84s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:14:45<17:51:03, 9180.57s/it]
Training...:  36% 932/2609 [54:02<1:19:28,  2.84s/it][A
Training...:  36% 933/2609 [54:02<1:20:35,  2.89s/it][A
Training...:  36% 934/2609 [54:04<1:16:57,  2.76s/it][A
Training...:  36% 935/2609 [54:07<1:13:36,  2.64s/it][A
Training...:  36% 936/2609 [54:09<1:10:39,  2.53s/it][A
Training...:  36% 937/2609 [54:11<1:07:59,  2.44s/it][A
Training...:  36% 938/2609 [54:13<1:05:04,  2.34s/it][A
Training...:  36% 939/2609 [54:15<1:02:45,  2.25s/it][A
Training...:  36% 940/2609 [54:17<59:53,  2.15s/it]  [A
Training...:  36% 941/2609 [54:19<57:02,  2.05s/it][A
Training...:  36% 942/2609 [54:21<54:05,  1.95s/it][A
Training...:  36% 943/2609 [54:22<51:32,  1.86s/it][A
Training...:  36% 944/2609 [54:24<48:22,  1.74s/it][A
Training...:  36% 945/2609 [54:25<45:13,  1.63s/it][A
Training...:  36% 946/2609 [54:27<42:04,  1.52s/it][A
Training...:  36% 947/2609 [54:28<38:49,  1.40s/it][A
Training...:  36% 948/2609 [54:29<35:10,  1.27s/it][A
Training...:  36% 949/2609 [54:29<31:14,  1.13s/it][A
Training...:  36% 950/2609 [54:30<26:44,  1.03it/s][A
Training...:  36% 951/2609 [54:37<1:17:55,  2.82s/it][A
Training...:  36% 952/2609 [54:44<1:53:20,  4.10s/it][A
Training...:  37% 953/2609 [54:51<2:14:03,  4.86s/it][A
Training...:  37% 954/2609 [54:57<2:26:01,  5.29s/it][A
Training...:  37% 955/2609 [55:03<2:32:13,  5.52s/it][A
Training...:  37% 956/2609 [55:09<2:35:41,  5.65s/it][A
Training...:  37% 957/2609 [55:15<2:34:07,  5.60s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:16:04<17:51:03, 9180.57s/it]
Training...:  37% 957/2609 [55:21<2:34:07,  5.60s/it][A
Training...:  37% 958/2609 [55:21<2:37:51,  5.74s/it][A
Training...:  37% 959/2609 [55:26<2:33:11,  5.57s/it][A
Training...:  37% 960/2609 [55:31<2:27:45,  5.38s/it][A
Training...:  37% 961/2609 [55:36<2:23:43,  5.23s/it][A
Training...:  37% 962/2609 [55:40<2:18:39,  5.05s/it][A
Training...:  37% 963/2609 [55:45<2:14:50,  4.92s/it][A
Training...:  37% 964/2609 [55:49<2:10:05,  4.74s/it][A
Training...:  37% 965/2609 [55:54<2:06:23,  4.61s/it][A
Training...:  37% 966/2609 [55:58<2:02:26,  4.47s/it][A
Training...:  37% 967/2609 [56:02<1:59:03,  4.35s/it][A
Training...:  37% 968/2609 [56:06<1:55:33,  4.23s/it][A
Training...:  37% 969/2609 [56:10<1:52:53,  4.13s/it][A
Training...:  37% 970/2609 [56:13<1:49:13,  4.00s/it][A
Training...:  37% 971/2609 [56:17<1:46:00,  3.88s/it][A
Training...:  37% 972/2609 [56:21<1:42:53,  3.77s/it][A
Training...:  37% 973/2609 [56:24<1:39:51,  3.66s/it][A
Training...:  37% 974/2609 [56:27<1:36:54,  3.56s/it][A
Training...:  37% 975/2609 [56:30<1:34:07,  3.46s/it][A
Training...:  37% 976/2609 [56:34<1:31:29,  3.36s/it][A
Training...:  37% 977/2609 [56:37<1:29:17,  3.28s/it][A
Training...:  37% 978/2609 [56:40<1:26:32,  3.18s/it][A
Training...:  38% 979/2609 [56:43<1:24:03,  3.09s/it][A
Training...:  38% 980/2609 [56:45<1:21:47,  3.01s/it][A
Training...:  38% 981/2609 [56:48<1:19:45,  2.94s/it][A
Training...:  38% 982/2609 [56:51<1:17:07,  2.84s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:17:37<17:51:03, 9180.57s/it]
Training...:  38% 982/2609 [56:54<1:17:07,  2.84s/it][A
Training...:  38% 983/2609 [56:54<1:18:32,  2.90s/it][A
Training...:  38% 984/2609 [56:56<1:14:50,  2.76s/it][A
Training...:  38% 985/2609 [56:59<1:11:31,  2.64s/it][A
Training...:  38% 986/2609 [57:01<1:08:27,  2.53s/it][A
Training...:  38% 987/2609 [57:03<1:05:35,  2.43s/it][A
Training...:  38% 988/2609 [57:05<1:02:37,  2.32s/it][A
Training...:  38% 989/2609 [57:07<1:00:09,  2.23s/it][A
Training...:  38% 990/2609 [57:09<57:45,  2.14s/it]  [A
Training...:  38% 991/2609 [57:11<55:10,  2.05s/it][A
Training...:  38% 992/2609 [57:13<52:36,  1.95s/it][A
Training...:  38% 993/2609 [57:14<50:03,  1.86s/it][A
Training...:  38% 994/2609 [57:16<47:01,  1.75s/it][A
Training...:  38% 995/2609 [57:17<44:22,  1.65s/it][A
Training...:  38% 996/2609 [57:18<41:19,  1.54s/it][A
Training...:  38% 997/2609 [57:20<38:14,  1.42s/it][A
Training...:  38% 998/2609 [57:21<34:26,  1.28s/it][A
Training...:  38% 999/2609 [57:21<30:41,  1.14s/it][A
Training...:  38% 1000/2609 [57:22<26:23,  1.02it/s][A
Training...:  38% 1001/2609 [57:29<1:16:52,  2.87s/it][A
Training...:  38% 1002/2609 [57:36<1:50:10,  4.11s/it][A
Training...:  38% 1003/2609 [57:43<2:09:24,  4.83s/it][A
Training...:  38% 1004/2609 [57:49<2:19:55,  5.23s/it][A
Training...:  39% 1005/2609 [57:55<2:24:51,  5.42s/it][A
Training...:  39% 1006/2609 [58:00<2:25:53,  5.46s/it][A
Training...:  39% 1007/2609 [58:06<2:25:54,  5.46s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:18:55<17:51:03, 9180.57s/it]
Training...:  39% 1007/2609 [58:12<2:25:54,  5.46s/it][A
Training...:  39% 1008/2609 [58:12<2:30:40,  5.65s/it][A
Training...:  39% 1009/2609 [58:17<2:26:23,  5.49s/it][A
Training...:  39% 1010/2609 [58:22<2:21:06,  5.30s/it][A
Training...:  39% 1011/2609 [58:27<2:16:49,  5.14s/it][A
Training...:  39% 1012/2609 [58:31<2:12:02,  4.96s/it][A
Training...:  39% 1013/2609 [58:36<2:08:15,  4.82s/it][A
Training...:  39% 1014/2609 [58:40<2:04:21,  4.68s/it][A
Training...:  39% 1015/2609 [58:44<2:00:56,  4.55s/it][A
Training...:  39% 1016/2609 [58:48<1:57:14,  4.42s/it][A
Training...:  39% 1017/2609 [58:52<1:54:13,  4.30s/it][A
Training...:  39% 1018/2609 [58:56<1:50:59,  4.19s/it][A
Training...:  39% 1019/2609 [59:00<1:48:33,  4.10s/it][A
Training...:  39% 1020/2609 [59:04<1:45:27,  3.98s/it][A
Training...:  39% 1021/2609 [59:08<1:42:27,  3.87s/it][A
Training...:  39% 1022/2609 [59:11<1:39:16,  3.75s/it][A
Training...:  39% 1023/2609 [59:14<1:36:22,  3.65s/it][A
Training...:  39% 1024/2609 [59:18<1:33:22,  3.53s/it][A
Training...:  39% 1025/2609 [59:21<1:31:04,  3.45s/it][A
Training...:  39% 1026/2609 [59:24<1:28:43,  3.36s/it][A
Training...:  39% 1027/2609 [59:27<1:27:06,  3.30s/it][A
Training...:  39% 1028/2609 [59:30<1:24:55,  3.22s/it][A
Training...:  39% 1029/2609 [59:33<1:22:24,  3.13s/it][A
Training...:  39% 1030/2609 [59:36<1:19:52,  3.04s/it][A
Training...:  40% 1031/2609 [59:39<1:17:47,  2.96s/it][A
Training...:  40% 1032/2609 [59:41<1:15:27,  2.87s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:20:27<17:51:03, 9180.57s/it]
Training...:  40% 1032/2609 [59:44<1:15:27,  2.87s/it][A
Training...:  40% 1033/2609 [59:44<1:16:27,  2.91s/it][A
Training...:  40% 1034/2609 [59:47<1:12:45,  2.77s/it][A
Training...:  40% 1035/2609 [59:49<1:09:21,  2.64s/it][A
Training...:  40% 1036/2609 [59:52<1:06:40,  2.54s/it][A
Training...:  40% 1037/2609 [59:54<1:03:48,  2.44s/it][A
Training...:  40% 1038/2609 [59:56<1:01:01,  2.33s/it][A
Training...:  40% 1039/2609 [59:58<58:15,  2.23s/it]  [A
Training...:  40% 1040/2609 [1:00:00<55:34,  2.13s/it][A
Training...:  40% 1041/2609 [1:00:01<52:54,  2.02s/it][A
Training...:  40% 1042/2609 [1:00:03<50:12,  1.92s/it][A
Training...:  40% 1043/2609 [1:00:05<47:48,  1.83s/it][A
Training...:  40% 1044/2609 [1:00:06<45:13,  1.73s/it][A
Training...:  40% 1045/2609 [1:00:08<42:30,  1.63s/it][A
Training...:  40% 1046/2609 [1:00:09<39:41,  1.52s/it][A
Training...:  40% 1047/2609 [1:00:10<36:42,  1.41s/it][A
Training...:  40% 1048/2609 [1:00:11<33:17,  1.28s/it][A
Training...:  40% 1049/2609 [1:00:12<29:31,  1.14s/it][A
Training...:  40% 1050/2609 [1:00:12<24:52,  1.04it/s][A
Training...:  40% 1051/2609 [1:00:20<1:12:56,  2.81s/it][A
Training...:  40% 1052/2609 [1:00:27<1:45:51,  4.08s/it][A
Training...:  40% 1053/2609 [1:00:33<2:05:52,  4.85s/it][A
Training...:  40% 1054/2609 [1:00:40<2:17:03,  5.29s/it][A
Training...:  40% 1055/2609 [1:00:46<2:22:18,  5.49s/it][A
Training...:  40% 1056/2609 [1:00:51<2:23:45,  5.55s/it][A
Training...:  41% 1057/2609 [1:00:57<2:23:53,  5.56s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:21:46<17:51:03, 9180.57s/it]
Training...:  41% 1057/2609 [1:01:03<2:23:53,  5.56s/it][A
Training...:  41% 1058/2609 [1:01:03<2:28:01,  5.73s/it][A
Training...:  41% 1059/2609 [1:01:08<2:23:40,  5.56s/it][A
Training...:  41% 1060/2609 [1:01:13<2:18:43,  5.37s/it][A
Training...:  41% 1061/2609 [1:01:18<2:14:56,  5.23s/it][A
Training...:  41% 1062/2609 [1:01:23<2:09:57,  5.04s/it][A
Training...:  41% 1063/2609 [1:01:27<2:06:26,  4.91s/it][A
Training...:  41% 1064/2609 [1:01:32<2:03:25,  4.79s/it][A
Training...:  41% 1065/2609 [1:01:36<2:00:46,  4.69s/it][A
Training...:  41% 1066/2609 [1:01:40<1:57:27,  4.57s/it][A
Training...:  41% 1067/2609 [1:01:45<1:54:47,  4.47s/it][A
Training...:  41% 1068/2609 [1:01:49<1:52:35,  4.38s/it][A
Training...:  41% 1069/2609 [1:01:53<1:49:59,  4.29s/it][A
Training...:  41% 1070/2609 [1:01:57<1:46:52,  4.17s/it][A
Training...:  41% 1071/2609 [1:02:00<1:43:21,  4.03s/it][A
Training...:  41% 1072/2609 [1:02:04<1:40:07,  3.91s/it][A
Training...:  41% 1073/2609 [1:02:08<1:37:00,  3.79s/it][A
Training...:  41% 1074/2609 [1:02:11<1:33:52,  3.67s/it][A
Training...:  41% 1075/2609 [1:02:14<1:31:19,  3.57s/it][A
Training...:  41% 1076/2609 [1:02:18<1:28:33,  3.47s/it][A
Training...:  41% 1077/2609 [1:02:21<1:26:15,  3.38s/it][A
Training...:  41% 1078/2609 [1:02:24<1:23:37,  3.28s/it][A
Training...:  41% 1079/2609 [1:02:27<1:21:12,  3.18s/it][A
Training...:  41% 1080/2609 [1:02:30<1:18:56,  3.10s/it][A
Training...:  41% 1081/2609 [1:02:32<1:16:41,  3.01s/it][A
Training...:  41% 1082/2609 [1:02:35<1:14:16,  2.92s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:23:21<17:51:03, 9180.57s/it]
Training...:  41% 1082/2609 [1:02:38<1:14:16,  2.92s/it][A
Training...:  42% 1083/2609 [1:02:38<1:15:29,  2.97s/it][A
Training...:  42% 1084/2609 [1:02:41<1:11:15,  2.80s/it][A
Training...:  42% 1085/2609 [1:02:43<1:07:56,  2.68s/it][A
Training...:  42% 1086/2609 [1:02:45<1:04:48,  2.55s/it][A
Training...:  42% 1087/2609 [1:02:47<1:01:55,  2.44s/it][A
Training...:  42% 1088/2609 [1:02:50<59:06,  2.33s/it]  [A
Training...:  42% 1089/2609 [1:02:52<56:35,  2.23s/it][A
Training...:  42% 1090/2609 [1:02:53<53:57,  2.13s/it][A
Training...:  42% 1091/2609 [1:02:55<51:47,  2.05s/it][A
Training...:  42% 1092/2609 [1:02:57<49:29,  1.96s/it][A
Training...:  42% 1093/2609 [1:02:59<46:41,  1.85s/it][A
Training...:  42% 1094/2609 [1:03:00<43:48,  1.74s/it][A
Training...:  42% 1095/2609 [1:03:01<41:01,  1.63s/it][A
Training...:  42% 1096/2609 [1:03:03<38:02,  1.51s/it][A
Training...:  42% 1097/2609 [1:03:04<34:55,  1.39s/it][A
Training...:  42% 1098/2609 [1:03:05<31:29,  1.25s/it][A
Training...:  42% 1099/2609 [1:03:06<27:57,  1.11s/it][A
Training...:  42% 1100/2609 [1:03:06<23:36,  1.07it/s][A
Training...:  42% 1101/2609 [1:03:13<1:09:27,  2.76s/it][A
Training...:  42% 1102/2609 [1:03:20<1:41:54,  4.06s/it][A
Training...:  42% 1103/2609 [1:03:27<2:01:29,  4.84s/it][A
Training...:  42% 1104/2609 [1:03:33<2:11:52,  5.26s/it][A
Training...:  42% 1105/2609 [1:03:39<2:18:39,  5.53s/it][A
Training...:  42% 1106/2609 [1:03:45<2:21:59,  5.67s/it][A
Training...:  42% 1107/2609 [1:03:51<2:21:08,  5.64s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:24:40<17:51:03, 9180.57s/it]
Training...:  42% 1107/2609 [1:03:57<2:21:08,  5.64s/it][A
Training...:  42% 1108/2609 [1:03:57<2:24:07,  5.76s/it][A
Training...:  43% 1109/2609 [1:04:02<2:19:47,  5.59s/it][A
Training...:  43% 1110/2609 [1:04:07<2:15:28,  5.42s/it][A
Training...:  43% 1111/2609 [1:04:12<2:11:45,  5.28s/it][A
Training...:  43% 1112/2609 [1:04:17<2:07:48,  5.12s/it][A
Training...:  43% 1113/2609 [1:04:21<2:04:23,  4.99s/it][A
Training...:  43% 1114/2609 [1:04:26<2:01:16,  4.87s/it][A
Training...:  43% 1115/2609 [1:04:30<1:58:07,  4.74s/it][A
Training...:  43% 1116/2609 [1:04:35<1:54:18,  4.59s/it][A
Training...:  43% 1117/2609 [1:04:39<1:52:05,  4.51s/it][A
Training...:  43% 1118/2609 [1:04:43<1:48:47,  4.38s/it][A
Training...:  43% 1119/2609 [1:04:47<1:46:21,  4.28s/it][A
Training...:  43% 1120/2609 [1:04:51<1:43:12,  4.16s/it][A
Training...:  43% 1121/2609 [1:04:55<1:40:39,  4.06s/it][A
Training...:  43% 1122/2609 [1:04:59<1:37:57,  3.95s/it][A
Training...:  43% 1123/2609 [1:05:02<1:35:48,  3.87s/it][A
Training...:  43% 1124/2609 [1:05:06<1:33:31,  3.78s/it][A
Training...:  43% 1125/2609 [1:05:09<1:31:20,  3.69s/it][A
Training...:  43% 1126/2609 [1:05:13<1:28:24,  3.58s/it][A
Training...:  43% 1127/2609 [1:05:16<1:26:09,  3.49s/it][A
Training...:  43% 1128/2609 [1:05:19<1:23:19,  3.38s/it][A
Training...:  43% 1129/2609 [1:05:22<1:20:49,  3.28s/it][A
Training...:  43% 1130/2609 [1:05:25<1:18:04,  3.17s/it][A
Training...:  43% 1131/2609 [1:05:28<1:15:51,  3.08s/it][A
Training...:  43% 1132/2609 [1:05:31<1:12:51,  2.96s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:26:16<17:51:03, 9180.57s/it]
Training...:  43% 1132/2609 [1:05:34<1:12:51,  2.96s/it][A
Training...:  43% 1133/2609 [1:05:34<1:13:34,  2.99s/it][A
Training...:  43% 1134/2609 [1:05:36<1:09:57,  2.85s/it][A
Training...:  44% 1135/2609 [1:05:39<1:07:33,  2.75s/it][A
Training...:  44% 1136/2609 [1:05:41<1:04:58,  2.65s/it][A
Training...:  44% 1137/2609 [1:05:43<1:02:34,  2.55s/it][A
Training...:  44% 1138/2609 [1:05:45<59:30,  2.43s/it]  [A
Training...:  44% 1139/2609 [1:05:48<56:57,  2.33s/it][A
Training...:  44% 1140/2609 [1:05:50<54:21,  2.22s/it][A
Training...:  44% 1141/2609 [1:05:51<51:47,  2.12s/it][A
Training...:  44% 1142/2609 [1:05:53<49:07,  2.01s/it][A
Training...:  44% 1143/2609 [1:05:55<46:40,  1.91s/it][A
Training...:  44% 1144/2609 [1:05:56<44:12,  1.81s/it][A
Training...:  44% 1145/2609 [1:05:58<41:38,  1.71s/it][A
Training...:  44% 1146/2609 [1:05:59<38:48,  1.59s/it][A
Training...:  44% 1147/2609 [1:06:00<35:49,  1.47s/it][A
Training...:  44% 1148/2609 [1:06:01<32:45,  1.35s/it][A
Training...:  44% 1149/2609 [1:06:02<29:12,  1.20s/it][A
Training...:  44% 1150/2609 [1:06:03<24:32,  1.01s/it][A
Training...:  44% 1151/2609 [1:06:10<1:09:20,  2.85s/it][A
Training...:  44% 1152/2609 [1:06:17<1:39:10,  4.08s/it][A
Training...:  44% 1153/2609 [1:06:24<1:57:05,  4.83s/it][A
Training...:  44% 1154/2609 [1:06:30<2:07:29,  5.26s/it][A
Training...:  44% 1155/2609 [1:06:36<2:12:08,  5.45s/it][A
Training...:  44% 1156/2609 [1:06:41<2:13:34,  5.52s/it][A
Training...:  44% 1157/2609 [1:06:47<2:13:24,  5.51s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:27:36<17:51:03, 9180.57s/it]
Training...:  44% 1157/2609 [1:06:53<2:13:24,  5.51s/it][A
Training...:  44% 1158/2609 [1:06:53<2:17:12,  5.67s/it][A
Training...:  44% 1159/2609 [1:06:58<2:13:15,  5.51s/it][A
Training...:  44% 1160/2609 [1:07:03<2:09:56,  5.38s/it][A
Training...:  44% 1161/2609 [1:07:08<2:06:08,  5.23s/it][A
Training...:  45% 1162/2609 [1:07:13<2:01:51,  5.05s/it][A
Training...:  45% 1163/2609 [1:07:17<1:58:26,  4.91s/it][A
Training...:  45% 1164/2609 [1:07:22<1:55:16,  4.79s/it][A
Training...:  45% 1165/2609 [1:07:26<1:52:52,  4.69s/it][A
Training...:  45% 1166/2609 [1:07:31<1:50:08,  4.58s/it][A
Training...:  45% 1167/2609 [1:07:35<1:46:53,  4.45s/it][A
Training...:  45% 1168/2609 [1:07:39<1:43:37,  4.31s/it][A
Training...:  45% 1169/2609 [1:07:43<1:41:20,  4.22s/it][A
Training...:  45% 1170/2609 [1:07:47<1:39:31,  4.15s/it][A
Training...:  45% 1171/2609 [1:07:51<1:37:46,  4.08s/it][A
Training...:  45% 1172/2609 [1:07:54<1:34:32,  3.95s/it][A
Training...:  45% 1173/2609 [1:07:58<1:32:08,  3.85s/it][A
Training...:  45% 1174/2609 [1:08:01<1:29:16,  3.73s/it][A
Training...:  45% 1175/2609 [1:08:05<1:26:43,  3.63s/it][A
Training...:  45% 1176/2609 [1:08:08<1:24:12,  3.53s/it][A
Training...:  45% 1177/2609 [1:08:11<1:21:44,  3.42s/it][A
Training...:  45% 1178/2609 [1:08:14<1:19:14,  3.32s/it][A
Training...:  45% 1179/2609 [1:08:17<1:16:43,  3.22s/it][A
Training...:  45% 1180/2609 [1:08:20<1:14:20,  3.12s/it][A
Training...:  45% 1181/2609 [1:08:23<1:12:05,  3.03s/it][A
Training...:  45% 1182/2609 [1:08:26<1:09:47,  2.93s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:29:12<17:51:03, 9180.57s/it]
Training...:  45% 1182/2609 [1:08:29<1:09:47,  2.93s/it][A
Training...:  45% 1183/2609 [1:08:29<1:10:45,  2.98s/it][A
Training...:  45% 1184/2609 [1:08:31<1:06:50,  2.81s/it][A
Training...:  45% 1185/2609 [1:08:34<1:03:29,  2.68s/it][A
Training...:  45% 1186/2609 [1:08:36<1:00:24,  2.55s/it][A
Training...:  45% 1187/2609 [1:08:38<57:52,  2.44s/it]  [A
Training...:  46% 1188/2609 [1:08:40<55:09,  2.33s/it][A
Training...:  46% 1189/2609 [1:08:42<52:44,  2.23s/it][A
Training...:  46% 1190/2609 [1:08:44<50:07,  2.12s/it][A
Training...:  46% 1191/2609 [1:08:46<47:48,  2.02s/it][A
Training...:  46% 1192/2609 [1:08:47<45:20,  1.92s/it][A
Training...:  46% 1193/2609 [1:08:49<42:56,  1.82s/it][A
Training...:  46% 1194/2609 [1:08:50<40:35,  1.72s/it][A
Training...:  46% 1195/2609 [1:08:52<38:27,  1.63s/it][A
Training...:  46% 1196/2609 [1:08:53<35:51,  1.52s/it][A
Training...:  46% 1197/2609 [1:08:54<33:11,  1.41s/it][A
Training...:  46% 1198/2609 [1:08:55<30:07,  1.28s/it][A
Training...:  46% 1199/2609 [1:08:56<26:46,  1.14s/it][A
Training...:  46% 1200/2609 [1:08:57<23:00,  1.02it/s][A
Training...:  46% 1201/2609 [1:09:04<1:06:08,  2.82s/it][A
Training...:  46% 1202/2609 [1:09:11<1:36:10,  4.10s/it][A
Training...:  46% 1203/2609 [1:09:17<1:53:37,  4.85s/it][A
Training...:  46% 1204/2609 [1:09:24<2:03:48,  5.29s/it][A
Training...:  46% 1205/2609 [1:09:30<2:08:33,  5.49s/it][A
Training...:  46% 1206/2609 [1:09:35<2:10:05,  5.56s/it][A
Training...:  46% 1207/2609 [1:09:41<2:09:59,  5.56s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:30:30<17:51:03, 9180.57s/it]
Training...:  46% 1207/2609 [1:09:47<2:09:59,  5.56s/it][A
Training...:  46% 1208/2609 [1:09:47<2:13:13,  5.71s/it][A
Training...:  46% 1209/2609 [1:09:52<2:08:54,  5.52s/it][A
Training...:  46% 1210/2609 [1:09:57<2:04:40,  5.35s/it][A
Training...:  46% 1211/2609 [1:10:02<2:01:01,  5.19s/it][A
Training...:  46% 1212/2609 [1:10:07<1:58:22,  5.08s/it][A
Training...:  46% 1213/2609 [1:10:11<1:55:28,  4.96s/it][A
Training...:  47% 1214/2609 [1:10:16<1:51:37,  4.80s/it][A
Training...:  47% 1215/2609 [1:10:20<1:48:23,  4.67s/it][A
Training...:  47% 1216/2609 [1:10:24<1:44:56,  4.52s/it][A
Training...:  47% 1217/2609 [1:10:29<1:42:10,  4.40s/it][A
Training...:  47% 1218/2609 [1:10:33<1:40:10,  4.32s/it][A
Training...:  47% 1219/2609 [1:10:37<1:37:58,  4.23s/it][A
Training...:  47% 1220/2609 [1:10:41<1:35:45,  4.14s/it][A
Training...:  47% 1221/2609 [1:10:44<1:33:10,  4.03s/it][A
Training...:  47% 1222/2609 [1:10:48<1:30:37,  3.92s/it][A
Training...:  47% 1223/2609 [1:10:52<1:28:08,  3.82s/it][A
Training...:  47% 1224/2609 [1:10:55<1:25:27,  3.70s/it][A
Training...:  47% 1225/2609 [1:10:58<1:22:51,  3.59s/it][A
Training...:  47% 1226/2609 [1:11:02<1:20:27,  3.49s/it][A
Training...:  47% 1227/2609 [1:11:05<1:18:14,  3.40s/it][A
Training...:  47% 1228/2609 [1:11:08<1:16:10,  3.31s/it][A
Training...:  47% 1229/2609 [1:11:11<1:14:00,  3.22s/it][A
Training...:  47% 1230/2609 [1:11:14<1:11:42,  3.12s/it][A
Training...:  47% 1231/2609 [1:11:17<1:09:20,  3.02s/it][A
Training...:  47% 1232/2609 [1:11:19<1:07:03,  2.92s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:32:05<17:51:03, 9180.57s/it]
Training...:  47% 1232/2609 [1:11:22<1:07:03,  2.92s/it][A
Training...:  47% 1233/2609 [1:11:22<1:08:04,  2.97s/it][A
Training...:  47% 1234/2609 [1:11:25<1:04:18,  2.81s/it][A
Training...:  47% 1235/2609 [1:11:27<1:01:17,  2.68s/it][A
Training...:  47% 1236/2609 [1:11:29<58:21,  2.55s/it]  [A
Training...:  47% 1237/2609 [1:11:32<55:53,  2.44s/it][A
Training...:  47% 1238/2609 [1:11:34<53:32,  2.34s/it][A
Training...:  47% 1239/2609 [1:11:36<51:16,  2.25s/it][A
Training...:  48% 1240/2609 [1:11:38<49:13,  2.16s/it][A
Training...:  48% 1241/2609 [1:11:40<47:15,  2.07s/it][A
Training...:  48% 1242/2609 [1:11:41<44:52,  1.97s/it][A
Training...:  48% 1243/2609 [1:11:43<42:47,  1.88s/it][A
Training...:  48% 1244/2609 [1:11:45<40:19,  1.77s/it][A
Training...:  48% 1245/2609 [1:11:46<37:52,  1.67s/it][A
Training...:  48% 1246/2609 [1:11:47<35:16,  1.55s/it][A
Training...:  48% 1247/2609 [1:11:48<32:26,  1.43s/it][A
Training...:  48% 1248/2609 [1:11:49<29:18,  1.29s/it][A
Training...:  48% 1249/2609 [1:11:50<25:51,  1.14s/it][A
Training...:  48% 1250/2609 [1:11:51<21:57,  1.03it/s][A
Training...:  48% 1251/2609 [1:11:58<1:03:53,  2.82s/it][A
Training...:  48% 1252/2609 [1:12:05<1:32:23,  4.09s/it][A
Training...:  48% 1253/2609 [1:12:12<1:49:35,  4.85s/it][A
Training...:  48% 1254/2609 [1:12:18<1:59:24,  5.29s/it][A
Training...:  48% 1255/2609 [1:12:24<2:04:58,  5.54s/it][A
Training...:  48% 1256/2609 [1:12:30<2:07:24,  5.65s/it][A
Training...:  48% 1257/2609 [1:12:35<2:06:23,  5.61s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:33:24<17:51:03, 9180.57s/it]
Training...:  48% 1257/2609 [1:12:41<2:06:23,  5.61s/it][A
Training...:  48% 1258/2609 [1:12:41<2:09:19,  5.74s/it][A
Training...:  48% 1259/2609 [1:12:47<2:04:47,  5.55s/it][A
Training...:  48% 1260/2609 [1:12:51<2:00:27,  5.36s/it][A
Training...:  48% 1261/2609 [1:12:56<1:56:40,  5.19s/it][A
Training...:  48% 1262/2609 [1:13:01<1:52:29,  5.01s/it][A
Training...:  48% 1263/2609 [1:13:05<1:49:34,  4.88s/it][A
Training...:  48% 1264/2609 [1:13:10<1:46:12,  4.74s/it][A
Training...:  48% 1265/2609 [1:13:14<1:43:37,  4.63s/it][A
Training...:  49% 1266/2609 [1:13:18<1:40:36,  4.49s/it][A
Training...:  49% 1267/2609 [1:13:22<1:37:57,  4.38s/it][A
Training...:  49% 1268/2609 [1:13:26<1:34:58,  4.25s/it][A
Training...:  49% 1269/2609 [1:13:30<1:32:23,  4.14s/it][A
Training...:  49% 1270/2609 [1:13:34<1:30:43,  4.07s/it][A
Training...:  49% 1271/2609 [1:13:38<1:28:42,  3.98s/it][A
Training...:  49% 1272/2609 [1:13:42<1:26:46,  3.89s/it][A
Training...:  49% 1273/2609 [1:13:45<1:24:57,  3.82s/it][A
Training...:  49% 1274/2609 [1:13:49<1:22:51,  3.72s/it][A
Training...:  49% 1275/2609 [1:13:52<1:20:55,  3.64s/it][A
Training...:  49% 1276/2609 [1:13:56<1:18:37,  3.54s/it][A
Training...:  49% 1277/2609 [1:13:59<1:16:16,  3.44s/it][A
Training...:  49% 1278/2609 [1:14:02<1:14:02,  3.34s/it][A
Training...:  49% 1279/2609 [1:14:05<1:12:06,  3.25s/it][A
Training...:  49% 1280/2609 [1:14:08<1:10:21,  3.18s/it][A
Training...:  49% 1281/2609 [1:14:11<1:08:43,  3.11s/it][A
Training...:  49% 1282/2609 [1:14:14<1:06:46,  3.02s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:35:00<17:51:03, 9180.57s/it]
Training...:  49% 1282/2609 [1:14:17<1:06:46,  3.02s/it][A
Training...:  49% 1283/2609 [1:14:17<1:07:46,  3.07s/it][A
Training...:  49% 1284/2609 [1:14:19<1:03:42,  2.89s/it][A
Training...:  49% 1285/2609 [1:14:22<1:00:16,  2.73s/it][A
Training...:  49% 1286/2609 [1:14:24<57:14,  2.60s/it]  [A
Training...:  49% 1287/2609 [1:14:26<54:53,  2.49s/it][A
Training...:  49% 1288/2609 [1:14:28<52:17,  2.38s/it][A
Training...:  49% 1289/2609 [1:14:30<49:59,  2.27s/it][A
Training...:  49% 1290/2609 [1:14:32<47:46,  2.17s/it][A
Training...:  49% 1291/2609 [1:14:34<45:31,  2.07s/it][A
Training...:  50% 1292/2609 [1:14:36<43:28,  1.98s/it][A
Training...:  50% 1293/2609 [1:14:38<41:11,  1.88s/it][A
Training...:  50% 1294/2609 [1:14:39<38:43,  1.77s/it][A
Training...:  50% 1295/2609 [1:14:40<36:29,  1.67s/it][A
Training...:  50% 1296/2609 [1:14:42<33:51,  1.55s/it][A
Training...:  50% 1297/2609 [1:14:43<31:13,  1.43s/it][A
Training...:  50% 1298/2609 [1:14:44<28:21,  1.30s/it][A
Training...:  50% 1299/2609 [1:14:45<25:08,  1.15s/it][A
Training...:  50% 1300/2609 [1:14:45<21:08,  1.03it/s][A
Training...:  50% 1301/2609 [1:14:52<1:01:23,  2.82s/it][A
Training...:  50% 1302/2609 [1:14:59<1:29:09,  4.09s/it][A
Training...:  50% 1303/2609 [1:15:06<1:44:49,  4.82s/it][A
Training...:  50% 1304/2609 [1:15:12<1:54:16,  5.25s/it][A
Training...:  50% 1305/2609 [1:15:18<1:58:39,  5.46s/it][A
Training...:  50% 1306/2609 [1:15:24<1:59:27,  5.50s/it][A
Training...:  50% 1307/2609 [1:15:29<1:59:23,  5.50s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:36:18<17:51:03, 9180.57s/it]
Training...:  50% 1307/2609 [1:15:35<1:59:23,  5.50s/it][A
Training...:  50% 1308/2609 [1:15:35<2:02:27,  5.65s/it][A
Training...:  50% 1309/2609 [1:15:40<1:59:11,  5.50s/it][A
Training...:  50% 1310/2609 [1:15:45<1:55:20,  5.33s/it][A
Training...:  50% 1311/2609 [1:15:50<1:51:57,  5.18s/it][A
Training...:  50% 1312/2609 [1:15:55<1:48:00,  5.00s/it][A
Training...:  50% 1313/2609 [1:15:59<1:46:23,  4.93s/it][A
Training...:  50% 1314/2609 [1:16:04<1:43:06,  4.78s/it][A
Training...:  50% 1315/2609 [1:16:08<1:40:43,  4.67s/it][A
Training...:  50% 1316/2609 [1:16:13<1:37:58,  4.55s/it][A
Training...:  50% 1317/2609 [1:16:17<1:35:42,  4.44s/it][A
Training...:  51% 1318/2609 [1:16:21<1:33:04,  4.33s/it][A
Training...:  51% 1319/2609 [1:16:25<1:30:54,  4.23s/it][A
Training...:  51% 1320/2609 [1:16:29<1:28:30,  4.12s/it][A
Training...:  51% 1321/2609 [1:16:32<1:26:14,  4.02s/it][A
Training...:  51% 1322/2609 [1:16:36<1:23:34,  3.90s/it][A
Training...:  51% 1323/2609 [1:16:40<1:21:06,  3.78s/it][A
Training...:  51% 1324/2609 [1:16:43<1:19:05,  3.69s/it][A
Training...:  51% 1325/2609 [1:16:46<1:16:56,  3.60s/it][A
Training...:  51% 1326/2609 [1:16:50<1:14:22,  3.48s/it][A
Training...:  51% 1327/2609 [1:16:53<1:12:21,  3.39s/it][A
Training...:  51% 1328/2609 [1:16:56<1:10:04,  3.28s/it][A
Training...:  51% 1329/2609 [1:16:59<1:07:56,  3.18s/it][A
Training...:  51% 1330/2609 [1:17:02<1:06:08,  3.10s/it][A
Training...:  51% 1331/2609 [1:17:05<1:04:02,  3.01s/it][A
Training...:  51% 1332/2609 [1:17:07<1:02:04,  2.92s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:37:53<17:51:03, 9180.57s/it]
Training...:  51% 1332/2609 [1:17:10<1:02:04,  2.92s/it][A
Training...:  51% 1333/2609 [1:17:10<1:03:12,  2.97s/it][A
Training...:  51% 1334/2609 [1:17:13<59:43,  2.81s/it]  [A
Training...:  51% 1335/2609 [1:17:15<57:06,  2.69s/it][A
Training...:  51% 1336/2609 [1:17:17<54:26,  2.57s/it][A
Training...:  51% 1337/2609 [1:17:20<52:03,  2.46s/it][A
Training...:  51% 1338/2609 [1:17:22<49:56,  2.36s/it][A
Training...:  51% 1339/2609 [1:17:24<47:48,  2.26s/it][A
Training...:  51% 1340/2609 [1:17:26<45:41,  2.16s/it][A
Training...:  51% 1341/2609 [1:17:28<43:36,  2.06s/it][A
Training...:  51% 1342/2609 [1:17:29<41:25,  1.96s/it][A
Training...:  51% 1343/2609 [1:17:31<39:31,  1.87s/it][A
Training...:  52% 1344/2609 [1:17:33<37:12,  1.77s/it][A
Training...:  52% 1345/2609 [1:17:34<34:55,  1.66s/it][A
Training...:  52% 1346/2609 [1:17:35<32:21,  1.54s/it][A
Training...:  52% 1347/2609 [1:17:36<29:46,  1.42s/it][A
Training...:  52% 1348/2609 [1:17:37<26:53,  1.28s/it][A
Training...:  52% 1349/2609 [1:17:38<23:54,  1.14s/it][A
Training...:  52% 1350/2609 [1:17:39<20:28,  1.02it/s][A
Training...:  52% 1351/2609 [1:17:46<59:17,  2.83s/it][A
Training...:  52% 1352/2609 [1:17:53<1:26:01,  4.11s/it][A
Training...:  52% 1353/2609 [1:18:00<1:42:06,  4.88s/it][A
Training...:  52% 1354/2609 [1:18:06<1:51:42,  5.34s/it][A
Training...:  52% 1355/2609 [1:18:12<1:57:48,  5.64s/it][A
Training...:  52% 1356/2609 [1:18:18<1:58:58,  5.70s/it][A
Training...:  52% 1357/2609 [1:18:24<1:58:22,  5.67s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:39:13<17:51:03, 9180.57s/it]
Training...:  52% 1357/2609 [1:18:30<1:58:22,  5.67s/it][A
Training...:  52% 1358/2609 [1:18:30<2:00:50,  5.80s/it][A
Training...:  52% 1359/2609 [1:18:35<1:57:28,  5.64s/it][A
Training...:  52% 1360/2609 [1:18:40<1:53:27,  5.45s/it][A
Training...:  52% 1361/2609 [1:18:45<1:50:17,  5.30s/it][A
Training...:  52% 1362/2609 [1:18:50<1:46:48,  5.14s/it][A
Training...:  52% 1363/2609 [1:18:54<1:43:32,  4.99s/it][A
Training...:  52% 1364/2609 [1:18:59<1:40:29,  4.84s/it][A
Training...:  52% 1365/2609 [1:19:03<1:37:42,  4.71s/it][A
Training...:  52% 1366/2609 [1:19:08<1:35:46,  4.62s/it][A
Training...:  52% 1367/2609 [1:19:12<1:33:57,  4.54s/it][A
Training...:  52% 1368/2609 [1:19:16<1:31:41,  4.43s/it][A
Training...:  52% 1369/2609 [1:19:20<1:29:30,  4.33s/it][A
Training...:  53% 1370/2609 [1:19:24<1:26:59,  4.21s/it][A
Training...:  53% 1371/2609 [1:19:28<1:24:52,  4.11s/it][A
Training...:  53% 1372/2609 [1:19:32<1:22:16,  3.99s/it][A
Training...:  53% 1373/2609 [1:19:36<1:20:16,  3.90s/it][A
Training...:  53% 1374/2609 [1:19:39<1:18:00,  3.79s/it][A
Training...:  53% 1375/2609 [1:19:43<1:15:54,  3.69s/it][A
Training...:  53% 1376/2609 [1:19:46<1:13:55,  3.60s/it][A
Training...:  53% 1377/2609 [1:19:49<1:11:49,  3.50s/it][A
Training...:  53% 1378/2609 [1:19:52<1:09:37,  3.39s/it][A
Training...:  53% 1379/2609 [1:19:56<1:07:35,  3.30s/it][A
Training...:  53% 1380/2609 [1:19:58<1:05:30,  3.20s/it][A
Training...:  53% 1381/2609 [1:20:01<1:03:43,  3.11s/it][A
Training...:  53% 1382/2609 [1:20:04<1:01:34,  3.01s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:40:50<17:51:03, 9180.57s/it]
Training...:  53% 1382/2609 [1:20:07<1:01:34,  3.01s/it][A
Training...:  53% 1383/2609 [1:20:07<1:02:11,  3.04s/it][A
Training...:  53% 1384/2609 [1:20:10<58:52,  2.88s/it]  [A
Training...:  53% 1385/2609 [1:20:12<56:14,  2.76s/it][A
Training...:  53% 1386/2609 [1:20:15<53:22,  2.62s/it][A
Training...:  53% 1387/2609 [1:20:17<51:13,  2.51s/it][A
Training...:  53% 1388/2609 [1:20:19<48:49,  2.40s/it][A
Training...:  53% 1389/2609 [1:20:21<46:36,  2.29s/it][A
Training...:  53% 1390/2609 [1:20:23<44:26,  2.19s/it][A
Training...:  53% 1391/2609 [1:20:25<42:19,  2.08s/it][A
Training...:  53% 1392/2609 [1:20:27<40:10,  1.98s/it][A
Training...:  53% 1393/2609 [1:20:28<38:08,  1.88s/it][A
Training...:  53% 1394/2609 [1:20:30<35:46,  1.77s/it][A
Training...:  53% 1395/2609 [1:20:31<33:28,  1.65s/it][A
Training...:  54% 1396/2609 [1:20:32<31:11,  1.54s/it][A
Training...:  54% 1397/2609 [1:20:33<28:38,  1.42s/it][A
Training...:  54% 1398/2609 [1:20:34<25:43,  1.27s/it][A
Training...:  54% 1399/2609 [1:20:35<22:42,  1.13s/it][A
Training...:  54% 1400/2609 [1:20:36<19:02,  1.06it/s][A
Training...:  54% 1401/2609 [1:20:43<56:56,  2.83s/it][A
Training...:  54% 1402/2609 [1:20:50<1:21:51,  4.07s/it][A
Training...:  54% 1403/2609 [1:20:56<1:36:43,  4.81s/it][A
Training...:  54% 1404/2609 [1:21:03<1:44:22,  5.20s/it][A
Training...:  54% 1405/2609 [1:21:09<1:48:55,  5.43s/it][A
Training...:  54% 1406/2609 [1:21:14<1:50:03,  5.49s/it][A
Training...:  54% 1407/2609 [1:21:20<1:50:18,  5.51s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:42:09<17:51:03, 9180.57s/it]
Training...:  54% 1407/2609 [1:21:26<1:50:18,  5.51s/it][A
Training...:  54% 1408/2609 [1:21:26<1:52:54,  5.64s/it][A
Training...:  54% 1409/2609 [1:21:31<1:48:59,  5.45s/it][A
Training...:  54% 1410/2609 [1:21:35<1:44:59,  5.25s/it][A
Training...:  54% 1411/2609 [1:21:40<1:41:40,  5.09s/it][A
Training...:  54% 1412/2609 [1:21:45<1:37:47,  4.90s/it][A
Training...:  54% 1413/2609 [1:21:49<1:34:32,  4.74s/it][A
Training...:  54% 1414/2609 [1:21:53<1:30:52,  4.56s/it][A
Training...:  54% 1415/2609 [1:21:57<1:28:26,  4.44s/it][A
Training...:  54% 1416/2609 [1:22:01<1:25:45,  4.31s/it][A
Training...:  54% 1417/2609 [1:22:05<1:23:40,  4.21s/it][A
Training...:  54% 1418/2609 [1:22:09<1:21:19,  4.10s/it][A
Training...:  54% 1419/2609 [1:22:13<1:19:50,  4.03s/it][A
Training...:  54% 1420/2609 [1:22:17<1:17:53,  3.93s/it][A
Training...:  54% 1421/2609 [1:22:20<1:16:07,  3.85s/it][A
Training...:  55% 1422/2609 [1:22:24<1:14:04,  3.74s/it][A
Training...:  55% 1423/2609 [1:22:27<1:12:09,  3.65s/it][A
Training...:  55% 1424/2609 [1:22:31<1:10:09,  3.55s/it][A
Training...:  55% 1425/2609 [1:22:34<1:08:10,  3.46s/it][A
Training...:  55% 1426/2609 [1:22:37<1:06:04,  3.35s/it][A
Training...:  55% 1427/2609 [1:22:40<1:04:39,  3.28s/it][A
Training...:  55% 1428/2609 [1:22:43<1:03:10,  3.21s/it][A
Training...:  55% 1429/2609 [1:22:46<1:01:50,  3.14s/it][A
Training...:  55% 1430/2609 [1:22:49<1:00:26,  3.08s/it][A
Training...:  55% 1431/2609 [1:22:52<58:28,  2.98s/it]  [A
Training...:  55% 1432/2609 [1:22:54<56:36,  2.89s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:43:40<17:51:03, 9180.57s/it]
Training...:  55% 1432/2609 [1:22:57<56:36,  2.89s/it][A
Training...:  55% 1433/2609 [1:22:57<57:22,  2.93s/it][A
Training...:  55% 1434/2609 [1:23:00<54:25,  2.78s/it][A
Training...:  55% 1435/2609 [1:23:02<51:39,  2.64s/it][A
Training...:  55% 1436/2609 [1:23:04<49:04,  2.51s/it][A
Training...:  55% 1437/2609 [1:23:07<46:51,  2.40s/it][A
Training...:  55% 1438/2609 [1:23:09<44:57,  2.30s/it][A
Training...:  55% 1439/2609 [1:23:11<43:10,  2.21s/it][A
Training...:  55% 1440/2609 [1:23:13<41:17,  2.12s/it][A
Training...:  55% 1441/2609 [1:23:14<39:24,  2.02s/it][A
Training...:  55% 1442/2609 [1:23:16<37:38,  1.94s/it][A
Training...:  55% 1443/2609 [1:23:18<35:38,  1.83s/it][A
Training...:  55% 1444/2609 [1:23:19<33:36,  1.73s/it][A
Training...:  55% 1445/2609 [1:23:21<31:23,  1.62s/it][A
Training...:  55% 1446/2609 [1:23:22<29:13,  1.51s/it][A
Training...:  55% 1447/2609 [1:23:23<27:03,  1.40s/it][A
Training...:  56% 1448/2609 [1:23:24<24:31,  1.27s/it][A
Training...:  56% 1449/2609 [1:23:25<21:57,  1.14s/it][A
Training...:  56% 1450/2609 [1:23:25<18:51,  1.02it/s][A
Training...:  56% 1451/2609 [1:23:32<54:01,  2.80s/it][A
Training...:  56% 1452/2609 [1:23:39<1:17:46,  4.03s/it][A
Training...:  56% 1453/2609 [1:23:46<1:32:06,  4.78s/it][A
Training...:  56% 1454/2609 [1:23:52<1:39:53,  5.19s/it][A
Training...:  56% 1455/2609 [1:23:58<1:43:18,  5.37s/it][A
Training...:  56% 1456/2609 [1:24:03<1:44:09,  5.42s/it][A
Training...:  56% 1457/2609 [1:24:09<1:43:58,  5.42s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:44:57<17:51:03, 9180.57s/it]
Training...:  56% 1457/2609 [1:24:15<1:43:58,  5.42s/it][A
Training...:  56% 1458/2609 [1:24:15<1:46:49,  5.57s/it][A
Training...:  56% 1459/2609 [1:24:20<1:43:43,  5.41s/it][A
Training...:  56% 1460/2609 [1:24:24<1:40:15,  5.24s/it][A
Training...:  56% 1461/2609 [1:24:29<1:37:30,  5.10s/it][A
Training...:  56% 1462/2609 [1:24:34<1:34:44,  4.96s/it][A
Training...:  56% 1463/2609 [1:24:38<1:32:15,  4.83s/it][A
Training...:  56% 1464/2609 [1:24:43<1:29:37,  4.70s/it][A
Training...:  56% 1465/2609 [1:24:47<1:27:22,  4.58s/it][A
Training...:  56% 1466/2609 [1:24:51<1:25:05,  4.47s/it][A
Training...:  56% 1467/2609 [1:24:55<1:22:46,  4.35s/it][A
Training...:  56% 1468/2609 [1:24:59<1:20:07,  4.21s/it][A
Training...:  56% 1469/2609 [1:25:03<1:18:02,  4.11s/it][A
Training...:  56% 1470/2609 [1:25:07<1:15:29,  3.98s/it][A
Training...:  56% 1471/2609 [1:25:10<1:13:25,  3.87s/it][A
Training...:  56% 1472/2609 [1:25:14<1:11:47,  3.79s/it][A
Training...:  56% 1473/2609 [1:25:18<1:10:23,  3.72s/it][A
Training...:  56% 1474/2609 [1:25:21<1:08:44,  3.63s/it][A
Training...:  57% 1475/2609 [1:25:24<1:07:06,  3.55s/it][A
Training...:  57% 1476/2609 [1:25:28<1:05:13,  3.45s/it][A
Training...:  57% 1477/2609 [1:25:31<1:03:27,  3.36s/it][A
Training...:  57% 1478/2609 [1:25:34<1:01:56,  3.29s/it][A
Training...:  57% 1479/2609 [1:25:37<1:00:16,  3.20s/it][A
Training...:  57% 1480/2609 [1:25:40<58:53,  3.13s/it]  [A
Training...:  57% 1481/2609 [1:25:43<57:00,  3.03s/it][A
Training...:  57% 1482/2609 [1:25:45<55:09,  2.94s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:46:31<17:51:03, 9180.57s/it]
Training...:  57% 1482/2609 [1:25:48<55:09,  2.94s/it][A
Training...:  57% 1483/2609 [1:25:48<56:06,  2.99s/it][A
Training...:  57% 1484/2609 [1:25:51<52:59,  2.83s/it][A
Training...:  57% 1485/2609 [1:25:53<50:22,  2.69s/it][A
Training...:  57% 1486/2609 [1:25:56<48:04,  2.57s/it][A
Training...:  57% 1487/2609 [1:25:58<45:56,  2.46s/it][A
Training...:  57% 1488/2609 [1:26:00<43:50,  2.35s/it][A
Training...:  57% 1489/2609 [1:26:02<41:49,  2.24s/it][A
Training...:  57% 1490/2609 [1:26:04<39:46,  2.13s/it][A
Training...:  57% 1491/2609 [1:26:05<37:45,  2.03s/it][A
Training...:  57% 1492/2609 [1:26:07<35:44,  1.92s/it][A
Training...:  57% 1493/2609 [1:26:09<33:36,  1.81s/it][A
Training...:  57% 1494/2609 [1:26:10<31:34,  1.70s/it][A
Training...:  57% 1495/2609 [1:26:12<29:38,  1.60s/it][A
Training...:  57% 1496/2609 [1:26:13<27:38,  1.49s/it][A
Training...:  57% 1497/2609 [1:26:14<25:35,  1.38s/it][A
Training...:  57% 1498/2609 [1:26:15<23:17,  1.26s/it][A
Training...:  57% 1499/2609 [1:26:16<20:43,  1.12s/it][A
Training...:  57% 1500/2609 [1:26:16<17:24,  1.06it/s][A
Training...:  58% 1501/2609 [1:26:23<52:12,  2.83s/it][A
Training...:  58% 1502/2609 [1:26:30<1:15:20,  4.08s/it][A
Training...:  58% 1503/2609 [1:26:37<1:28:20,  4.79s/it][A
Training...:  58% 1504/2609 [1:26:43<1:35:24,  5.18s/it][A
Training...:  58% 1505/2609 [1:26:49<1:39:20,  5.40s/it][A
Training...:  58% 1506/2609 [1:26:54<1:40:31,  5.47s/it][A
Training...:  58% 1507/2609 [1:27:00<1:40:25,  5.47s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:47:49<17:51:03, 9180.57s/it]
Training...:  58% 1507/2609 [1:27:06<1:40:25,  5.47s/it][A
Training...:  58% 1508/2609 [1:27:06<1:43:19,  5.63s/it][A
Training...:  58% 1509/2609 [1:27:11<1:40:12,  5.47s/it][A
Training...:  58% 1510/2609 [1:27:16<1:37:54,  5.35s/it][A
Training...:  58% 1511/2609 [1:27:21<1:35:22,  5.21s/it][A
Training...:  58% 1512/2609 [1:27:26<1:31:50,  5.02s/it][A
Training...:  58% 1513/2609 [1:27:30<1:28:44,  4.86s/it][A
Training...:  58% 1514/2609 [1:27:34<1:25:24,  4.68s/it][A
Training...:  58% 1515/2609 [1:27:39<1:22:43,  4.54s/it][A
Training...:  58% 1516/2609 [1:27:43<1:20:06,  4.40s/it][A
Training...:  58% 1517/2609 [1:27:47<1:17:55,  4.28s/it][A
Training...:  58% 1518/2609 [1:27:50<1:15:30,  4.15s/it][A
Training...:  58% 1519/2609 [1:27:54<1:14:06,  4.08s/it][A
Training...:  58% 1520/2609 [1:27:58<1:12:48,  4.01s/it][A
Training...:  58% 1521/2609 [1:28:02<1:11:21,  3.94s/it][A
Training...:  58% 1522/2609 [1:28:06<1:09:51,  3.86s/it][A
Training...:  58% 1523/2609 [1:28:09<1:08:11,  3.77s/it][A
Training...:  58% 1524/2609 [1:28:13<1:06:34,  3.68s/it][A
Training...:  58% 1525/2609 [1:28:16<1:05:01,  3.60s/it][A
Training...:  58% 1526/2609 [1:28:19<1:03:08,  3.50s/it][A
Training...:  59% 1527/2609 [1:28:23<1:01:42,  3.42s/it][A
Training...:  59% 1528/2609 [1:28:26<1:00:01,  3.33s/it][A
Training...:  59% 1529/2609 [1:28:29<58:24,  3.24s/it]  [A
Training...:  59% 1530/2609 [1:28:32<56:49,  3.16s/it][A
Training...:  59% 1531/2609 [1:28:35<55:23,  3.08s/it][A
Training...:  59% 1532/2609 [1:28:37<53:49,  3.00s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:49:23<17:51:03, 9180.57s/it]
Training...:  59% 1532/2609 [1:28:41<53:49,  3.00s/it][A
Training...:  59% 1533/2609 [1:28:41<54:36,  3.05s/it][A
Training...:  59% 1534/2609 [1:28:43<51:14,  2.86s/it][A
Training...:  59% 1535/2609 [1:28:45<48:34,  2.71s/it][A
Training...:  59% 1536/2609 [1:28:48<46:13,  2.58s/it][A
Training...:  59% 1537/2609 [1:28:50<44:17,  2.48s/it][A
Training...:  59% 1538/2609 [1:28:52<42:11,  2.36s/it][A
Training...:  59% 1539/2609 [1:28:54<40:13,  2.26s/it][A
Training...:  59% 1540/2609 [1:28:56<38:23,  2.15s/it][A
Training...:  59% 1541/2609 [1:28:58<36:33,  2.05s/it][A
Training...:  59% 1542/2609 [1:28:59<34:49,  1.96s/it][A
Training...:  59% 1543/2609 [1:29:01<33:17,  1.87s/it][A
Training...:  59% 1544/2609 [1:29:03<31:19,  1.76s/it][A
Training...:  59% 1545/2609 [1:29:04<29:37,  1.67s/it][A
Training...:  59% 1546/2609 [1:29:05<27:37,  1.56s/it][A
Training...:  59% 1547/2609 [1:29:07<25:24,  1.44s/it][A
Training...:  59% 1548/2609 [1:29:08<23:03,  1.30s/it][A
Training...:  59% 1549/2609 [1:29:08<20:20,  1.15s/it][A
Training...:  59% 1550/2609 [1:29:09<17:09,  1.03it/s][A
Training...:  59% 1551/2609 [1:29:16<50:34,  2.87s/it][A
Training...:  59% 1552/2609 [1:29:23<1:12:21,  4.11s/it][A
Training...:  60% 1553/2609 [1:29:30<1:25:50,  4.88s/it][A
Training...:  60% 1554/2609 [1:29:36<1:33:07,  5.30s/it][A
Training...:  60% 1555/2609 [1:29:42<1:36:45,  5.51s/it][A
Training...:  60% 1556/2609 [1:29:48<1:37:53,  5.58s/it][A
Training...:  60% 1557/2609 [1:29:53<1:37:38,  5.57s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:50:42<17:51:03, 9180.57s/it]
Training...:  60% 1557/2609 [1:30:00<1:37:38,  5.57s/it][A
Training...:  60% 1558/2609 [1:30:00<1:40:18,  5.73s/it][A
Training...:  60% 1559/2609 [1:30:05<1:37:15,  5.56s/it][A
Training...:  60% 1560/2609 [1:30:10<1:33:46,  5.36s/it][A
Training...:  60% 1561/2609 [1:30:14<1:31:08,  5.22s/it][A
Training...:  60% 1562/2609 [1:30:19<1:27:36,  5.02s/it][A
Training...:  60% 1563/2609 [1:30:24<1:24:56,  4.87s/it][A
Training...:  60% 1564/2609 [1:30:28<1:22:24,  4.73s/it][A
Training...:  60% 1565/2609 [1:30:32<1:20:54,  4.65s/it][A
Training...:  60% 1566/2609 [1:30:37<1:18:44,  4.53s/it][A
Training...:  60% 1567/2609 [1:30:41<1:17:00,  4.43s/it][A
Training...:  60% 1568/2609 [1:30:45<1:14:59,  4.32s/it][A
Training...:  60% 1569/2609 [1:30:49<1:13:21,  4.23s/it][A
Training...:  60% 1570/2609 [1:30:53<1:11:02,  4.10s/it][A
Training...:  60% 1571/2609 [1:30:57<1:09:52,  4.04s/it][A
Training...:  60% 1572/2609 [1:31:00<1:08:06,  3.94s/it][A
Training...:  60% 1573/2609 [1:31:04<1:06:18,  3.84s/it][A
Training...:  60% 1574/2609 [1:31:07<1:04:12,  3.72s/it][A
Training...:  60% 1575/2609 [1:31:11<1:02:27,  3.62s/it][A
Training...:  60% 1576/2609 [1:31:14<1:00:32,  3.52s/it][A
Training...:  60% 1577/2609 [1:31:17<58:53,  3.42s/it]  [A
Training...:  60% 1578/2609 [1:31:20<57:10,  3.33s/it][A
Training...:  61% 1579/2609 [1:31:23<55:40,  3.24s/it][A
Training...:  61% 1580/2609 [1:31:26<54:01,  3.15s/it][A
Training...:  61% 1581/2609 [1:31:29<52:26,  3.06s/it][A
Training...:  61% 1582/2609 [1:31:32<50:49,  2.97s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:52:18<17:51:03, 9180.57s/it]
Training...:  61% 1582/2609 [1:31:35<50:49,  2.97s/it][A
Training...:  61% 1583/2609 [1:31:35<51:22,  3.00s/it][A
Training...:  61% 1584/2609 [1:31:38<48:42,  2.85s/it][A
Training...:  61% 1585/2609 [1:31:40<46:22,  2.72s/it][A
Training...:  61% 1586/2609 [1:31:42<43:57,  2.58s/it][A
Training...:  61% 1587/2609 [1:31:44<41:56,  2.46s/it][A
Training...:  61% 1588/2609 [1:31:47<39:57,  2.35s/it][A
Training...:  61% 1589/2609 [1:31:49<38:16,  2.25s/it][A
Training...:  61% 1590/2609 [1:31:50<36:36,  2.16s/it][A
Training...:  61% 1591/2609 [1:31:52<35:07,  2.07s/it][A
Training...:  61% 1592/2609 [1:31:54<33:22,  1.97s/it][A
Training...:  61% 1593/2609 [1:31:56<31:38,  1.87s/it][A
Training...:  61% 1594/2609 [1:31:57<29:51,  1.76s/it][A
Training...:  61% 1595/2609 [1:31:59<28:06,  1.66s/it][A
Training...:  61% 1596/2609 [1:32:00<26:08,  1.55s/it][A
Training...:  61% 1597/2609 [1:32:01<24:11,  1.43s/it][A
Training...:  61% 1598/2609 [1:32:02<22:00,  1.31s/it][A
Training...:  61% 1599/2609 [1:32:03<19:42,  1.17s/it][A
Training...:  61% 1600/2609 [1:32:04<16:33,  1.02it/s][A
Training...:  61% 1601/2609 [1:32:10<46:41,  2.78s/it][A
Training...:  61% 1602/2609 [1:32:17<1:07:52,  4.04s/it][A
Training...:  61% 1603/2609 [1:32:24<1:20:09,  4.78s/it][A
Training...:  61% 1604/2609 [1:32:30<1:26:41,  5.18s/it][A
Training...:  62% 1605/2609 [1:32:36<1:30:18,  5.40s/it][A
Training...:  62% 1606/2609 [1:32:42<1:31:39,  5.48s/it][A
Training...:  62% 1607/2609 [1:32:47<1:31:23,  5.47s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:53:36<17:51:03, 9180.57s/it]
Training...:  62% 1607/2609 [1:32:53<1:31:23,  5.47s/it][A
Training...:  62% 1608/2609 [1:32:53<1:33:46,  5.62s/it][A
Training...:  62% 1609/2609 [1:32:58<1:30:50,  5.45s/it][A
Training...:  62% 1610/2609 [1:33:03<1:28:07,  5.29s/it][A
Training...:  62% 1611/2609 [1:33:08<1:26:21,  5.19s/it][A
Training...:  62% 1612/2609 [1:33:13<1:23:32,  5.03s/it][A
Training...:  62% 1613/2609 [1:33:17<1:20:47,  4.87s/it][A
Training...:  62% 1614/2609 [1:33:21<1:17:46,  4.69s/it][A
Training...:  62% 1615/2609 [1:33:26<1:15:26,  4.55s/it][A
Training...:  62% 1616/2609 [1:33:30<1:13:03,  4.41s/it][A
Training...:  62% 1617/2609 [1:33:34<1:11:56,  4.35s/it][A
Training...:  62% 1618/2609 [1:33:38<1:10:02,  4.24s/it][A
Training...:  62% 1619/2609 [1:33:42<1:08:37,  4.16s/it][A
Training...:  62% 1620/2609 [1:33:46<1:06:58,  4.06s/it][A
Training...:  62% 1621/2609 [1:33:49<1:05:10,  3.96s/it][A
Training...:  62% 1622/2609 [1:33:53<1:03:14,  3.84s/it][A
Training...:  62% 1623/2609 [1:33:57<1:01:58,  3.77s/it][A
Training...:  62% 1624/2609 [1:34:00<1:00:13,  3.67s/it][A
Training...:  62% 1625/2609 [1:34:03<58:46,  3.58s/it]  [A
Training...:  62% 1626/2609 [1:34:07<56:57,  3.48s/it][A
Training...:  62% 1627/2609 [1:34:10<55:42,  3.40s/it][A
Training...:  62% 1628/2609 [1:34:13<54:15,  3.32s/it][A
Training...:  62% 1629/2609 [1:34:16<52:49,  3.23s/it][A
Training...:  62% 1630/2609 [1:34:19<51:03,  3.13s/it][A
Training...:  63% 1631/2609 [1:34:22<49:34,  3.04s/it][A
Training...:  63% 1632/2609 [1:34:25<47:57,  2.95s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:55:11<17:51:03, 9180.57s/it]
Training...:  63% 1632/2609 [1:34:28<47:57,  2.95s/it][A
Training...:  63% 1633/2609 [1:34:28<48:46,  3.00s/it][A
Training...:  63% 1634/2609 [1:34:30<46:04,  2.84s/it][A
Training...:  63% 1635/2609 [1:34:33<43:56,  2.71s/it][A
Training...:  63% 1636/2609 [1:34:35<41:56,  2.59s/it][A
Training...:  63% 1637/2609 [1:34:37<40:21,  2.49s/it][A
Training...:  63% 1638/2609 [1:34:39<38:36,  2.39s/it][A
Training...:  63% 1639/2609 [1:34:41<37:01,  2.29s/it][A
Training...:  63% 1640/2609 [1:34:43<35:18,  2.19s/it][A
Training...:  63% 1641/2609 [1:34:45<33:50,  2.10s/it][A
Training...:  63% 1642/2609 [1:34:47<32:08,  1.99s/it][A
Training...:  63% 1643/2609 [1:34:49<30:44,  1.91s/it][A
Training...:  63% 1644/2609 [1:34:50<29:05,  1.81s/it][A
Training...:  63% 1645/2609 [1:34:52<27:28,  1.71s/it][A
Training...:  63% 1646/2609 [1:34:53<25:39,  1.60s/it][A
Training...:  63% 1647/2609 [1:34:54<23:41,  1.48s/it][A
Training...:  63% 1648/2609 [1:34:55<21:35,  1.35s/it][A
Training...:  63% 1649/2609 [1:34:56<19:08,  1.20s/it][A
Training...:  63% 1650/2609 [1:34:57<16:08,  1.01s/it][A
Training...:  63% 1651/2609 [1:35:04<45:07,  2.83s/it][A
Training...:  63% 1652/2609 [1:35:11<1:05:13,  4.09s/it][A
Training...:  63% 1653/2609 [1:35:17<1:17:29,  4.86s/it][A
Training...:  63% 1654/2609 [1:35:24<1:24:37,  5.32s/it][A
Training...:  63% 1655/2609 [1:35:30<1:29:11,  5.61s/it][A
Training...:  63% 1656/2609 [1:35:36<1:30:19,  5.69s/it][A
Training...:  64% 1657/2609 [1:35:41<1:29:19,  5.63s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:56:30<17:51:03, 9180.57s/it]
Training...:  64% 1657/2609 [1:35:47<1:29:19,  5.63s/it][A
Training...:  64% 1658/2609 [1:35:47<1:31:00,  5.74s/it][A
Training...:  64% 1659/2609 [1:35:53<1:28:06,  5.56s/it][A
Training...:  64% 1660/2609 [1:35:58<1:25:10,  5.39s/it][A
Training...:  64% 1661/2609 [1:36:02<1:22:50,  5.24s/it][A
Training...:  64% 1662/2609 [1:36:07<1:20:22,  5.09s/it][A
Training...:  64% 1663/2609 [1:36:12<1:18:29,  4.98s/it][A
Training...:  64% 1664/2609 [1:36:17<1:16:48,  4.88s/it][A
Training...:  64% 1665/2609 [1:36:21<1:14:57,  4.76s/it][A
Training...:  64% 1666/2609 [1:36:25<1:12:43,  4.63s/it][A
Training...:  64% 1667/2609 [1:36:30<1:10:43,  4.50s/it][A
Training...:  64% 1668/2609 [1:36:34<1:08:24,  4.36s/it][A
Training...:  64% 1669/2609 [1:36:38<1:06:59,  4.28s/it][A
Training...:  64% 1670/2609 [1:36:42<1:04:50,  4.14s/it][A
Training...:  64% 1671/2609 [1:36:45<1:03:21,  4.05s/it][A
Training...:  64% 1672/2609 [1:36:49<1:01:39,  3.95s/it][A
Training...:  64% 1673/2609 [1:36:53<1:00:03,  3.85s/it][A
Training...:  64% 1674/2609 [1:36:56<57:59,  3.72s/it]  [A
Training...:  64% 1675/2609 [1:37:00<56:29,  3.63s/it][A
Training...:  64% 1676/2609 [1:37:03<54:59,  3.54s/it][A
Training...:  64% 1677/2609 [1:37:06<53:33,  3.45s/it][A
Training...:  64% 1678/2609 [1:37:09<52:08,  3.36s/it][A
Training...:  64% 1679/2609 [1:37:12<50:39,  3.27s/it][A
Training...:  64% 1680/2609 [1:37:15<49:14,  3.18s/it][A
Training...:  64% 1681/2609 [1:37:18<47:46,  3.09s/it][A
Training...:  64% 1682/2609 [1:37:21<46:12,  2.99s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:58:07<17:51:03, 9180.57s/it]
Training...:  64% 1682/2609 [1:37:24<46:12,  2.99s/it][A
Training...:  65% 1683/2609 [1:37:24<46:48,  3.03s/it][A
Training...:  65% 1684/2609 [1:37:27<44:21,  2.88s/it][A
Training...:  65% 1685/2609 [1:37:29<42:12,  2.74s/it][A
Training...:  65% 1686/2609 [1:37:31<40:10,  2.61s/it][A
Training...:  65% 1687/2609 [1:37:34<38:24,  2.50s/it][A
Training...:  65% 1688/2609 [1:37:36<36:42,  2.39s/it][A
Training...:  65% 1689/2609 [1:37:38<34:58,  2.28s/it][A
Training...:  65% 1690/2609 [1:37:40<33:24,  2.18s/it][A
Training...:  65% 1691/2609 [1:37:41<31:55,  2.09s/it][A
Training...:  65% 1692/2609 [1:37:43<30:26,  1.99s/it][A
Training...:  65% 1693/2609 [1:37:45<29:01,  1.90s/it][A
Training...:  65% 1694/2609 [1:37:47<27:27,  1.80s/it][A
Training...:  65% 1695/2609 [1:37:48<26:02,  1.71s/it][A
Training...:  65% 1696/2609 [1:37:49<24:17,  1.60s/it][A
Training...:  65% 1697/2609 [1:37:51<22:35,  1.49s/it][A
Training...:  65% 1698/2609 [1:37:52<20:29,  1.35s/it][A
Training...:  65% 1699/2609 [1:37:52<18:02,  1.19s/it][A
Training...:  65% 1700/2609 [1:37:53<15:15,  1.01s/it][A
Training...:  65% 1701/2609 [1:38:00<43:46,  2.89s/it][A
Training...:  65% 1702/2609 [1:38:07<1:02:43,  4.15s/it][A
Training...:  65% 1703/2609 [1:38:14<1:13:12,  4.85s/it][A
Training...:  65% 1704/2609 [1:38:20<1:19:17,  5.26s/it][A
Training...:  65% 1705/2609 [1:38:26<1:22:19,  5.46s/it][A
Training...:  65% 1706/2609 [1:38:32<1:23:21,  5.54s/it][A
Training...:  65% 1707/2609 [1:38:37<1:23:14,  5.54s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [34:59:26<17:51:03, 9180.57s/it]
Training...:  65% 1707/2609 [1:38:43<1:23:14,  5.54s/it][A
Training...:  65% 1708/2609 [1:38:43<1:25:35,  5.70s/it][A
Training...:  66% 1709/2609 [1:38:49<1:23:01,  5.54s/it][A
Training...:  66% 1710/2609 [1:38:53<1:20:28,  5.37s/it][A
Training...:  66% 1711/2609 [1:38:58<1:18:11,  5.22s/it][A
Training...:  66% 1712/2609 [1:39:03<1:15:44,  5.07s/it][A
Training...:  66% 1713/2609 [1:39:08<1:13:49,  4.94s/it][A
Training...:  66% 1714/2609 [1:39:12<1:11:56,  4.82s/it][A
Training...:  66% 1715/2609 [1:39:17<1:10:22,  4.72s/it][A
Training...:  66% 1716/2609 [1:39:21<1:08:22,  4.59s/it][A
Training...:  66% 1717/2609 [1:39:25<1:07:08,  4.52s/it][A
Training...:  66% 1718/2609 [1:39:30<1:05:36,  4.42s/it][A
Training...:  66% 1719/2609 [1:39:34<1:03:52,  4.31s/it][A
Training...:  66% 1720/2609 [1:39:37<1:01:53,  4.18s/it][A
Training...:  66% 1721/2609 [1:39:41<1:00:57,  4.12s/it][A
Training...:  66% 1722/2609 [1:39:45<59:37,  4.03s/it]  [A
Training...:  66% 1723/2609 [1:39:49<57:51,  3.92s/it][A
Training...:  66% 1724/2609 [1:39:53<56:09,  3.81s/it][A
Training...:  66% 1725/2609 [1:39:56<54:31,  3.70s/it][A
Training...:  66% 1726/2609 [1:39:59<52:47,  3.59s/it][A
Training...:  66% 1727/2609 [1:40:03<51:17,  3.49s/it][A
Training...:  66% 1728/2609 [1:40:06<49:41,  3.38s/it][A
Training...:  66% 1729/2609 [1:40:09<48:05,  3.28s/it][A
Training...:  66% 1730/2609 [1:40:12<46:36,  3.18s/it][A
Training...:  66% 1731/2609 [1:40:15<45:13,  3.09s/it][A
Training...:  66% 1732/2609 [1:40:17<43:39,  2.99s/it][A                                                                                                                                                                    
                                                      [AStep... (33925 | Loss: 0.0502244271337986, Learning Rate: 3.2476771593792364e-05, Gradient Norm: 0.6046967506408691)
Step... (33950 | Loss: 0.009094900451600552, Learning Rate: 3.24262618960347e-05, Gradient Norm: 0.40372464060783386)
Step... (33975 | Loss: 0.03530893847346306, Learning Rate: 3.2375759474234655e-05, Gradient Norm: 0.5981570482254028)
Step... (34000 | Loss: 0.014097427949309349, Learning Rate: 3.2325249776476994e-05, Gradient Norm: 0.6869771480560303)
Step... (34025 | Loss: 0.025068486109375954, Learning Rate: 3.227474735467695e-05, Gradient Norm: 0.40354448556900024)
Step... (34050 | Loss: 0.00247845402918756, Learning Rate: 3.222424129489809e-05, Gradient Norm: 0.14162996411323547)
Step... (34075 | Loss: 0.02424616366624832, Learning Rate: 3.217373523511924e-05, Gradient Norm: 0.44681575894355774)
Step... (34100 | Loss: 0.007100323215126991, Learning Rate: 3.212323281331919e-05, Gradient Norm: 0.6190157532691956)
Step... (34125 | Loss: 0.031574033200740814, Learning Rate: 3.207272675354034e-05, Gradient Norm: 0.5090779066085815)
Step... (34150 | Loss: 0.006933857686817646, Learning Rate: 3.202222069376148e-05, Gradient Norm: 0.2865554690361023)
Step... (34175 | Loss: 0.025453703477978706, Learning Rate: 3.197171463398263e-05, Gradient Norm: 0.44200727343559265)
Step... (34200 | Loss: 0.005158658139407635, Learning Rate: 3.192121221218258e-05, Gradient Norm: 0.2809891700744629)
Step... (34225 | Loss: 0.02345343865454197, Learning Rate: 3.187070251442492e-05, Gradient Norm: 0.4576434791088104)
Step... (34250 | Loss: 0.00824248231947422, Learning Rate: 3.182020009262487e-05, Gradient Norm: 0.7143678069114685)
Step... (34275 | Loss: 0.021881714463233948, Learning Rate: 3.1769697670824826e-05, Gradient Norm: 0.4837133288383484)
Step... (34300 | Loss: 0.006850814912468195, Learning Rate: 3.1719187973067164e-05, Gradient Norm: 0.5581084489822388)
Step... (34325 | Loss: 0.018916867673397064, Learning Rate: 3.166868555126712e-05, Gradient Norm: 0.4407557249069214)
Step... (34350 | Loss: 0.0032135220244526863, Learning Rate: 3.161818312946707e-05, Gradient Norm: 0.25051259994506836)
Step... (34375 | Loss: 0.02577017992734909, Learning Rate: 3.156767343170941e-05, Gradient Norm: 0.4594506025314331)
Step... (34400 | Loss: 0.003508803201839328, Learning Rate: 3.151717100990936e-05, Gradient Norm: 0.1690836399793625)
Step... (34425 | Loss: 0.018519209697842598, Learning Rate: 3.1466668588109314e-05, Gradient Norm: 0.38404643535614014)
Step... (34450 | Loss: 0.003439049469307065, Learning Rate: 3.141615889035165e-05, Gradient Norm: 0.16765160858631134)
Step... (34475 | Loss: 0.021397795528173447, Learning Rate: 3.1365656468551606e-05, Gradient Norm: 0.5795358419418335)
Step... (34500 | Loss: 0.010127181187272072, Learning Rate: 3.131515404675156e-05, Gradient Norm: 0.4782189428806305)
Step... (34525 | Loss: 0.03097488544881344, Learning Rate: 3.12646443489939e-05, Gradient Norm: 0.4786261022090912)
Step... (34550 | Loss: 0.013115008361637592, Learning Rate: 3.121414192719385e-05, Gradient Norm: 0.5413397550582886)
Step... (34575 | Loss: 0.02867293544113636, Learning Rate: 3.11636395053938e-05, Gradient Norm: 0.5053598284721375)
Step... (34600 | Loss: 0.014697670936584473, Learning Rate: 3.111312980763614e-05, Gradient Norm: 0.6254702806472778)
Step... (34625 | Loss: 0.022189190611243248, Learning Rate: 3.1062627385836095e-05, Gradient Norm: 0.4292835593223572)
Step... (34650 | Loss: 0.0033120180014520884, Learning Rate: 3.101212132605724e-05, Gradient Norm: 0.283316433429718)
Step... (34675 | Loss: 0.030955955386161804, Learning Rate: 3.0961615266278386e-05, Gradient Norm: 0.4708311855792999)
Step... (34700 | Loss: 0.009767135605216026, Learning Rate: 3.091111284447834e-05, Gradient Norm: 0.4383423328399658)
Step... (34725 | Loss: 0.023881005123257637, Learning Rate: 3.0860606784699485e-05, Gradient Norm: 0.5347118377685547)
Step... (34750 | Loss: 0.015590379014611244, Learning Rate: 3.081010072492063e-05, Gradient Norm: 1.1640543937683105)
Step... (34775 | Loss: 0.035929884761571884,Step... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:01:03<17:51:03, 9180.57s/it]
Training...:  66% 1732/2609 [1:40:20<43:39,  2.99s/it][A
Training...:  66% 1733/2609 [1:40:20<44:16,  3.03s/it][A Learning Rate: 3.0759594665141776e-05, Gradient Norm: 0.5290387868881226)
Step... (34800 | Loss: 0.007251120638102293, Learning Rate: 3.070909224334173e-05, Gradient Norm: 0.33149275183677673)
Step... (34825 | Loss: 0.024363884702324867, Learning Rate: 3.065858254558407e-05, Gradient Norm: 0.44287991523742676)
Step... (34850 | Loss: 0.017904408276081085, Learning Rate: 3.060808012378402e-05, Gradient Norm: 0.651466965675354)
Step... (34875 | Loss: 0.020460471510887146, Learning Rate: 3.055757770198397e-05, Gradient Norm: 0.38733068108558655)
Step... (34900 | Loss: 0.012082945555448532, Learning Rate: 3.0507069823215716e-05, Gradient Norm: 0.4140797257423401)
Step... (34925 | Loss: 0.029979737475514412, Learning Rate: 3.0456565582426265e-05, Gradient Norm: 0.5443064570426941)
Step... (34950 | Loss: 0.014327699318528175, Learning Rate: 3.0406063160626218e-05, Gradient Norm: 0.5129998922348022)
Step... (34975 | Loss: 0.02994718588888645, Learning Rate: 3.0355553462868556e-05, Gradient Norm: 0.417370468378067)
Step... (35000 | Loss: 0.008785058744251728, Learning Rate: 3.030505104106851e-05, Gradient Norm: 0.42130419611930847)
Step... (35025 | Loss: 0.025903502479195595, Learning Rate: 3.0254548619268462e-05, Gradient Norm: 0.44356653094291687)
Step... (35050 | Loss: 0.007081180810928345, Learning Rate: 3.02040389215108e-05, Gradient Norm: 0.34597131609916687)
Step... (35075 | Loss: 0.013158928602933884, Learning Rate: 3.0153536499710754e-05, Gradient Norm: 0.2698959708213806)
Step... (35100 | Loss: 0.02227943390607834, Learning Rate: 3.0103026801953092e-05, Gradient Norm: 1.5971978902816772)
Step... (35125 | Loss: 0.020602328702807426, Learning Rate: 3.0052524380153045e-05, Gradient Norm: 0.3590434789657593)
Step... (35150 | Loss: 0.01309377420693636, Learning Rate: 3.0002020139363594e-05, Gradient Norm: 0.486321359872818)
Step... (35175 | Loss: 0.0302113089710474, Learning Rate: 2.9951512260595337e-05, Gradient Norm: 0.7661815881729126)
Step... (35200 | Loss: 0.008425368927419186, Learning Rate: 2.990100983879529e-05, Gradient Norm: 0.3659767508506775)
Step... (35225 | Loss: 0.025166261941194534, Learning Rate: 2.985050559800584e-05, Gradient Norm: 0.49907737970352173)
Step... (35250 | Loss: 0.005172514822334051, Learning Rate: 2.979999771923758e-05, Gradient Norm: 0.27219319343566895)
Step... (35275 | Loss: 0.020626572892069817, Learning Rate: 2.974949347844813e-05, Gradient Norm: 0.35859718918800354)
Step... (35300 | Loss: 0.004379180260002613, Learning Rate: 2.9698991056648083e-05, Gradient Norm: 0.23386414349079132)
Step... (35325 | Loss: 0.032065875828266144, Learning Rate: 2.964848135889042e-05, Gradient Norm: 0.5338529944419861)
Step... (35350 | Loss: 0.010180559009313583, Learning Rate: 2.9597978937090375e-05, Gradient Norm: 0.39455410838127136)
Step... (35375 | Loss: 0.015744833275675774, Learning Rate: 2.9547476515290327e-05, Gradient Norm: 1.0440541505813599)
Step... (35400 | Loss: 0.008902379311621189, Learning Rate: 2.9496966817532666e-05, Gradient Norm: 0.4529520571231842)
Step... (35425 | Loss: 0.028046634048223495, Learning Rate: 2.944646439573262e-05, Gradient Norm: 0.39989280700683594)
Step... (35450 | Loss: 0.010005890391767025, Learning Rate: 2.9395960154943168e-05, Gradient Norm: 0.3927619457244873)
Step... (35475 | Loss: 0.035779282450675964, Learning Rate: 2.934545227617491e-05, Gradient Norm: 0.5758503079414368)
Step... (35500 | Loss: 0.004284588620066643, Learning Rate: 2.9294949854374863e-05, Gradient Norm: 0.28561046719551086)
Step... (35525 | Loss: 0.03844121843576431, Learning Rate: 2.9244445613585413e-05, Gradient Norm: 0.5497285723686218)
Step... (35550 | Loss: 0.01051617506891489, Learning Rate: 2.9193937734817155e-05, Gradient Norm: 0.5157645344734192)
Step... (35575 | Loss: 0.015724429860711098, Learning Rate: 2.9143433494027704e-05, Gradient Norm: 0.388204962015152)
Step... (35600 | Loss: 0.007454177364706993, Learning Rate: 2.9092931072227657e-05, Gradient Norm: 0.3474942743778229)
Step... (35625 | Loss: 0.02337685041129589, Learning Rate: 2.9042421374469995e-05, Gradient Norm: 0.5692608952522278)

Training...:  66% 1734/2609 [1:40:23<42:34,  2.92s/it][A
Training...:  67% 1735/2609 [1:40:26<40:22,  2.77s/it][A
Training...:  67% 1736/2609 [1:40:28<38:15,  2.63s/it][A
Training...:  67% 1737/2609 [1:40:30<36:28,  2.51s/it][A
Training...:  67% 1738/2609 [1:40:32<34:43,  2.39s/it][A
Training...:  67% 1739/2609 [1:40:34<33:02,  2.28s/it][A
Training...:  67% 1740/2609 [1:40:36<31:29,  2.17s/it][A
Training...:  67% 1741/2609 [1:40:38<31:39,  2.19s/it][A
Training...:  67% 1742/2609 [1:40:40<29:44,  2.06s/it][A
Training...:  67% 1743/2609 [1:40:42<27:55,  1.93s/it][A
Training...:  67% 1744/2609 [1:40:43<26:05,  1.81s/it][A
Training...:  67% 1745/2609 [1:40:45<24:15,  1.68s/it][A
Training...:  67% 1746/2609 [1:40:46<22:24,  1.56s/it][A
Training...:  67% 1747/2609 [1:40:47<20:48,  1.45s/it][A
Training...:  67% 1748/2609 [1:40:48<18:38,  1.30s/it][A
Training...:  67% 1749/2609 [1:40:49<16:28,  1.15s/it][A
Training...:  67% 1750/2609 [1:40:49<13:52,  1.03it/s][A
Training...:  67% 1751/2609 [1:40:56<40:07,  2.81s/it][A
Training...:  67% 1752/2609 [1:41:04<58:31,  4.10s/it][A
Training...:  67% 1753/2609 [1:41:10<1:09:47,  4.89s/it][A
Training...:  67% 1754/2609 [1:41:17<1:16:15,  5.35s/it][A
Training...:  67% 1755/2609 [1:41:23<1:19:31,  5.59s/it][A
Training...:  67% 1756/2609 [1:41:29<1:21:11,  5.71s/it][A
Training...:  67% 1757/2609 [1:41:34<1:20:22,  5.66s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:02:23<17:51:03, 9180.57s/it]
Training...:  67% 1757/2609 [1:41:40<1:20:22,  5.66s/it][A
Training...:  67% 1758/2609 [1:41:40<1:21:48,  5.77s/it][A
Training...:  67% 1759/2609 [1:41:46<1:18:47,  5.56s/it][A
Training...:  67% 1760/2609 [1:41:50<1:16:04,  5.38s/it][A
Training...:  67% 1761/2609 [1:41:55<1:13:39,  5.21s/it][A
Training...:  68% 1762/2609 [1:42:00<1:11:07,  5.04s/it][A
Training...:  68% 1763/2609 [1:42:04<1:08:57,  4.89s/it][A
Training...:  68% 1764/2609 [1:42:09<1:06:51,  4.75s/it][A
Training...:  68% 1765/2609 [1:42:13<1:04:46,  4.60s/it][A
Training...:  68% 1766/2609 [1:42:17<1:02:40,  4.46s/it][A
Training...:  68% 1767/2609 [1:42:21<1:00:52,  4.34s/it][A
Training...:  68% 1768/2609 [1:42:25<59:15,  4.23s/it]  [A
Training...:  68% 1769/2609 [1:42:29<57:27,  4.10s/it][A
Training...:  68% 1770/2609 [1:42:33<55:34,  3.97s/it][A
Training...:  68% 1771/2609 [1:42:36<54:05,  3.87s/it][A
Training...:  68% 1772/2609 [1:42:40<52:26,  3.76s/it][A
Training...:  68% 1773/2609 [1:42:43<51:06,  3.67s/it][A
Training...:  68% 1774/2609 [1:42:47<50:01,  3.59s/it][A
Training...:  68% 1775/2609 [1:42:50<48:51,  3.52s/it][A
Training...:  68% 1776/2609 [1:42:53<47:07,  3.39s/it][A
Training...:  68% 1777/2609 [1:42:56<45:48,  3.30s/it][A
Training...:  68% 1778/2609 [1:42:59<44:22,  3.20s/it][A
Training...:  68% 1779/2609 [1:43:02<43:09,  3.12s/it][A
Training...:  68% 1780/2609 [1:43:05<41:47,  3.02s/it][A
Training...:  68% 1781/2609 [1:43:08<40:34,  2.94s/it][A
Training...:  68% 1782/2609 [1:43:10<39:13,  2.85s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:03:56<17:51:03, 9180.57s/it]
Training...:  68% 1782/2609 [1:43:13<39:13,  2.85s/it][A
Training...:  68% 1783/2609 [1:43:13<39:44,  2.89s/it][A
Training...:  68% 1784/2609 [1:43:16<37:51,  2.75s/it][A
Training...:  68% 1785/2609 [1:43:18<36:26,  2.65s/it][A
Training...:  68% 1786/2609 [1:43:21<35:03,  2.56s/it][A
Training...:  68% 1787/2609 [1:43:23<33:37,  2.45s/it][A
Training...:  69% 1788/2609 [1:43:25<32:12,  2.35s/it][A
Training...:  69% 1789/2609 [1:43:27<31:05,  2.27s/it][A
Training...:  69% 1790/2609 [1:43:29<29:39,  2.17s/it][A
Training...:  69% 1791/2609 [1:43:31<28:16,  2.07s/it][A
Training...:  69% 1792/2609 [1:43:33<26:48,  1.97s/it][A
Training...:  69% 1793/2609 [1:43:34<25:28,  1.87s/it][A
Training...:  69% 1794/2609 [1:43:36<23:58,  1.77s/it][A
Training...:  69% 1795/2609 [1:43:37<22:32,  1.66s/it][A
Training...:  69% 1796/2609 [1:43:38<20:58,  1.55s/it][A
Training...:  69% 1797/2609 [1:43:40<19:23,  1.43s/it][A
Training...:  69% 1798/2609 [1:43:41<17:42,  1.31s/it][A
Training...:  69% 1799/2609 [1:43:41<15:55,  1.18s/it][A
Training...:  69% 1800/2609 [1:43:42<13:29,  1.00s/it][A
Training...:  69% 1801/2609 [1:43:49<38:08,  2.83s/it][A
Training...:  69% 1802/2609 [1:43:56<55:10,  4.10s/it][A
Training...:  69% 1803/2609 [1:44:03<1:05:07,  4.85s/it][A
Training...:  69% 1804/2609 [1:44:09<1:11:08,  5.30s/it][A
Training...:  69% 1805/2609 [1:44:15<1:14:17,  5.54s/it][A
Training...:  69% 1806/2609 [1:44:21<1:14:48,  5.59s/it][A
Training...:  69% 1807/2609 [1:44:26<1:14:24,  5.57s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:05:15<17:51:03, 9180.57s/it]
Training...:  69% 1807/2609 [1:44:33<1:14:24,  5.57s/it][A
Training...:  69% 1808/2609 [1:44:33<1:16:17,  5.71s/it][A
Training...:  69% 1809/2609 [1:44:38<1:14:22,  5.58s/it][A
Training...:  69% 1810/2609 [1:44:43<1:12:29,  5.44s/it][A
Training...:  69% 1811/2609 [1:44:48<1:10:11,  5.28s/it][A
Training...:  69% 1812/2609 [1:44:52<1:07:18,  5.07s/it][A
Training...:  69% 1813/2609 [1:44:57<1:04:50,  4.89s/it][A
Training...:  70% 1814/2609 [1:45:01<1:02:54,  4.75s/it][A
Training...:  70% 1815/2609 [1:45:06<1:01:17,  4.63s/it][A
Training...:  70% 1816/2609 [1:45:10<58:59,  4.46s/it]  [A
Training...:  70% 1817/2609 [1:45:14<57:17,  4.34s/it][A
Training...:  70% 1818/2609 [1:45:18<55:25,  4.20s/it][A
Training...:  70% 1819/2609 [1:45:21<53:54,  4.09s/it][A
Training...:  70% 1820/2609 [1:45:25<52:24,  3.98s/it][A
Training...:  70% 1821/2609 [1:45:29<51:16,  3.90s/it][A
Training...:  70% 1822/2609 [1:45:33<49:58,  3.81s/it][A
Training...:  70% 1823/2609 [1:45:36<48:39,  3.71s/it][A
Training...:  70% 1824/2609 [1:45:39<47:20,  3.62s/it][A
Training...:  70% 1825/2609 [1:45:43<46:11,  3.54s/it][A
Training...:  70% 1826/2609 [1:45:46<44:45,  3.43s/it][A
Training...:  70% 1827/2609 [1:45:49<43:51,  3.37s/it][A
Training...:  70% 1828/2609 [1:45:52<42:32,  3.27s/it][A
Training...:  70% 1829/2609 [1:45:55<41:24,  3.18s/it][A
Training...:  70% 1830/2609 [1:45:58<40:14,  3.10s/it][A
Training...:  70% 1831/2609 [1:46:01<39:01,  3.01s/it][A
Training...:  70% 1832/2609 [1:46:04<37:51,  2.92s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:06:50<17:51:03, 9180.57s/it]
Training...:  70% 1832/2609 [1:46:07<37:51,  2.92s/it][A
Training...:  70% 1833/2609 [1:46:07<38:22,  2.97s/it][A
Training...:  70% 1834/2609 [1:46:09<36:45,  2.85s/it][A
Training...:  70% 1835/2609 [1:46:12<35:14,  2.73s/it][A
Training...:  70% 1836/2609 [1:46:14<33:46,  2.62s/it][A
Training...:  70% 1837/2609 [1:46:16<32:34,  2.53s/it][A
Training...:  70% 1838/2609 [1:46:19<31:20,  2.44s/it][A
Training...:  70% 1839/2609 [1:46:21<30:17,  2.36s/it][A
Training...:  71% 1840/2609 [1:46:23<28:45,  2.24s/it][A
Training...:  71% 1841/2609 [1:46:25<27:19,  2.14s/it][A
Training...:  71% 1842/2609 [1:46:26<25:52,  2.02s/it][A
Training...:  71% 1843/2609 [1:46:28<24:30,  1.92s/it][A
Training...:  71% 1844/2609 [1:46:30<23:03,  1.81s/it][A
Training...:  71% 1845/2609 [1:46:31<21:36,  1.70s/it][A
Training...:  71% 1846/2609 [1:46:32<20:03,  1.58s/it][A
Training...:  71% 1847/2609 [1:46:34<18:28,  1.45s/it][A
Training...:  71% 1848/2609 [1:46:35<16:44,  1.32s/it][A
Training...:  71% 1849/2609 [1:46:35<14:48,  1.17s/it][A
Training...:  71% 1850/2609 [1:46:36<12:29,  1.01it/s][A
Training...:  71% 1851/2609 [1:46:43<35:44,  2.83s/it][A
Training...:  71% 1852/2609 [1:46:50<51:49,  4.11s/it][A
Training...:  71% 1853/2609 [1:46:57<1:01:21,  4.87s/it][A
Training...:  71% 1854/2609 [1:47:03<1:06:38,  5.30s/it][A
Training...:  71% 1855/2609 [1:47:09<1:09:31,  5.53s/it][A
Training...:  71% 1856/2609 [1:47:15<1:10:13,  5.60s/it][A
Training...:  71% 1857/2609 [1:47:20<1:09:51,  5.57s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:08:09<17:51:03, 9180.57s/it]
Training...:  71% 1857/2609 [1:47:26<1:09:51,  5.57s/it][A
Training...:  71% 1858/2609 [1:47:26<1:11:26,  5.71s/it][A
Training...:  71% 1859/2609 [1:47:32<1:09:25,  5.55s/it][A
Training...:  71% 1860/2609 [1:47:37<1:06:57,  5.36s/it][A
Training...:  71% 1861/2609 [1:47:41<1:04:53,  5.21s/it][A
Training...:  71% 1862/2609 [1:47:46<1:02:27,  5.02s/it][A
Training...:  71% 1863/2609 [1:47:51<1:00:33,  4.87s/it][A
Training...:  71% 1864/2609 [1:47:55<58:34,  4.72s/it]  [A
Training...:  71% 1865/2609 [1:47:59<56:49,  4.58s/it][A
Training...:  72% 1866/2609 [1:48:03<54:46,  4.42s/it][A
Training...:  72% 1867/2609 [1:48:07<53:05,  4.29s/it][A
Training...:  72% 1868/2609 [1:48:11<51:20,  4.16s/it][A
Training...:  72% 1869/2609 [1:48:15<50:19,  4.08s/it][A
Training...:  72% 1870/2609 [1:48:19<49:02,  3.98s/it][A
Training...:  72% 1871/2609 [1:48:22<48:12,  3.92s/it][A
Training...:  72% 1872/2609 [1:48:26<46:37,  3.80s/it][A
Training...:  72% 1873/2609 [1:48:29<45:23,  3.70s/it][A
Training...:  72% 1874/2609 [1:48:33<44:01,  3.59s/it][A
Training...:  72% 1875/2609 [1:48:36<42:46,  3.50s/it][A
Training...:  72% 1876/2609 [1:48:39<41:11,  3.37s/it][A
Training...:  72% 1877/2609 [1:48:42<39:59,  3.28s/it][A
Training...:  72% 1878/2609 [1:48:45<38:51,  3.19s/it][A
Training...:  72% 1879/2609 [1:48:48<37:45,  3.10s/it][A
Training...:  72% 1880/2609 [1:48:51<36:45,  3.03s/it][A
Training...:  72% 1881/2609 [1:48:54<35:35,  2.93s/it][A
Training...:  72% 1882/2609 [1:48:56<34:16,  2.83s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:09:42<17:51:03, 9180.57s/it]
Training...:  72% 1882/2609 [1:48:59<34:16,  2.83s/it][A
Training...:  72% 1883/2609 [1:48:59<34:51,  2.88s/it][A
Training...:  72% 1884/2609 [1:49:02<33:12,  2.75s/it][A
Training...:  72% 1885/2609 [1:49:04<31:44,  2.63s/it][A
Training...:  72% 1886/2609 [1:49:06<30:26,  2.53s/it][A
Training...:  72% 1887/2609 [1:49:08<29:12,  2.43s/it][A
Training...:  72% 1888/2609 [1:49:11<27:55,  2.32s/it][A
Training...:  72% 1889/2609 [1:49:13<26:45,  2.23s/it][A
Training...:  72% 1890/2609 [1:49:15<25:36,  2.14s/it][A
Training...:  72% 1891/2609 [1:49:16<24:26,  2.04s/it][A
Training...:  73% 1892/2609 [1:49:18<23:15,  1.95s/it][A
Training...:  73% 1893/2609 [1:49:20<22:05,  1.85s/it][A
Training...:  73% 1894/2609 [1:49:21<20:50,  1.75s/it][A
Training...:  73% 1895/2609 [1:49:23<19:45,  1.66s/it][A
Training...:  73% 1896/2609 [1:49:24<18:16,  1.54s/it][A
Training...:  73% 1897/2609 [1:49:25<16:50,  1.42s/it][A
Training...:  73% 1898/2609 [1:49:26<15:18,  1.29s/it][A
Training...:  73% 1899/2609 [1:49:27<13:31,  1.14s/it][A
Training...:  73% 1900/2609 [1:49:27<11:23,  1.04it/s][A
Training...:  73% 1901/2609 [1:49:34<33:00,  2.80s/it][A
Training...:  73% 1902/2609 [1:49:41<47:40,  4.05s/it][A
Training...:  73% 1903/2609 [1:49:48<56:29,  4.80s/it][A
Training...:  73% 1904/2609 [1:49:54<1:01:29,  5.23s/it][A
Training...:  73% 1905/2609 [1:50:00<1:03:55,  5.45s/it][A
Training...:  73% 1906/2609 [1:50:06<1:04:20,  5.49s/it][A
Training...:  73% 1907/2609 [1:50:11<1:04:12,  5.49s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:11:00<17:51:03, 9180.57s/it]
Training...:  73% 1907/2609 [1:50:17<1:04:12,  5.49s/it][A
Training...:  73% 1908/2609 [1:50:17<1:06:02,  5.65s/it][A
Training...:  73% 1909/2609 [1:50:23<1:04:46,  5.55s/it][A
Training...:  73% 1910/2609 [1:50:27<1:02:15,  5.34s/it][A
Training...:  73% 1911/2609 [1:50:32<1:00:22,  5.19s/it][A
Training...:  73% 1912/2609 [1:50:37<57:53,  4.98s/it]  [A
Training...:  73% 1913/2609 [1:50:41<56:02,  4.83s/it][A
Training...:  73% 1914/2609 [1:50:46<54:02,  4.67s/it][A
Training...:  73% 1915/2609 [1:50:50<52:14,  4.52s/it][A
Training...:  73% 1916/2609 [1:50:54<50:21,  4.36s/it][A
Training...:  73% 1917/2609 [1:50:58<48:54,  4.24s/it][A
Training...:  74% 1918/2609 [1:51:02<47:33,  4.13s/it][A
Training...:  74% 1919/2609 [1:51:05<46:16,  4.02s/it][A
Training...:  74% 1920/2609 [1:51:09<44:55,  3.91s/it][A
Training...:  74% 1921/2609 [1:51:13<43:47,  3.82s/it][A
Training...:  74% 1922/2609 [1:51:16<42:24,  3.70s/it][A
Training...:  74% 1923/2609 [1:51:19<41:16,  3.61s/it][A
Training...:  74% 1924/2609 [1:51:23<40:05,  3.51s/it][A
Training...:  74% 1925/2609 [1:51:26<39:07,  3.43s/it][A
Training...:  74% 1926/2609 [1:51:29<37:58,  3.34s/it][A
Training...:  74% 1927/2609 [1:51:32<36:57,  3.25s/it][A
Training...:  74% 1928/2609 [1:51:35<35:58,  3.17s/it][A
Training...:  74% 1929/2609 [1:51:38<34:56,  3.08s/it][A
Training...:  74% 1930/2609 [1:51:41<33:47,  2.99s/it][A
Training...:  74% 1931/2609 [1:51:43<32:37,  2.89s/it][A
Training...:  74% 1932/2609 [1:51:46<31:31,  2.79s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:12:32<17:51:03, 9180.57s/it]
Training...:  74% 1932/2609 [1:51:49<31:31,  2.79s/it][A
Training...:  74% 1933/2609 [1:51:49<32:07,  2.85s/it][A
Training...:  74% 1934/2609 [1:51:51<30:33,  2.72s/it][A
Training...:  74% 1935/2609 [1:51:54<29:11,  2.60s/it][A
Training...:  74% 1936/2609 [1:51:56<27:49,  2.48s/it][A
Training...:  74% 1937/2609 [1:51:58<26:43,  2.39s/it][A
Training...:  74% 1938/2609 [1:52:00<25:35,  2.29s/it][A
Training...:  74% 1939/2609 [1:52:02<24:30,  2.19s/it][A
Training...:  74% 1940/2609 [1:52:04<23:24,  2.10s/it][A
Training...:  74% 1941/2609 [1:52:06<22:22,  2.01s/it][A
Training...:  74% 1942/2609 [1:52:07<21:17,  1.91s/it][A
Training...:  74% 1943/2609 [1:52:09<20:14,  1.82s/it][A
Training...:  75% 1944/2609 [1:52:11<19:05,  1.72s/it][A
Training...:  75% 1945/2609 [1:52:12<17:57,  1.62s/it][A
Training...:  75% 1946/2609 [1:52:13<16:40,  1.51s/it][A
Training...:  75% 1947/2609 [1:52:14<15:19,  1.39s/it][A
Training...:  75% 1948/2609 [1:52:15<13:43,  1.25s/it][A
Training...:  75% 1949/2609 [1:52:16<12:06,  1.10s/it][A
Training...:  75% 1950/2609 [1:52:16<10:17,  1.07it/s][A
Training...:  75% 1951/2609 [1:52:24<30:33,  2.79s/it][A
Training...:  75% 1952/2609 [1:52:31<45:05,  4.12s/it][A
Training...:  75% 1953/2609 [1:52:38<53:42,  4.91s/it][A
Training...:  75% 1954/2609 [1:52:44<58:08,  5.33s/it][A
Training...:  75% 1955/2609 [1:52:50<59:56,  5.50s/it][A
Training...:  75% 1956/2609 [1:52:55<1:00:24,  5.55s/it][A
Training...:  75% 1957/2609 [1:53:01<1:00:04,  5.53s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:13:50<17:51:03, 9180.57s/it]
Training...:  75% 1957/2609 [1:53:07<1:00:04,  5.53s/it][A
Training...:  75% 1958/2609 [1:53:07<1:01:15,  5.65s/it][A
Training...:  75% 1959/2609 [1:53:12<59:09,  5.46s/it]  [A
Training...:  75% 1960/2609 [1:53:17<57:02,  5.27s/it][A
Training...:  75% 1961/2609 [1:53:21<55:16,  5.12s/it][A
Training...:  75% 1962/2609 [1:53:26<53:33,  4.97s/it][A
Training...:  75% 1963/2609 [1:53:31<52:03,  4.84s/it][A
Training...:  75% 1964/2609 [1:53:35<50:22,  4.69s/it][A
Training...:  75% 1965/2609 [1:53:39<48:43,  4.54s/it][A
Training...:  75% 1966/2609 [1:53:43<47:10,  4.40s/it][A
Training...:  75% 1967/2609 [1:53:47<45:56,  4.29s/it][A
Training...:  75% 1968/2609 [1:53:51<44:35,  4.17s/it][A
Training...:  75% 1969/2609 [1:53:55<43:12,  4.05s/it][A
Training...:  76% 1970/2609 [1:53:59<41:56,  3.94s/it][A
Training...:  76% 1971/2609 [1:54:02<40:48,  3.84s/it][A
Training...:  76% 1972/2609 [1:54:06<39:35,  3.73s/it][A
Training...:  76% 1973/2609 [1:54:09<38:51,  3.67s/it][A
Training...:  76% 1974/2609 [1:54:13<38:20,  3.62s/it][A
Training...:  76% 1975/2609 [1:54:16<37:16,  3.53s/it][A
Training...:  76% 1976/2609 [1:54:19<36:06,  3.42s/it][A
Training...:  76% 1977/2609 [1:54:22<35:00,  3.32s/it][A
Training...:  76% 1978/2609 [1:54:25<33:51,  3.22s/it][A
Training...:  76% 1979/2609 [1:54:28<32:53,  3.13s/it][A
Training...:  76% 1980/2609 [1:54:31<32:02,  3.06s/it][A
Training...:  76% 1981/2609 [1:54:34<31:10,  2.98s/it][A
Training...:  76% 1982/2609 [1:54:37<30:09,  2.89s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:15:22<17:51:03, 9180.57s/it]
Training...:  76% 1982/2609 [1:54:40<30:09,  2.89s/it][A
Training...:  76% 1983/2609 [1:54:40<30:34,  2.93s/it][A
Training...:  76% 1984/2609 [1:54:42<29:01,  2.79s/it][A
Training...:  76% 1985/2609 [1:54:44<27:37,  2.66s/it][A
Training...:  76% 1986/2609 [1:54:47<26:23,  2.54s/it][A
Training...:  76% 1987/2609 [1:54:49<25:23,  2.45s/it][A
Training...:  76% 1988/2609 [1:54:51<24:16,  2.35s/it][A
Training...:  76% 1989/2609 [1:54:53<23:14,  2.25s/it][A
Training...:  76% 1990/2609 [1:54:55<22:15,  2.16s/it][A
Training...:  76% 1991/2609 [1:54:57<21:17,  2.07s/it][A
Training...:  76% 1992/2609 [1:54:59<20:17,  1.97s/it][A
Training...:  76% 1993/2609 [1:55:00<19:23,  1.89s/it][A
Training...:  76% 1994/2609 [1:55:02<18:20,  1.79s/it][A
Training...:  76% 1995/2609 [1:55:03<17:20,  1.69s/it][A
Training...:  77% 1996/2609 [1:55:05<16:04,  1.57s/it][A
Training...:  77% 1997/2609 [1:55:06<14:45,  1.45s/it][A
Training...:  77% 1998/2609 [1:55:07<13:19,  1.31s/it][A
Training...:  77% 1999/2609 [1:55:08<11:52,  1.17s/it][A
Training...:  77% 2000/2609 [1:55:08<10:01,  1.01it/s][A
Training...:  77% 2001/2609 [1:55:15<28:33,  2.82s/it][A
Training...:  77% 2002/2609 [1:55:22<41:09,  4.07s/it][A
Training...:  77% 2003/2609 [1:55:29<48:17,  4.78s/it][A
Training...:  77% 2004/2609 [1:55:35<52:28,  5.20s/it][A
Training...:  77% 2005/2609 [1:55:41<54:32,  5.42s/it][A
Training...:  77% 2006/2609 [1:55:46<55:03,  5.48s/it][A
Training...:  77% 2007/2609 [1:55:52<54:56,  5.48s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:16:41<17:51:03, 9180.57s/it]
Training...:  77% 2007/2609 [1:55:58<54:56,  5.48s/it][A
Training...:  77% 2008/2609 [1:55:58<56:33,  5.65s/it][A
Training...:  77% 2009/2609 [1:56:03<54:47,  5.48s/it][A
Training...:  77% 2010/2609 [1:56:08<52:47,  5.29s/it][A
Training...:  77% 2011/2609 [1:56:13<51:12,  5.14s/it][A
Training...:  77% 2012/2609 [1:56:17<49:52,  5.01s/it][A
Training...:  77% 2013/2609 [1:56:22<48:42,  4.90s/it][A
Training...:  77% 2014/2609 [1:56:26<47:00,  4.74s/it][A
Training...:  77% 2015/2609 [1:56:31<45:34,  4.60s/it][A
Training...:  77% 2016/2609 [1:56:35<44:07,  4.46s/it][A
Training...:  77% 2017/2609 [1:56:39<42:47,  4.34s/it][A
Training...:  77% 2018/2609 [1:56:43<41:31,  4.22s/it][A
Training...:  77% 2019/2609 [1:56:47<40:13,  4.09s/it][A
Training...:  77% 2020/2609 [1:56:50<38:54,  3.96s/it][A
Training...:  77% 2021/2609 [1:56:54<37:54,  3.87s/it][A
Training...:  78% 2022/2609 [1:56:57<36:43,  3.75s/it][A
Training...:  78% 2023/2609 [1:57:01<35:42,  3.66s/it][A
Training...:  78% 2024/2609 [1:57:04<34:39,  3.55s/it][A
Training...:  78% 2025/2609 [1:57:07<33:42,  3.46s/it][A
Training...:  78% 2026/2609 [1:57:10<32:45,  3.37s/it][A
Training...:  78% 2027/2609 [1:57:14<32:01,  3.30s/it][A
Training...:  78% 2028/2609 [1:57:17<31:01,  3.20s/it][A
Training...:  78% 2029/2609 [1:57:20<30:11,  3.12s/it][A
Training...:  78% 2030/2609 [1:57:22<29:13,  3.03s/it][A
Training...:  78% 2031/2609 [1:57:25<28:24,  2.95s/it][A
Training...:  78% 2032/2609 [1:57:28<27:26,  2.85s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:18:14<17:51:03, 9180.57s/it]
Training...:  78% 2032/2609 [1:57:31<27:26,  2.85s/it][A
Training...:  78% 2033/2609 [1:57:31<27:46,  2.89s/it][A
Training...:  78% 2034/2609 [1:57:33<26:28,  2.76s/it][A
Training...:  78% 2035/2609 [1:57:36<25:15,  2.64s/it][A
Training...:  78% 2036/2609 [1:57:38<24:09,  2.53s/it][A
Training...:  78% 2037/2609 [1:57:40<23:06,  2.42s/it][A
Training...:  78% 2038/2609 [1:57:42<22:08,  2.33s/it][A
Training...:  78% 2039/2609 [1:57:44<21:10,  2.23s/it][A
Training...:  78% 2040/2609 [1:57:46<20:14,  2.14s/it][A
Training...:  78% 2041/2609 [1:57:48<19:24,  2.05s/it][A
Training...:  78% 2042/2609 [1:57:50<18:29,  1.96s/it][A
Training...:  78% 2043/2609 [1:57:51<17:37,  1.87s/it][A
Training...:  78% 2044/2609 [1:57:53<16:38,  1.77s/it][A
Training...:  78% 2045/2609 [1:57:54<15:37,  1.66s/it][A
Training...:  78% 2046/2609 [1:57:56<14:33,  1.55s/it][A
Training...:  78% 2047/2609 [1:57:57<13:25,  1.43s/it][A
Training...:  78% 2048/2609 [1:57:58<12:10,  1.30s/it][A
Training...:  79% 2049/2609 [1:57:58<10:45,  1.15s/it][A
Training...:  79% 2050/2609 [1:57:59<09:01,  1.03it/s][A
Training...:  79% 2051/2609 [1:58:06<25:59,  2.79s/it][A
Training...:  79% 2052/2609 [1:58:13<37:51,  4.08s/it][A
Training...:  79% 2053/2609 [1:58:20<44:43,  4.83s/it][A
Training...:  79% 2054/2609 [1:58:26<48:10,  5.21s/it][A
Training...:  79% 2055/2609 [1:58:32<50:10,  5.43s/it][A
Training...:  79% 2056/2609 [1:58:37<50:42,  5.50s/it][A
Training...:  79% 2057/2609 [1:58:43<50:33,  5.49s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:19:32<17:51:03, 9180.57s/it]
Training...:  79% 2057/2609 [1:58:49<50:33,  5.49s/it][A
Training...:  79% 2058/2609 [1:58:49<51:47,  5.64s/it][A
Training...:  79% 2059/2609 [1:58:54<50:05,  5.46s/it][A
Training...:  79% 2060/2609 [1:58:59<48:20,  5.28s/it][A
Training...:  79% 2061/2609 [1:59:04<46:42,  5.11s/it][A
Training...:  79% 2062/2609 [1:59:08<45:08,  4.95s/it][A
Training...:  79% 2063/2609 [1:59:13<44:02,  4.84s/it][A
Training...:  79% 2064/2609 [1:59:17<42:52,  4.72s/it][A
Training...:  79% 2065/2609 [1:59:21<41:51,  4.62s/it][A
Training...:  79% 2066/2609 [1:59:26<40:30,  4.48s/it][A
Training...:  79% 2067/2609 [1:59:30<39:15,  4.35s/it][A
Training...:  79% 2068/2609 [1:59:34<37:56,  4.21s/it][A
Training...:  79% 2069/2609 [1:59:37<36:51,  4.09s/it][A
Training...:  79% 2070/2609 [1:59:41<35:42,  3.97s/it][A
Training...:  79% 2071/2609 [1:59:45<34:40,  3.87s/it][A
Training...:  79% 2072/2609 [1:59:48<33:48,  3.78s/it][A
Training...:  79% 2073/2609 [1:59:52<32:44,  3.66s/it][A
Training...:  79% 2074/2609 [1:59:55<31:39,  3.55s/it][A
Training...:  80% 2075/2609 [1:59:58<30:42,  3.45s/it][A
Training...:  80% 2076/2609 [2:00:01<29:45,  3.35s/it][A
Training...:  80% 2077/2609 [2:00:04<28:52,  3.26s/it][A
Training...:  80% 2078/2609 [2:00:07<28:00,  3.17s/it][A
Training...:  80% 2079/2609 [2:00:10<27:07,  3.07s/it][A
Training...:  80% 2080/2609 [2:00:13<26:13,  2.97s/it][A
Training...:  80% 2081/2609 [2:00:16<25:26,  2.89s/it][A
Training...:  80% 2082/2609 [2:00:18<24:37,  2.80s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:21:04<17:51:03, 9180.57s/it]
Training...:  80% 2082/2609 [2:00:21<24:37,  2.80s/it][A
Training...:  80% 2083/2609 [2:00:21<25:05,  2.86s/it][A
Training...:  80% 2084/2609 [2:00:24<23:50,  2.73s/it][A
Training...:  80% 2085/2609 [2:00:26<22:44,  2.60s/it][A
Training...:  80% 2086/2609 [2:00:28<21:44,  2.49s/it][A
Training...:  80% 2087/2609 [2:00:30<20:44,  2.38s/it][A
Training...:  80% 2088/2609 [2:00:32<19:48,  2.28s/it][A
Training...:  80% 2089/2609 [2:00:34<18:53,  2.18s/it][A
Training...:  80% 2090/2609 [2:00:36<17:58,  2.08s/it][A
Training...:  80% 2091/2609 [2:00:38<17:13,  2.00s/it][A
Training...:  80% 2092/2609 [2:00:40<16:22,  1.90s/it][A
Training...:  80% 2093/2609 [2:00:41<15:26,  1.80s/it][A
Training...:  80% 2094/2609 [2:00:43<14:34,  1.70s/it][A
Training...:  80% 2095/2609 [2:00:44<13:42,  1.60s/it][A
Training...:  80% 2096/2609 [2:00:45<12:44,  1.49s/it][A
Training...:  80% 2097/2609 [2:00:46<11:45,  1.38s/it][A
Training...:  80% 2098/2609 [2:00:47<10:36,  1.25s/it][A
Training...:  80% 2099/2609 [2:00:48<09:23,  1.10s/it][A
Training...:  80% 2100/2609 [2:00:49<07:58,  1.06it/s][A
Training...:  81% 2101/2609 [2:00:56<23:40,  2.80s/it][A
Training...:  81% 2102/2609 [2:01:03<34:28,  4.08s/it][A
Training...:  81% 2103/2609 [2:01:09<40:48,  4.84s/it][A
Training...:  81% 2104/2609 [2:01:16<44:34,  5.30s/it][A
Training...:  81% 2105/2609 [2:01:22<46:39,  5.55s/it][A
Training...:  81% 2106/2609 [2:01:28<47:28,  5.66s/it][A
Training...:  81% 2107/2609 [2:01:33<47:03,  5.62s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:22:22<17:51:03, 9180.57s/it]
Training...:  81% 2107/2609 [2:01:39<47:03,  5.62s/it][A
Training...:  81% 2108/2609 [2:01:39<48:06,  5.76s/it][A
Training...:  81% 2109/2609 [2:01:45<46:37,  5.59s/it][A
Training...:  81% 2110/2609 [2:01:50<44:54,  5.40s/it][A
Training...:  81% 2111/2609 [2:01:54<43:27,  5.24s/it][A
Training...:  81% 2112/2609 [2:01:59<41:56,  5.06s/it][A
Training...:  81% 2113/2609 [2:02:04<40:42,  4.92s/it][A
Training...:  81% 2114/2609 [2:02:08<39:16,  4.76s/it][A
Training...:  81% 2115/2609 [2:02:12<38:07,  4.63s/it][A
Training...:  81% 2116/2609 [2:02:17<36:49,  4.48s/it][A
Training...:  81% 2117/2609 [2:02:21<35:49,  4.37s/it][A
Training...:  81% 2118/2609 [2:02:25<34:39,  4.24s/it][A
Training...:  81% 2119/2609 [2:02:28<33:39,  4.12s/it][A
Training...:  81% 2120/2609 [2:02:32<32:31,  3.99s/it][A
Training...:  81% 2121/2609 [2:02:36<31:37,  3.89s/it][A
Training...:  81% 2122/2609 [2:02:39<30:36,  3.77s/it][A
Training...:  81% 2123/2609 [2:02:43<29:48,  3.68s/it][A
Training...:  81% 2124/2609 [2:02:46<28:52,  3.57s/it][A
Training...:  81% 2125/2609 [2:02:49<28:04,  3.48s/it][A
Training...:  81% 2126/2609 [2:02:52<27:11,  3.38s/it][A
Training...:  82% 2127/2609 [2:02:56<26:26,  3.29s/it][A
Training...:  82% 2128/2609 [2:02:59<25:44,  3.21s/it][A
Training...:  82% 2129/2609 [2:03:02<25:08,  3.14s/it][A
Training...:  82% 2130/2609 [2:03:04<24:22,  3.05s/it][A
Training...:  82% 2131/2609 [2:03:07<23:48,  2.99s/it][A
Training...:  82% 2132/2609 [2:03:10<22:55,  2.88s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:23:56<17:51:03, 9180.57s/it]
Training...:  82% 2132/2609 [2:03:13<22:55,  2.88s/it][A
Training...:  82% 2133/2609 [2:03:13<23:18,  2.94s/it][A
Training...:  82% 2134/2609 [2:03:15<22:12,  2.80s/it][A
Training...:  82% 2135/2609 [2:03:18<21:27,  2.72s/it][A
Training...:  82% 2136/2609 [2:03:20<20:35,  2.61s/it][A
Training...:  82% 2137/2609 [2:03:23<19:44,  2.51s/it][A
Training...:  82% 2138/2609 [2:03:25<18:49,  2.40s/it][A
Training...:  82% 2139/2609 [2:03:27<17:59,  2.30s/it][A
Training...:  82% 2140/2609 [2:03:29<17:12,  2.20s/it][A
Training...:  82% 2141/2609 [2:03:31<16:26,  2.11s/it][A
Training...:  82% 2142/2609 [2:03:32<15:39,  2.01s/it][A
Training...:  82% 2143/2609 [2:03:34<14:56,  1.92s/it][A
Training...:  82% 2144/2609 [2:03:36<14:07,  1.82s/it][A
Training...:  82% 2145/2609 [2:03:37<13:15,  1.72s/it][A
Training...:  82% 2146/2609 [2:03:39<12:22,  1.60s/it][A
Training...:  82% 2147/2609 [2:03:40<11:26,  1.49s/it][A
Training...:  82% 2148/2609 [2:03:41<10:22,  1.35s/it][A
Training...:  82% 2149/2609 [2:03:42<09:07,  1.19s/it][A
Training...:  82% 2150/2609 [2:03:42<07:36,  1.01it/s][A
Training...:  82% 2151/2609 [2:03:49<21:49,  2.86s/it][A
Training...:  82% 2152/2609 [2:03:57<31:38,  4.15s/it][A
Training...:  83% 2153/2609 [2:04:03<37:07,  4.88s/it][A
Training...:  83% 2154/2609 [2:04:09<40:22,  5.32s/it][A
Training...:  83% 2155/2609 [2:04:16<42:07,  5.57s/it][A
Training...:  83% 2156/2609 [2:04:21<42:37,  5.65s/it][A
Training...:  83% 2157/2609 [2:04:27<42:38,  5.66s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:25:16<17:51:03, 9180.57s/it]
Training...:  83% 2157/2609 [2:04:33<42:38,  5.66s/it][A
Training...:  83% 2158/2609 [2:04:33<43:45,  5.82s/it][A
Training...:  83% 2159/2609 [2:04:39<42:27,  5.66s/it][A
Training...:  83% 2160/2609 [2:04:44<41:03,  5.49s/it][A
Training...:  83% 2161/2609 [2:04:49<39:44,  5.32s/it][A
Training...:  83% 2162/2609 [2:04:53<38:17,  5.14s/it][A
Training...:  83% 2163/2609 [2:04:58<37:06,  4.99s/it][A
Training...:  83% 2164/2609 [2:05:02<35:56,  4.85s/it][A
Training...:  83% 2165/2609 [2:05:07<35:00,  4.73s/it][A
Training...:  83% 2166/2609 [2:05:11<33:43,  4.57s/it][A
Training...:  83% 2167/2609 [2:05:15<32:45,  4.45s/it][A
Training...:  83% 2168/2609 [2:05:19<31:39,  4.31s/it][A
Training...:  83% 2169/2609 [2:05:23<30:40,  4.18s/it][A
Training...:  83% 2170/2609 [2:05:27<30:04,  4.11s/it][A
Training...:  83% 2171/2609 [2:05:31<29:21,  4.02s/it][A
Training...:  83% 2172/2609 [2:05:35<28:17,  3.88s/it][A
Training...:  83% 2173/2609 [2:05:38<27:27,  3.78s/it][A
Training...:  83% 2174/2609 [2:05:41<26:32,  3.66s/it][A
Training...:  83% 2175/2609 [2:05:45<25:51,  3.58s/it][A
Training...:  83% 2176/2609 [2:05:48<25:05,  3.48s/it][A
Training...:  83% 2177/2609 [2:05:51<24:16,  3.37s/it][A
Training...:  83% 2178/2609 [2:05:54<23:31,  3.28s/it][A
Training...:  84% 2179/2609 [2:05:57<22:48,  3.18s/it][A
Training...:  84% 2180/2609 [2:06:00<21:59,  3.08s/it][A
Training...:  84% 2181/2609 [2:06:03<21:19,  2.99s/it][A
Training...:  84% 2182/2609 [2:06:05<20:33,  2.89s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:26:51<17:51:03, 9180.57s/it]
Training...:  84% 2182/2609 [2:06:08<20:33,  2.89s/it][A
Training...:  84% 2183/2609 [2:06:08<20:47,  2.93s/it][A
Training...:  84% 2184/2609 [2:06:11<19:45,  2.79s/it][A
Training...:  84% 2185/2609 [2:06:13<18:54,  2.67s/it][A
Training...:  84% 2186/2609 [2:06:16<18:05,  2.57s/it][A
Training...:  84% 2187/2609 [2:06:18<17:20,  2.47s/it][A
Training...:  84% 2188/2609 [2:06:20<16:35,  2.36s/it][A
Training...:  84% 2189/2609 [2:06:22<15:53,  2.27s/it][A
Training...:  84% 2190/2609 [2:06:24<15:08,  2.17s/it][A
Training...:  84% 2191/2609 [2:06:26<14:25,  2.07s/it][A
Training...:  84% 2192/2609 [2:06:28<13:41,  1.97s/it][A
Training...:  84% 2193/2609 [2:06:29<12:59,  1.87s/it][A
Training...:  84% 2194/2609 [2:06:31<12:15,  1.77s/it][A
Training...:  84% 2195/2609 [2:06:32<11:31,  1.67s/it][A
Training...:  84% 2196/2609 [2:06:33<10:42,  1.56s/it][A
Training...:  84% 2197/2609 [2:06:35<09:53,  1.44s/it][A
Training...:  84% 2198/2609 [2:06:36<08:59,  1.31s/it][A
Training...:  84% 2199/2609 [2:06:37<07:58,  1.17s/it][A
Training...:  84% 2200/2609 [2:06:37<06:44,  1.01it/s][A
Training...:  84% 2201/2609 [2:06:44<19:00,  2.79s/it][A
Training...:  84% 2202/2609 [2:06:51<27:33,  4.06s/it][A
Training...:  84% 2203/2609 [2:06:58<32:24,  4.79s/it][A
Training...:  84% 2204/2609 [2:07:04<34:56,  5.18s/it][A
Training...:  85% 2205/2609 [2:07:10<36:10,  5.37s/it][A
Training...:  85% 2206/2609 [2:07:15<36:29,  5.43s/it][A
Training...:  85% 2207/2609 [2:07:21<36:28,  5.44s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:28:09<17:51:03, 9180.57s/it]
Training...:  85% 2207/2609 [2:07:27<36:28,  5.44s/it][A
Training...:  85% 2208/2609 [2:07:27<37:29,  5.61s/it][A
Training...:  85% 2209/2609 [2:07:32<36:20,  5.45s/it][A
Training...:  85% 2210/2609 [2:07:37<35:06,  5.28s/it][A
Training...:  85% 2211/2609 [2:07:41<34:08,  5.15s/it][A
Training...:  85% 2212/2609 [2:07:46<33:06,  5.00s/it][A
Training...:  85% 2213/2609 [2:07:51<32:06,  4.86s/it][A
Training...:  85% 2214/2609 [2:07:55<30:57,  4.70s/it][A
Training...:  85% 2215/2609 [2:07:59<30:03,  4.58s/it][A
Training...:  85% 2216/2609 [2:08:03<29:06,  4.45s/it][A
Training...:  85% 2217/2609 [2:08:07<28:19,  4.34s/it][A
Training...:  85% 2218/2609 [2:08:11<27:18,  4.19s/it][A
Training...:  85% 2219/2609 [2:08:15<26:32,  4.08s/it][A
Training...:  85% 2220/2609 [2:08:19<25:44,  3.97s/it][A
Training...:  85% 2221/2609 [2:08:22<25:02,  3.87s/it][A
Training...:  85% 2222/2609 [2:08:26<24:33,  3.81s/it][A
Training...:  85% 2223/2609 [2:08:30<23:52,  3.71s/it][A
Training...:  85% 2224/2609 [2:08:33<23:11,  3.61s/it][A
Training...:  85% 2225/2609 [2:08:36<22:21,  3.49s/it][A
Training...:  85% 2226/2609 [2:08:39<21:33,  3.38s/it][A
Training...:  85% 2227/2609 [2:08:42<20:52,  3.28s/it][A
Training...:  85% 2228/2609 [2:08:45<20:06,  3.17s/it][A
Training...:  85% 2229/2609 [2:08:48<19:27,  3.07s/it][A
Training...:  85% 2230/2609 [2:08:51<18:48,  2.98s/it][A
Training...:  86% 2231/2609 [2:08:54<18:15,  2.90s/it][A
Training...:  86% 2232/2609 [2:08:56<17:36,  2.80s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:29:42<17:51:03, 9180.57s/it]
Training...:  86% 2232/2609 [2:08:59<17:36,  2.80s/it][A
Training...:  86% 2233/2609 [2:08:59<17:58,  2.87s/it][A
Training...:  86% 2234/2609 [2:09:02<17:07,  2.74s/it][A
Training...:  86% 2235/2609 [2:09:04<16:22,  2.63s/it][A
Training...:  86% 2236/2609 [2:09:06<15:42,  2.53s/it][A
Training...:  86% 2237/2609 [2:09:08<15:03,  2.43s/it][A
Training...:  86% 2238/2609 [2:09:11<14:25,  2.33s/it][A
Training...:  86% 2239/2609 [2:09:13<13:47,  2.24s/it][A
Training...:  86% 2240/2609 [2:09:14<13:08,  2.14s/it][A
Training...:  86% 2241/2609 [2:09:16<12:31,  2.04s/it][A
Training...:  86% 2242/2609 [2:09:18<11:55,  1.95s/it][A
Training...:  86% 2243/2609 [2:09:20<11:18,  1.85s/it][A
Training...:  86% 2244/2609 [2:09:21<10:41,  1.76s/it][A
Training...:  86% 2245/2609 [2:09:23<10:05,  1.66s/it][A
Training...:  86% 2246/2609 [2:09:24<09:25,  1.56s/it][A
Training...:  86% 2247/2609 [2:09:25<08:41,  1.44s/it][A
Training...:  86% 2248/2609 [2:09:26<07:56,  1.32s/it][A
Training...:  86% 2249/2609 [2:09:27<07:04,  1.18s/it][A
Training...:  86% 2250/2609 [2:09:28<05:56,  1.01it/s][A
Training...:  86% 2251/2609 [2:09:35<16:51,  2.82s/it][A
Training...:  86% 2252/2609 [2:09:42<24:14,  4.07s/it][A
Training...:  86% 2253/2609 [2:09:48<28:37,  4.82s/it][A
Training...:  86% 2254/2609 [2:09:54<30:59,  5.24s/it][A
Training...:  86% 2255/2609 [2:10:00<32:07,  5.44s/it][A
Training...:  86% 2256/2609 [2:10:06<32:14,  5.48s/it][A
Training...:  87% 2257/2609 [2:10:11<32:07,  5.47s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:31:00<17:51:03, 9180.57s/it]
Training...:  87% 2257/2609 [2:10:17<32:07,  5.47s/it][A
Training...:  87% 2258/2609 [2:10:17<32:59,  5.64s/it][A
Training...:  87% 2259/2609 [2:10:23<32:02,  5.49s/it][A
Training...:  87% 2260/2609 [2:10:27<30:57,  5.32s/it][A
Training...:  87% 2261/2609 [2:10:32<29:52,  5.15s/it][A
Training...:  87% 2262/2609 [2:10:37<28:50,  4.99s/it][A
Training...:  87% 2263/2609 [2:10:41<27:58,  4.85s/it][A
Training...:  87% 2264/2609 [2:10:46<27:00,  4.70s/it][A
Training...:  87% 2265/2609 [2:10:50<26:12,  4.57s/it][A
Training...:  87% 2266/2609 [2:10:54<25:19,  4.43s/it][A
Training...:  87% 2267/2609 [2:10:58<24:31,  4.30s/it][A
Training...:  87% 2268/2609 [2:11:02<23:39,  4.16s/it][A
Training...:  87% 2269/2609 [2:11:06<23:02,  4.07s/it][A
Training...:  87% 2270/2609 [2:11:09<22:16,  3.94s/it][A
Training...:  87% 2271/2609 [2:11:13<21:35,  3.83s/it][A
Training...:  87% 2272/2609 [2:11:16<20:55,  3.72s/it][A
Training...:  87% 2273/2609 [2:11:20<20:22,  3.64s/it][A
Training...:  87% 2274/2609 [2:11:23<19:47,  3.54s/it][A
Training...:  87% 2275/2609 [2:11:26<19:10,  3.44s/it][A
Training...:  87% 2276/2609 [2:11:30<18:40,  3.36s/it][A
Training...:  87% 2277/2609 [2:11:33<18:06,  3.27s/it][A
Training...:  87% 2278/2609 [2:11:36<17:40,  3.20s/it][A
Training...:  87% 2279/2609 [2:11:39<17:18,  3.15s/it][A
Training...:  87% 2280/2609 [2:11:42<16:43,  3.05s/it][A
Training...:  87% 2281/2609 [2:11:44<16:17,  2.98s/it][A
Training...:  87% 2282/2609 [2:11:47<15:43,  2.88s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:32:33<17:51:03, 9180.57s/it]
Training...:  87% 2282/2609 [2:11:50<15:43,  2.88s/it][A
Training...:  88% 2283/2609 [2:11:50<15:59,  2.94s/it][A
Training...:  88% 2284/2609 [2:11:53<15:14,  2.81s/it][A
Training...:  88% 2285/2609 [2:11:55<14:34,  2.70s/it][A
Training...:  88% 2286/2609 [2:11:57<13:53,  2.58s/it][A
Training...:  88% 2287/2609 [2:12:00<13:16,  2.47s/it][A
Training...:  88% 2288/2609 [2:12:02<12:39,  2.36s/it][A
Training...:  88% 2289/2609 [2:12:04<12:06,  2.27s/it][A
Training...:  88% 2290/2609 [2:12:06<11:33,  2.17s/it][A
Training...:  88% 2291/2609 [2:12:08<11:03,  2.09s/it][A
Training...:  88% 2292/2609 [2:12:09<10:28,  1.98s/it][A
Training...:  88% 2293/2609 [2:12:11<09:53,  1.88s/it][A
Training...:  88% 2294/2609 [2:12:12<09:19,  1.78s/it][A
Training...:  88% 2295/2609 [2:12:14<08:44,  1.67s/it][A
Training...:  88% 2296/2609 [2:12:15<08:07,  1.56s/it][A
Training...:  88% 2297/2609 [2:12:16<07:29,  1.44s/it][A
Training...:  88% 2298/2609 [2:12:17<06:46,  1.31s/it][A
Training...:  88% 2299/2609 [2:12:18<05:58,  1.16s/it][A
Training...:  88% 2300/2609 [2:12:19<04:58,  1.04it/s][A
Training...:  88% 2301/2609 [2:12:26<14:21,  2.80s/it][A
Training...:  88% 2302/2609 [2:12:33<20:55,  4.09s/it][A
Training...:  88% 2303/2609 [2:12:39<24:35,  4.82s/it][A
Training...:  88% 2304/2609 [2:12:46<26:44,  5.26s/it][A
Training...:  88% 2305/2609 [2:12:52<27:42,  5.47s/it][A
Training...:  88% 2306/2609 [2:12:57<28:01,  5.55s/it][A
Training...:  88% 2307/2609 [2:13:03<27:48,  5.52s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:33:52<17:51:03, 9180.57s/it]
Training...:  88% 2307/2609 [2:13:09<27:48,  5.52s/it][A
Training...:  88% 2308/2609 [2:13:09<28:27,  5.67s/it][A
Training...:  89% 2309/2609 [2:13:14<27:28,  5.49s/it][A
Training...:  89% 2310/2609 [2:13:19<26:25,  5.30s/it][A
Training...:  89% 2311/2609 [2:13:24<25:41,  5.17s/it][A
Training...:  89% 2312/2609 [2:13:28<24:43,  4.99s/it][A
Training...:  89% 2313/2609 [2:13:33<23:57,  4.86s/it][A
Training...:  89% 2314/2609 [2:13:37<23:10,  4.71s/it][A
Training...:  89% 2315/2609 [2:13:41<22:28,  4.59s/it][A
Training...:  89% 2316/2609 [2:13:46<21:50,  4.47s/it][A
Training...:  89% 2317/2609 [2:13:50<21:12,  4.36s/it][A
Training...:  89% 2318/2609 [2:13:54<20:32,  4.23s/it][A
Training...:  89% 2319/2609 [2:13:58<19:57,  4.13s/it][A
Training...:  89% 2320/2609 [2:14:01<19:16,  4.00s/it][A
Training...:  89% 2321/2609 [2:14:05<18:44,  3.91s/it][A
Training...:  89% 2322/2609 [2:14:09<18:11,  3.80s/it][A
Training...:  89% 2323/2609 [2:14:12<17:46,  3.73s/it][A
Training...:  89% 2324/2609 [2:14:15<17:13,  3.63s/it][A
Training...:  89% 2325/2609 [2:14:19<16:39,  3.52s/it][A
Training...:  89% 2326/2609 [2:14:22<16:05,  3.41s/it][A
Training...:  89% 2327/2609 [2:14:25<15:33,  3.31s/it][A
Training...:  89% 2328/2609 [2:14:28<15:04,  3.22s/it][A
Training...:  89% 2329/2609 [2:14:31<14:36,  3.13s/it][A
Training...:  89% 2330/2609 [2:14:34<14:05,  3.03s/it][A
Training...:  89% 2331/2609 [2:14:36<13:38,  2.94s/it][A
Training...:  89% 2332/2609 [2:14:39<13:07,  2.84s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:35:25<17:51:03, 9180.57s/it]
Training...:  89% 2332/2609 [2:14:42<13:07,  2.84s/it][A
Training...:  89% 2333/2609 [2:14:42<13:14,  2.88s/it][A
Training...:  89% 2334/2609 [2:14:44<12:40,  2.77s/it][A
Training...:  89% 2335/2609 [2:14:47<12:08,  2.66s/it][A
Training...:  90% 2336/2609 [2:14:49<11:37,  2.56s/it][A
Training...:  90% 2337/2609 [2:14:51<11:08,  2.46s/it][A
Training...:  90% 2338/2609 [2:14:54<10:42,  2.37s/it][A
Training...:  90% 2339/2609 [2:14:56<10:17,  2.29s/it][A
Training...:  90% 2340/2609 [2:14:58<09:49,  2.19s/it][A
Training...:  90% 2341/2609 [2:15:00<09:24,  2.11s/it][A
Training...:  90% 2342/2609 [2:15:01<08:55,  2.01s/it][A
Training...:  90% 2343/2609 [2:15:03<08:28,  1.91s/it][A
Training...:  90% 2344/2609 [2:15:05<08:00,  1.81s/it][A
Training...:  90% 2345/2609 [2:15:06<07:32,  1.72s/it][A
Training...:  90% 2346/2609 [2:15:07<07:01,  1.60s/it][A
Training...:  90% 2347/2609 [2:15:09<06:28,  1.48s/it][A
Training...:  90% 2348/2609 [2:15:10<05:52,  1.35s/it][A
Training...:  90% 2349/2609 [2:15:11<05:08,  1.19s/it][A
Training...:  90% 2350/2609 [2:15:11<04:20,  1.00s/it][A
Training...:  90% 2351/2609 [2:15:18<12:19,  2.86s/it][A
Training...:  90% 2352/2609 [2:15:25<17:45,  4.15s/it][A
Training...:  90% 2353/2609 [2:15:32<21:00,  4.92s/it][A
Training...:  90% 2354/2609 [2:15:39<22:45,  5.35s/it][A
Training...:  90% 2355/2609 [2:15:45<23:35,  5.57s/it][A
Training...:  90% 2356/2609 [2:15:51<24:06,  5.72s/it][A
Training...:  90% 2357/2609 [2:15:56<23:47,  5.67s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:36:45<17:51:03, 9180.57s/it]
Training...:  90% 2357/2609 [2:16:02<23:47,  5.67s/it][A
Training...:  90% 2358/2609 [2:16:02<24:11,  5.78s/it][A
Training...:  90% 2359/2609 [2:16:07<23:22,  5.61s/it][A
Training...:  90% 2360/2609 [2:16:12<22:24,  5.40s/it][A
Training...:  90% 2361/2609 [2:16:17<21:40,  5.25s/it][A
Training...:  91% 2362/2609 [2:16:22<20:49,  5.06s/it][A
Training...:  91% 2363/2609 [2:16:26<20:05,  4.90s/it][A
Training...:  91% 2364/2609 [2:16:31<19:20,  4.74s/it][A
Training...:  91% 2365/2609 [2:16:35<18:40,  4.59s/it][A
Training...:  91% 2366/2609 [2:16:39<17:58,  4.44s/it][A
Training...:  91% 2367/2609 [2:16:43<17:23,  4.31s/it][A
Training...:  91% 2368/2609 [2:16:47<16:45,  4.17s/it][A
Training...:  91% 2369/2609 [2:16:51<16:15,  4.06s/it][A
Training...:  91% 2370/2609 [2:16:54<15:43,  3.95s/it][A
Training...:  91% 2371/2609 [2:16:58<15:15,  3.85s/it][A
Training...:  91% 2372/2609 [2:17:02<14:43,  3.73s/it][A
Training...:  91% 2373/2609 [2:17:05<14:19,  3.64s/it][A
Training...:  91% 2374/2609 [2:17:08<13:53,  3.55s/it][A
Training...:  91% 2375/2609 [2:17:12<13:28,  3.46s/it][A
Training...:  91% 2376/2609 [2:17:15<13:01,  3.35s/it][A
Training...:  91% 2377/2609 [2:17:18<12:36,  3.26s/it][A
Training...:  91% 2378/2609 [2:17:21<12:10,  3.16s/it][A
Training...:  91% 2379/2609 [2:17:23<11:46,  3.07s/it][A
Training...:  91% 2380/2609 [2:17:26<11:24,  2.99s/it][A
Training...:  91% 2381/2609 [2:17:29<11:06,  2.92s/it][A
Training...:  91% 2382/2609 [2:17:32<10:40,  2.82s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:38:18<17:51:03, 9180.57s/it]
Training...:  91% 2382/2609 [2:17:35<10:40,  2.82s/it][A
Training...:  91% 2383/2609 [2:17:35<10:52,  2.89s/it][A
Training...:  91% 2384/2609 [2:17:37<10:20,  2.76s/it][A
Training...:  91% 2385/2609 [2:17:40<09:52,  2.65s/it][A
Training...:  91% 2386/2609 [2:17:42<09:28,  2.55s/it][A
Training...:  91% 2387/2609 [2:17:44<09:05,  2.46s/it][A
Training...:  92% 2388/2609 [2:17:46<08:45,  2.38s/it][A
Training...:  92% 2389/2609 [2:17:48<08:21,  2.28s/it][A
Training...:  92% 2390/2609 [2:17:50<08:00,  2.19s/it][A
Training...:  92% 2391/2609 [2:17:52<07:39,  2.11s/it][A
Training...:  92% 2392/2609 [2:17:54<07:16,  2.01s/it][A
Training...:  92% 2393/2609 [2:17:56<06:52,  1.91s/it][A
Training...:  92% 2394/2609 [2:17:57<06:26,  1.80s/it][A
Training...:  92% 2395/2609 [2:17:59<06:02,  1.69s/it][A
Training...:  92% 2396/2609 [2:18:00<05:37,  1.58s/it][A
Training...:  92% 2397/2609 [2:18:01<05:11,  1.47s/it][A
Training...:  92% 2398/2609 [2:18:02<04:42,  1.34s/it][A
Training...:  92% 2399/2609 [2:18:03<04:10,  1.19s/it][A
Training...:  92% 2400/2609 [2:18:04<03:30,  1.01s/it][A
Training...:  92% 2401/2609 [2:18:11<09:56,  2.87s/it][A
Training...:  92% 2402/2609 [2:18:18<14:07,  4.09s/it][A
Training...:  92% 2403/2609 [2:18:24<16:31,  4.81s/it][A
Training...:  92% 2404/2609 [2:18:30<17:49,  5.22s/it][A
Training...:  92% 2405/2609 [2:18:36<18:25,  5.42s/it][A
Training...:  92% 2406/2609 [2:18:42<18:31,  5.48s/it][A
Training...:  92% 2407/2609 [2:18:47<18:22,  5.46s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:39:36<17:51:03, 9180.57s/it]
Training...:  92% 2407/2609 [2:18:53<18:22,  5.46s/it][A
Training...:  92% 2408/2609 [2:18:53<18:46,  5.60s/it][A
Training...:  92% 2409/2609 [2:18:58<18:09,  5.45s/it][A
Training...:  92% 2410/2609 [2:19:03<17:28,  5.27s/it][A
Training...:  92% 2411/2609 [2:19:08<16:51,  5.11s/it][A
Training...:  92% 2412/2609 [2:19:13<16:12,  4.94s/it][A
Training...:  92% 2413/2609 [2:19:17<15:42,  4.81s/it][A
Training...:  93% 2414/2609 [2:19:21<15:09,  4.66s/it][A
Training...:  93% 2415/2609 [2:19:26<14:43,  4.56s/it][A
Training...:  93% 2416/2609 [2:19:30<14:14,  4.43s/it][A
Training...:  93% 2417/2609 [2:19:34<13:49,  4.32s/it][A
Training...:  93% 2418/2609 [2:19:38<13:20,  4.19s/it][A
Training...:  93% 2419/2609 [2:19:42<12:56,  4.09s/it][A
Training...:  93% 2420/2609 [2:19:45<12:29,  3.96s/it][A
Training...:  93% 2421/2609 [2:19:49<12:07,  3.87s/it][A
Training...:  93% 2422/2609 [2:19:52<11:42,  3.76s/it][A
Training...:  93% 2423/2609 [2:19:56<11:19,  3.65s/it][A
Training...:  93% 2424/2609 [2:19:59<11:00,  3.57s/it][A
Training...:  93% 2425/2609 [2:20:03<10:42,  3.49s/it][A
Training...:  93% 2426/2609 [2:20:06<10:18,  3.38s/it][A
Training...:  93% 2427/2609 [2:20:09<09:58,  3.29s/it][A
Training...:  93% 2428/2609 [2:20:12<09:36,  3.19s/it][A
Training...:  93% 2429/2609 [2:20:15<09:14,  3.08s/it][A
Training...:  93% 2430/2609 [2:20:17<08:54,  2.99s/it][A
Training...:  93% 2431/2609 [2:20:20<08:34,  2.89s/it][A
Training...:  93% 2432/2609 [2:20:23<08:15,  2.80s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:41:08<17:51:03, 9180.57s/it]
Training...:  93% 2432/2609 [2:20:25<08:15,  2.80s/it][A
Training...:  93% 2433/2609 [2:20:25<08:20,  2.84s/it][A
Training...:  93% 2434/2609 [2:20:28<07:53,  2.71s/it][A
Training...:  93% 2435/2609 [2:20:30<07:32,  2.60s/it][A
Training...:  93% 2436/2609 [2:20:32<07:10,  2.49s/it][A
Training...:  93% 2437/2609 [2:20:35<06:52,  2.40s/it][A
Training...:  93% 2438/2609 [2:20:37<06:32,  2.30s/it][A
Training...:  93% 2439/2609 [2:20:39<06:14,  2.20s/it][A
Training...:  94% 2440/2609 [2:20:41<05:56,  2.11s/it][A
Training...:  94% 2441/2609 [2:20:42<05:38,  2.01s/it][A
Training...:  94% 2442/2609 [2:20:44<05:20,  1.92s/it][A
Training...:  94% 2443/2609 [2:20:46<05:01,  1.82s/it][A
Training...:  94% 2444/2609 [2:20:47<04:42,  1.71s/it][A
Training...:  94% 2445/2609 [2:20:48<04:23,  1.61s/it][A
Training...:  94% 2446/2609 [2:20:50<04:03,  1.50s/it][A
Training...:  94% 2447/2609 [2:20:51<03:45,  1.39s/it][A
Training...:  94% 2448/2609 [2:20:52<03:24,  1.27s/it][A
Training...:  94% 2449/2609 [2:20:53<03:01,  1.13s/it][A
Training...:  94% 2450/2609 [2:20:53<02:34,  1.03it/s][A
Training...:  94% 2451/2609 [2:21:00<07:28,  2.84s/it][A
Training...:  94% 2452/2609 [2:21:07<10:42,  4.09s/it][A
Training...:  94% 2453/2609 [2:21:14<12:34,  4.84s/it][A
Training...:  94% 2454/2609 [2:21:20<13:31,  5.23s/it][A
Training...:  94% 2455/2609 [2:21:26<13:55,  5.43s/it][A
Training...:  94% 2456/2609 [2:21:32<13:59,  5.49s/it][A
Training...:  94% 2457/2609 [2:21:37<13:55,  5.50s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:42:26<17:51:03, 9180.57s/it]
Training...:  94% 2457/2609 [2:21:43<13:55,  5.50s/it][A
Training...:  94% 2458/2609 [2:21:43<14:12,  5.65s/it][A
Training...:  94% 2459/2609 [2:21:48<13:43,  5.49s/it][A
Training...:  94% 2460/2609 [2:21:53<13:10,  5.30s/it][A
Training...:  94% 2461/2609 [2:21:58<12:42,  5.15s/it][A
Training...:  94% 2462/2609 [2:22:03<12:16,  5.01s/it][A
Training...:  94% 2463/2609 [2:22:07<11:51,  4.87s/it][A
Training...:  94% 2464/2609 [2:22:12<11:24,  4.72s/it][A
Training...:  94% 2465/2609 [2:22:16<11:01,  4.59s/it][A
Training...:  95% 2466/2609 [2:22:20<10:34,  4.44s/it][A
Training...:  95% 2467/2609 [2:22:24<10:15,  4.33s/it][A
Training...:  95% 2468/2609 [2:22:28<09:56,  4.23s/it][A
Training...:  95% 2469/2609 [2:22:32<09:43,  4.17s/it][A
Training...:  95% 2470/2609 [2:22:36<09:25,  4.07s/it][A
Training...:  95% 2471/2609 [2:22:40<09:05,  3.95s/it][A
Training...:  95% 2472/2609 [2:22:43<08:45,  3.83s/it][A
Training...:  95% 2473/2609 [2:22:47<08:27,  3.73s/it][A
Training...:  95% 2474/2609 [2:22:50<08:10,  3.63s/it][A
Training...:  95% 2475/2609 [2:22:53<07:55,  3.55s/it][A
Training...:  95% 2476/2609 [2:22:57<07:38,  3.45s/it][A
Training...:  95% 2477/2609 [2:23:00<07:22,  3.35s/it][A
Training...:  95% 2478/2609 [2:23:03<07:05,  3.25s/it][A
Training...:  95% 2479/2609 [2:23:06<06:51,  3.16s/it][A
Training...:  95% 2480/2609 [2:23:09<06:35,  3.07s/it][A
Training...:  95% 2481/2609 [2:23:11<06:20,  2.98s/it][A
Training...:  95% 2482/2609 [2:23:14<06:04,  2.87s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:44:00<17:51:03, 9180.57s/it]
Training...:  95% 2482/2609 [2:23:17<06:04,  2.87s/it][A
Training...:  95% 2483/2609 [2:23:17<06:08,  2.92s/it][A
Training...:  95% 2484/2609 [2:23:19<05:48,  2.79s/it][A
Training...:  95% 2485/2609 [2:23:22<05:32,  2.68s/it][A
Training...:  95% 2486/2609 [2:23:24<05:16,  2.57s/it][A
Training...:  95% 2487/2609 [2:23:26<05:03,  2.49s/it][A
Training...:  95% 2488/2609 [2:23:29<04:48,  2.39s/it][A
Training...:  95% 2489/2609 [2:23:31<04:33,  2.28s/it][A
Training...:  95% 2490/2609 [2:23:33<04:19,  2.18s/it][A
Training...:  95% 2491/2609 [2:23:34<04:06,  2.09s/it][A
Training...:  96% 2492/2609 [2:23:36<03:53,  2.00s/it][A
Training...:  96% 2493/2609 [2:23:38<03:39,  1.90s/it][A
Training...:  96% 2494/2609 [2:23:39<03:25,  1.79s/it][A
Training...:  96% 2495/2609 [2:23:41<03:11,  1.68s/it][A
Training...:  96% 2496/2609 [2:23:42<02:57,  1.57s/it][A
Training...:  96% 2497/2609 [2:23:43<02:42,  1.45s/it][A
Training...:  96% 2498/2609 [2:23:44<02:25,  1.31s/it][A
Training...:  96% 2499/2609 [2:23:45<02:07,  1.16s/it][A
Training...:  96% 2500/2609 [2:23:46<01:46,  1.03it/s][A
Training...:  96% 2501/2609 [2:23:53<05:06,  2.83s/it][A
Training...:  96% 2502/2609 [2:24:00<07:19,  4.11s/it][A
Training...:  96% 2503/2609 [2:24:07<08:33,  4.85s/it][A
Training...:  96% 2504/2609 [2:24:13<09:12,  5.26s/it][A
Training...:  96% 2505/2609 [2:24:19<09:28,  5.47s/it][A
Training...:  96% 2506/2609 [2:24:24<09:31,  5.55s/it][A
Training...:  96% 2507/2609 [2:24:30<09:26,  5.55s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:45:19<17:51:03, 9180.57s/it]
Training...:  96% 2507/2609 [2:24:36<09:26,  5.55s/it][A
Training...:  96% 2508/2609 [2:24:36<09:35,  5.70s/it][A
Training...:  96% 2509/2609 [2:24:41<09:11,  5.51s/it][A
Training...:  96% 2510/2609 [2:24:46<08:44,  5.30s/it][A
Training...:  96% 2511/2609 [2:24:51<08:23,  5.14s/it][A
Training...:  96% 2512/2609 [2:24:55<08:03,  4.98s/it][A
Training...:  96% 2513/2609 [2:25:00<07:45,  4.85s/it][A
Training...:  96% 2514/2609 [2:25:04<07:31,  4.75s/it][A
Training...:  96% 2515/2609 [2:25:09<07:20,  4.68s/it][A
Training...:  96% 2516/2609 [2:25:13<07:01,  4.53s/it][A
Training...:  96% 2517/2609 [2:25:17<06:46,  4.42s/it][A
Training...:  97% 2518/2609 [2:25:21<06:29,  4.28s/it][A
Training...:  97% 2519/2609 [2:25:25<06:14,  4.16s/it][A
Training...:  97% 2520/2609 [2:25:29<05:57,  4.01s/it][A
Training...:  97% 2521/2609 [2:25:32<05:43,  3.90s/it][A
Training...:  97% 2522/2609 [2:25:36<05:28,  3.78s/it][A
Training...:  97% 2523/2609 [2:25:39<05:17,  3.69s/it][A
Training...:  97% 2524/2609 [2:25:43<05:04,  3.59s/it][A
Training...:  97% 2525/2609 [2:25:46<04:53,  3.50s/it][A
Training...:  97% 2526/2609 [2:25:49<04:41,  3.39s/it][A
Training...:  97% 2527/2609 [2:25:52<04:30,  3.30s/it][A
Training...:  97% 2528/2609 [2:25:55<04:18,  3.19s/it][A
Training...:  97% 2529/2609 [2:25:58<04:08,  3.11s/it][A
Training...:  97% 2530/2609 [2:26:01<03:58,  3.02s/it][A
Training...:  97% 2531/2609 [2:26:04<03:48,  2.93s/it][A
Training...:  97% 2532/2609 [2:26:06<03:38,  2.84s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:46:52<17:51:03, 9180.57s/it]
Training...:  97% 2532/2609 [2:26:09<03:38,  2.84s/it][A
Training...:  97% 2533/2609 [2:26:09<03:40,  2.91s/it][A
Training...:  97% 2534/2609 [2:26:12<03:26,  2.76s/it][A
Training...:  97% 2535/2609 [2:26:14<03:15,  2.64s/it][A
Training...:  97% 2536/2609 [2:26:16<03:05,  2.53s/it][A
Training...:  97% 2537/2609 [2:26:19<02:55,  2.44s/it][A
Training...:  97% 2538/2609 [2:26:21<02:46,  2.34s/it][A
Training...:  97% 2539/2609 [2:26:23<02:36,  2.24s/it][A
Training...:  97% 2540/2609 [2:26:25<02:27,  2.13s/it][A
Training...:  97% 2541/2609 [2:26:26<02:17,  2.02s/it][A
Training...:  97% 2542/2609 [2:26:28<02:08,  1.92s/it][A
Training...:  97% 2543/2609 [2:26:30<02:00,  1.82s/it][A
Training...:  98% 2544/2609 [2:26:31<01:50,  1.71s/it][A
Training...:  98% 2545/2609 [2:26:32<01:42,  1.60s/it][A
Training...:  98% 2546/2609 [2:26:34<01:32,  1.47s/it][A
Training...:  98% 2547/2609 [2:26:35<01:23,  1.35s/it][A
Training...:  98% 2548/2609 [2:26:36<01:14,  1.22s/it][A
Training...:  98% 2549/2609 [2:26:36<01:04,  1.08s/it][A
Training...:  98% 2550/2609 [2:26:37<00:54,  1.09it/s][A
Training...:  98% 2551/2609 [2:26:44<02:38,  2.74s/it][A
Training...:  98% 2552/2609 [2:26:51<03:46,  3.98s/it][A
Training...:  98% 2553/2609 [2:26:57<04:26,  4.76s/it][A
Training...:  98% 2554/2609 [2:27:04<04:47,  5.23s/it][A
Training...:  98% 2555/2609 [2:27:10<04:55,  5.47s/it][A
Training...:  98% 2556/2609 [2:27:15<04:53,  5.54s/it][A
Training...:  98% 2557/2609 [2:27:21<04:47,  5.54s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:48:10<17:51:03, 9180.57s/it]
Training...:  98% 2557/2609 [2:27:27<04:47,  5.54s/it][A
Training...:  98% 2558/2609 [2:27:27<04:50,  5.69s/it][A
Training...:  98% 2559/2609 [2:27:32<04:37,  5.55s/it][A
Training...:  98% 2560/2609 [2:27:37<04:25,  5.41s/it][A
Training...:  98% 2561/2609 [2:27:42<04:10,  5.22s/it][A
Training...:  98% 2562/2609 [2:27:47<03:56,  5.04s/it][A
Training...:  98% 2563/2609 [2:27:51<03:45,  4.90s/it][A
Training...:  98% 2564/2609 [2:27:56<03:33,  4.75s/it][A
Training...:  98% 2565/2609 [2:28:00<03:22,  4.60s/it][A
Training...:  98% 2566/2609 [2:28:04<03:10,  4.44s/it][A
Training...:  98% 2567/2609 [2:28:08<03:00,  4.31s/it][A
Training...:  98% 2568/2609 [2:28:12<02:51,  4.18s/it][A
Training...:  98% 2569/2609 [2:28:16<02:43,  4.08s/it][A
Training...:  99% 2570/2609 [2:28:19<02:34,  3.96s/it][A
Training...:  99% 2571/2609 [2:28:23<02:26,  3.85s/it][A
Training...:  99% 2572/2609 [2:28:26<02:18,  3.75s/it][A
Training...:  99% 2573/2609 [2:28:30<02:11,  3.66s/it][A
Training...:  99% 2574/2609 [2:28:33<02:04,  3.56s/it][A
Training...:  99% 2575/2609 [2:28:36<01:57,  3.46s/it][A
Training...:  99% 2576/2609 [2:28:40<01:50,  3.36s/it][A
Training...:  99% 2577/2609 [2:28:43<01:45,  3.28s/it][A
Training...:  99% 2578/2609 [2:28:46<01:38,  3.19s/it][A
Training...:  99% 2579/2609 [2:28:49<01:33,  3.11s/it][A
Training...:  99% 2580/2609 [2:28:51<01:27,  3.02s/it][A
Training...:  99% 2581/2609 [2:28:54<01:22,  2.93s/it][A
Training...:  99% 2582/2609 [2:28:57<01:16,  2.84s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:49:43<17:51:03, 9180.57s/it]
Training...:  99% 2582/2609 [2:29:00<01:16,  2.84s/it][A
Training...:  99% 2583/2609 [2:29:00<01:15,  2.90s/it][A
Training...:  99% 2584/2609 [2:29:02<01:09,  2.77s/it][A
Training...:  99% 2585/2609 [2:29:05<01:03,  2.65s/it][A
Training...:  99% 2586/2609 [2:29:07<00:58,  2.54s/it][A
Training...:  99% 2587/2609 [2:29:09<00:54,  2.46s/it][A
Training...:  99% 2588/2609 [2:29:11<00:49,  2.37s/it][A
Training...:  99% 2589/2609 [2:29:13<00:45,  2.27s/it][A
Training...:  99% 2590/2609 [2:29:15<00:41,  2.18s/it][A
Training...:  99% 2591/2609 [2:29:17<00:37,  2.09s/it][A
Training...:  99% 2592/2609 [2:29:19<00:33,  2.00s/it][A
Training...:  99% 2593/2609 [2:29:21<00:30,  1.89s/it][A
Training...:  99% 2594/2609 [2:29:22<00:26,  1.78s/it][A
Training...:  99% 2595/2609 [2:29:24<00:23,  1.66s/it][A
Training...: 100% 2596/2609 [2:29:25<00:20,  1.54s/it][A
Training...: 100% 2597/2609 [2:29:26<00:17,  1.42s/it][A
Training...: 100% 2598/2609 [2:29:27<00:14,  1.29s/it][A
Training...: 100% 2599/2609 [2:29:28<00:11,  1.14s/it][A
Training...: 100% 2600/2609 [2:29:28<00:08,  1.04it/s][A
Training...: 100% 2601/2609 [2:29:35<00:20,  2.55s/it][A
Training...: 100% 2602/2609 [2:29:40<00:24,  3.45s/it][A
Training...: 100% 2603/2609 [2:29:45<00:22,  3.82s/it][A
Training...: 100% 2604/2609 [2:29:49<00:19,  3.85s/it][A
Training...: 100% 2605/2609 [2:29:52<00:14,  3.74s/it][A
Training...: 100% 2606/2609 [2:29:55<00:10,  3.52s/it][A
Training...: 100% 2607/2609 [2:29:58<00:06,  3.24s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  65% 13/20 [35:50:43<17:51:03, 9180.57s/it]
Training...: 100% 2607/2609 [2:30:00<00:06,  3.24s/it][A
Training...: 100% 2608/2609 [2:30:00<00:03,  3.05s/it][A
Training...: 100% 2609/2609 [2:30:02<00:00,  2.62s/it][ATraining...: 100% 2609/2609 [2:30:02<00:00,  3.45s/it]
Step... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [35:50:45<15:12:43, 9127.17s/it]
Training...:   0% 0/2609 [00:00<?, ?it/s][AStep... (35650 | Loss: 0.01638624258339405, Learning Rate: 2.899191895266995e-05, Gradient Norm: 0.5517714619636536)
Step... (35675 | Loss: 0.02067185379564762, Learning Rate: 2.89414165308699e-05, Gradient Norm: 0.6126270294189453)
Step... (35700 | Loss: 0.0040504224598407745, Learning Rate: 2.889090683311224e-05, Gradient Norm: 0.21858654916286469)
Step... (35725 | Loss: 0.01836218126118183, Learning Rate: 2.8840404411312193e-05, Gradient Norm: 0.4361876845359802)
Step... (35750 | Loss: 0.017643921077251434, Learning Rate: 2.8789900170522742e-05, Gradient Norm: 0.8542777895927429)
Step... (35775 | Loss: 0.036142732948064804, Learning Rate: 2.8739392291754484e-05, Gradient Norm: 0.4577709138393402)
Step... (35800 | Loss: 0.0051169912330806255, Learning Rate: 2.8688889869954437e-05, Gradient Norm: 0.3917878568172455)
Step... (35825 | Loss: 0.01580841653048992, Learning Rate: 2.8638385629164986e-05, Gradient Norm: 0.3524389863014221)
Step... (35850 | Loss: 0.006942513398826122, Learning Rate: 2.858787775039673e-05, Gradient Norm: 0.303507924079895)
Step... (35875 | Loss: 0.025251928716897964, Learning Rate: 2.8537373509607278e-05, Gradient Norm: 0.4883984923362732)
Step... (35900 | Loss: 0.015131662599742413, Learning Rate: 2.848687108780723e-05, Gradient Norm: 0.6429398655891418)
Step... (35925 | Loss: 0.02245708741247654, Learning Rate: 2.843636139004957e-05, Gradient Norm: 0.4790819585323334)
Step... (35950 | Loss: 0.009981180541217327, Learning Rate: 2.8385858968249522e-05, Gradient Norm: 0.3890078663825989)
Step... (35975 | Loss: 0.016916081309318542, Learning Rate: 2.8335356546449475e-05, Gradient Norm: 0.3263985812664032)
Step... (36000 | Loss: 0.005884501617401838, Learning Rate: 2.8284846848691814e-05, Gradient Norm: 0.5676447749137878)
Step... (36025 | Loss: 0.04161752760410309, Learning Rate: 2.8234344426891766e-05, Gradient Norm: 0.5581330060958862)
Step... (36050 | Loss: 0.002759286668151617, Learning Rate: 2.8183840186102316e-05, Gradient Norm: 0.21689091622829437)
Step... (36075 | Loss: 0.026752185076475143, Learning Rate: 2.8133332307334058e-05, Gradient Norm: 0.5514090657234192)
Step... (36100 | Loss: 0.010755004361271858, Learning Rate: 2.808282988553401e-05, Gradient Norm: 0.5138590335845947)
Step... (36125 | Loss: 0.025889767333865166, Learning Rate: 2.803232018777635e-05, Gradient Norm: 0.4449516534805298)
Step... (36150 | Loss: 0.006499391049146652, Learning Rate: 2.7981817765976302e-05, Gradient Norm: 0.3690861761569977)
Step... (36175 | Loss: 0.026420164853334427, Learning Rate: 2.793131352518685e-05, Gradient Norm: 0.4217103123664856)
Step... (36200 | Loss: 0.009431918151676655, Learning Rate: 2.7880805646418594e-05, Gradient Norm: 0.6101060509681702)
Step... (36225 | Loss: 0.021894430741667747, Learning Rate: 2.7830301405629143e-05, Gradient Norm: 1.0274688005447388)
Step... (36250 | Loss: 0.014636190608143806, Learning Rate: 2.7779798983829096e-05, Gradient Norm: 0.6478110551834106)
Step... (36275 | Loss: 0.01655704341828823, Learning Rate: 2.7729289286071435e-05, Gradient Norm: 0.3445795476436615)
Step... (36300 | Loss: 0.010214099660515785, Learning Rate: 2.7678786864271387e-05, Gradient Norm: 0.44272592663764954)
Step... (36325 | Loss: 0.03681505471467972, Learning Rate: 2.762828444247134e-05, Gradient Norm: 0.4103280007839203)
Step... (36350 | Loss: 0.009883656166493893, Learning Rate: 2.757777474471368e-05, Gradient Norm: 0.5722193717956543)
Step... (36375 | Loss: 0.0239949319511652, Learning Rate: 2.7527272322913632e-05, Gradient Norm: 0.47024643421173096)
Step... (36400 | Loss: 0.006987202446907759, Learning Rate: 2.7476769901113585e-05, Gradient Norm: 0.3469950258731842)
Step... (36425 | Loss: 0.03403054177761078, Learning Rate: 2.7426260203355923e-05, Gradient Norm: 0.46840474009513855)
Step... (36450 | Loss: 0.007474434562027454, Learning Rate: 2.7375757781555876e-05, Gradient Norm: 0.5066250562667847)
Step... (36475 | Loss: 0.014932547695934772, Learning Rate: 2.7325253540766425e-05, Gradient Norm: 0.44067493081092834)
Step... (36500 | Loss: 0.0078074270859360695, Learning Rate: 2.7274745661998168e-05, Gradient Norm: 0.3168792426586151)
Step... (36525 | Loss: 0.010019062086939812, Learning Rate: 2.7224241421208717e-05, Gradient Norm: 0.37796059250831604)

Training...:   0% 1/2609 [00:07<5:07:27,  7.07s/it][A
Training...:   0% 2/2609 [00:14<5:04:54,  7.02s/it][A
Training...:   0% 3/2609 [00:20<4:55:12,  6.80s/it][A
Training...:   0% 4/2609 [00:26<4:47:21,  6.62s/it][A
Training...:   0% 5/2609 [00:32<4:38:17,  6.41s/it][A
Training...:   0% 6/2609 [00:39<4:33:50,  6.31s/it][A
Training...:   0% 7/2609 [00:44<4:22:18,  6.05s/it][A
Training...:   0% 8/2609 [00:49<4:11:47,  5.81s/it][A
Training...:   0% 9/2609 [00:55<4:03:10,  5.61s/it][A
Training...:   0% 10/2609 [01:00<3:55:39,  5.44s/it][A
Training...:   0% 11/2609 [01:05<3:49:00,  5.29s/it][A
Training...:   0% 12/2609 [01:09<3:39:59,  5.08s/it][A
Training...:   0% 13/2609 [01:14<3:32:21,  4.91s/it][A
Training...:   1% 14/2609 [01:18<3:24:47,  4.73s/it][A
Training...:   1% 15/2609 [01:22<3:17:43,  4.57s/it][A
Training...:   1% 16/2609 [01:26<3:11:09,  4.42s/it][A
Training...:   1% 17/2609 [01:30<3:05:19,  4.29s/it][A
Training...:   1% 18/2609 [01:34<3:00:06,  4.17s/it][A
Training...:   1% 19/2609 [01:38<2:54:44,  4.05s/it][A
Training...:   1% 20/2609 [01:42<2:49:27,  3.93s/it][A
Training...:   1% 21/2609 [01:45<2:44:50,  3.82s/it][A
Training...:   1% 22/2609 [01:49<2:39:57,  3.71s/it][A
Training...:   1% 23/2609 [01:52<2:36:06,  3.62s/it][A                                                                                                                                                                    
                                                    [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [35:52:43<15:12:43, 9127.17s/it]
Training...:   1% 23/2609 [01:56<2:36:06,  3.62s/it][A
Training...:   1% 24/2609 [01:56<2:38:58,  3.69s/it][A
Training...:   1% 25/2609 [01:59<2:32:44,  3.55s/it][A
Training...:   1% 26/2609 [02:02<2:27:10,  3.42s/it][A
Training...:   1% 27/2609 [02:05<2:22:10,  3.30s/it][A
Training...:   1% 28/2609 [02:08<2:17:51,  3.20s/it][A
Training...:   1% 29/2609 [02:11<2:13:33,  3.11s/it][A
Training...:   1% 30/2609 [02:14<2:09:59,  3.02s/it][A
Training...:   1% 31/2609 [02:17<2:06:17,  2.94s/it][A
Training...:   1% 32/2609 [02:19<2:01:45,  2.83s/it][A
Training...:   1% 33/2609 [02:22<1:57:48,  2.74s/it][A
Training...:   1% 34/2609 [02:24<1:54:04,  2.66s/it][A
Training...:   1% 35/2609 [02:27<1:50:00,  2.56s/it][A
Training...:   1% 36/2609 [02:29<1:46:02,  2.47s/it][A
Training...:   1% 37/2609 [02:31<1:41:57,  2.38s/it][A
Training...:   1% 38/2609 [02:33<1:38:02,  2.29s/it][A
Training...:   1% 39/2609 [02:35<1:33:48,  2.19s/it][A
Training...:   2% 40/2609 [02:37<1:29:58,  2.10s/it][A
Training...:   2% 41/2609 [02:39<1:25:53,  2.01s/it][A
Training...:   2% 42/2609 [02:41<1:22:50,  1.94s/it][A
Training...:   2% 43/2609 [02:42<1:18:42,  1.84s/it][A
Training...:   2% 44/2609 [02:44<1:15:02,  1.76s/it][A
Training...:   2% 45/2609 [02:45<1:10:38,  1.65s/it][A
Training...:   2% 46/2609 [02:46<1:06:19,  1.55s/it][A
Training...:   2% 47/2609 [02:48<1:00:53,  1.43s/it][A
Training...:   2% 48/2609 [02:49<55:20,  1.30s/it]  [A                                                                                                                                                                    
                                                  [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [35:53:36<15:12:43, 9127.17s/it]
Training...:   2% 48/2609 [02:50<55:20,  1.30s/it][A
Training...:   2% 49/2609 [02:50<53:24,  1.25s/it][A
Training...:   2% 50/2609 [02:50<44:29,  1.04s/it][A
Training...:   2% 51/2609 [02:58<2:05:08,  2.94s/it][A
Training...:   2% 52/2609 [03:05<2:57:55,  4.18s/it][A
Training...:   2% 53/2609 [03:11<3:28:30,  4.89s/it][A
Training...:   2% 54/2609 [03:18<3:46:40,  5.32s/it][A
Training...:   2% 55/2609 [03:24<3:54:59,  5.52s/it][A
Training...:   2% 56/2609 [03:29<3:56:26,  5.56s/it][A
Training...:   2% 57/2609 [03:35<3:54:58,  5.52s/it][A
Training...:   2% 58/2609 [03:40<3:51:08,  5.44s/it][A
Training...:   2% 59/2609 [03:45<3:47:00,  5.34s/it][A
Training...:   2% 60/2609 [03:50<3:40:48,  5.20s/it][A
Training...:   2% 61/2609 [03:55<3:35:47,  5.08s/it][A
Training...:   2% 62/2609 [03:59<3:28:57,  4.92s/it][A
Training...:   2% 63/2609 [04:04<3:23:56,  4.81s/it][A
Training...:   2% 64/2609 [04:08<3:17:52,  4.67s/it][A
Training...:   2% 65/2609 [04:12<3:11:55,  4.53s/it][A
Training...:   3% 66/2609 [04:16<3:05:58,  4.39s/it][A
Training...:   3% 67/2609 [04:20<3:00:35,  4.26s/it][A
Training...:   3% 68/2609 [04:24<2:56:02,  4.16s/it][A
Training...:   3% 69/2609 [04:28<2:53:26,  4.10s/it][A
Training...:   3% 70/2609 [04:32<2:49:43,  4.01s/it][A
Training...:   3% 71/2609 [04:36<2:44:52,  3.90s/it][A
Training...:   3% 72/2609 [04:39<2:39:31,  3.77s/it][A
Training...:   3% 73/2609 [04:42<2:34:29,  3.66s/it][A                                                                                                                                                                    
                                                    [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [35:55:33<15:12:43, 9127.17s/it]
Training...:   3% 73/2609 [04:46<2:34:29,  3.66s/it][A
Training...:   3% 74/2609 [04:46<2:36:13,  3.70s/it][A
Training...:   3% 75/2609 [04:49<2:29:43,  3.55s/it][A
Training...:   3% 76/2609 [04:53<2:23:54,  3.41s/it][A
Training...:   3% 77/2609 [04:56<2:19:06,  3.30s/it][A
Training...:   3% 78/2609 [04:59<2:14:22,  3.19s/it][A
Training...:   3% 79/2609 [05:01<2:10:43,  3.10s/it][A
Training...:   3% 80/2609 [05:04<2:06:20,  3.00s/it][A
Training...:   3% 81/2609 [05:07<2:02:34,  2.91s/it][A
Training...:   3% 82/2609 [05:09<1:58:39,  2.82s/it][A
Training...:   3% 83/2609 [05:12<1:54:52,  2.73s/it][A
Training...:   3% 84/2609 [05:14<1:50:47,  2.63s/it][A
Training...:   3% 85/2609 [05:17<1:47:14,  2.55s/it][A
Training...:   3% 86/2609 [05:19<1:43:41,  2.47s/it][A
Training...:   3% 87/2609 [05:21<1:40:31,  2.39s/it][A
Training...:   3% 88/2609 [05:23<1:36:59,  2.31s/it][A
Training...:   3% 89/2609 [05:25<1:33:14,  2.22s/it][A
Training...:   3% 90/2609 [05:27<1:29:18,  2.13s/it][A
Training...:   3% 91/2609 [05:29<1:25:42,  2.04s/it][A
Training...:   4% 92/2609 [05:31<1:21:35,  1.94s/it][A
Training...:   4% 93/2609 [05:33<1:17:55,  1.86s/it][A
Training...:   4% 94/2609 [05:34<1:13:19,  1.75s/it][A
Training...:   4% 95/2609 [05:35<1:08:50,  1.64s/it][A
Training...:   4% 96/2609 [05:37<1:04:15,  1.53s/it][A
Training...:   4% 97/2609 [05:38<59:21,  1.42s/it]  [A
Training...:   4% 98/2609 [05:39<54:08,  1.29s/it][A                                                                                                                                                                    
                                                  [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [35:56:27<15:12:43, 9127.17s/it]
Training...:   4% 98/2609 [05:40<54:08,  1.29s/it][A
Training...:   4% 99/2609 [05:40<52:30,  1.26s/it][A
Training...:   4% 100/2609 [05:41<44:10,  1.06s/it][A
Training...:   4% 101/2609 [05:48<2:00:11,  2.88s/it][A
Training...:   4% 102/2609 [05:55<2:52:28,  4.13s/it][A
Training...:   4% 103/2609 [06:01<3:22:24,  4.85s/it][A
Training...:   4% 104/2609 [06:07<3:37:46,  5.22s/it][A
Training...:   4% 105/2609 [06:13<3:45:56,  5.41s/it][A
Training...:   4% 106/2609 [06:19<3:48:02,  5.47s/it][A
Training...:   4% 107/2609 [06:24<3:46:52,  5.44s/it][A
Training...:   4% 108/2609 [06:29<3:42:57,  5.35s/it][A
Training...:   4% 109/2609 [06:34<3:39:41,  5.27s/it][A
Training...:   4% 110/2609 [06:39<3:33:47,  5.13s/it][A
Training...:   4% 111/2609 [06:44<3:29:40,  5.04s/it][A
Training...:   4% 112/2609 [06:49<3:24:19,  4.91s/it][A
Training...:   4% 113/2609 [06:53<3:20:16,  4.81s/it][A
Training...:   4% 114/2609 [06:58<3:14:31,  4.68s/it][A
Training...:   4% 115/2609 [07:02<3:10:01,  4.57s/it][A
Training...:   4% 116/2609 [07:06<3:04:16,  4.44s/it][A
Training...:   4% 117/2609 [07:10<2:59:59,  4.33s/it][A
Training...:   5% 118/2609 [07:14<2:55:55,  4.24s/it][A
Training...:   5% 119/2609 [07:18<2:52:07,  4.15s/it][A
Training...:   5% 120/2609 [07:22<2:47:09,  4.03s/it][A
Training...:   5% 121/2609 [07:26<2:43:44,  3.95s/it][A
Training...:   5% 122/2609 [07:29<2:38:59,  3.84s/it][A
Training...:   5% 123/2609 [07:33<2:33:59,  3.72s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [35:58:23<15:12:43, 9127.17s/it]
Training...:   5% 123/2609 [07:37<2:33:59,  3.72s/it][A
Training...:   5% 124/2609 [07:37<2:35:48,  3.76s/it][A
Training...:   5% 125/2609 [07:40<2:29:19,  3.61s/it][A
Training...:   5% 126/2609 [07:43<2:23:40,  3.47s/it][A
Training...:   5% 127/2609 [07:46<2:18:47,  3.36s/it][A
Training...:   5% 128/2609 [07:49<2:14:22,  3.25s/it][A
Training...:   5% 129/2609 [07:52<2:10:12,  3.15s/it][A
Training...:   5% 130/2609 [07:55<2:05:43,  3.04s/it][A
Training...:   5% 131/2609 [07:57<2:01:53,  2.95s/it][A
Training...:   5% 132/2609 [08:00<1:57:36,  2.85s/it][A
Training...:   5% 133/2609 [08:03<1:54:11,  2.77s/it][A
Training...:   5% 134/2609 [08:05<1:50:17,  2.67s/it][A
Training...:   5% 135/2609 [08:07<1:46:45,  2.59s/it][A
Training...:   5% 136/2609 [08:10<1:43:03,  2.50s/it][A
Training...:   5% 137/2609 [08:12<1:39:38,  2.42s/it][A
Training...:   5% 138/2609 [08:14<1:35:31,  2.32s/it][A
Training...:   5% 139/2609 [08:16<1:31:48,  2.23s/it][A
Training...:   5% 140/2609 [08:18<1:28:12,  2.14s/it][A
Training...:   5% 141/2609 [08:20<1:24:43,  2.06s/it][A
Training...:   5% 142/2609 [08:22<1:20:56,  1.97s/it][A
Training...:   5% 143/2609 [08:23<1:17:08,  1.88s/it][A
Training...:   6% 144/2609 [08:25<1:12:44,  1.77s/it][A
Training...:   6% 145/2609 [08:26<1:08:22,  1.67s/it][A
Training...:   6% 146/2609 [08:28<1:03:46,  1.55s/it][A
Training...:   6% 147/2609 [08:29<58:54,  1.44s/it]  [A
Training...:   6% 148/2609 [08:30<53:04,  1.29s/it][A                                                                                                                                                                    
                                                   [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [35:59:17<15:12:43, 9127.17s/it]
Training...:   6% 148/2609 [08:31<53:04,  1.29s/it][A
Training...:   6% 149/2609 [08:31<50:55,  1.24s/it][A
Training...:   6% 150/2609 [08:31<42:25,  1.04s/it][A
Training...:   6% 151/2609 [08:39<1:57:54,  2.88s/it][A
Training...:   6% 152/2609 [08:46<2:49:12,  4.13s/it][A
Training...:   6% 153/2609 [08:52<3:17:59,  4.84s/it][A
Training...:   6% 154/2609 [08:58<3:34:15,  5.24s/it][A
Training...:   6% 155/2609 [09:04<3:42:46,  5.45s/it][A
Training...:   6% 156/2609 [09:10<3:45:27,  5.51s/it][A
Training...:   6% 157/2609 [09:15<3:44:56,  5.50s/it][A
Training...:   6% 158/2609 [09:21<3:41:13,  5.42s/it][A
Training...:   6% 159/2609 [09:26<3:37:55,  5.34s/it][A
Training...:   6% 160/2609 [09:31<3:32:34,  5.21s/it][A
Training...:   6% 161/2609 [09:35<3:28:36,  5.11s/it][A
Training...:   6% 162/2609 [09:40<3:24:25,  5.01s/it][A
Training...:   6% 163/2609 [09:45<3:19:44,  4.90s/it][A
Training...:   6% 164/2609 [09:49<3:12:44,  4.73s/it][A
Training...:   6% 165/2609 [09:53<3:06:42,  4.58s/it][A
Training...:   6% 166/2609 [09:58<2:59:53,  4.42s/it][A
Training...:   6% 167/2609 [10:02<2:54:42,  4.29s/it][A
Training...:   6% 168/2609 [10:05<2:49:09,  4.16s/it][A
Training...:   6% 169/2609 [10:09<2:44:36,  4.05s/it][A
Training...:   7% 170/2609 [10:13<2:39:33,  3.93s/it][A
Training...:   7% 171/2609 [10:16<2:35:06,  3.82s/it][A
Training...:   7% 172/2609 [10:20<2:30:20,  3.70s/it][A
Training...:   7% 173/2609 [10:23<2:26:35,  3.61s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:01:14<15:12:43, 9127.17s/it]
Training...:   7% 173/2609 [10:27<2:26:35,  3.61s/it][A
Training...:   7% 174/2609 [10:27<2:29:25,  3.68s/it][A
Training...:   7% 175/2609 [10:30<2:23:27,  3.54s/it][A
Training...:   7% 176/2609 [10:33<2:18:18,  3.41s/it][A
Training...:   7% 177/2609 [10:36<2:14:07,  3.31s/it][A
Training...:   7% 178/2609 [10:39<2:09:31,  3.20s/it][A
Training...:   7% 179/2609 [10:42<2:06:10,  3.12s/it][A
Training...:   7% 180/2609 [10:45<2:01:41,  3.01s/it][A
Training...:   7% 181/2609 [10:48<1:57:44,  2.91s/it][A
Training...:   7% 182/2609 [10:50<1:53:44,  2.81s/it][A
Training...:   7% 183/2609 [10:53<1:49:51,  2.72s/it][A
Training...:   7% 184/2609 [10:55<1:46:30,  2.64s/it][A
Training...:   7% 185/2609 [10:58<1:43:08,  2.55s/it][A
Training...:   7% 186/2609 [11:00<1:39:38,  2.47s/it][A
Training...:   7% 187/2609 [11:02<1:36:26,  2.39s/it][A
Training...:   7% 188/2609 [11:04<1:32:56,  2.30s/it][A
Training...:   7% 189/2609 [11:06<1:29:57,  2.23s/it][A
Training...:   7% 190/2609 [11:08<1:26:31,  2.15s/it][A
Training...:   7% 191/2609 [11:10<1:22:44,  2.05s/it][A
Training...:   7% 192/2609 [11:12<1:19:02,  1.96s/it][A
Training...:   7% 193/2609 [11:13<1:15:25,  1.87s/it][A
Training...:   7% 194/2609 [11:15<1:11:14,  1.77s/it][A
Training...:   7% 195/2609 [11:16<1:07:11,  1.67s/it][A
Training...:   8% 196/2609 [11:18<1:02:32,  1.56s/it][A
Training...:   8% 197/2609 [11:19<57:38,  1.43s/it]  [A
Training...:   8% 198/2609 [11:20<52:19,  1.30s/it][A                                                                                                                                                                    
                                                   [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:02:08<15:12:43, 9127.17s/it]
Training...:   8% 198/2609 [11:21<52:19,  1.30s/it][A
Training...:   8% 199/2609 [11:21<50:28,  1.26s/it][A
Training...:   8% 200/2609 [11:22<41:50,  1.04s/it][A
Training...:   8% 201/2609 [11:29<1:55:24,  2.88s/it][A
Training...:   8% 202/2609 [11:36<2:44:26,  4.10s/it][A
Training...:   8% 203/2609 [11:42<3:15:31,  4.88s/it][A
Training...:   8% 204/2609 [11:49<3:33:07,  5.32s/it][A
Training...:   8% 205/2609 [11:55<3:40:53,  5.51s/it][A
Training...:   8% 206/2609 [12:00<3:43:02,  5.57s/it][A
Training...:   8% 207/2609 [12:06<3:42:04,  5.55s/it][A
Training...:   8% 208/2609 [12:11<3:38:44,  5.47s/it][A
Training...:   8% 209/2609 [12:16<3:36:14,  5.41s/it][A
Training...:   8% 210/2609 [12:21<3:30:17,  5.26s/it][A
Training...:   8% 211/2609 [12:26<3:24:58,  5.13s/it][A
Training...:   8% 212/2609 [12:31<3:18:44,  4.97s/it][A
Training...:   8% 213/2609 [12:35<3:13:32,  4.85s/it][A
Training...:   8% 214/2609 [12:40<3:07:26,  4.70s/it][A
Training...:   8% 215/2609 [12:44<3:02:24,  4.57s/it][A
Training...:   8% 216/2609 [12:48<2:56:59,  4.44s/it][A
Training...:   8% 217/2609 [12:52<2:52:18,  4.32s/it][A
Training...:   8% 218/2609 [12:56<2:47:38,  4.21s/it][A
Training...:   8% 219/2609 [13:00<2:43:07,  4.10s/it][A
Training...:   8% 220/2609 [13:04<2:38:07,  3.97s/it][A
Training...:   8% 221/2609 [13:07<2:34:13,  3.87s/it][A
Training...:   9% 222/2609 [13:11<2:30:00,  3.77s/it][A
Training...:   9% 223/2609 [13:14<2:26:00,  3.67s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:04:05<15:12:43, 9127.17s/it]
Training...:   9% 223/2609 [13:18<2:26:00,  3.67s/it][A
Training...:   9% 224/2609 [13:18<2:27:44,  3.72s/it][A
Training...:   9% 225/2609 [13:21<2:22:00,  3.57s/it][A
Training...:   9% 226/2609 [13:24<2:16:13,  3.43s/it][A
Training...:   9% 227/2609 [13:27<2:11:33,  3.31s/it][A
Training...:   9% 228/2609 [13:30<2:07:13,  3.21s/it][A
Training...:   9% 229/2609 [13:33<2:03:20,  3.11s/it][A
Training...:   9% 230/2609 [13:36<1:59:15,  3.01s/it][A
Training...:   9% 231/2609 [13:39<1:56:14,  2.93s/it][A
Training...:   9% 232/2609 [13:41<1:53:02,  2.85s/it][A
Training...:   9% 233/2609 [13:44<1:49:54,  2.78s/it][A
Training...:   9% 234/2609 [13:46<1:46:18,  2.69s/it][A
Training...:   9% 235/2609 [13:49<1:42:38,  2.59s/it][A
Training...:   9% 236/2609 [13:51<1:39:01,  2.50s/it][A
Training...:   9% 237/2609 [13:53<1:35:25,  2.41s/it][A
Training...:   9% 238/2609 [13:55<1:31:32,  2.32s/it][A
Training...:   9% 239/2609 [13:57<1:28:02,  2.23s/it][A
Training...:   9% 240/2609 [13:59<1:24:17,  2.13s/it][A
Training...:   9% 241/2609 [14:01<1:20:50,  2.05s/it][A
Training...:   9% 242/2609 [14:03<1:17:15,  1.96s/it][A
Training...:   9% 243/2609 [14:05<1:13:37,  1.87s/it][A
Training...:   9% 244/2609 [14:06<1:09:24,  1.76s/it][A
Training...:   9% 245/2609 [14:08<1:05:13,  1.66s/it][A
Training...:   9% 246/2609 [14:09<1:00:31,  1.54s/it][A
Training...:   9% 247/2609 [14:10<55:51,  1.42s/it]  [A
Training...:  10% 248/2609 [14:11<50:38,  1.29s/it][A                                                                                                                                                                    
                                                   [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:04:59<15:12:43, 9127.17s/it]
Training...:  10% 248/2609 [14:12<50:38,  1.29s/it][A
Training...:  10% 249/2609 [14:12<49:01,  1.25s/it][A
Training...:  10% 250/2609 [14:13<40:41,  1.04s/it][A
Training...:  10% 251/2609 [14:20<1:51:54,  2.85s/it][A
Training...:  10% 252/2609 [14:27<2:42:11,  4.13s/it][A
Training...:  10% 253/2609 [14:33<3:10:59,  4.86s/it][A
Training...:  10% 254/2609 [14:40<3:27:42,  5.29s/it][A
Training...:  10% 255/2609 [14:46<3:36:11,  5.51s/it][A
Training...:  10% 256/2609 [14:51<3:38:06,  5.56s/it][A
Training...:  10% 257/2609 [14:57<3:38:08,  5.56s/it][A
Training...:  10% 258/2609 [15:02<3:34:11,  5.47s/it][A
Training...:  10% 259/2609 [15:07<3:30:30,  5.37s/it][A
Training...:  10% 260/2609 [15:12<3:24:28,  5.22s/it][A
Training...:  10% 261/2609 [15:17<3:20:41,  5.13s/it][A
Training...:  10% 262/2609 [15:22<3:15:03,  4.99s/it][A
Training...:  10% 263/2609 [15:26<3:09:17,  4.84s/it][A
Training...:  10% 264/2609 [15:31<3:02:41,  4.67s/it][A
Training...:  10% 265/2609 [15:35<2:58:09,  4.56s/it][A
Training...:  10% 266/2609 [15:39<2:54:06,  4.46s/it][A
Training...:  10% 267/2609 [15:43<2:48:58,  4.33s/it][A
Training...:  10% 268/2609 [15:47<2:43:05,  4.18s/it][A
Training...:  10% 269/2609 [15:51<2:37:52,  4.05s/it][A
Training...:  10% 270/2609 [15:54<2:33:43,  3.94s/it][A
Training...:  10% 271/2609 [15:58<2:29:15,  3.83s/it][A
Training...:  10% 272/2609 [16:01<2:25:00,  3.72s/it][A
Training...:  10% 273/2609 [16:05<2:21:00,  3.62s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:06:55<15:12:43, 9127.17s/it]
Training...:  10% 273/2609 [16:09<2:21:00,  3.62s/it][A
Training...:  11% 274/2609 [16:09<2:23:14,  3.68s/it][A
Training...:  11% 275/2609 [16:12<2:17:44,  3.54s/it][A
Training...:  11% 276/2609 [16:15<2:12:37,  3.41s/it][A
Training...:  11% 277/2609 [16:18<2:08:24,  3.30s/it][A
Training...:  11% 278/2609 [16:21<2:04:06,  3.19s/it][A
Training...:  11% 279/2609 [16:24<2:00:23,  3.10s/it][A
Training...:  11% 280/2609 [16:27<1:56:49,  3.01s/it][A
Training...:  11% 281/2609 [16:29<1:53:06,  2.92s/it][A
Training...:  11% 282/2609 [16:32<1:49:21,  2.82s/it][A
Training...:  11% 283/2609 [16:34<1:45:48,  2.73s/it][A
Training...:  11% 284/2609 [16:37<1:42:15,  2.64s/it][A
Training...:  11% 285/2609 [16:39<1:39:22,  2.57s/it][A
Training...:  11% 286/2609 [16:42<1:36:09,  2.48s/it][A
Training...:  11% 287/2609 [16:44<1:32:50,  2.40s/it][A
Training...:  11% 288/2609 [16:46<1:29:01,  2.30s/it][A
Training...:  11% 289/2609 [16:48<1:25:11,  2.20s/it][A
Training...:  11% 290/2609 [16:50<1:21:25,  2.11s/it][A
Training...:  11% 291/2609 [16:51<1:17:53,  2.02s/it][A
Training...:  11% 292/2609 [16:53<1:14:00,  1.92s/it][A
Training...:  11% 293/2609 [16:55<1:10:15,  1.82s/it][A
Training...:  11% 294/2609 [16:56<1:06:13,  1.72s/it][A
Training...:  11% 295/2609 [16:58<1:02:00,  1.61s/it][A
Training...:  11% 296/2609 [16:59<57:48,  1.50s/it]  [A
Training...:  11% 297/2609 [17:00<53:25,  1.39s/it][A
Training...:  11% 298/2609 [17:01<48:37,  1.26s/it][A                                                                                                                                                                    
                                                   [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:07:49<15:12:43, 9127.17s/it]
Training...:  11% 298/2609 [17:02<48:37,  1.26s/it][A
Training...:  11% 299/2609 [17:02<47:30,  1.23s/it][A
Training...:  11% 300/2609 [17:03<40:16,  1.05s/it][A
Training...:  12% 301/2609 [17:10<1:49:45,  2.85s/it][A
Training...:  12% 302/2609 [17:17<2:37:44,  4.10s/it][A
Training...:  12% 303/2609 [17:23<3:05:34,  4.83s/it][A
Training...:  12% 304/2609 [17:30<3:21:32,  5.25s/it][A
Training...:  12% 305/2609 [17:35<3:29:14,  5.45s/it][A
Training...:  12% 306/2609 [17:41<3:30:53,  5.49s/it][A
Training...:  12% 307/2609 [17:47<3:31:03,  5.50s/it][A
Training...:  12% 308/2609 [17:52<3:27:25,  5.41s/it][A
Training...:  12% 309/2609 [17:57<3:23:05,  5.30s/it][A
Training...:  12% 310/2609 [18:02<3:17:32,  5.16s/it][A
Training...:  12% 311/2609 [18:06<3:12:49,  5.03s/it][A
Training...:  12% 312/2609 [18:11<3:07:13,  4.89s/it][A
Training...:  12% 313/2609 [18:15<3:02:24,  4.77s/it][A
Training...:  12% 314/2609 [18:20<2:57:02,  4.63s/it][A
Training...:  12% 315/2609 [18:24<2:52:28,  4.51s/it][A
Training...:  12% 316/2609 [18:28<2:47:00,  4.37s/it][A
Training...:  12% 317/2609 [18:32<2:42:50,  4.26s/it][A
Training...:  12% 318/2609 [18:36<2:37:45,  4.13s/it][A
Training...:  12% 319/2609 [18:40<2:33:16,  4.02s/it][A
Training...:  12% 320/2609 [18:43<2:29:03,  3.91s/it][A
Training...:  12% 321/2609 [18:47<2:25:14,  3.81s/it][A
Training...:  12% 322/2609 [18:50<2:22:02,  3.73s/it][A
Training...:  12% 323/2609 [18:54<2:18:44,  3.64s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:09:44<15:12:43, 9127.17s/it]
Training...:  12% 323/2609 [18:58<2:18:44,  3.64s/it][A
Training...:  12% 324/2609 [18:58<2:21:23,  3.71s/it][A
Training...:  12% 325/2609 [19:01<2:15:47,  3.57s/it][A
Training...:  12% 326/2609 [19:04<2:10:43,  3.44s/it][A
Training...:  13% 327/2609 [19:07<2:06:10,  3.32s/it][A
Training...:  13% 328/2609 [19:10<2:01:47,  3.20s/it][A
Training...:  13% 329/2609 [19:13<1:58:20,  3.11s/it][A
Training...:  13% 330/2609 [19:16<1:54:55,  3.03s/it][A
Training...:  13% 331/2609 [19:19<1:51:49,  2.95s/it][A
Training...:  13% 332/2609 [19:21<1:48:27,  2.86s/it][A
Training...:  13% 333/2609 [19:24<1:45:29,  2.78s/it][A
Training...:  13% 334/2609 [19:26<1:41:46,  2.68s/it][A
Training...:  13% 335/2609 [19:29<1:38:27,  2.60s/it][A
Training...:  13% 336/2609 [19:31<1:35:18,  2.52s/it][A
Training...:  13% 337/2609 [19:33<1:32:09,  2.43s/it][A
Training...:  13% 338/2609 [19:35<1:28:21,  2.33s/it][A
Training...:  13% 339/2609 [19:37<1:24:58,  2.25s/it][A
Training...:  13% 340/2609 [19:39<1:21:33,  2.16s/it][A
Training...:  13% 341/2609 [19:41<1:17:51,  2.06s/it][A
Training...:  13% 342/2609 [19:43<1:14:16,  1.97s/it][A
Training...:  13% 343/2609 [19:45<1:10:44,  1.87s/it][A
Training...:  13% 344/2609 [19:46<1:06:35,  1.76s/it][A
Training...:  13% 345/2609 [19:47<1:02:18,  1.65s/it][A
Training...:  13% 346/2609 [19:49<57:54,  1.54s/it]  [A
Training...:  13% 347/2609 [19:50<53:39,  1.42s/it][A
Training...:  13% 348/2609 [19:51<49:06,  1.30s/it][A                                                                                                                                                                    
                                                   [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:10:39<15:12:43, 9127.17s/it]
Training...:  13% 348/2609 [19:52<49:06,  1.30s/it][A
Training...:  13% 349/2609 [19:52<47:31,  1.26s/it][A
Training...:  13% 350/2609 [19:53<39:48,  1.06s/it][A
Training...:  13% 351/2609 [20:00<1:47:56,  2.87s/it][A
Training...:  13% 352/2609 [20:07<2:35:20,  4.13s/it][A
Training...:  14% 353/2609 [20:13<3:02:25,  4.85s/it][A
Training...:  14% 354/2609 [20:20<3:18:29,  5.28s/it][A
Training...:  14% 355/2609 [20:26<3:26:00,  5.48s/it][A
Training...:  14% 356/2609 [20:31<3:27:54,  5.54s/it][A
Training...:  14% 357/2609 [20:37<3:28:05,  5.54s/it][A
Training...:  14% 358/2609 [20:42<3:24:50,  5.46s/it][A
Training...:  14% 359/2609 [20:47<3:21:14,  5.37s/it][A
Training...:  14% 360/2609 [20:52<3:15:59,  5.23s/it][A
Training...:  14% 361/2609 [20:57<3:11:48,  5.12s/it][A
Training...:  14% 362/2609 [21:02<3:06:28,  4.98s/it][A
Training...:  14% 363/2609 [21:06<3:02:31,  4.88s/it][A
Training...:  14% 364/2609 [21:11<2:57:23,  4.74s/it][A
Training...:  14% 365/2609 [21:15<2:52:31,  4.61s/it][A
Training...:  14% 366/2609 [21:19<2:47:08,  4.47s/it][A
Training...:  14% 367/2609 [21:23<2:42:01,  4.34s/it][A
Training...:  14% 368/2609 [21:27<2:36:52,  4.20s/it][A
Training...:  14% 369/2609 [21:31<2:33:39,  4.12s/it][A
Training...:  14% 370/2609 [21:35<2:30:22,  4.03s/it][A
Training...:  14% 371/2609 [21:38<2:26:48,  3.94s/it][A
Training...:  14% 372/2609 [21:42<2:22:01,  3.81s/it][A
Training...:  14% 373/2609 [21:45<2:18:02,  3.70s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:12:36<15:12:43, 9127.17s/it]
Training...:  14% 373/2609 [21:49<2:18:02,  3.70s/it][A
Training...:  14% 374/2609 [21:49<2:21:12,  3.79s/it][A
Training...:  14% 375/2609 [21:53<2:14:57,  3.62s/it][A
Training...:  14% 376/2609 [21:56<2:09:07,  3.47s/it][A
Training...:  14% 377/2609 [21:59<2:04:36,  3.35s/it][A
Training...:  14% 378/2609 [22:02<1:59:59,  3.23s/it][A
Training...:  15% 379/2609 [22:05<1:55:58,  3.12s/it][A
Training...:  15% 380/2609 [22:07<1:51:51,  3.01s/it][A
Training...:  15% 381/2609 [22:10<1:48:14,  2.92s/it][A
Training...:  15% 382/2609 [22:13<1:44:20,  2.81s/it][A
Training...:  15% 383/2609 [22:15<1:40:31,  2.71s/it][A
Training...:  15% 384/2609 [22:18<1:37:09,  2.62s/it][A
Training...:  15% 385/2609 [22:20<1:33:52,  2.53s/it][A
Training...:  15% 386/2609 [22:22<1:30:45,  2.45s/it][A
Training...:  15% 387/2609 [22:24<1:27:27,  2.36s/it][A
Training...:  15% 388/2609 [22:26<1:23:55,  2.27s/it][A
Training...:  15% 389/2609 [22:28<1:20:28,  2.18s/it][A
Training...:  15% 390/2609 [22:30<1:16:58,  2.08s/it][A
Training...:  15% 391/2609 [22:32<1:13:39,  1.99s/it][A
Training...:  15% 392/2609 [22:34<1:10:34,  1.91s/it][A
Training...:  15% 393/2609 [22:35<1:06:50,  1.81s/it][A
Training...:  15% 394/2609 [22:37<1:03:09,  1.71s/it][A
Training...:  15% 395/2609 [22:38<59:22,  1.61s/it]  [A
Training...:  15% 396/2609 [22:39<55:24,  1.50s/it][A
Training...:  15% 397/2609 [22:41<51:21,  1.39s/it][A
Training...:  15% 398/2609 [22:42<46:58,  1.27s/it][A                                                                                                                                                                    
                                                   [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:13:29<15:12:43, 9127.17s/it]
Training...:  15% 398/2609 [22:43<46:58,  1.27s/it][A
Training...:  15% 399/2609 [22:43<45:36,  1.24s/it][A
Training...:  15% 400/2609 [22:43<38:22,  1.04s/it][A
Training...:  15% 401/2609 [22:50<1:45:42,  2.87s/it][A
Training...:  15% 402/2609 [22:57<2:31:18,  4.11s/it][A
Training...:  15% 403/2609 [23:04<2:57:56,  4.84s/it][A
Training...:  15% 404/2609 [23:10<3:14:15,  5.29s/it][A
Training...:  16% 405/2609 [23:16<3:21:12,  5.48s/it][A
Training...:  16% 406/2609 [23:22<3:23:30,  5.54s/it][A
Training...:  16% 407/2609 [23:27<3:23:17,  5.54s/it][A
Training...:  16% 408/2609 [23:33<3:20:19,  5.46s/it][A
Training...:  16% 409/2609 [23:38<3:16:27,  5.36s/it][A
Training...:  16% 410/2609 [23:43<3:12:14,  5.25s/it][A
Training...:  16% 411/2609 [23:48<3:08:23,  5.14s/it][A
Training...:  16% 412/2609 [23:52<3:02:59,  5.00s/it][A
Training...:  16% 413/2609 [23:57<2:58:50,  4.89s/it][A
Training...:  16% 414/2609 [24:01<2:53:16,  4.74s/it][A
Training...:  16% 415/2609 [24:06<2:49:28,  4.63s/it][A
Training...:  16% 416/2609 [24:10<2:45:25,  4.53s/it][A
Training...:  16% 417/2609 [24:14<2:41:37,  4.42s/it][A
Training...:  16% 418/2609 [24:18<2:36:36,  4.29s/it][A
Training...:  16% 419/2609 [24:22<2:31:55,  4.16s/it][A
Training...:  16% 420/2609 [24:26<2:27:12,  4.04s/it][A
Training...:  16% 421/2609 [24:29<2:23:05,  3.92s/it][A
Training...:  16% 422/2609 [24:33<2:18:58,  3.81s/it][A
Training...:  16% 423/2609 [24:36<2:15:16,  3.71s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:15:27<15:12:43, 9127.17s/it]
Training...:  16% 423/2609 [24:41<2:15:16,  3.71s/it][A
Training...:  16% 424/2609 [24:41<2:18:27,  3.80s/it][A
Training...:  16% 425/2609 [24:44<2:13:25,  3.67s/it][A
Training...:  16% 426/2609 [24:47<2:08:07,  3.52s/it][A
Training...:  16% 427/2609 [24:50<2:04:27,  3.42s/it][A
Training...:  16% 428/2609 [24:53<1:59:47,  3.30s/it][A
Training...:  16% 429/2609 [24:56<1:56:12,  3.20s/it][A
Training...:  16% 430/2609 [24:59<1:52:10,  3.09s/it][A
Training...:  17% 431/2609 [25:02<1:48:56,  3.00s/it][A
Training...:  17% 432/2609 [25:04<1:44:57,  2.89s/it][A
Training...:  17% 433/2609 [25:07<1:41:10,  2.79s/it][A
Training...:  17% 434/2609 [25:09<1:37:37,  2.69s/it][A
Training...:  17% 435/2609 [25:12<1:34:42,  2.61s/it][A
Training...:  17% 436/2609 [25:14<1:31:06,  2.52s/it][A
Training...:  17% 437/2609 [25:16<1:27:57,  2.43s/it][A
Training...:  17% 438/2609 [25:19<1:24:14,  2.33s/it][A
Training...:  17% 439/2609 [25:21<1:21:05,  2.24s/it][A
Training...:  17% 440/2609 [25:22<1:17:21,  2.14s/it][A
Training...:  17% 441/2609 [25:24<1:13:57,  2.05s/it][A
Training...:  17% 442/2609 [25:26<1:10:20,  1.95s/it][A
Training...:  17% 443/2609 [25:28<1:07:27,  1.87s/it][A
Training...:  17% 444/2609 [25:29<1:03:52,  1.77s/it][A
Training...:  17% 445/2609 [25:31<59:58,  1.66s/it]  [A
Training...:  17% 446/2609 [25:32<55:19,  1.53s/it][A
Training...:  17% 447/2609 [25:33<50:50,  1.41s/it][A
Training...:  17% 448/2609 [25:34<45:50,  1.27s/it][A                                                                                                                                                                    
                                                   [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:16:22<15:12:43, 9127.17s/it]
Training...:  17% 448/2609 [25:35<45:50,  1.27s/it][A
Training...:  17% 449/2609 [25:35<44:02,  1.22s/it][A
Training...:  17% 450/2609 [25:36<36:38,  1.02s/it][A
Training...:  17% 451/2609 [25:43<1:41:32,  2.82s/it][A
Training...:  17% 452/2609 [25:50<2:27:35,  4.11s/it][A
Training...:  17% 453/2609 [25:56<2:55:33,  4.89s/it][A
Training...:  17% 454/2609 [26:03<3:12:55,  5.37s/it][A
Training...:  17% 455/2609 [26:09<3:20:31,  5.59s/it][A
Training...:  17% 456/2609 [26:15<3:22:55,  5.66s/it][A
Training...:  18% 457/2609 [26:20<3:22:15,  5.64s/it][A
Training...:  18% 458/2609 [26:26<3:18:52,  5.55s/it][A
Training...:  18% 459/2609 [26:31<3:15:14,  5.45s/it][A
Training...:  18% 460/2609 [26:36<3:10:14,  5.31s/it][A
Training...:  18% 461/2609 [26:41<3:06:14,  5.20s/it][A
Training...:  18% 462/2609 [26:46<3:02:03,  5.09s/it][A
Training...:  18% 463/2609 [26:50<2:57:02,  4.95s/it][A
Training...:  18% 464/2609 [26:55<2:51:41,  4.80s/it][A
Training...:  18% 465/2609 [26:59<2:46:41,  4.66s/it][A
Training...:  18% 466/2609 [27:03<2:41:15,  4.51s/it][A
Training...:  18% 467/2609 [27:07<2:37:01,  4.40s/it][A
Training...:  18% 468/2609 [27:11<2:32:29,  4.27s/it][A
Training...:  18% 469/2609 [27:15<2:28:22,  4.16s/it][A
Training...:  18% 470/2609 [27:19<2:23:41,  4.03s/it][A
Training...:  18% 471/2609 [27:23<2:19:40,  3.92s/it][A
Training...:  18% 472/2609 [27:26<2:15:29,  3.80s/it][A
Training...:  18% 473/2609 [27:30<2:11:46,  3.70s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:18:20<15:12:43, 9127.17s/it]
Training...:  18% 473/2609 [27:34<2:11:46,  3.70s/it][A
Training...:  18% 474/2609 [27:34<2:14:40,  3.78s/it][A
Training...:  18% 475/2609 [27:37<2:09:28,  3.64s/it][A
Training...:  18% 476/2609 [27:40<2:04:12,  3.49s/it][A
Training...:  18% 477/2609 [27:43<2:00:20,  3.39s/it][A
Training...:  18% 478/2609 [27:46<1:55:52,  3.26s/it][A
Training...:  18% 479/2609 [27:49<1:52:19,  3.16s/it][A
Training...:  18% 480/2609 [27:52<1:49:01,  3.07s/it][A
Training...:  18% 481/2609 [27:55<1:45:42,  2.98s/it][A
Training...:  18% 482/2609 [27:57<1:41:58,  2.88s/it][A
Training...:  19% 483/2609 [28:00<1:38:19,  2.77s/it][A
Training...:  19% 484/2609 [28:03<1:35:10,  2.69s/it][A
Training...:  19% 485/2609 [28:05<1:31:48,  2.59s/it][A
Training...:  19% 486/2609 [28:07<1:28:29,  2.50s/it][A
Training...:  19% 487/2609 [28:09<1:25:23,  2.41s/it][A
Training...:  19% 488/2609 [28:11<1:21:53,  2.32s/it][A
Training...:  19% 489/2609 [28:13<1:18:48,  2.23s/it][A
Training...:  19% 490/2609 [28:15<1:15:16,  2.13s/it][A
Training...:  19% 491/2609 [28:17<1:12:02,  2.04s/it][A
Training...:  19% 492/2609 [28:19<1:08:42,  1.95s/it][A
Training...:  19% 493/2609 [28:21<1:05:31,  1.86s/it][A
Training...:  19% 494/2609 [28:22<1:02:07,  1.76s/it][A
Training...:  19% 495/2609 [28:24<58:19,  1.66s/it]  [A
Training...:  19% 496/2609 [28:25<54:09,  1.54s/it][A
Training...:  19% 497/2609 [28:26<50:10,  1.43s/it][A
Training...:  19% 498/2609 [28:27<45:12,  1.29s/it][A                                                                                                                                                                    
                                                   [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:19:15<15:12:43, 9127.17s/it]
Training...:  19% 498/2609 [28:28<45:12,  1.29s/it][A
Training...:  19% 499/2609 [28:28<43:25,  1.23s/it][A
Training...:  19% 500/2609 [28:29<36:05,  1.03s/it][A
Training...:  19% 501/2609 [28:36<1:39:47,  2.84s/it][A
Training...:  19% 502/2609 [28:43<2:23:27,  4.09s/it][A
Training...:  19% 503/2609 [28:49<2:50:53,  4.87s/it][A
Training...:  19% 504/2609 [28:56<3:05:35,  5.29s/it][A
Training...:  19% 505/2609 [29:02<3:12:31,  5.49s/it][A
Training...:  19% 506/2609 [29:07<3:14:09,  5.54s/it][A
Training...:  19% 507/2609 [29:13<3:13:36,  5.53s/it][A
Training...:  19% 508/2609 [29:18<3:11:30,  5.47s/it][A
Training...:  20% 509/2609 [29:23<3:09:48,  5.42s/it][A
Training...:  20% 510/2609 [29:28<3:04:22,  5.27s/it][A
Training...:  20% 511/2609 [29:33<2:59:28,  5.13s/it][A
Training...:  20% 512/2609 [29:38<2:53:08,  4.95s/it][A
Training...:  20% 513/2609 [29:42<2:48:06,  4.81s/it][A
Training...:  20% 514/2609 [29:46<2:43:15,  4.68s/it][A
Training...:  20% 515/2609 [29:51<2:38:26,  4.54s/it][A
Training...:  20% 516/2609 [29:55<2:33:53,  4.41s/it][A
Training...:  20% 517/2609 [29:59<2:29:30,  4.29s/it][A
Training...:  20% 518/2609 [30:03<2:24:42,  4.15s/it][A
Training...:  20% 519/2609 [30:06<2:21:12,  4.05s/it][A
Training...:  20% 520/2609 [30:10<2:17:04,  3.94s/it][A
Training...:  20% 521/2609 [30:14<2:13:42,  3.84s/it][A
Training...:  20% 522/2609 [30:17<2:10:25,  3.75s/it][A
Training...:  20% 523/2609 [30:21<2:06:46,  3.65s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:21:11<15:12:43, 9127.17s/it]
Training...:  20% 523/2609 [30:25<2:06:46,  3.65s/it][A
Training...:  20% 524/2609 [30:25<2:08:24,  3.70s/it][A
Training...:  20% 525/2609 [30:28<2:03:21,  3.55s/it][A
Training...:  20% 526/2609 [30:31<1:58:23,  3.41s/it][A
Training...:  20% 527/2609 [30:34<1:54:24,  3.30s/it][A
Training...:  20% 528/2609 [30:37<1:50:55,  3.20s/it][A
Training...:  20% 529/2609 [30:40<1:47:16,  3.09s/it][A
Training...:  20% 530/2609 [30:42<1:43:59,  3.00s/it][A
Training...:  20% 531/2609 [30:45<1:40:40,  2.91s/it][A
Training...:  20% 532/2609 [30:48<1:37:17,  2.81s/it][A
Training...:  20% 533/2609 [30:50<1:34:27,  2.73s/it][A
Training...:  20% 534/2609 [30:53<1:31:03,  2.63s/it][A
Training...:  21% 535/2609 [30:55<1:27:46,  2.54s/it][A
Training...:  21% 536/2609 [30:57<1:24:39,  2.45s/it][A
Training...:  21% 537/2609 [30:59<1:21:58,  2.37s/it][A
Training...:  21% 538/2609 [31:02<1:19:02,  2.29s/it][A
Training...:  21% 539/2609 [31:04<1:16:13,  2.21s/it][A
Training...:  21% 540/2609 [31:05<1:12:49,  2.11s/it][A
Training...:  21% 541/2609 [31:07<1:09:34,  2.02s/it][A
Training...:  21% 542/2609 [31:09<1:06:31,  1.93s/it][A
Training...:  21% 543/2609 [31:11<1:03:20,  1.84s/it][A
Training...:  21% 544/2609 [31:12<59:47,  1.74s/it]  [A
Training...:  21% 545/2609 [31:14<56:33,  1.64s/it][A
Training...:  21% 546/2609 [31:15<52:49,  1.54s/it][A
Training...:  21% 547/2609 [31:16<48:37,  1.41s/it][A
Training...:  21% 548/2609 [31:17<43:48,  1.28s/it][A                                                                                                                                                                    
                                                   [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:22:05<15:12:43, 9127.17s/it]
Training...:  21% 548/2609 [31:18<43:48,  1.28s/it][A
Training...:  21% 549/2609 [31:18<42:13,  1.23s/it][A
Training...:  21% 550/2609 [31:19<34:54,  1.02s/it][A
Training...:  21% 551/2609 [31:26<1:37:38,  2.85s/it][A
Training...:  21% 552/2609 [31:33<2:20:36,  4.10s/it][A
Training...:  21% 553/2609 [31:39<2:46:37,  4.86s/it][A
Training...:  21% 554/2609 [31:46<3:02:12,  5.32s/it][A
Training...:  21% 555/2609 [31:52<3:08:32,  5.51s/it][A
Training...:  21% 556/2609 [31:57<3:10:39,  5.57s/it][A
Training...:  21% 557/2609 [32:03<3:09:58,  5.56s/it][A
Training...:  21% 558/2609 [32:08<3:06:29,  5.46s/it][A
Training...:  21% 559/2609 [32:13<3:02:52,  5.35s/it][A
Training...:  21% 560/2609 [32:18<2:57:34,  5.20s/it][A
Training...:  22% 561/2609 [32:23<2:53:53,  5.09s/it][A
Training...:  22% 562/2609 [32:27<2:47:59,  4.92s/it][A
Training...:  22% 563/2609 [32:32<2:43:30,  4.80s/it][A
Training...:  22% 564/2609 [32:36<2:37:44,  4.63s/it][A
Training...:  22% 565/2609 [32:40<2:33:31,  4.51s/it][A
Training...:  22% 566/2609 [32:44<2:28:47,  4.37s/it][A
Training...:  22% 567/2609 [32:48<2:25:12,  4.27s/it][A
Training...:  22% 568/2609 [32:52<2:21:20,  4.15s/it][A
Training...:  22% 569/2609 [32:56<2:17:47,  4.05s/it][A
Training...:  22% 570/2609 [33:00<2:13:36,  3.93s/it][A
Training...:  22% 571/2609 [33:03<2:10:19,  3.84s/it][A
Training...:  22% 572/2609 [33:07<2:07:02,  3.74s/it][A
Training...:  22% 573/2609 [33:10<2:03:39,  3.64s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:24:01<15:12:43, 9127.17s/it]
Training...:  22% 573/2609 [33:14<2:03:39,  3.64s/it][A
Training...:  22% 574/2609 [33:14<2:04:48,  3.68s/it][A
Training...:  22% 575/2609 [33:17<2:00:54,  3.57s/it][A
Training...:  22% 576/2609 [33:21<1:57:04,  3.46s/it][A
Training...:  22% 577/2609 [33:24<1:53:22,  3.35s/it][A
Training...:  22% 578/2609 [33:27<1:49:42,  3.24s/it][A
Training...:  22% 579/2609 [33:30<1:47:00,  3.16s/it][A
Training...:  22% 580/2609 [33:33<1:43:26,  3.06s/it][A
Training...:  22% 581/2609 [33:35<1:40:28,  2.97s/it][A
Training...:  22% 582/2609 [33:38<1:37:20,  2.88s/it][A
Training...:  22% 583/2609 [33:41<1:34:29,  2.80s/it][A
Training...:  22% 584/2609 [33:43<1:31:13,  2.70s/it][A
Training...:  22% 585/2609 [33:45<1:28:05,  2.61s/it][A
Training...:  22% 586/2609 [33:48<1:25:04,  2.52s/it][A
Training...:  22% 587/2609 [33:50<1:21:56,  2.43s/it][A
Training...:  23% 588/2609 [33:52<1:18:37,  2.33s/it][A
Training...:  23% 589/2609 [33:54<1:16:10,  2.26s/it][A
Training...:  23% 590/2609 [33:56<1:12:55,  2.17s/it][A
Training...:  23% 591/2609 [33:58<1:09:41,  2.07s/it][A
Training...:  23% 592/2609 [34:00<1:06:48,  1.99s/it][A
Training...:  23% 593/2609 [34:01<1:03:03,  1.88s/it][A
Training...:  23% 594/2609 [34:03<59:08,  1.76s/it]  [A
Training...:  23% 595/2609 [34:04<55:17,  1.65s/it][A
Training...:  23% 596/2609 [34:06<51:23,  1.53s/it][A
Training...:  23% 597/2609 [34:07<47:14,  1.41s/it][A
Training...:  23% 598/2609 [34:08<42:19,  1.26s/it][A                                                                                                                                                                    
                                                   [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:24:55<15:12:43, 9127.17s/it]
Training...:  23% 598/2609 [34:09<42:19,  1.26s/it][A
Training...:  23% 599/2609 [34:09<41:01,  1.22s/it][A
Training...:  23% 600/2609 [34:09<34:14,  1.02s/it][A
Training...:  23% 601/2609 [34:17<1:37:21,  2.91s/it][A
Training...:  23% 602/2609 [34:24<2:18:57,  4.15s/it][A
Training...:  23% 603/2609 [34:30<2:42:17,  4.85s/it][A
Training...:  23% 604/2609 [34:36<2:55:36,  5.26s/it][A
Training...:  23% 605/2609 [34:42<3:02:16,  5.46s/it][A
Training...:  23% 606/2609 [34:48<3:02:16,  5.46s/it][A
Training...:  23% 607/2609 [34:53<3:02:21,  5.47s/it][A
Training...:  23% 608/2609 [34:58<2:58:47,  5.36s/it][A
Training...:  23% 609/2609 [35:03<2:55:50,  5.28s/it][A
Training...:  23% 610/2609 [35:08<2:50:52,  5.13s/it][A
Training...:  23% 611/2609 [35:13<2:46:45,  5.01s/it][A
Training...:  23% 612/2609 [35:17<2:41:49,  4.86s/it][A
Training...:  23% 613/2609 [35:22<2:37:59,  4.75s/it][A
Training...:  24% 614/2609 [35:26<2:32:47,  4.60s/it][A
Training...:  24% 615/2609 [35:30<2:29:10,  4.49s/it][A
Training...:  24% 616/2609 [35:34<2:23:48,  4.33s/it][A
Training...:  24% 617/2609 [35:38<2:19:23,  4.20s/it][A
Training...:  24% 618/2609 [35:42<2:15:14,  4.08s/it][A
Training...:  24% 619/2609 [35:46<2:11:47,  3.97s/it][A
Training...:  24% 620/2609 [35:49<2:08:05,  3.86s/it][A
Training...:  24% 621/2609 [35:53<2:05:01,  3.77s/it][A
Training...:  24% 622/2609 [35:56<2:01:45,  3.68s/it][A
Training...:  24% 623/2609 [36:00<1:58:42,  3.59s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:26:50<15:12:43, 9127.17s/it]
Training...:  24% 623/2609 [36:04<1:58:42,  3.59s/it][A
Training...:  24% 624/2609 [36:04<2:00:48,  3.65s/it][A
Training...:  24% 625/2609 [36:07<1:56:22,  3.52s/it][A
Training...:  24% 626/2609 [36:10<1:52:47,  3.41s/it][A
Training...:  24% 627/2609 [36:13<1:49:00,  3.30s/it][A
Training...:  24% 628/2609 [36:16<1:45:42,  3.20s/it][A
Training...:  24% 629/2609 [36:19<1:42:50,  3.12s/it][A
Training...:  24% 630/2609 [36:22<1:39:21,  3.01s/it][A
Training...:  24% 631/2609 [36:24<1:36:56,  2.94s/it][A
Training...:  24% 632/2609 [36:27<1:33:49,  2.85s/it][A
Training...:  24% 633/2609 [36:30<1:30:35,  2.75s/it][A
Training...:  24% 634/2609 [36:32<1:27:23,  2.65s/it][A
Training...:  24% 635/2609 [36:34<1:24:55,  2.58s/it][A
Training...:  24% 636/2609 [36:37<1:21:47,  2.49s/it][A
Training...:  24% 637/2609 [36:39<1:18:40,  2.39s/it][A
Training...:  24% 638/2609 [36:41<1:15:24,  2.30s/it][A
Training...:  24% 639/2609 [36:43<1:12:37,  2.21s/it][A
Training...:  25% 640/2609 [36:45<1:09:14,  2.11s/it][A
Training...:  25% 641/2609 [36:47<1:05:57,  2.01s/it][A
Training...:  25% 642/2609 [36:48<1:02:56,  1.92s/it][A
Training...:  25% 643/2609 [36:50<59:45,  1.82s/it]  [A
Training...:  25% 644/2609 [36:51<56:29,  1.72s/it][A
Training...:  25% 645/2609 [36:53<53:01,  1.62s/it][A
Training...:  25% 646/2609 [36:54<49:20,  1.51s/it][A
Training...:  25% 647/2609 [36:55<45:40,  1.40s/it][A
Training...:  25% 648/2609 [36:56<41:28,  1.27s/it][A                                                                                                                                                                    
                                                   [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:27:44<15:12:43, 9127.17s/it]
Training...:  25% 648/2609 [36:57<41:28,  1.27s/it][A
Training...:  25% 649/2609 [36:57<40:02,  1.23s/it][A
Training...:  25% 650/2609 [36:58<33:37,  1.03s/it][A
Training...:  25% 651/2609 [37:05<1:32:56,  2.85s/it][A
Training...:  25% 652/2609 [37:12<2:13:23,  4.09s/it][A
Training...:  25% 653/2609 [37:18<2:37:18,  4.83s/it][A
Training...:  25% 654/2609 [37:24<2:49:37,  5.21s/it][A
Training...:  25% 655/2609 [37:30<2:56:11,  5.41s/it][A
Training...:  25% 656/2609 [37:36<2:57:49,  5.46s/it][A
Training...:  25% 657/2609 [37:41<2:56:44,  5.43s/it][A
Training...:  25% 658/2609 [37:47<2:54:11,  5.36s/it][A
Training...:  25% 659/2609 [37:52<2:51:11,  5.27s/it][A
Training...:  25% 660/2609 [37:56<2:47:08,  5.15s/it][A
Training...:  25% 661/2609 [38:01<2:44:44,  5.07s/it][A
Training...:  25% 662/2609 [38:06<2:40:54,  4.96s/it][A
Training...:  25% 663/2609 [38:11<2:37:26,  4.85s/it][A
Training...:  25% 664/2609 [38:15<2:33:16,  4.73s/it][A
Training...:  25% 665/2609 [38:19<2:29:23,  4.61s/it][A
Training...:  26% 666/2609 [38:23<2:24:15,  4.45s/it][A
Training...:  26% 667/2609 [38:28<2:20:09,  4.33s/it][A
Training...:  26% 668/2609 [38:31<2:15:46,  4.20s/it][A
Training...:  26% 669/2609 [38:35<2:12:29,  4.10s/it][A
Training...:  26% 670/2609 [38:39<2:08:15,  3.97s/it][A
Training...:  26% 671/2609 [38:43<2:05:20,  3.88s/it][A
Training...:  26% 672/2609 [38:46<2:02:27,  3.79s/it][A
Training...:  26% 673/2609 [38:50<2:00:06,  3.72s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:29:40<15:12:43, 9127.17s/it]
Training...:  26% 673/2609 [38:54<2:00:06,  3.72s/it][A
Training...:  26% 674/2609 [38:54<2:02:26,  3.80s/it][A
Training...:  26% 675/2609 [38:57<1:57:21,  3.64s/it][A
Training...:  26% 676/2609 [39:00<1:52:38,  3.50s/it][A
Training...:  26% 677/2609 [39:03<1:48:55,  3.38s/it][A
Training...:  26% 678/2609 [39:06<1:45:14,  3.27s/it][A
Training...:  26% 679/2609 [39:09<1:41:49,  3.17s/it][A
Training...:  26% 680/2609 [39:12<1:38:16,  3.06s/it][A
Training...:  26% 681/2609 [39:15<1:35:46,  2.98s/it][A
Training...:  26% 682/2609 [39:18<1:32:42,  2.89s/it][A
Training...:  26% 683/2609 [39:20<1:29:34,  2.79s/it][A
Training...:  26% 684/2609 [39:23<1:26:29,  2.70s/it][A
Training...:  26% 685/2609 [39:25<1:23:43,  2.61s/it][A
Training...:  26% 686/2609 [39:27<1:21:13,  2.53s/it][A
Training...:  26% 687/2609 [39:30<1:18:29,  2.45s/it][A
Training...:  26% 688/2609 [39:32<1:15:27,  2.36s/it][A
Training...:  26% 689/2609 [39:34<1:12:38,  2.27s/it][A
Training...:  26% 690/2609 [39:36<1:09:36,  2.18s/it][A
Training...:  26% 691/2609 [39:38<1:06:57,  2.09s/it][A
Training...:  27% 692/2609 [39:39<1:03:57,  2.00s/it][A
Training...:  27% 693/2609 [39:41<1:00:34,  1.90s/it][A
Training...:  27% 694/2609 [39:43<57:18,  1.80s/it]  [A
Training...:  27% 695/2609 [39:44<53:59,  1.69s/it][A
Training...:  27% 696/2609 [39:45<50:17,  1.58s/it][A
Training...:  27% 697/2609 [39:47<46:31,  1.46s/it][A
Training...:  27% 698/2609 [39:48<42:33,  1.34s/it][A                                                                                                                                                                    
                                                   [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:30:35<15:12:43, 9127.17s/it]
Training...:  27% 698/2609 [39:49<42:33,  1.34s/it][A
Training...:  27% 699/2609 [39:49<40:53,  1.28s/it][A
Training...:  27% 700/2609 [39:49<34:01,  1.07s/it][A
Training...:  27% 701/2609 [39:56<1:31:03,  2.86s/it][A
Training...:  27% 702/2609 [40:03<2:10:24,  4.10s/it][A
Training...:  27% 703/2609 [40:10<2:32:35,  4.80s/it][A
Training...:  27% 704/2609 [40:16<2:45:45,  5.22s/it][A
Training...:  27% 705/2609 [40:22<2:52:36,  5.44s/it][A
Training...:  27% 706/2609 [40:28<2:53:44,  5.48s/it][A
Training...:  27% 707/2609 [40:33<2:53:23,  5.47s/it][A
Training...:  27% 708/2609 [40:38<2:50:36,  5.38s/it][A
Training...:  27% 709/2609 [40:43<2:47:13,  5.28s/it][A
Training...:  27% 710/2609 [40:48<2:43:33,  5.17s/it][A
Training...:  27% 711/2609 [40:53<2:39:47,  5.05s/it][A
Training...:  27% 712/2609 [40:57<2:35:16,  4.91s/it][A
Training...:  27% 713/2609 [41:02<2:32:41,  4.83s/it][A
Training...:  27% 714/2609 [41:06<2:27:40,  4.68s/it][A
Training...:  27% 715/2609 [41:11<2:22:52,  4.53s/it][A
Training...:  27% 716/2609 [41:15<2:18:33,  4.39s/it][A
Training...:  27% 717/2609 [41:19<2:14:29,  4.27s/it][A
Training...:  28% 718/2609 [41:23<2:10:41,  4.15s/it][A
Training...:  28% 719/2609 [41:26<2:07:43,  4.05s/it][A
Training...:  28% 720/2609 [41:30<2:04:59,  3.97s/it][A
Training...:  28% 721/2609 [41:34<2:01:46,  3.87s/it][A
Training...:  28% 722/2609 [41:37<1:57:25,  3.73s/it][A
Training...:  28% 723/2609 [41:41<1:53:44,  3.62s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:32:31<15:12:43, 9127.17s/it]
Training...:  28% 723/2609 [41:44<1:53:44,  3.62s/it][A
Training...:  28% 724/2609 [41:44<1:56:00,  3.69s/it][A
Training...:  28% 725/2609 [41:48<1:51:26,  3.55s/it][A
Training...:  28% 726/2609 [41:51<1:47:31,  3.43s/it][A
Training...:  28% 727/2609 [41:54<1:44:00,  3.32s/it][A
Training...:  28% 728/2609 [41:57<1:40:21,  3.20s/it][A
Training...:  28% 729/2609 [42:00<1:37:19,  3.11s/it][A
Training...:  28% 730/2609 [42:02<1:34:14,  3.01s/it][A
Training...:  28% 731/2609 [42:05<1:31:14,  2.91s/it][A
Training...:  28% 732/2609 [42:08<1:27:44,  2.80s/it][A
Training...:  28% 733/2609 [42:10<1:24:59,  2.72s/it][A
Training...:  28% 734/2609 [42:13<1:22:22,  2.64s/it][A
Training...:  28% 735/2609 [42:15<1:19:40,  2.55s/it][A
Training...:  28% 736/2609 [42:17<1:17:30,  2.48s/it][A
Training...:  28% 737/2609 [42:20<1:14:58,  2.40s/it][A
Training...:  28% 738/2609 [42:22<1:12:12,  2.32s/it][A
Training...:  28% 739/2609 [42:24<1:09:38,  2.23s/it][A
Training...:  28% 740/2609 [42:26<1:06:40,  2.14s/it][A
Training...:  28% 741/2609 [42:27<1:03:48,  2.05s/it][A
Training...:  28% 742/2609 [42:29<1:01:08,  1.97s/it][A
Training...:  28% 743/2609 [42:31<58:12,  1.87s/it]  [A
Training...:  29% 744/2609 [42:32<55:00,  1.77s/it][A
Training...:  29% 745/2609 [42:34<51:32,  1.66s/it][A
Training...:  29% 746/2609 [42:35<47:38,  1.53s/it][A
Training...:  29% 747/2609 [42:36<43:47,  1.41s/it][A
Training...:  29% 748/2609 [42:37<39:45,  1.28s/it][A                                                                                                                                                                    
                                                   [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:33:25<15:12:43, 9127.17s/it]
Training...:  29% 748/2609 [42:38<39:45,  1.28s/it][A
Training...:  29% 749/2609 [42:38<38:37,  1.25s/it][A
Training...:  29% 750/2609 [42:39<32:11,  1.04s/it][A
Training...:  29% 751/2609 [42:46<1:28:21,  2.85s/it][A
Training...:  29% 752/2609 [42:53<2:08:14,  4.14s/it][A
Training...:  29% 753/2609 [43:00<2:31:21,  4.89s/it][A
Training...:  29% 754/2609 [43:06<2:45:23,  5.35s/it][A
Training...:  29% 755/2609 [43:12<2:51:50,  5.56s/it][A
Training...:  29% 756/2609 [43:18<2:53:29,  5.62s/it][A
Training...:  29% 757/2609 [43:24<2:52:47,  5.60s/it][A
Training...:  29% 758/2609 [43:29<2:49:36,  5.50s/it][A
Training...:  29% 759/2609 [43:34<2:48:20,  5.46s/it][A
Training...:  29% 760/2609 [43:39<2:44:57,  5.35s/it][A
Training...:  29% 761/2609 [43:44<2:40:09,  5.20s/it][A
Training...:  29% 762/2609 [43:49<2:34:15,  5.01s/it][A
Training...:  29% 763/2609 [43:53<2:28:50,  4.84s/it][A
Training...:  29% 764/2609 [43:57<2:24:02,  4.68s/it][A
Training...:  29% 765/2609 [44:02<2:19:36,  4.54s/it][A
Training...:  29% 766/2609 [44:06<2:15:15,  4.40s/it][A
Training...:  29% 767/2609 [44:10<2:11:44,  4.29s/it][A
Training...:  29% 768/2609 [44:14<2:08:01,  4.17s/it][A
Training...:  29% 769/2609 [44:18<2:08:01,  4.17s/it][A
Training...:  30% 770/2609 [44:22<2:03:35,  4.03s/it][A
Training...:  30% 771/2609 [44:25<1:59:52,  3.91s/it][A
Training...:  30% 772/2609 [44:29<1:56:24,  3.80s/it][A
Training...:  30% 773/2609 [44:32<1:53:09,  3.70s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:35:23<15:12:43, 9127.17s/it]
Training...:  30% 773/2609 [44:36<1:53:09,  3.70s/it][A
Training...:  30% 774/2609 [44:36<1:56:23,  3.81s/it][A
Training...:  30% 775/2609 [44:40<1:51:29,  3.65s/it][A
Training...:  30% 776/2609 [44:43<1:47:05,  3.51s/it][A
Training...:  30% 777/2609 [44:46<1:43:18,  3.38s/it][A
Training...:  30% 778/2609 [44:49<1:39:36,  3.26s/it][A
Training...:  30% 779/2609 [44:52<1:36:31,  3.16s/it][A
Training...:  30% 780/2609 [44:55<1:33:32,  3.07s/it][A
Training...:  30% 781/2609 [44:57<1:30:55,  2.98s/it][A
Training...:  30% 782/2609 [45:00<1:27:41,  2.88s/it][A
Training...:  30% 783/2609 [45:03<1:24:51,  2.79s/it][A
Training...:  30% 784/2609 [45:05<1:21:40,  2.69s/it][A
Training...:  30% 785/2609 [45:07<1:18:50,  2.59s/it][A
Training...:  30% 786/2609 [45:10<1:15:43,  2.49s/it][A
Training...:  30% 787/2609 [45:12<1:12:46,  2.40s/it][A
Training...:  30% 788/2609 [45:14<1:09:33,  2.29s/it][A
Training...:  30% 789/2609 [45:16<1:06:51,  2.20s/it][A
Training...:  30% 790/2609 [45:18<1:03:56,  2.11s/it][A
Training...:  30% 791/2609 [45:20<1:01:13,  2.02s/it][A
Training...:  30% 792/2609 [45:21<58:20,  1.93s/it]  [A
Training...:  30% 793/2609 [45:23<55:51,  1.85s/it][A
Training...:  30% 794/2609 [45:24<52:38,  1.74s/it][A
Training...:  30% 795/2609 [45:26<49:09,  1.63s/it][A
Training...:  31% 796/2609 [45:27<45:35,  1.51s/it][A
Training...:  31% 797/2609 [45:28<41:54,  1.39s/it][A
Training...:  31% 798/2609 [45:29<37:31,  1.24s/it][A                                                                                                                                                                    
                                                   [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:36:17<15:12:43, 9127.17s/it]
Training...:  31% 798/2609 [45:30<37:31,  1.24s/it][A
Training...:  31% 799/2609 [45:30<36:15,  1.20s/it][A
Training...:  31% 800/2609 [45:31<30:09,  1.00s/it][A
Training...:  31% 801/2609 [45:38<1:24:55,  2.82s/it][A
Training...:  31% 802/2609 [45:45<2:02:25,  4.07s/it][A
Training...:  31% 803/2609 [45:51<2:26:04,  4.85s/it][A
Training...:  31% 804/2609 [45:58<2:40:50,  5.35s/it][A
Training...:  31% 805/2609 [46:04<2:47:11,  5.56s/it][A
Training...:  31% 806/2609 [46:10<2:48:53,  5.62s/it][A
Training...:  31% 807/2609 [46:15<2:49:11,  5.63s/it][A
Training...:  31% 808/2609 [46:21<2:46:53,  5.56s/it][A
Training...:  31% 809/2609 [46:26<2:43:49,  5.46s/it][A
Training...:  31% 810/2609 [46:31<2:39:53,  5.33s/it][A
Training...:  31% 811/2609 [46:36<2:36:20,  5.22s/it][A
Training...:  31% 812/2609 [46:41<2:31:26,  5.06s/it][A
Training...:  31% 813/2609 [46:45<2:27:30,  4.93s/it][A
Training...:  31% 814/2609 [46:50<2:22:44,  4.77s/it][A
Training...:  31% 815/2609 [46:54<2:19:02,  4.65s/it][A
Training...:  31% 816/2609 [46:58<2:14:27,  4.50s/it][A
Training...:  31% 817/2609 [47:02<2:11:36,  4.41s/it][A
Training...:  31% 818/2609 [47:06<2:07:37,  4.28s/it][A
Training...:  31% 819/2609 [47:10<2:03:59,  4.16s/it][A
Training...:  31% 820/2609 [47:14<2:00:14,  4.03s/it][A
Training...:  31% 821/2609 [47:18<1:56:52,  3.92s/it][A
Training...:  32% 822/2609 [47:21<1:53:27,  3.81s/it][A
Training...:  32% 823/2609 [47:25<1:51:00,  3.73s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:38:15<15:12:43, 9127.17s/it]
Training...:  32% 823/2609 [47:29<1:51:00,  3.73s/it][A
Training...:  32% 824/2609 [47:29<1:53:19,  3.81s/it][A
Training...:  32% 825/2609 [47:32<1:49:01,  3.67s/it][A
Training...:  32% 826/2609 [47:35<1:45:01,  3.53s/it][A
Training...:  32% 827/2609 [47:38<1:42:10,  3.44s/it][A
Training...:  32% 828/2609 [47:42<1:39:21,  3.35s/it][A
Training...:  32% 829/2609 [47:45<1:36:57,  3.27s/it][A
Training...:  32% 830/2609 [47:48<1:34:15,  3.18s/it][A
Training...:  32% 831/2609 [47:51<1:32:09,  3.11s/it][A
Training...:  32% 832/2609 [47:53<1:27:59,  2.97s/it][A
Training...:  32% 833/2609 [47:56<1:24:26,  2.85s/it][A
Training...:  32% 834/2609 [47:58<1:21:12,  2.75s/it][A
Training...:  32% 835/2609 [48:01<1:18:36,  2.66s/it][A
Training...:  32% 836/2609 [48:03<1:15:34,  2.56s/it][A
Training...:  32% 837/2609 [48:05<1:12:29,  2.45s/it][A
Training...:  32% 838/2609 [48:07<1:09:25,  2.35s/it][A
Training...:  32% 839/2609 [48:10<1:06:58,  2.27s/it][A
Training...:  32% 840/2609 [48:11<1:04:06,  2.17s/it][A
Training...:  32% 841/2609 [48:13<1:01:13,  2.08s/it][A
Training...:  32% 842/2609 [48:15<58:09,  1.98s/it]  [A
Training...:  32% 843/2609 [48:17<55:25,  1.88s/it][A
Training...:  32% 844/2609 [48:18<52:17,  1.78s/it][A
Training...:  32% 845/2609 [48:20<48:49,  1.66s/it][A
Training...:  32% 846/2609 [48:21<45:04,  1.53s/it][A
Training...:  32% 847/2609 [48:22<41:32,  1.41s/it][A
Training...:  33% 848/2609 [48:23<37:24,  1.27s/it][A                                                                                                                                                                    
                                                   [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:39:11<15:12:43, 9127.17s/it]
Training...:  33% 848/2609 [48:24<37:24,  1.27s/it][A
Training...:  33% 849/2609 [48:24<36:05,  1.23s/it][A
Training...:  33% 850/2609 [48:25<29:54,  1.02s/it][A
Training...:  33% 851/2609 [48:32<1:24:40,  2.89s/it][A
Training...:  33% 852/2609 [48:39<2:01:56,  4.16s/it][A
Training...:  33% 853/2609 [48:46<2:24:07,  4.92s/it][A
Training...:  33% 854/2609 [48:52<2:36:48,  5.36s/it][A
Training...:  33% 855/2609 [48:58<2:43:48,  5.60s/it][A
Training...:  33% 856/2609 [49:04<2:45:27,  5.66s/it][A
Training...:  33% 857/2609 [49:10<2:46:00,  5.69s/it][A
Training...:  33% 858/2609 [49:15<2:42:58,  5.58s/it][A
Training...:  33% 859/2609 [49:20<2:39:17,  5.46s/it][A
Training...:  33% 860/2609 [49:25<2:35:13,  5.33s/it][A
Training...:  33% 861/2609 [49:30<2:31:46,  5.21s/it][A
Training...:  33% 862/2609 [49:35<2:27:03,  5.05s/it][A
Training...:  33% 863/2609 [49:40<2:23:13,  4.92s/it][A
Training...:  33% 864/2609 [49:44<2:18:59,  4.78s/it][A
Training...:  33% 865/2609 [49:48<2:15:05,  4.65s/it][A
Training...:  33% 866/2609 [49:53<2:10:54,  4.51s/it][A
Training...:  33% 867/2609 [49:57<2:06:34,  4.36s/it][A
Training...:  33% 868/2609 [50:01<2:02:55,  4.24s/it][A
Training...:  33% 869/2609 [50:04<1:59:15,  4.11s/it][A
Training...:  33% 870/2609 [50:08<1:55:35,  3.99s/it][A
Training...:  33% 871/2609 [50:12<1:52:16,  3.88s/it][A
Training...:  33% 872/2609 [50:15<1:48:57,  3.76s/it][A
Training...:  33% 873/2609 [50:19<1:46:24,  3.68s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:41:09<15:12:43, 9127.17s/it]
Training...:  33% 873/2609 [50:23<1:46:24,  3.68s/it][A
Training...:  33% 874/2609 [50:23<1:48:03,  3.74s/it][A
Training...:  34% 875/2609 [50:26<1:44:30,  3.62s/it][A
Training...:  34% 876/2609 [50:29<1:41:09,  3.50s/it][A
Training...:  34% 877/2609 [50:32<1:37:28,  3.38s/it][A
Training...:  34% 878/2609 [50:35<1:33:44,  3.25s/it][A
Training...:  34% 879/2609 [50:38<1:30:54,  3.15s/it][A
Training...:  34% 880/2609 [50:41<1:28:30,  3.07s/it][A
Training...:  34% 881/2609 [50:44<1:26:49,  3.02s/it][A
Training...:  34% 882/2609 [50:46<1:23:26,  2.90s/it][A
Training...:  34% 883/2609 [50:49<1:20:32,  2.80s/it][A
Training...:  34% 884/2609 [50:51<1:17:23,  2.69s/it][A
Training...:  34% 885/2609 [50:54<1:14:39,  2.60s/it][A
Training...:  34% 886/2609 [50:56<1:11:54,  2.50s/it][A
Training...:  34% 887/2609 [50:58<1:09:30,  2.42s/it][A
Training...:  34% 888/2609 [51:00<1:06:56,  2.33s/it][A
Training...:  34% 889/2609 [51:02<1:04:10,  2.24s/it][A
Training...:  34% 890/2609 [51:04<1:01:25,  2.14s/it][A
Training...:  34% 891/2609 [51:06<58:37,  2.05s/it]  [A
Training...:  34% 892/2609 [51:08<55:54,  1.95s/it][A
Training...:  34% 893/2609 [51:10<53:20,  1.87s/it][A
Training...:  34% 894/2609 [51:11<50:07,  1.75s/it][A
Training...:  34% 895/2609 [51:13<47:06,  1.65s/it][A
Training...:  34% 896/2609 [51:14<43:43,  1.53s/it][A
Training...:  34% 897/2609 [51:15<40:41,  1.43s/it][A
Training...:  34% 898/2609 [51:16<36:28,  1.28s/it][A                                                                                                                                                                    
                                                   [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:42:04<15:12:43, 9127.17s/it]
Training...:  34% 898/2609 [51:17<36:28,  1.28s/it][A
Training...:  34% 899/2609 [51:17<35:11,  1.24s/it][A
Training...:  34% 900/2609 [51:18<29:14,  1.03s/it][A
Training...:  35% 901/2609 [51:25<1:23:50,  2.94s/it][A
Training...:  35% 902/2609 [51:32<1:58:45,  4.17s/it][A
Training...:  35% 903/2609 [51:39<2:19:37,  4.91s/it][A
Training...:  35% 904/2609 [51:45<2:31:43,  5.34s/it][A
Training...:  35% 905/2609 [51:51<2:37:07,  5.53s/it][A
Training...:  35% 906/2609 [51:57<2:39:00,  5.60s/it][A
Training...:  35% 907/2609 [52:02<2:38:34,  5.59s/it][A
Training...:  35% 908/2609 [52:08<2:35:40,  5.49s/it][A
Training...:  35% 909/2609 [52:13<2:32:23,  5.38s/it][A
Training...:  35% 910/2609 [52:18<2:28:42,  5.25s/it][A
Training...:  35% 911/2609 [52:22<2:25:14,  5.13s/it][A
Training...:  35% 912/2609 [52:27<2:21:03,  4.99s/it][A
Training...:  35% 913/2609 [52:32<2:16:56,  4.84s/it][A
Training...:  35% 914/2609 [52:36<2:12:44,  4.70s/it][A
Training...:  35% 915/2609 [52:40<2:09:06,  4.57s/it][A
Training...:  35% 916/2609 [52:44<2:05:20,  4.44s/it][A
Training...:  35% 917/2609 [52:49<2:02:39,  4.35s/it][A
Training...:  35% 918/2609 [52:52<1:59:07,  4.23s/it][A
Training...:  35% 919/2609 [52:56<1:56:15,  4.13s/it][A
Training...:  35% 920/2609 [53:00<1:53:46,  4.04s/it][A
Training...:  35% 921/2609 [53:04<1:50:43,  3.94s/it][A
Training...:  35% 922/2609 [53:07<1:47:18,  3.82s/it][A
Training...:  35% 923/2609 [53:11<1:44:26,  3.72s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:44:02<15:12:43, 9127.17s/it]
Training...:  35% 923/2609 [53:15<1:44:26,  3.72s/it][A
Training...:  35% 924/2609 [53:15<1:46:32,  3.79s/it][A
Training...:  35% 925/2609 [53:18<1:42:12,  3.64s/it][A
Training...:  35% 926/2609 [53:21<1:37:40,  3.48s/it][A
Training...:  36% 927/2609 [53:24<1:34:34,  3.37s/it][A
Training...:  36% 928/2609 [53:27<1:31:36,  3.27s/it][A
Training...:  36% 929/2609 [53:30<1:28:21,  3.16s/it][A
Training...:  36% 930/2609 [53:33<1:25:22,  3.05s/it][A
Training...:  36% 931/2609 [53:36<1:22:22,  2.95s/it][A
Training...:  36% 932/2609 [53:38<1:19:18,  2.84s/it][A
Training...:  36% 933/2609 [53:41<1:16:46,  2.75s/it][A
Training...:  36% 934/2609 [53:43<1:14:24,  2.67s/it][A
Training...:  36% 935/2609 [53:46<1:12:02,  2.58s/it][A
Training...:  36% 936/2609 [53:48<1:09:31,  2.49s/it][A
Training...:  36% 937/2609 [53:50<1:06:39,  2.39s/it][A
Training...:  36% 938/2609 [53:52<1:03:53,  2.29s/it][A
Training...:  36% 939/2609 [53:54<1:01:31,  2.21s/it][A
Training...:  36% 940/2609 [53:56<58:52,  2.12s/it]  [A
Training...:  36% 941/2609 [53:58<56:27,  2.03s/it][A
Training...:  36% 942/2609 [54:00<54:00,  1.94s/it][A
Training...:  36% 943/2609 [54:01<51:19,  1.85s/it][A
Training...:  36% 944/2609 [54:03<48:18,  1.74s/it][A
Training...:  36% 945/2609 [54:04<45:25,  1.64s/it][A
Training...:  36% 946/2609 [54:06<42:14,  1.52s/it][A
Training...:  36% 947/2609 [54:07<39:03,  1.41s/it][A
Training...:  36% 948/2609 [54:08<35:24,  1.28s/it][A                                                                                                                                                                    
                                                   [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:44:56<15:12:43, 9127.17s/it]
Training...:  36% 948/2609 [54:09<35:24,  1.28s/it][A
Training...:  36% 949/2609 [54:09<34:18,  1.24s/it][A
Training...:  36% 950/2609 [54:09<28:37,  1.04s/it][A
Training...:  36% 951/2609 [54:17<1:20:51,  2.93s/it][A
Training...:  36% 952/2609 [54:24<1:55:12,  4.17s/it][A
Training...:  37% 953/2609 [54:30<2:15:07,  4.90s/it][A
Training...:  37% 954/2609 [54:37<2:25:52,  5.29s/it][A
Training...:  37% 955/2609 [54:43<2:30:56,  5.48s/it][A
Training...:  37% 956/2609 [54:48<2:32:00,  5.52s/it][A
Training...:  37% 957/2609 [54:54<2:32:14,  5.53s/it][A
Training...:  37% 958/2609 [54:59<2:31:00,  5.49s/it][A
Training...:  37% 959/2609 [55:04<2:28:48,  5.41s/it][A
Training...:  37% 960/2609 [55:09<2:24:21,  5.25s/it][A
Training...:  37% 961/2609 [55:14<2:20:02,  5.10s/it][A
Training...:  37% 962/2609 [55:19<2:15:43,  4.94s/it][A
Training...:  37% 963/2609 [55:23<2:11:54,  4.81s/it][A
Training...:  37% 964/2609 [55:27<2:07:30,  4.65s/it][A
Training...:  37% 965/2609 [55:32<2:03:41,  4.51s/it][A
Training...:  37% 966/2609 [55:36<1:59:34,  4.37s/it][A
Training...:  37% 967/2609 [55:40<1:56:41,  4.26s/it][A
Training...:  37% 968/2609 [55:43<1:53:22,  4.15s/it][A
Training...:  37% 969/2609 [55:47<1:50:25,  4.04s/it][A
Training...:  37% 970/2609 [55:51<1:47:34,  3.94s/it][A
Training...:  37% 971/2609 [55:55<1:44:57,  3.84s/it][A
Training...:  37% 972/2609 [55:58<1:41:45,  3.73s/it][A
Training...:  37% 973/2609 [56:01<1:38:44,  3.62s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:46:52<15:12:43, 9127.17s/it]
Training...:  37% 973/2609 [56:05<1:38:44,  3.62s/it][A
Training...:  37% 974/2609 [56:05<1:39:52,  3.67s/it][A
Training...:  37% 975/2609 [56:08<1:36:02,  3.53s/it][A
Training...:  37% 976/2609 [56:11<1:32:29,  3.40s/it][A
Training...:  37% 977/2609 [56:15<1:29:49,  3.30s/it][A
Training...:  37% 978/2609 [56:18<1:27:23,  3.22s/it][A
Training...:  38% 979/2609 [56:20<1:25:00,  3.13s/it][A
Training...:  38% 980/2609 [56:23<1:22:10,  3.03s/it][A
Training...:  38% 981/2609 [56:26<1:19:28,  2.93s/it][A
Training...:  38% 982/2609 [56:29<1:16:57,  2.84s/it][A
Training...:  38% 983/2609 [56:31<1:14:14,  2.74s/it][A
Training...:  38% 984/2609 [56:34<1:11:53,  2.65s/it][A
Training...:  38% 985/2609 [56:36<1:09:34,  2.57s/it][A
Training...:  38% 986/2609 [56:38<1:07:26,  2.49s/it][A
Training...:  38% 987/2609 [56:40<1:05:03,  2.41s/it][A
Training...:  38% 988/2609 [56:43<1:02:31,  2.31s/it][A
Training...:  38% 989/2609 [56:45<1:00:15,  2.23s/it][A
Training...:  38% 990/2609 [56:46<57:30,  2.13s/it]  [A
Training...:  38% 991/2609 [56:48<55:09,  2.05s/it][A
Training...:  38% 992/2609 [56:50<52:35,  1.95s/it][A
Training...:  38% 993/2609 [56:52<49:53,  1.85s/it][A
Training...:  38% 994/2609 [56:53<46:58,  1.75s/it][A
Training...:  38% 995/2609 [56:55<44:15,  1.64s/it][A
Training...:  38% 996/2609 [56:56<41:27,  1.54s/it][A
Training...:  38% 997/2609 [56:57<38:20,  1.43s/it][A
Training...:  38% 998/2609 [56:58<34:50,  1.30s/it][A                                                                                                                                                                    
                                                   [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:47:46<15:12:43, 9127.17s/it]
Training...:  38% 998/2609 [56:59<34:50,  1.30s/it][A
Training...:  38% 999/2609 [56:59<33:35,  1.25s/it][A
Training...:  38% 1000/2609 [57:00<28:04,  1.05s/it][A
Training...:  38% 1001/2609 [57:07<1:17:54,  2.91s/it][A
Training...:  38% 1002/2609 [57:14<1:53:14,  4.23s/it][A
Training...:  38% 1003/2609 [57:21<2:13:14,  4.98s/it][A
Training...:  38% 1004/2609 [57:27<2:24:15,  5.39s/it][A
Training...:  39% 1005/2609 [57:34<2:29:56,  5.61s/it][A
Training...:  39% 1006/2609 [57:39<2:31:15,  5.66s/it][A
Training...:  39% 1007/2609 [57:45<2:31:20,  5.67s/it][A
Training...:  39% 1008/2609 [57:50<2:28:21,  5.56s/it][A
Training...:  39% 1009/2609 [57:55<2:25:18,  5.45s/it][A
Training...:  39% 1010/2609 [58:00<2:21:23,  5.31s/it][A
Training...:  39% 1011/2609 [58:05<2:17:47,  5.17s/it][A
Training...:  39% 1012/2609 [58:10<2:13:43,  5.02s/it][A
Training...:  39% 1013/2609 [58:15<2:10:26,  4.90s/it][A
Training...:  39% 1014/2609 [58:19<2:06:17,  4.75s/it][A
Training...:  39% 1015/2609 [58:23<2:02:56,  4.63s/it][A
Training...:  39% 1016/2609 [58:28<1:59:29,  4.50s/it][A
Training...:  39% 1017/2609 [58:32<1:56:22,  4.39s/it][A
Training...:  39% 1018/2609 [58:36<1:52:52,  4.26s/it][A
Training...:  39% 1019/2609 [58:40<1:49:47,  4.14s/it][A
Training...:  39% 1020/2609 [58:43<1:46:32,  4.02s/it][A
Training...:  39% 1021/2609 [58:47<1:43:32,  3.91s/it][A
Training...:  39% 1022/2609 [58:50<1:40:18,  3.79s/it][A
Training...:  39% 1023/2609 [58:54<1:37:55,  3.70s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:49:45<15:12:43, 9127.17s/it]
Training...:  39% 1023/2609 [58:58<1:37:55,  3.70s/it][A
Training...:  39% 1024/2609 [58:58<1:39:56,  3.78s/it][A
Training...:  39% 1025/2609 [59:01<1:36:04,  3.64s/it][A
Training...:  39% 1026/2609 [59:04<1:33:20,  3.54s/it][A
Training...:  39% 1027/2609 [59:08<1:31:10,  3.46s/it][A
Training...:  39% 1028/2609 [59:11<1:27:20,  3.31s/it][A
Training...:  39% 1029/2609 [59:14<1:24:29,  3.21s/it][A
Training...:  39% 1030/2609 [59:17<1:21:30,  3.10s/it][A
Training...:  40% 1031/2609 [59:19<1:19:05,  3.01s/it][A
Training...:  40% 1032/2609 [59:22<1:16:39,  2.92s/it][A
Training...:  40% 1033/2609 [59:25<1:14:06,  2.82s/it][A
Training...:  40% 1034/2609 [59:27<1:11:20,  2.72s/it][A
Training...:  40% 1035/2609 [59:30<1:09:04,  2.63s/it][A
Training...:  40% 1036/2609 [59:32<1:06:48,  2.55s/it][A
Training...:  40% 1037/2609 [59:34<1:04:29,  2.46s/it][A
Training...:  40% 1038/2609 [59:36<1:01:58,  2.37s/it][A
Training...:  40% 1039/2609 [59:38<59:35,  2.28s/it]  [A
Training...:  40% 1040/2609 [59:40<57:06,  2.18s/it][A
Training...:  40% 1041/2609 [59:42<54:50,  2.10s/it][A
Training...:  40% 1042/2609 [59:44<52:18,  2.00s/it][A
Training...:  40% 1043/2609 [59:46<49:54,  1.91s/it][A
Training...:  40% 1044/2609 [59:47<47:21,  1.82s/it][A
Training...:  40% 1045/2609 [59:49<44:28,  1.71s/it][A
Training...:  40% 1046/2609 [59:50<41:27,  1.59s/it][A
Training...:  40% 1047/2609 [59:51<38:20,  1.47s/it][A
Training...:  40% 1048/2609 [59:52<34:58,  1.34s/it][A                                                                                                                                                                    
                                                    [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:50:40<15:12:43, 9127.17s/it]
Training...:  40% 1048/2609 [59:54<34:58,  1.34s/it][A
Training...:  40% 1049/2609 [59:54<33:52,  1.30s/it][A
Training...:  40% 1050/2609 [59:54<28:07,  1.08s/it][A
Training...:  40% 1051/2609 [1:00:01<1:15:38,  2.91s/it][A
Training...:  40% 1052/2609 [1:00:08<1:48:06,  4.17s/it][A
Training...:  40% 1053/2609 [1:00:15<2:06:56,  4.89s/it][A
Training...:  40% 1054/2609 [1:00:21<2:17:16,  5.30s/it][A
Training...:  40% 1055/2609 [1:00:27<2:22:32,  5.50s/it][A
Training...:  40% 1056/2609 [1:00:33<2:24:17,  5.57s/it][A
Training...:  41% 1057/2609 [1:00:38<2:24:01,  5.57s/it][A
Training...:  41% 1058/2609 [1:00:44<2:21:38,  5.48s/it][A
Training...:  41% 1059/2609 [1:00:49<2:19:35,  5.40s/it][A
Training...:  41% 1060/2609 [1:00:54<2:16:50,  5.30s/it][A
Training...:  41% 1061/2609 [1:00:59<2:13:57,  5.19s/it][A
Training...:  41% 1062/2609 [1:01:04<2:10:38,  5.07s/it][A
Training...:  41% 1063/2609 [1:01:08<2:06:55,  4.93s/it][A
Training...:  41% 1064/2609 [1:01:13<2:03:13,  4.79s/it][A
Training...:  41% 1065/2609 [1:01:17<1:59:45,  4.65s/it][A
Training...:  41% 1066/2609 [1:01:21<1:56:03,  4.51s/it][A
Training...:  41% 1067/2609 [1:01:26<1:54:15,  4.45s/it][A
Training...:  41% 1068/2609 [1:01:30<1:51:03,  4.32s/it][A
Training...:  41% 1069/2609 [1:01:34<1:47:54,  4.20s/it][A
Training...:  41% 1070/2609 [1:01:37<1:44:26,  4.07s/it][A
Training...:  41% 1071/2609 [1:01:41<1:41:24,  3.96s/it][A
Training...:  41% 1072/2609 [1:01:45<1:38:36,  3.85s/it][A
Training...:  41% 1073/2609 [1:01:48<1:35:33,  3.73s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:52:39<15:12:43, 9127.17s/it]
Training...:  41% 1073/2609 [1:01:52<1:35:33,  3.73s/it][A
Training...:  41% 1074/2609 [1:01:52<1:37:19,  3.80s/it][A
Training...:  41% 1075/2609 [1:01:55<1:33:25,  3.65s/it][A
Training...:  41% 1076/2609 [1:01:59<1:30:11,  3.53s/it][A
Training...:  41% 1077/2609 [1:02:02<1:27:31,  3.43s/it][A
Training...:  41% 1078/2609 [1:02:05<1:24:26,  3.31s/it][A
Training...:  41% 1079/2609 [1:02:08<1:22:18,  3.23s/it][A
Training...:  41% 1080/2609 [1:02:11<1:19:39,  3.13s/it][A
Training...:  41% 1081/2609 [1:02:14<1:17:22,  3.04s/it][A
Training...:  41% 1082/2609 [1:02:16<1:14:47,  2.94s/it][A
Training...:  42% 1083/2609 [1:02:19<1:12:03,  2.83s/it][A
Training...:  42% 1084/2609 [1:02:21<1:09:22,  2.73s/it][A
Training...:  42% 1085/2609 [1:02:24<1:07:17,  2.65s/it][A
Training...:  42% 1086/2609 [1:02:26<1:05:06,  2.56s/it][A
Training...:  42% 1087/2609 [1:02:29<1:03:11,  2.49s/it][A
Training...:  42% 1088/2609 [1:02:31<1:00:31,  2.39s/it][A
Training...:  42% 1089/2609 [1:02:33<58:05,  2.29s/it]  [A
Training...:  42% 1090/2609 [1:02:35<55:29,  2.19s/it][A
Training...:  42% 1091/2609 [1:02:37<52:47,  2.09s/it][A
Training...:  42% 1092/2609 [1:02:38<50:13,  1.99s/it][A
Training...:  42% 1093/2609 [1:02:40<47:44,  1.89s/it][A
Training...:  42% 1094/2609 [1:02:42<45:03,  1.78s/it][A
Training...:  42% 1095/2609 [1:02:43<42:28,  1.68s/it][A
Training...:  42% 1096/2609 [1:02:44<39:44,  1.58s/it][A
Training...:  42% 1097/2609 [1:02:45<36:47,  1.46s/it][A
Training...:  42% 1098/2609 [1:02:46<33:19,  1.32s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:53:34<15:12:43, 9127.17s/it]
Training...:  42% 1098/2609 [1:02:48<33:19,  1.32s/it][A
Training...:  42% 1099/2609 [1:02:48<31:59,  1.27s/it][A
Training...:  42% 1100/2609 [1:02:48<26:34,  1.06s/it][A
Training...:  42% 1101/2609 [1:02:55<1:12:41,  2.89s/it][A
Training...:  42% 1102/2609 [1:03:02<1:44:07,  4.15s/it][A
Training...:  42% 1103/2609 [1:03:09<2:03:05,  4.90s/it][A
Training...:  42% 1104/2609 [1:03:15<2:13:12,  5.31s/it][A
Training...:  42% 1105/2609 [1:03:21<2:18:52,  5.54s/it][A
Training...:  42% 1106/2609 [1:03:27<2:19:59,  5.59s/it][A
Training...:  42% 1107/2609 [1:03:33<2:19:15,  5.56s/it][A
Training...:  42% 1108/2609 [1:03:38<2:17:09,  5.48s/it][A
Training...:  43% 1109/2609 [1:03:43<2:16:18,  5.45s/it][A
Training...:  43% 1110/2609 [1:03:49<2:14:18,  5.38s/it][A
Training...:  43% 1111/2609 [1:03:53<2:10:15,  5.22s/it][A
Training...:  43% 1112/2609 [1:03:58<2:05:41,  5.04s/it][A
Training...:  43% 1113/2609 [1:04:03<2:02:04,  4.90s/it][A
Training...:  43% 1114/2609 [1:04:07<1:58:08,  4.74s/it][A
Training...:  43% 1115/2609 [1:04:11<1:54:38,  4.60s/it][A
Training...:  43% 1116/2609 [1:04:15<1:50:50,  4.45s/it][A
Training...:  43% 1117/2609 [1:04:19<1:47:41,  4.33s/it][A
Training...:  43% 1118/2609 [1:04:23<1:44:02,  4.19s/it][A
Training...:  43% 1119/2609 [1:04:27<1:41:17,  4.08s/it][A
Training...:  43% 1120/2609 [1:04:31<1:38:46,  3.98s/it][A
Training...:  43% 1121/2609 [1:04:34<1:36:22,  3.89s/it][A
Training...:  43% 1122/2609 [1:04:38<1:33:25,  3.77s/it][A
Training...:  43% 1123/2609 [1:04:41<1:30:57,  3.67s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:55:32<15:12:43, 9127.17s/it]
Training...:  43% 1123/2609 [1:04:45<1:30:57,  3.67s/it][A
Training...:  43% 1124/2609 [1:04:45<1:32:19,  3.73s/it][A
Training...:  43% 1125/2609 [1:04:48<1:28:19,  3.57s/it][A
Training...:  43% 1126/2609 [1:04:52<1:25:06,  3.44s/it][A
Training...:  43% 1127/2609 [1:04:55<1:22:28,  3.34s/it][A
Training...:  43% 1128/2609 [1:04:58<1:20:16,  3.25s/it][A
Training...:  43% 1129/2609 [1:05:01<1:17:48,  3.15s/it][A
Training...:  43% 1130/2609 [1:05:04<1:15:32,  3.06s/it][A
Training...:  43% 1131/2609 [1:05:06<1:13:13,  2.97s/it][A
Training...:  43% 1132/2609 [1:05:09<1:10:58,  2.88s/it][A
Training...:  43% 1133/2609 [1:05:12<1:08:49,  2.80s/it][A
Training...:  43% 1134/2609 [1:05:14<1:06:29,  2.70s/it][A
Training...:  44% 1135/2609 [1:05:16<1:04:17,  2.62s/it][A
Training...:  44% 1136/2609 [1:05:19<1:01:55,  2.52s/it][A
Training...:  44% 1137/2609 [1:05:21<59:41,  2.43s/it]  [A
Training...:  44% 1138/2609 [1:05:23<57:18,  2.34s/it][A
Training...:  44% 1139/2609 [1:05:25<55:13,  2.25s/it][A
Training...:  44% 1140/2609 [1:05:27<52:47,  2.16s/it][A
Training...:  44% 1141/2609 [1:05:29<50:27,  2.06s/it][A
Training...:  44% 1142/2609 [1:05:31<48:05,  1.97s/it][A
Training...:  44% 1143/2609 [1:05:32<45:47,  1.87s/it][A
Training...:  44% 1144/2609 [1:05:34<42:57,  1.76s/it][A
Training...:  44% 1145/2609 [1:05:35<40:15,  1.65s/it][A
Training...:  44% 1146/2609 [1:05:36<37:25,  1.54s/it][A
Training...:  44% 1147/2609 [1:05:38<34:27,  1.41s/it][A
Training...:  44% 1148/2609 [1:05:39<31:06,  1.28s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:56:26<15:12:43, 9127.17s/it]
Training...:  44% 1148/2609 [1:05:40<31:06,  1.28s/it][A
Training...:  44% 1149/2609 [1:05:40<30:05,  1.24s/it][A
Training...:  44% 1150/2609 [1:05:40<25:19,  1.04s/it][A
Training...:  44% 1151/2609 [1:05:47<1:09:47,  2.87s/it][A
Training...:  44% 1152/2609 [1:05:55<1:41:01,  4.16s/it][A
Training...:  44% 1153/2609 [1:06:01<1:59:37,  4.93s/it][A
Training...:  44% 1154/2609 [1:06:08<2:09:36,  5.34s/it][A
Training...:  44% 1155/2609 [1:06:14<2:14:42,  5.56s/it][A
Training...:  44% 1156/2609 [1:06:19<2:16:15,  5.63s/it][A
Training...:  44% 1157/2609 [1:06:25<2:15:40,  5.61s/it][A
Training...:  44% 1158/2609 [1:06:30<2:13:28,  5.52s/it][A
Training...:  44% 1159/2609 [1:06:36<2:11:02,  5.42s/it][A
Training...:  44% 1160/2609 [1:06:40<2:07:18,  5.27s/it][A
Training...:  44% 1161/2609 [1:06:45<2:04:17,  5.15s/it][A
Training...:  45% 1162/2609 [1:06:50<2:00:12,  4.98s/it][A
Training...:  45% 1163/2609 [1:06:55<1:56:57,  4.85s/it][A
Training...:  45% 1164/2609 [1:06:59<1:53:06,  4.70s/it][A
Training...:  45% 1165/2609 [1:07:03<1:50:05,  4.57s/it][A
Training...:  45% 1166/2609 [1:07:07<1:46:34,  4.43s/it][A
Training...:  45% 1167/2609 [1:07:11<1:43:39,  4.31s/it][A
Training...:  45% 1168/2609 [1:07:15<1:40:34,  4.19s/it][A
Training...:  45% 1169/2609 [1:07:19<1:38:01,  4.08s/it][A
Training...:  45% 1170/2609 [1:07:23<1:35:12,  3.97s/it][A
Training...:  45% 1171/2609 [1:07:26<1:32:48,  3.87s/it][A
Training...:  45% 1172/2609 [1:07:30<1:29:52,  3.75s/it][A
Training...:  45% 1173/2609 [1:07:33<1:27:35,  3.66s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:58:24<15:12:43, 9127.17s/it]
Training...:  45% 1173/2609 [1:07:37<1:27:35,  3.66s/it][A
Training...:  45% 1174/2609 [1:07:37<1:29:04,  3.72s/it][A
Training...:  45% 1175/2609 [1:07:40<1:25:31,  3.58s/it][A
Training...:  45% 1176/2609 [1:07:44<1:22:23,  3.45s/it][A
Training...:  45% 1177/2609 [1:07:47<1:20:19,  3.37s/it][A
Training...:  45% 1178/2609 [1:07:50<1:18:10,  3.28s/it][A
Training...:  45% 1179/2609 [1:07:53<1:15:31,  3.17s/it][A
Training...:  45% 1180/2609 [1:07:55<1:12:42,  3.05s/it][A
Training...:  45% 1181/2609 [1:07:58<1:10:08,  2.95s/it][A
Training...:  45% 1182/2609 [1:08:01<1:07:53,  2.85s/it][A
Training...:  45% 1183/2609 [1:08:03<1:05:54,  2.77s/it][A
Training...:  45% 1184/2609 [1:08:06<1:03:25,  2.67s/it][A
Training...:  45% 1185/2609 [1:08:08<1:01:12,  2.58s/it][A
Training...:  45% 1186/2609 [1:08:10<58:55,  2.48s/it]  [A
Training...:  45% 1187/2609 [1:08:13<56:56,  2.40s/it][A
Training...:  46% 1188/2609 [1:08:15<54:35,  2.30s/it][A
Training...:  46% 1189/2609 [1:08:17<52:14,  2.21s/it][A
Training...:  46% 1190/2609 [1:08:19<49:36,  2.10s/it][A
Training...:  46% 1191/2609 [1:08:20<47:17,  2.00s/it][A
Training...:  46% 1192/2609 [1:08:22<45:01,  1.91s/it][A
Training...:  46% 1193/2609 [1:08:24<42:40,  1.81s/it][A
Training...:  46% 1194/2609 [1:08:25<40:23,  1.71s/it][A
Training...:  46% 1195/2609 [1:08:26<38:05,  1.62s/it][A
Training...:  46% 1196/2609 [1:08:28<35:34,  1.51s/it][A
Training...:  46% 1197/2609 [1:08:29<32:59,  1.40s/it][A
Training...:  46% 1198/2609 [1:08:30<30:04,  1.28s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [36:59:18<15:12:43, 9127.17s/it]
Training...:  46% 1198/2609 [1:08:31<30:04,  1.28s/it][A
Training...:  46% 1199/2609 [1:08:31<28:57,  1.23s/it][A
Training...:  46% 1200/2609 [1:08:32<24:10,  1.03s/it][A
Training...:  46% 1201/2609 [1:08:39<1:08:02,  2.90s/it][A
Training...:  46% 1202/2609 [1:08:46<1:37:23,  4.15s/it][A
Training...:  46% 1203/2609 [1:08:53<1:54:49,  4.90s/it][A
Training...:  46% 1204/2609 [1:08:59<2:04:32,  5.32s/it][A
Training...:  46% 1205/2609 [1:09:05<2:09:15,  5.52s/it][A
Training...:  46% 1206/2609 [1:09:11<2:10:46,  5.59s/it][A
Training...:  46% 1207/2609 [1:09:16<2:10:50,  5.60s/it][A
Training...:  46% 1208/2609 [1:09:21<2:08:14,  5.49s/it][A
Training...:  46% 1209/2609 [1:09:27<2:05:51,  5.39s/it][A
Training...:  46% 1210/2609 [1:09:32<2:02:25,  5.25s/it][A
Training...:  46% 1211/2609 [1:09:36<1:59:21,  5.12s/it][A
Training...:  46% 1212/2609 [1:09:41<1:55:59,  4.98s/it][A
Training...:  46% 1213/2609 [1:09:46<1:53:02,  4.86s/it][A
Training...:  47% 1214/2609 [1:09:50<1:50:39,  4.76s/it][A
Training...:  47% 1215/2609 [1:09:55<1:48:42,  4.68s/it][A
Training...:  47% 1216/2609 [1:09:59<1:45:04,  4.53s/it][A
Training...:  47% 1217/2609 [1:10:03<1:42:15,  4.41s/it][A
Training...:  47% 1218/2609 [1:10:07<1:39:31,  4.29s/it][A
Training...:  47% 1219/2609 [1:10:11<1:36:42,  4.17s/it][A
Training...:  47% 1220/2609 [1:10:15<1:33:52,  4.06s/it][A
Training...:  47% 1221/2609 [1:10:18<1:31:06,  3.94s/it][A
Training...:  47% 1222/2609 [1:10:22<1:28:33,  3.83s/it][A
Training...:  47% 1223/2609 [1:10:25<1:26:03,  3.73s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:01:16<15:12:43, 9127.17s/it]
Training...:  47% 1223/2609 [1:10:29<1:26:03,  3.73s/it][A
Training...:  47% 1224/2609 [1:10:29<1:27:30,  3.79s/it][A
Training...:  47% 1225/2609 [1:10:33<1:24:04,  3.64s/it][A
Training...:  47% 1226/2609 [1:10:36<1:20:47,  3.50s/it][A
Training...:  47% 1227/2609 [1:10:39<1:18:50,  3.42s/it][A
Training...:  47% 1228/2609 [1:10:42<1:16:00,  3.30s/it][A
Training...:  47% 1229/2609 [1:10:45<1:13:40,  3.20s/it][A
Training...:  47% 1230/2609 [1:10:48<1:11:05,  3.09s/it][A
Training...:  47% 1231/2609 [1:10:51<1:09:12,  3.01s/it][A
Training...:  47% 1232/2609 [1:10:53<1:06:43,  2.91s/it][A
Training...:  47% 1233/2609 [1:10:56<1:04:48,  2.83s/it][A
Training...:  47% 1234/2609 [1:10:58<1:02:35,  2.73s/it][A
Training...:  47% 1235/2609 [1:11:01<1:00:24,  2.64s/it][A
Training...:  47% 1236/2609 [1:11:03<58:15,  2.55s/it]  [A
Training...:  47% 1237/2609 [1:11:05<56:23,  2.47s/it][A
Training...:  47% 1238/2609 [1:11:08<54:16,  2.38s/it][A
Training...:  47% 1239/2609 [1:11:10<52:19,  2.29s/it][A
Training...:  48% 1240/2609 [1:11:12<50:18,  2.21s/it][A
Training...:  48% 1241/2609 [1:11:14<48:08,  2.11s/it][A
Training...:  48% 1242/2609 [1:11:15<46:02,  2.02s/it][A
Training...:  48% 1243/2609 [1:11:17<44:09,  1.94s/it][A
Training...:  48% 1244/2609 [1:11:19<42:04,  1.85s/it][A
Training...:  48% 1245/2609 [1:11:20<39:44,  1.75s/it][A
Training...:  48% 1246/2609 [1:11:22<37:15,  1.64s/it][A
Training...:  48% 1247/2609 [1:11:23<34:37,  1.53s/it][A
Training...:  48% 1248/2609 [1:11:24<31:24,  1.38s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:02:12<15:12:43, 9127.17s/it]
Training...:  48% 1248/2609 [1:11:25<31:24,  1.38s/it][A
Training...:  48% 1249/2609 [1:11:25<30:13,  1.33s/it][A
Training...:  48% 1250/2609 [1:11:26<25:12,  1.11s/it][A
Training...:  48% 1251/2609 [1:11:33<1:06:15,  2.93s/it][A
Training...:  48% 1252/2609 [1:11:40<1:34:34,  4.18s/it][A
Training...:  48% 1253/2609 [1:11:47<1:51:17,  4.92s/it][A
Training...:  48% 1254/2609 [1:11:53<2:00:18,  5.33s/it][A
Training...:  48% 1255/2609 [1:11:59<2:04:34,  5.52s/it][A
Training...:  48% 1256/2609 [1:12:05<2:06:46,  5.62s/it][A
Training...:  48% 1257/2609 [1:12:11<2:07:18,  5.65s/it][A
Training...:  48% 1258/2609 [1:12:16<2:03:57,  5.51s/it][A
Training...:  48% 1259/2609 [1:12:21<2:01:20,  5.39s/it][A
Training...:  48% 1260/2609 [1:12:26<1:57:42,  5.24s/it][A
Training...:  48% 1261/2609 [1:12:31<1:55:04,  5.12s/it][A
Training...:  48% 1262/2609 [1:12:35<1:51:15,  4.96s/it][A
Training...:  48% 1263/2609 [1:12:40<1:48:40,  4.84s/it][A
Training...:  48% 1264/2609 [1:12:44<1:45:30,  4.71s/it][A
Training...:  48% 1265/2609 [1:12:48<1:42:40,  4.58s/it][A
Training...:  49% 1266/2609 [1:12:53<1:39:34,  4.45s/it][A
Training...:  49% 1267/2609 [1:12:57<1:36:57,  4.34s/it][A
Training...:  49% 1268/2609 [1:13:01<1:34:06,  4.21s/it][A
Training...:  49% 1269/2609 [1:13:04<1:31:50,  4.11s/it][A
Training...:  49% 1270/2609 [1:13:08<1:29:00,  3.99s/it][A
Training...:  49% 1271/2609 [1:13:12<1:27:17,  3.91s/it][A
Training...:  49% 1272/2609 [1:13:16<1:25:17,  3.83s/it][A
Training...:  49% 1273/2609 [1:13:19<1:23:04,  3.73s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:04:10<15:12:43, 9127.17s/it]
Training...:  49% 1273/2609 [1:13:23<1:23:04,  3.73s/it][A
Training...:  49% 1274/2609 [1:13:23<1:24:43,  3.81s/it][A
Training...:  49% 1275/2609 [1:13:26<1:21:26,  3.66s/it][A
Training...:  49% 1276/2609 [1:13:29<1:17:49,  3.50s/it][A
Training...:  49% 1277/2609 [1:13:33<1:15:51,  3.42s/it][A
Training...:  49% 1278/2609 [1:13:36<1:14:30,  3.36s/it][A
Training...:  49% 1279/2609 [1:13:39<1:11:43,  3.24s/it][A
Training...:  49% 1280/2609 [1:13:42<1:08:56,  3.11s/it][A
Training...:  49% 1281/2609 [1:13:44<1:06:28,  3.00s/it][A
Training...:  49% 1282/2609 [1:13:47<1:04:03,  2.90s/it][A
Training...:  49% 1283/2609 [1:13:50<1:01:56,  2.80s/it][A
Training...:  49% 1284/2609 [1:13:52<59:34,  2.70s/it]  [A
Training...:  49% 1285/2609 [1:13:54<57:19,  2.60s/it][A
Training...:  49% 1286/2609 [1:13:57<55:15,  2.51s/it][A
Training...:  49% 1287/2609 [1:13:59<53:19,  2.42s/it][A
Training...:  49% 1288/2609 [1:14:01<51:15,  2.33s/it][A
Training...:  49% 1289/2609 [1:14:03<49:19,  2.24s/it][A
Training...:  49% 1290/2609 [1:14:05<47:12,  2.15s/it][A
Training...:  49% 1291/2609 [1:14:07<45:01,  2.05s/it][A
Training...:  50% 1292/2609 [1:14:09<42:53,  1.95s/it][A
Training...:  50% 1293/2609 [1:14:10<40:43,  1.86s/it][A
Training...:  50% 1294/2609 [1:14:12<38:32,  1.76s/it][A
Training...:  50% 1295/2609 [1:14:13<36:06,  1.65s/it][A
Training...:  50% 1296/2609 [1:14:14<33:43,  1.54s/it][A
Training...:  50% 1297/2609 [1:14:16<31:05,  1.42s/it][A
Training...:  50% 1298/2609 [1:14:17<28:18,  1.30s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:05:04<15:12:43, 9127.17s/it]
Training...:  50% 1298/2609 [1:14:18<28:18,  1.30s/it][A
Training...:  50% 1299/2609 [1:14:18<27:22,  1.25s/it][A
Training...:  50% 1300/2609 [1:14:18<22:44,  1.04s/it][A
Training...:  50% 1301/2609 [1:14:25<1:02:13,  2.85s/it][A
Training...:  50% 1302/2609 [1:14:32<1:28:47,  4.08s/it][A
Training...:  50% 1303/2609 [1:14:39<1:43:48,  4.77s/it][A
Training...:  50% 1304/2609 [1:14:45<1:52:24,  5.17s/it][A
Training...:  50% 1305/2609 [1:14:51<1:56:36,  5.37s/it][A
Training...:  50% 1306/2609 [1:14:56<1:57:38,  5.42s/it][A
Training...:  50% 1307/2609 [1:15:02<1:57:48,  5.43s/it][A
Training...:  50% 1308/2609 [1:15:07<1:55:29,  5.33s/it][A
Training...:  50% 1309/2609 [1:15:12<1:53:28,  5.24s/it][A
Training...:  50% 1310/2609 [1:15:17<1:50:44,  5.11s/it][A
Training...:  50% 1311/2609 [1:15:21<1:48:01,  4.99s/it][A
Training...:  50% 1312/2609 [1:15:26<1:45:37,  4.89s/it][A
Training...:  50% 1313/2609 [1:15:31<1:43:34,  4.80s/it][A
Training...:  50% 1314/2609 [1:15:35<1:39:44,  4.62s/it][A
Training...:  50% 1315/2609 [1:15:39<1:36:54,  4.49s/it][A
Training...:  50% 1316/2609 [1:15:43<1:33:51,  4.36s/it][A
Training...:  50% 1317/2609 [1:15:47<1:31:07,  4.23s/it][A
Training...:  51% 1318/2609 [1:15:51<1:28:04,  4.09s/it][A
Training...:  51% 1319/2609 [1:15:54<1:25:55,  4.00s/it][A
Training...:  51% 1320/2609 [1:15:58<1:23:35,  3.89s/it][A
Training...:  51% 1321/2609 [1:16:02<1:21:39,  3.80s/it][A
Training...:  51% 1322/2609 [1:16:05<1:19:10,  3.69s/it][A
Training...:  51% 1323/2609 [1:16:08<1:16:54,  3.59s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:06:59<15:12:43, 9127.17s/it]
Training...:  51% 1323/2609 [1:16:12<1:16:54,  3.59s/it][A
Training...:  51% 1324/2609 [1:16:12<1:18:01,  3.64s/it][A
Training...:  51% 1325/2609 [1:16:15<1:15:01,  3.51s/it][A
Training...:  51% 1326/2609 [1:16:18<1:12:00,  3.37s/it][A
Training...:  51% 1327/2609 [1:16:22<1:09:51,  3.27s/it][A
Training...:  51% 1328/2609 [1:16:24<1:07:33,  3.16s/it][A
Training...:  51% 1329/2609 [1:16:27<1:05:55,  3.09s/it][A
Training...:  51% 1330/2609 [1:16:30<1:03:33,  2.98s/it][A
Training...:  51% 1331/2609 [1:16:33<1:01:32,  2.89s/it][A
Training...:  51% 1332/2609 [1:16:35<59:28,  2.79s/it]  [A
Training...:  51% 1333/2609 [1:16:38<57:49,  2.72s/it][A
Training...:  51% 1334/2609 [1:16:40<55:57,  2.63s/it][A
Training...:  51% 1335/2609 [1:16:43<54:06,  2.55s/it][A
Training...:  51% 1336/2609 [1:16:45<52:23,  2.47s/it][A
Training...:  51% 1337/2609 [1:16:47<50:38,  2.39s/it][A
Training...:  51% 1338/2609 [1:16:49<48:39,  2.30s/it][A
Training...:  51% 1339/2609 [1:16:51<46:37,  2.20s/it][A
Training...:  51% 1340/2609 [1:16:53<44:41,  2.11s/it][A
Training...:  51% 1341/2609 [1:16:55<42:37,  2.02s/it][A
Training...:  51% 1342/2609 [1:16:57<40:38,  1.92s/it][A
Training...:  51% 1343/2609 [1:16:58<38:34,  1.83s/it][A
Training...:  52% 1344/2609 [1:17:00<36:31,  1.73s/it][A
Training...:  52% 1345/2609 [1:17:01<34:23,  1.63s/it][A
Training...:  52% 1346/2609 [1:17:02<32:07,  1.53s/it][A
Training...:  52% 1347/2609 [1:17:04<29:41,  1.41s/it][A
Training...:  52% 1348/2609 [1:17:04<26:48,  1.28s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:07:52<15:12:43, 9127.17s/it]
Training...:  52% 1348/2609 [1:17:06<26:48,  1.28s/it][A
Training...:  52% 1349/2609 [1:17:06<25:56,  1.24s/it][A
Training...:  52% 1350/2609 [1:17:06<21:47,  1.04s/it][A
Training...:  52% 1351/2609 [1:17:13<59:56,  2.86s/it][A
Training...:  52% 1352/2609 [1:17:20<1:26:09,  4.11s/it][A
Training...:  52% 1353/2609 [1:17:27<1:41:45,  4.86s/it][A
Training...:  52% 1354/2609 [1:17:33<1:51:08,  5.31s/it][A
Training...:  52% 1355/2609 [1:17:40<1:56:47,  5.59s/it][A
Training...:  52% 1356/2609 [1:17:45<1:57:54,  5.65s/it][A
Training...:  52% 1357/2609 [1:17:51<1:57:37,  5.64s/it][A
Training...:  52% 1358/2609 [1:17:56<1:55:11,  5.52s/it][A
Training...:  52% 1359/2609 [1:18:01<1:53:08,  5.43s/it][A
Training...:  52% 1360/2609 [1:18:06<1:49:55,  5.28s/it][A
Training...:  52% 1361/2609 [1:18:11<1:47:16,  5.16s/it][A
Training...:  52% 1362/2609 [1:18:16<1:44:04,  5.01s/it][A
Training...:  52% 1363/2609 [1:18:20<1:41:15,  4.88s/it][A
Training...:  52% 1364/2609 [1:18:25<1:37:59,  4.72s/it][A
Training...:  52% 1365/2609 [1:18:29<1:34:52,  4.58s/it][A
Training...:  52% 1366/2609 [1:18:33<1:31:54,  4.44s/it][A
Training...:  52% 1367/2609 [1:18:37<1:29:26,  4.32s/it][A
Training...:  52% 1368/2609 [1:18:41<1:26:48,  4.20s/it][A
Training...:  52% 1369/2609 [1:18:45<1:24:46,  4.10s/it][A
Training...:  53% 1370/2609 [1:18:49<1:22:16,  3.98s/it][A
Training...:  53% 1371/2609 [1:18:52<1:19:59,  3.88s/it][A
Training...:  53% 1372/2609 [1:18:56<1:17:37,  3.77s/it][A
Training...:  53% 1373/2609 [1:18:59<1:15:45,  3.68s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:09:50<15:12:43, 9127.17s/it]
Training...:  53% 1373/2609 [1:19:03<1:15:45,  3.68s/it][A
Training...:  53% 1374/2609 [1:19:03<1:17:23,  3.76s/it][A
Training...:  53% 1375/2609 [1:19:07<1:14:34,  3.63s/it][A
Training...:  53% 1376/2609 [1:19:10<1:11:39,  3.49s/it][A
Training...:  53% 1377/2609 [1:19:13<1:09:32,  3.39s/it][A
Training...:  53% 1378/2609 [1:19:16<1:07:44,  3.30s/it][A
Training...:  53% 1379/2609 [1:19:19<1:05:38,  3.20s/it][A
Training...:  53% 1380/2609 [1:19:22<1:03:29,  3.10s/it][A
Training...:  53% 1381/2609 [1:19:25<1:01:30,  3.01s/it][A
Training...:  53% 1382/2609 [1:19:27<59:24,  2.91s/it]  [A
Training...:  53% 1383/2609 [1:19:30<57:35,  2.82s/it][A
Training...:  53% 1384/2609 [1:19:32<55:41,  2.73s/it][A
Training...:  53% 1385/2609 [1:19:35<53:50,  2.64s/it][A
Training...:  53% 1386/2609 [1:19:37<51:58,  2.55s/it][A
Training...:  53% 1387/2609 [1:19:39<50:13,  2.47s/it][A
Training...:  53% 1388/2609 [1:19:42<48:11,  2.37s/it][A
Training...:  53% 1389/2609 [1:19:44<46:32,  2.29s/it][A
Training...:  53% 1390/2609 [1:19:46<44:49,  2.21s/it][A
Training...:  53% 1391/2609 [1:19:48<42:59,  2.12s/it][A
Training...:  53% 1392/2609 [1:19:49<41:02,  2.02s/it][A
Training...:  53% 1393/2609 [1:19:51<39:07,  1.93s/it][A
Training...:  53% 1394/2609 [1:19:53<36:59,  1.83s/it][A
Training...:  53% 1395/2609 [1:19:54<34:46,  1.72s/it][A
Training...:  54% 1396/2609 [1:19:56<32:29,  1.61s/it][A
Training...:  54% 1397/2609 [1:19:57<29:56,  1.48s/it][A
Training...:  54% 1398/2609 [1:19:58<27:08,  1.34s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:10:46<15:12:43, 9127.17s/it]
Training...:  54% 1398/2609 [1:19:59<27:08,  1.34s/it][A
Training...:  54% 1399/2609 [1:19:59<26:00,  1.29s/it][A
Training...:  54% 1400/2609 [1:19:59<21:31,  1.07s/it][A
Training...:  54% 1401/2609 [1:20:07<58:08,  2.89s/it][A
Training...:  54% 1402/2609 [1:20:14<1:23:29,  4.15s/it][A
Training...:  54% 1403/2609 [1:20:21<1:39:47,  4.97s/it][A
Training...:  54% 1404/2609 [1:20:27<1:48:23,  5.40s/it][A
Training...:  54% 1405/2609 [1:20:33<1:52:06,  5.59s/it][A
Training...:  54% 1406/2609 [1:20:39<1:52:33,  5.61s/it][A
Training...:  54% 1407/2609 [1:20:44<1:52:22,  5.61s/it][A
Training...:  54% 1408/2609 [1:20:50<1:50:13,  5.51s/it][A
Training...:  54% 1409/2609 [1:20:55<1:47:54,  5.40s/it][A
Training...:  54% 1410/2609 [1:21:00<1:45:11,  5.26s/it][A
Training...:  54% 1411/2609 [1:21:04<1:42:19,  5.13s/it][A
Training...:  54% 1412/2609 [1:21:09<1:39:01,  4.96s/it][A
Training...:  54% 1413/2609 [1:21:14<1:36:57,  4.86s/it][A
Training...:  54% 1414/2609 [1:21:18<1:34:09,  4.73s/it][A
Training...:  54% 1415/2609 [1:21:22<1:31:56,  4.62s/it][A
Training...:  54% 1416/2609 [1:21:27<1:28:47,  4.47s/it][A
Training...:  54% 1417/2609 [1:21:31<1:26:21,  4.35s/it][A
Training...:  54% 1418/2609 [1:21:35<1:23:42,  4.22s/it][A
Training...:  54% 1419/2609 [1:21:38<1:21:16,  4.10s/it][A
Training...:  54% 1420/2609 [1:21:42<1:18:46,  3.98s/it][A
Training...:  54% 1421/2609 [1:21:46<1:16:42,  3.87s/it][A
Training...:  55% 1422/2609 [1:21:49<1:14:38,  3.77s/it][A
Training...:  55% 1423/2609 [1:21:53<1:12:42,  3.68s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:12:43<15:12:43, 9127.17s/it]
Training...:  55% 1423/2609 [1:21:57<1:12:42,  3.68s/it][A
Training...:  55% 1424/2609 [1:21:57<1:14:16,  3.76s/it][A
Training...:  55% 1425/2609 [1:22:00<1:11:29,  3.62s/it][A
Training...:  55% 1426/2609 [1:22:03<1:08:50,  3.49s/it][A
Training...:  55% 1427/2609 [1:22:06<1:07:08,  3.41s/it][A
Training...:  55% 1428/2609 [1:22:09<1:04:35,  3.28s/it][A
Training...:  55% 1429/2609 [1:22:12<1:02:24,  3.17s/it][A
Training...:  55% 1430/2609 [1:22:15<1:00:25,  3.08s/it][A
Training...:  55% 1431/2609 [1:22:18<58:36,  2.98s/it]  [A
Training...:  55% 1432/2609 [1:22:21<56:32,  2.88s/it][A
Training...:  55% 1433/2609 [1:22:23<54:50,  2.80s/it][A
Training...:  55% 1434/2609 [1:22:26<52:49,  2.70s/it][A
Training...:  55% 1435/2609 [1:22:28<51:04,  2.61s/it][A
Training...:  55% 1436/2609 [1:22:30<49:09,  2.51s/it][A
Training...:  55% 1437/2609 [1:22:33<47:32,  2.43s/it][A
Training...:  55% 1438/2609 [1:22:35<45:37,  2.34s/it][A
Training...:  55% 1439/2609 [1:22:37<43:49,  2.25s/it][A
Training...:  55% 1440/2609 [1:22:39<42:09,  2.16s/it][A
Training...:  55% 1441/2609 [1:22:41<40:32,  2.08s/it][A
Training...:  55% 1442/2609 [1:22:42<38:49,  2.00s/it][A
Training...:  55% 1443/2609 [1:22:44<37:00,  1.90s/it][A
Training...:  55% 1444/2609 [1:22:46<34:49,  1.79s/it][A
Training...:  55% 1445/2609 [1:22:47<32:43,  1.69s/it][A
Training...:  55% 1446/2609 [1:22:48<30:34,  1.58s/it][A
Training...:  55% 1447/2609 [1:22:49<28:18,  1.46s/it][A
Training...:  56% 1448/2609 [1:22:51<25:47,  1.33s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:13:38<15:12:43, 9127.17s/it]
Training...:  56% 1448/2609 [1:22:52<25:47,  1.33s/it][A
Training...:  56% 1449/2609 [1:22:52<24:50,  1.29s/it][A
Training...:  56% 1450/2609 [1:22:52<20:38,  1.07s/it][A
Training...:  56% 1451/2609 [1:23:00<56:41,  2.94s/it][A
Training...:  56% 1452/2609 [1:23:07<1:20:17,  4.16s/it][A
Training...:  56% 1453/2609 [1:23:13<1:34:18,  4.89s/it][A
Training...:  56% 1454/2609 [1:23:19<1:41:39,  5.28s/it][A
Training...:  56% 1455/2609 [1:23:25<1:45:30,  5.49s/it][A
Training...:  56% 1456/2609 [1:23:31<1:46:15,  5.53s/it][A
Training...:  56% 1457/2609 [1:23:37<1:46:25,  5.54s/it][A
Training...:  56% 1458/2609 [1:23:42<1:44:33,  5.45s/it][A
Training...:  56% 1459/2609 [1:23:47<1:42:36,  5.35s/it][A
Training...:  56% 1460/2609 [1:23:52<1:39:52,  5.22s/it][A
Training...:  56% 1461/2609 [1:23:57<1:37:28,  5.09s/it][A
Training...:  56% 1462/2609 [1:24:01<1:34:38,  4.95s/it][A
Training...:  56% 1463/2609 [1:24:06<1:32:35,  4.85s/it][A
Training...:  56% 1464/2609 [1:24:10<1:30:00,  4.72s/it][A
Training...:  56% 1465/2609 [1:24:15<1:27:28,  4.59s/it][A
Training...:  56% 1466/2609 [1:24:19<1:24:42,  4.45s/it][A
Training...:  56% 1467/2609 [1:24:23<1:22:40,  4.34s/it][A
Training...:  56% 1468/2609 [1:24:27<1:20:18,  4.22s/it][A
Training...:  56% 1469/2609 [1:24:31<1:18:29,  4.13s/it][A
Training...:  56% 1470/2609 [1:24:34<1:16:10,  4.01s/it][A
Training...:  56% 1471/2609 [1:24:38<1:14:15,  3.91s/it][A
Training...:  56% 1472/2609 [1:24:42<1:12:02,  3.80s/it][A
Training...:  56% 1473/2609 [1:24:45<1:10:15,  3.71s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:15:36<15:12:43, 9127.17s/it]
Training...:  56% 1473/2609 [1:24:49<1:10:15,  3.71s/it][A
Training...:  56% 1474/2609 [1:24:49<1:11:53,  3.80s/it][A
Training...:  57% 1475/2609 [1:24:52<1:09:18,  3.67s/it][A
Training...:  57% 1476/2609 [1:24:56<1:06:30,  3.52s/it][A
Training...:  57% 1477/2609 [1:24:59<1:04:43,  3.43s/it][A
Training...:  57% 1478/2609 [1:25:02<1:02:12,  3.30s/it][A
Training...:  57% 1479/2609 [1:25:05<1:00:07,  3.19s/it][A
Training...:  57% 1480/2609 [1:25:08<58:02,  3.09s/it]  [A
Training...:  57% 1481/2609 [1:25:10<56:40,  3.01s/it][A
Training...:  57% 1482/2609 [1:25:13<54:52,  2.92s/it][A
Training...:  57% 1483/2609 [1:25:16<53:25,  2.85s/it][A
Training...:  57% 1484/2609 [1:25:18<51:20,  2.74s/it][A
Training...:  57% 1485/2609 [1:25:21<49:32,  2.64s/it][A
Training...:  57% 1486/2609 [1:25:23<47:45,  2.55s/it][A
Training...:  57% 1487/2609 [1:25:25<46:08,  2.47s/it][A
Training...:  57% 1488/2609 [1:25:28<44:19,  2.37s/it][A
Training...:  57% 1489/2609 [1:25:30<42:33,  2.28s/it][A
Training...:  57% 1490/2609 [1:25:32<40:44,  2.18s/it][A
Training...:  57% 1491/2609 [1:25:33<38:59,  2.09s/it][A
Training...:  57% 1492/2609 [1:25:35<37:06,  1.99s/it][A
Training...:  57% 1493/2609 [1:25:37<35:23,  1.90s/it][A
Training...:  57% 1494/2609 [1:25:38<33:26,  1.80s/it][A
Training...:  57% 1495/2609 [1:25:40<31:29,  1.70s/it][A
Training...:  57% 1496/2609 [1:25:41<29:26,  1.59s/it][A
Training...:  57% 1497/2609 [1:25:42<27:11,  1.47s/it][A
Training...:  57% 1498/2609 [1:25:43<24:39,  1.33s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:16:31<15:12:43, 9127.17s/it]
Training...:  57% 1498/2609 [1:25:45<24:39,  1.33s/it][A
Training...:  57% 1499/2609 [1:25:45<23:31,  1.27s/it][A
Training...:  57% 1500/2609 [1:25:45<19:30,  1.06s/it][A
Training...:  58% 1501/2609 [1:25:52<53:40,  2.91s/it][A
Training...:  58% 1502/2609 [1:25:59<1:16:08,  4.13s/it][A
Training...:  58% 1503/2609 [1:26:06<1:28:59,  4.83s/it][A
Training...:  58% 1504/2609 [1:26:12<1:36:03,  5.22s/it][A
Training...:  58% 1505/2609 [1:26:18<1:40:11,  5.45s/it][A
Training...:  58% 1506/2609 [1:26:23<1:41:10,  5.50s/it][A
Training...:  58% 1507/2609 [1:26:29<1:40:58,  5.50s/it][A
Training...:  58% 1508/2609 [1:26:34<1:39:08,  5.40s/it][A
Training...:  58% 1509/2609 [1:26:39<1:37:35,  5.32s/it][A
Training...:  58% 1510/2609 [1:26:44<1:35:19,  5.20s/it][A
Training...:  58% 1511/2609 [1:26:49<1:33:24,  5.10s/it][A
Training...:  58% 1512/2609 [1:26:54<1:30:42,  4.96s/it][A
Training...:  58% 1513/2609 [1:26:58<1:28:17,  4.83s/it][A
Training...:  58% 1514/2609 [1:27:03<1:25:33,  4.69s/it][A
Training...:  58% 1515/2609 [1:27:07<1:23:20,  4.57s/it][A
Training...:  58% 1516/2609 [1:27:11<1:20:34,  4.42s/it][A
Training...:  58% 1517/2609 [1:27:15<1:18:28,  4.31s/it][A
Training...:  58% 1518/2609 [1:27:19<1:16:32,  4.21s/it][A
Training...:  58% 1519/2609 [1:27:23<1:15:20,  4.15s/it][A
Training...:  58% 1520/2609 [1:27:27<1:13:17,  4.04s/it][A
Training...:  58% 1521/2609 [1:27:30<1:11:18,  3.93s/it][A
Training...:  58% 1522/2609 [1:27:34<1:09:17,  3.82s/it][A
Training...:  58% 1523/2609 [1:27:38<1:07:27,  3.73s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:18:28<15:12:43, 9127.17s/it]
Training...:  58% 1523/2609 [1:27:41<1:07:27,  3.73s/it][A
Training...:  58% 1524/2609 [1:27:41<1:08:31,  3.79s/it][A
Training...:  58% 1525/2609 [1:27:45<1:05:44,  3.64s/it][A
Training...:  58% 1526/2609 [1:27:48<1:03:09,  3.50s/it][A
Training...:  59% 1527/2609 [1:27:51<1:01:36,  3.42s/it][A
Training...:  59% 1528/2609 [1:27:54<59:50,  3.32s/it]  [A
Training...:  59% 1529/2609 [1:27:57<58:17,  3.24s/it][A
Training...:  59% 1530/2609 [1:28:00<56:15,  3.13s/it][A
Training...:  59% 1531/2609 [1:28:03<54:26,  3.03s/it][A
Training...:  59% 1532/2609 [1:28:06<52:20,  2.92s/it][A
Training...:  59% 1533/2609 [1:28:08<50:33,  2.82s/it][A
Training...:  59% 1534/2609 [1:28:11<48:37,  2.71s/it][A
Training...:  59% 1535/2609 [1:28:13<46:55,  2.62s/it][A
Training...:  59% 1536/2609 [1:28:15<45:08,  2.52s/it][A
Training...:  59% 1537/2609 [1:28:18<43:46,  2.45s/it][A
Training...:  59% 1538/2609 [1:28:20<42:02,  2.35s/it][A
Training...:  59% 1539/2609 [1:28:22<40:22,  2.26s/it][A
Training...:  59% 1540/2609 [1:28:24<38:44,  2.17s/it][A
Training...:  59% 1541/2609 [1:28:26<37:10,  2.09s/it][A
Training...:  59% 1542/2609 [1:28:27<35:25,  1.99s/it][A
Training...:  59% 1543/2609 [1:28:29<33:46,  1.90s/it][A
Training...:  59% 1544/2609 [1:28:31<31:45,  1.79s/it][A
Training...:  59% 1545/2609 [1:28:32<29:47,  1.68s/it][A
Training...:  59% 1546/2609 [1:28:33<27:40,  1.56s/it][A
Training...:  59% 1547/2609 [1:28:35<25:34,  1.44s/it][A
Training...:  59% 1548/2609 [1:28:36<23:13,  1.31s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:19:23<15:12:43, 9127.17s/it]
Training...:  59% 1548/2609 [1:28:37<23:13,  1.31s/it][A
Training...:  59% 1549/2609 [1:28:37<22:21,  1.27s/it][A
Training...:  59% 1550/2609 [1:28:37<18:36,  1.05s/it][A
Training...:  59% 1551/2609 [1:28:44<50:16,  2.85s/it][A
Training...:  59% 1552/2609 [1:28:52<1:13:09,  4.15s/it][A
Training...:  60% 1553/2609 [1:28:58<1:26:11,  4.90s/it][A
Training...:  60% 1554/2609 [1:29:05<1:33:43,  5.33s/it][A
Training...:  60% 1555/2609 [1:29:11<1:37:15,  5.54s/it][A
Training...:  60% 1556/2609 [1:29:17<1:39:37,  5.68s/it][A
Training...:  60% 1557/2609 [1:29:22<1:38:55,  5.64s/it][A
Training...:  60% 1558/2609 [1:29:27<1:37:02,  5.54s/it][A
Training...:  60% 1559/2609 [1:29:33<1:35:04,  5.43s/it][A
Training...:  60% 1560/2609 [1:29:37<1:32:13,  5.27s/it][A
Training...:  60% 1561/2609 [1:29:42<1:29:45,  5.14s/it][A
Training...:  60% 1562/2609 [1:29:47<1:27:03,  4.99s/it][A
Training...:  60% 1563/2609 [1:29:51<1:24:40,  4.86s/it][A
Training...:  60% 1564/2609 [1:29:56<1:21:59,  4.71s/it][A
Training...:  60% 1565/2609 [1:30:00<1:19:56,  4.59s/it][A
Training...:  60% 1566/2609 [1:30:04<1:17:16,  4.45s/it][A
Training...:  60% 1567/2609 [1:30:08<1:15:02,  4.32s/it][A
Training...:  60% 1568/2609 [1:30:12<1:12:41,  4.19s/it][A
Training...:  60% 1569/2609 [1:30:16<1:10:57,  4.09s/it][A
Training...:  60% 1570/2609 [1:30:20<1:08:41,  3.97s/it][A
Training...:  60% 1571/2609 [1:30:23<1:06:52,  3.87s/it][A
Training...:  60% 1572/2609 [1:30:27<1:04:52,  3.75s/it][A
Training...:  60% 1573/2609 [1:30:30<1:03:11,  3.66s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:21:21<15:12:43, 9127.17s/it]
Training...:  60% 1573/2609 [1:30:34<1:03:11,  3.66s/it][A
Training...:  60% 1574/2609 [1:30:34<1:03:47,  3.70s/it][A
Training...:  60% 1575/2609 [1:30:37<1:01:14,  3.55s/it][A
Training...:  60% 1576/2609 [1:30:40<58:53,  3.42s/it]  [A
Training...:  60% 1577/2609 [1:30:44<57:19,  3.33s/it][A
Training...:  60% 1578/2609 [1:30:47<55:52,  3.25s/it][A
Training...:  61% 1579/2609 [1:30:50<54:17,  3.16s/it][A
Training...:  61% 1580/2609 [1:30:52<52:32,  3.06s/it][A
Training...:  61% 1581/2609 [1:30:55<50:52,  2.97s/it][A
Training...:  61% 1582/2609 [1:30:58<48:56,  2.86s/it][A
Training...:  61% 1583/2609 [1:31:00<47:15,  2.76s/it][A
Training...:  61% 1584/2609 [1:31:03<45:28,  2.66s/it][A
Training...:  61% 1585/2609 [1:31:05<43:55,  2.57s/it][A
Training...:  61% 1586/2609 [1:31:07<42:18,  2.48s/it][A
Training...:  61% 1587/2609 [1:31:10<40:42,  2.39s/it][A
Training...:  61% 1588/2609 [1:31:12<39:03,  2.29s/it][A
Training...:  61% 1589/2609 [1:31:14<37:34,  2.21s/it][A
Training...:  61% 1590/2609 [1:31:16<36:00,  2.12s/it][A
Training...:  61% 1591/2609 [1:31:17<34:20,  2.02s/it][A
Training...:  61% 1592/2609 [1:31:19<32:38,  1.93s/it][A
Training...:  61% 1593/2609 [1:31:21<31:00,  1.83s/it][A
Training...:  61% 1594/2609 [1:31:22<29:18,  1.73s/it][A
Training...:  61% 1595/2609 [1:31:24<27:31,  1.63s/it][A
Training...:  61% 1596/2609 [1:31:25<25:44,  1.52s/it][A
Training...:  61% 1597/2609 [1:31:26<23:46,  1.41s/it][A
Training...:  61% 1598/2609 [1:31:27<21:33,  1.28s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:22:15<15:12:43, 9127.17s/it]
Training...:  61% 1598/2609 [1:31:28<21:33,  1.28s/it][A
Training...:  61% 1599/2609 [1:31:28<20:42,  1.23s/it][A
Training...:  61% 1600/2609 [1:31:29<17:06,  1.02s/it][A
Training...:  61% 1601/2609 [1:31:36<48:44,  2.90s/it][A
Training...:  61% 1602/2609 [1:31:43<1:09:37,  4.15s/it][A
Training...:  61% 1603/2609 [1:31:49<1:21:21,  4.85s/it][A
Training...:  61% 1604/2609 [1:31:56<1:27:55,  5.25s/it][A
Training...:  62% 1605/2609 [1:32:02<1:31:18,  5.46s/it][A
Training...:  62% 1606/2609 [1:32:07<1:32:09,  5.51s/it][A
Training...:  62% 1607/2609 [1:32:13<1:31:59,  5.51s/it][A
Training...:  62% 1608/2609 [1:32:18<1:30:35,  5.43s/it][A
Training...:  62% 1609/2609 [1:32:23<1:28:46,  5.33s/it][A
Training...:  62% 1610/2609 [1:32:28<1:26:25,  5.19s/it][A
Training...:  62% 1611/2609 [1:32:33<1:24:19,  5.07s/it][A
Training...:  62% 1612/2609 [1:32:37<1:21:56,  4.93s/it][A
Training...:  62% 1613/2609 [1:32:42<1:19:40,  4.80s/it][A
Training...:  62% 1614/2609 [1:32:46<1:17:25,  4.67s/it][A
Training...:  62% 1615/2609 [1:32:50<1:15:32,  4.56s/it][A
Training...:  62% 1616/2609 [1:32:55<1:13:17,  4.43s/it][A
Training...:  62% 1617/2609 [1:32:59<1:11:20,  4.32s/it][A
Training...:  62% 1618/2609 [1:33:03<1:09:28,  4.21s/it][A
Training...:  62% 1619/2609 [1:33:06<1:07:44,  4.11s/it][A
Training...:  62% 1620/2609 [1:33:10<1:05:46,  3.99s/it][A
Training...:  62% 1621/2609 [1:33:14<1:04:01,  3.89s/it][A
Training...:  62% 1622/2609 [1:33:17<1:02:19,  3.79s/it][A
Training...:  62% 1623/2609 [1:33:21<1:00:44,  3.70s/it][A                                                                                                                                                                    
                                                        [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:24:11<15:12:43, 9127.17s/it]
Training...:  62% 1623/2609 [1:33:25<1:00:44,  3.70s/it][A
Training...:  62% 1624/2609 [1:33:25<1:02:06,  3.78s/it][A
Training...:  62% 1625/2609 [1:33:28<59:55,  3.65s/it]  [A
Training...:  62% 1626/2609 [1:33:31<57:38,  3.52s/it][A
Training...:  62% 1627/2609 [1:33:35<56:19,  3.44s/it][A
Training...:  62% 1628/2609 [1:33:38<54:28,  3.33s/it][A
Training...:  62% 1629/2609 [1:33:41<53:11,  3.26s/it][A
Training...:  62% 1630/2609 [1:33:44<51:23,  3.15s/it][A
Training...:  63% 1631/2609 [1:33:46<49:36,  3.04s/it][A
Training...:  63% 1632/2609 [1:33:49<47:40,  2.93s/it][A
Training...:  63% 1633/2609 [1:33:52<46:00,  2.83s/it][A
Training...:  63% 1634/2609 [1:33:54<44:17,  2.73s/it][A
Training...:  63% 1635/2609 [1:33:57<42:43,  2.63s/it][A
Training...:  63% 1636/2609 [1:33:59<41:11,  2.54s/it][A
Training...:  63% 1637/2609 [1:34:01<39:44,  2.45s/it][A
Training...:  63% 1638/2609 [1:34:03<38:06,  2.36s/it][A
Training...:  63% 1639/2609 [1:34:05<36:28,  2.26s/it][A
Training...:  63% 1640/2609 [1:34:07<34:59,  2.17s/it][A
Training...:  63% 1641/2609 [1:34:09<33:27,  2.07s/it][A
Training...:  63% 1642/2609 [1:34:11<31:54,  1.98s/it][A
Training...:  63% 1643/2609 [1:34:13<30:24,  1.89s/it][A
Training...:  63% 1644/2609 [1:34:14<28:40,  1.78s/it][A
Training...:  63% 1645/2609 [1:34:16<26:49,  1.67s/it][A
Training...:  63% 1646/2609 [1:34:17<24:51,  1.55s/it][A
Training...:  63% 1647/2609 [1:34:18<22:56,  1.43s/it][A
Training...:  63% 1648/2609 [1:34:19<20:51,  1.30s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:25:07<15:12:43, 9127.17s/it]
Training...:  63% 1648/2609 [1:34:20<20:51,  1.30s/it][A
Training...:  63% 1649/2609 [1:34:20<20:07,  1.26s/it][A
Training...:  63% 1650/2609 [1:34:21<16:44,  1.05s/it][A
Training...:  63% 1651/2609 [1:34:28<45:57,  2.88s/it][A
Training...:  63% 1652/2609 [1:34:35<1:06:02,  4.14s/it][A
Training...:  63% 1653/2609 [1:34:42<1:17:58,  4.89s/it][A
Training...:  63% 1654/2609 [1:34:48<1:24:28,  5.31s/it][A
Training...:  63% 1655/2609 [1:34:54<1:27:49,  5.52s/it][A
Training...:  63% 1656/2609 [1:35:00<1:28:19,  5.56s/it][A
Training...:  64% 1657/2609 [1:35:05<1:28:18,  5.57s/it][A
Training...:  64% 1658/2609 [1:35:10<1:26:50,  5.48s/it][A
Training...:  64% 1659/2609 [1:35:15<1:24:58,  5.37s/it][A
Training...:  64% 1660/2609 [1:35:20<1:22:20,  5.21s/it][A
Training...:  64% 1661/2609 [1:35:25<1:20:04,  5.07s/it][A
Training...:  64% 1662/2609 [1:35:30<1:17:34,  4.92s/it][A
Training...:  64% 1663/2609 [1:35:34<1:15:37,  4.80s/it][A
Training...:  64% 1664/2609 [1:35:39<1:13:48,  4.69s/it][A
Training...:  64% 1665/2609 [1:35:43<1:11:41,  4.56s/it][A
Training...:  64% 1666/2609 [1:35:47<1:09:24,  4.42s/it][A
Training...:  64% 1667/2609 [1:35:51<1:07:26,  4.30s/it][A
Training...:  64% 1668/2609 [1:35:55<1:05:26,  4.17s/it][A
Training...:  64% 1669/2609 [1:35:59<1:03:45,  4.07s/it][A
Training...:  64% 1670/2609 [1:36:02<1:01:57,  3.96s/it][A
Training...:  64% 1671/2609 [1:36:06<1:01:01,  3.90s/it][A
Training...:  64% 1672/2609 [1:36:10<59:41,  3.82s/it]  [A
Training...:  64% 1673/2609 [1:36:13<58:07,  3.73s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:27:04<15:12:43, 9127.17s/it]
Training...:  64% 1673/2609 [1:36:17<58:07,  3.73s/it][A
Training...:  64% 1674/2609 [1:36:17<59:09,  3.80s/it][A
Training...:  64% 1675/2609 [1:36:21<56:51,  3.65s/it][A
Training...:  64% 1676/2609 [1:36:24<54:32,  3.51s/it][A
Training...:  64% 1677/2609 [1:36:27<53:10,  3.42s/it][A
Training...:  64% 1678/2609 [1:36:30<51:07,  3.29s/it][A
Training...:  64% 1679/2609 [1:36:33<49:20,  3.18s/it][A
Training...:  64% 1680/2609 [1:36:36<47:40,  3.08s/it][A
Training...:  64% 1681/2609 [1:36:38<46:06,  2.98s/it][A
Training...:  64% 1682/2609 [1:36:41<44:37,  2.89s/it][A
Training...:  65% 1683/2609 [1:36:44<43:16,  2.80s/it][A
Training...:  65% 1684/2609 [1:36:46<41:53,  2.72s/it][A
Training...:  65% 1685/2609 [1:36:49<40:42,  2.64s/it][A
Training...:  65% 1686/2609 [1:36:51<39:10,  2.55s/it][A
Training...:  65% 1687/2609 [1:36:53<37:57,  2.47s/it][A
Training...:  65% 1688/2609 [1:36:55<36:35,  2.38s/it][A
Training...:  65% 1689/2609 [1:36:58<35:15,  2.30s/it][A
Training...:  65% 1690/2609 [1:37:00<33:40,  2.20s/it][A
Training...:  65% 1691/2609 [1:37:01<32:14,  2.11s/it][A
Training...:  65% 1692/2609 [1:37:03<30:35,  2.00s/it][A
Training...:  65% 1693/2609 [1:37:05<28:55,  1.89s/it][A
Training...:  65% 1694/2609 [1:37:06<27:09,  1.78s/it][A
Training...:  65% 1695/2609 [1:37:08<25:32,  1.68s/it][A
Training...:  65% 1696/2609 [1:37:09<23:50,  1.57s/it][A
Training...:  65% 1697/2609 [1:37:10<22:00,  1.45s/it][A
Training...:  65% 1698/2609 [1:37:11<19:52,  1.31s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:27:59<15:12:43, 9127.17s/it]
Training...:  65% 1698/2609 [1:37:12<19:52,  1.31s/it][A
Training...:  65% 1699/2609 [1:37:12<19:03,  1.26s/it][A
Training...:  65% 1700/2609 [1:37:13<15:46,  1.04s/it][A
Training...:  65% 1701/2609 [1:37:20<42:58,  2.84s/it][A
Training...:  65% 1702/2609 [1:37:27<1:01:43,  4.08s/it][A
Training...:  65% 1703/2609 [1:37:34<1:13:03,  4.84s/it][A
Training...:  65% 1704/2609 [1:37:40<1:18:39,  5.21s/it][A
Training...:  65% 1705/2609 [1:37:46<1:21:31,  5.41s/it][A
Training...:  65% 1706/2609 [1:37:51<1:22:27,  5.48s/it][A
Training...:  65% 1707/2609 [1:37:57<1:22:17,  5.47s/it][A
Training...:  65% 1708/2609 [1:38:02<1:20:48,  5.38s/it][A
Training...:  66% 1709/2609 [1:38:07<1:19:11,  5.28s/it][A
Training...:  66% 1710/2609 [1:38:12<1:17:12,  5.15s/it][A
Training...:  66% 1711/2609 [1:38:17<1:15:45,  5.06s/it][A
Training...:  66% 1712/2609 [1:38:21<1:14:18,  4.97s/it][A
Training...:  66% 1713/2609 [1:38:26<1:12:07,  4.83s/it][A
Training...:  66% 1714/2609 [1:38:30<1:09:49,  4.68s/it][A
Training...:  66% 1715/2609 [1:38:34<1:07:45,  4.55s/it][A
Training...:  66% 1716/2609 [1:38:38<1:05:37,  4.41s/it][A
Training...:  66% 1717/2609 [1:38:42<1:03:39,  4.28s/it][A
Training...:  66% 1718/2609 [1:38:46<1:01:43,  4.16s/it][A
Training...:  66% 1719/2609 [1:38:50<59:58,  4.04s/it]  [A
Training...:  66% 1720/2609 [1:38:54<58:11,  3.93s/it][A
Training...:  66% 1721/2609 [1:38:57<56:42,  3.83s/it][A
Training...:  66% 1722/2609 [1:39:01<54:56,  3.72s/it][A
Training...:  66% 1723/2609 [1:39:04<53:24,  3.62s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:29:55<15:12:43, 9127.17s/it]
Training...:  66% 1723/2609 [1:39:08<53:24,  3.62s/it][A
Training...:  66% 1724/2609 [1:39:08<54:09,  3.67s/it][AStep... (36550 | Loss: 0.009334314614534378, Learning Rate: 2.717373899940867e-05, Gradient Norm: 0.44036248326301575)
Step... (36575 | Loss: 0.012674589641392231, Learning Rate: 2.712322930165101e-05, Gradient Norm: 0.5087195634841919)
Step... (36600 | Loss: 0.008484241552650928, Learning Rate: 2.707272687985096e-05, Gradient Norm: 0.45455774664878845)
Step... (36625 | Loss: 0.0019087739055976272, Learning Rate: 2.7022224458050914e-05, Gradient Norm: 0.1759469360113144)
Step... (36650 | Loss: 0.014820580370724201, Learning Rate: 2.6971714760293253e-05, Gradient Norm: 0.38917845487594604)
Step... (36675 | Loss: 0.006099094171077013, Learning Rate: 2.6921212338493206e-05, Gradient Norm: 0.5172288417816162)
Step... (36700 | Loss: 0.005348346196115017, Learning Rate: 2.6870708097703755e-05, Gradient Norm: 0.3891417384147644)
Step... (36725 | Loss: 0.019439904019236565, Learning Rate: 2.6820200218935497e-05, Gradient Norm: 0.9992214441299438)
Step... (36750 | Loss: 0.011472228914499283, Learning Rate: 2.676969779713545e-05, Gradient Norm: 0.3461942970752716)
Step... (36775 | Loss: 0.007916860282421112, Learning Rate: 2.6719193556346e-05, Gradient Norm: 0.5934376120567322)
Step... (36800 | Loss: 0.006720263510942459, Learning Rate: 2.666868567757774e-05, Gradient Norm: 0.3248441517353058)
Step... (36825 | Loss: 0.004018692299723625, Learning Rate: 2.661818143678829e-05, Gradient Norm: 0.602776050567627)
Step... (36850 | Loss: 0.010215208865702152, Learning Rate: 2.6567679014988244e-05, Gradient Norm: 0.40790051221847534)
Step... (36875 | Loss: 0.0010955451289191842, Learning Rate: 2.6517169317230582e-05, Gradient Norm: 0.12113102525472641)
Step... (36900 | Loss: 0.01170388050377369, Learning Rate: 2.6466666895430535e-05, Gradient Norm: 0.4026968479156494)
Step... (36925 | Loss: 0.0006651426665484905, Learning Rate: 2.6416164473630488e-05, Gradient Norm: 0.1068115308880806)
Step... (36950 | Loss: 0.008798489347100258, Learning Rate: 2.6365654775872827e-05, Gradient Norm: 0.37067046761512756)
Step... (36975 | Loss: 0.006073685362935066, Learning Rate: 2.631515235407278e-05, Gradient Norm: 0.7363252639770508)
Step... (37000 | Loss: 0.004113517701625824, Learning Rate: 2.626464811328333e-05, Gradient Norm: 0.1959107369184494)
Step... (37025 | Loss: 0.003643089672550559, Learning Rate: 2.621414023451507e-05, Gradient Norm: 0.5207266211509705)
Step... (37050 | Loss: 0.003856482682749629, Learning Rate: 2.6163637812715024e-05, Gradient Norm: 0.21518342196941376)
Step... (37075 | Loss: 0.006213346496224403, Learning Rate: 2.6113133571925573e-05, Gradient Norm: 0.8759083151817322)
Step... (37100 | Loss: 0.013438873924314976, Learning Rate: 2.6062625693157315e-05, Gradient Norm: 0.7149384021759033)
Step... (37125 | Loss: 0.0092959925532341, Learning Rate: 2.6012121452367865e-05, Gradient Norm: 0.7652957439422607)
Step... (37150 | Loss: 0.005411310121417046, Learning Rate: 2.5961613573599607e-05, Gradient Norm: 0.3607552647590637)
Step... (37175 | Loss: 0.01343854982405901, Learning Rate: 2.5911109332810156e-05, Gradient Norm: 0.7335477471351624)
Step... (37200 | Loss: 0.0058315591886639595, Learning Rate: 2.586060691101011e-05, Gradient Norm: 0.305171400308609)
Step... (37225 | Loss: 0.008552326820790768, Learning Rate: 2.5810097213252448e-05, Gradient Norm: 1.8785470724105835)
Step... (37250 | Loss: 0.006756327114999294, Learning Rate: 2.57595947914524e-05, Gradient Norm: 0.25577718019485474)
Step... (37275 | Loss: 0.020952917635440826, Learning Rate: 2.5709092369652353e-05, Gradient Norm: 2.3364903926849365)
Step... (37300 | Loss: 0.010443498380482197, Learning Rate: 2.5658582671894692e-05, Gradient Norm: 0.30390575528144836)
Step... (37325 | Loss: 0.0015884635504335165, Learning Rate: 2.5608080250094645e-05, Gradient Norm: 0.20594088733196259)
Step... (37350 | Loss: 0.018939970061182976, Learning Rate: 2.5557577828294598e-05, Gradient Norm: 0.9752247333526611)
Step... (37375 | Loss: 0.007946904748678207, Learning Rate: 2.5507068130536936e-05, Gradient Norm: 0.7236488461494446)
Step... (37400 | Loss: 0.003055267035961151, Learning Rate: 2.545656570873689e-05, Gradient Norm: 0.18824639916419983)
Step... (37425 | Loss: 0.015979815274477005, Learning Rate: 2.540606146794744e-05, Gradient Norm: 0.850742757320404)
Step... (37450 | Loss: 0.008689534850418568, Learning Rate: 2.535555358917918e-05, Gradient Norm: 0.3989279568195343)
Step... (37475 | Loss: 0.0019759645219892263, Learning Rate: 2.530504934838973e-05, Gradient Norm: 0.20313426852226257)
Step... (37500 | Loss: 0.008710690774023533, Learning Rate: 2.5254546926589683e-05, Gradient Norm: 0.3004404306411743)
Step... (37525 | Loss: 0.014009874314069748, Learning Rate: 2.520403722883202e-05, Gradient Norm: 0.8136158585548401)
Step... (37550 | Loss: 0.007169242482632399, Learning Rate: 2.5153534807031974e-05, Gradient Norm: 0.3312752842903137)
Step... (37575 | Loss: 0.006228944286704063, Learning Rate: 2.5103032385231927e-05, Gradient Norm: 0.6881935000419617)
Step... (37600 | Loss: 0.01336944941431284, Learning Rate: 2.5052522687474266e-05, Gradient Norm: 0.6867759227752686)
Step... (37625 | Loss: 0.0028833525720983744, Learning Rate: 2.500202026567422e-05, Gradient Norm: 0.26191142201423645)
Step... (37650 | Loss: 0.008684990927577019, Learning Rate: 2.495151784387417e-05, Gradient Norm: 0.4553510546684265)
Step... (37675 | Loss: 0.006683063227683306, Learning Rate: 2.490100814611651e-05, Gradient Norm: 1.190433144569397)
Step... (37700 | Loss: 0.010160908102989197, Learning Rate: 2.4850505724316463e-05, Gradient Norm: 0.4423436224460602)
Step... (37725 | Loss: 0.0037803424056619406, Learning Rate: 2.4800001483527012e-05, Gradient Norm: 0.3503992557525635)
Step... (37750 | Loss: 0.008332631550729275, Learning Rate: 2.4749493604758754e-05, Gradient Norm: 0.5088212490081787)
Step... (37775 | Loss: 0.004880316089838743, Learning Rate: 2.4698989363969304e-05, Gradient Norm: 0.4789629280567169)
Step... (37800 | Loss: 0.011533057317137718, Learning Rate: 2.4648486942169257e-05, Gradient Norm: 0.39461371302604675)
Step... (37825 | Loss: 0.007751923054456711, Learning Rate: 2.4597977244411595e-05, Gradient Norm: 0.9655086398124695)
Step... (37850 | Loss: 0.003786094719544053, Learning Rate: 2.4547474822611548e-05, Gradient Norm: 0.250438928604126)
Step... (37875 | Loss: 0.006747595965862274, Learning Rate: 2.44969724008115e-05, Gradient Norm: 0.5853331089019775)
Step... (37900 | Loss: 0.007737192790955305, Learning Rate: 2.444646270305384e-05, Gradient Norm: 0.40842750668525696)
Step... (37925 | Loss: 0.005537012591958046, Learning Rate: 2.4395960281253792e-05, Gradient Norm: 0.475820392370224)
Step... (37950 | Loss: 0.011853034608066082, Learning Rate: 2.434545604046434e-05, Gradient Norm: 0.3697706460952759)
Step... (37975 | Loss: 0.0014773565344512463, Learning Rate: 2.4294948161696084e-05, Gradient Norm: 0.14266729354858398)
Step... (38000 | Loss: 0.005044565536081791, Learning Rate: 2.4244445739896037e-05, Gradient Norm: 0.2016119509935379)
Step... (38025 | Loss: 0.00452762795612216, Learning Rate: 2.4193941499106586e-05, Gradient Norm: 0.40996938943862915)
Step... (38050 | Loss: 0.004898351151496172, Learning Rate: 2.4143433620338328e-05, Gradient Norm: 0.233426034450531)
Step... (38075 | Loss: 0.0038251415826380253, Learning Rate: 2.4092929379548877e-05, Gradient Norm: 0.5403242111206055)
Step... (38100 | Loss: 0.0074861845932900906, Learning Rate: 2.404242695774883e-05, Gradient Norm: 0.3646663725376129)
Step... (38125 | Loss: 0.010298325680196285, Learning Rate: 2.399191725999117e-05, Gradient Norm: 1.1137140989303589)
Step... (38150 | Loss: 0.003828582586720586, Learning Rate: 2.3941414838191122e-05, Gradient Norm: 0.23397928476333618)
Step... (38175 | Loss: 0.006759878247976303, Learning Rate: 2.389090514043346e-05, Gradient Norm: 0.6444331407546997)
Step... (38200 | Loss: 0.0050549739971756935, Learning Rate: 2.3840402718633413e-05, Gradient Norm: 0.28302234411239624)
Step... (38225 | Loss: 0.0013255923986434937, Learning Rate: 2.3789900296833366e-05, Gradient Norm: 0.1964786797761917)

Training...:  66% 1725/2609 [1:39:11<52:40,  3.58s/it][A
Training...:  66% 1726/2609 [1:39:14<50:27,  3.43s/it][A
Training...:  66% 1727/2609 [1:39:17<48:37,  3.31s/it][A
Training...:  66% 1728/2609 [1:39:20<47:23,  3.23s/it][A
Training...:  66% 1729/2609 [1:39:23<46:17,  3.16s/it][A
Training...:  66% 1730/2609 [1:39:26<44:39,  3.05s/it][A
Training...:  66% 1731/2609 [1:39:29<43:08,  2.95s/it][A
Training...:  66% 1732/2609 [1:39:32<41:39,  2.85s/it][A
Training...:  66% 1733/2609 [1:39:34<40:19,  2.76s/it][A
Training...:  66% 1734/2609 [1:39:37<38:56,  2.67s/it][A
Training...:  67% 1735/2609 [1:39:39<37:44,  2.59s/it][A
Training...:  67% 1736/2609 [1:39:41<36:35,  2.52s/it][A
Training...:  67% 1737/2609 [1:39:44<35:23,  2.44s/it][A
Training...:  67% 1738/2609 [1:39:46<34:01,  2.34s/it][A
Training...:  67% 1739/2609 [1:39:48<32:47,  2.26s/it][A
Training...:  67% 1740/2609 [1:39:50<31:23,  2.17s/it][A
Training...:  67% 1741/2609 [1:39:52<30:01,  2.07s/it][A
Training...:  67% 1742/2609 [1:39:53<28:42,  1.99s/it][A
Training...:  67% 1743/2609 [1:39:55<27:21,  1.90s/it][A
Training...:  67% 1744/2609 [1:39:57<25:48,  1.79s/it][A
Training...:  67% 1745/2609 [1:39:58<24:22,  1.69s/it][A
Training...:  67% 1746/2609 [1:39:59<22:50,  1.59s/it][A
Training...:  67% 1747/2609 [1:40:01<20:58,  1.46s/it][A
Training...:  67% 1748/2609 [1:40:02<18:59,  1.32s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:30:49<15:12:43, 9127.17s/it]
Training...:  67% 1748/2609 [1:40:03<18:59,  1.32s/it][A
Training...:  67% 1749/2609 [1:40:03<18:10,  1.27s/it][A
Training...:  67% 1750/2609 [1:40:03<15:07,  1.06s/it][A
Training...:  67% 1751/2609 [1:40:10<40:49,  2.85s/it][A
Training...:  67% 1752/2609 [1:40:17<58:41,  4.11s/it][A
Training...:  67% 1753/2609 [1:40:24<1:09:31,  4.87s/it][A
Training...:  67% 1754/2609 [1:40:30<1:15:46,  5.32s/it][A
Training...:  67% 1755/2609 [1:40:37<1:19:27,  5.58s/it][A
Training...:  67% 1756/2609 [1:40:43<1:20:48,  5.68s/it][A
Training...:  67% 1757/2609 [1:40:48<1:20:48,  5.69s/it][A
Training...:  67% 1758/2609 [1:40:54<1:19:15,  5.59s/it][A
Training...:  67% 1759/2609 [1:40:59<1:17:34,  5.48s/it][A
Training...:  67% 1760/2609 [1:41:04<1:15:09,  5.31s/it][A
Training...:  67% 1761/2609 [1:41:09<1:13:19,  5.19s/it][A
Training...:  68% 1762/2609 [1:41:13<1:10:50,  5.02s/it][A
Training...:  68% 1763/2609 [1:41:18<1:08:48,  4.88s/it][A
Training...:  68% 1764/2609 [1:41:22<1:06:27,  4.72s/it][A
Training...:  68% 1765/2609 [1:41:26<1:04:27,  4.58s/it][A
Training...:  68% 1766/2609 [1:41:31<1:02:27,  4.45s/it][A
Training...:  68% 1767/2609 [1:41:35<1:00:59,  4.35s/it][A
Training...:  68% 1768/2609 [1:41:39<59:18,  4.23s/it]  [A
Training...:  68% 1769/2609 [1:41:43<57:52,  4.13s/it][A
Training...:  68% 1770/2609 [1:41:46<56:02,  4.01s/it][A
Training...:  68% 1771/2609 [1:41:50<54:42,  3.92s/it][A
Training...:  68% 1772/2609 [1:41:53<52:58,  3.80s/it][A
Training...:  68% 1773/2609 [1:41:57<51:25,  3.69s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:32:47<15:12:43, 9127.17s/it]
Training...:  68% 1773/2609 [1:42:01<51:25,  3.69s/it][A
Training...:  68% 1774/2609 [1:42:01<51:55,  3.73s/it][A
Training...:  68% 1775/2609 [1:42:04<49:47,  3.58s/it][A
Training...:  68% 1776/2609 [1:42:07<48:04,  3.46s/it][A
Training...:  68% 1777/2609 [1:42:10<47:00,  3.39s/it][A
Training...:  68% 1778/2609 [1:42:13<45:12,  3.26s/it][A
Training...:  68% 1779/2609 [1:42:16<43:35,  3.15s/it][A
Training...:  68% 1780/2609 [1:42:19<42:11,  3.05s/it][A
Training...:  68% 1781/2609 [1:42:22<41:09,  2.98s/it][A
Training...:  68% 1782/2609 [1:42:25<40:14,  2.92s/it][A
Training...:  68% 1783/2609 [1:42:27<38:55,  2.83s/it][A
Training...:  68% 1784/2609 [1:42:30<37:26,  2.72s/it][A
Training...:  68% 1785/2609 [1:42:32<36:03,  2.63s/it][A
Training...:  68% 1786/2609 [1:42:34<34:46,  2.54s/it][A
Training...:  68% 1787/2609 [1:42:37<33:40,  2.46s/it][A
Training...:  69% 1788/2609 [1:42:39<32:15,  2.36s/it][A
Training...:  69% 1789/2609 [1:42:41<31:00,  2.27s/it][A
Training...:  69% 1790/2609 [1:42:43<29:40,  2.17s/it][A
Training...:  69% 1791/2609 [1:42:45<28:25,  2.08s/it][A
Training...:  69% 1792/2609 [1:42:46<27:04,  1.99s/it][A
Training...:  69% 1793/2609 [1:42:48<25:47,  1.90s/it][A
Training...:  69% 1794/2609 [1:42:50<24:24,  1.80s/it][A
Training...:  69% 1795/2609 [1:42:51<23:04,  1.70s/it][A
Training...:  69% 1796/2609 [1:42:53<21:35,  1.59s/it][A
Training...:  69% 1797/2609 [1:42:54<19:57,  1.47s/it][A
Training...:  69% 1798/2609 [1:42:55<18:10,  1.35s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:33:43<15:12:43, 9127.17s/it]
Training...:  69% 1798/2609 [1:42:56<18:10,  1.35s/it][A
Training...:  69% 1799/2609 [1:42:56<17:32,  1.30s/it][A
Training...:  69% 1800/2609 [1:42:57<14:35,  1.08s/it][A
Training...:  69% 1801/2609 [1:43:04<39:19,  2.92s/it][A
Training...:  69% 1802/2609 [1:43:11<55:46,  4.15s/it][A
Training...:  69% 1803/2609 [1:43:17<1:05:14,  4.86s/it][A
Training...:  69% 1804/2609 [1:43:23<1:10:26,  5.25s/it][A
Training...:  69% 1805/2609 [1:43:29<1:12:46,  5.43s/it][A
Training...:  69% 1806/2609 [1:43:35<1:13:09,  5.47s/it][A
Training...:  69% 1807/2609 [1:43:40<1:12:56,  5.46s/it][A
Training...:  69% 1808/2609 [1:43:46<1:11:58,  5.39s/it][A
Training...:  69% 1809/2609 [1:43:51<1:10:39,  5.30s/it][A
Training...:  69% 1810/2609 [1:43:56<1:09:00,  5.18s/it][A
Training...:  69% 1811/2609 [1:44:00<1:07:22,  5.07s/it][A
Training...:  69% 1812/2609 [1:44:05<1:05:36,  4.94s/it][A
Training...:  69% 1813/2609 [1:44:09<1:03:53,  4.82s/it][A
Training...:  70% 1814/2609 [1:44:14<1:02:13,  4.70s/it][A
Training...:  70% 1815/2609 [1:44:18<1:00:27,  4.57s/it][A
Training...:  70% 1816/2609 [1:44:22<58:46,  4.45s/it]  [A
Training...:  70% 1817/2609 [1:44:26<57:01,  4.32s/it][A
Training...:  70% 1818/2609 [1:44:30<55:21,  4.20s/it][A
Training...:  70% 1819/2609 [1:44:34<54:06,  4.11s/it][A
Training...:  70% 1820/2609 [1:44:38<52:48,  4.02s/it][A
Training...:  70% 1821/2609 [1:44:42<51:27,  3.92s/it][A
Training...:  70% 1822/2609 [1:44:45<49:30,  3.77s/it][A
Training...:  70% 1823/2609 [1:44:48<47:51,  3.65s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:35:39<15:12:43, 9127.17s/it]
Training...:  70% 1823/2609 [1:44:52<47:51,  3.65s/it][A
Training...:  70% 1824/2609 [1:44:52<48:18,  3.69s/it][A
Training...:  70% 1825/2609 [1:44:55<46:16,  3.54s/it][A
Training...:  70% 1826/2609 [1:44:59<44:27,  3.41s/it][A
Training...:  70% 1827/2609 [1:45:02<43:04,  3.30s/it][A
Training...:  70% 1828/2609 [1:45:05<41:30,  3.19s/it][A
Training...:  70% 1829/2609 [1:45:07<40:07,  3.09s/it][A
Training...:  70% 1830/2609 [1:45:10<38:43,  2.98s/it][A
Training...:  70% 1831/2609 [1:45:13<37:22,  2.88s/it][A
Training...:  70% 1832/2609 [1:45:15<36:13,  2.80s/it][A
Training...:  70% 1833/2609 [1:45:18<35:00,  2.71s/it][A
Training...:  70% 1834/2609 [1:45:20<33:51,  2.62s/it][A
Training...:  70% 1835/2609 [1:45:23<32:48,  2.54s/it][A
Training...:  70% 1836/2609 [1:45:25<31:40,  2.46s/it][A
Training...:  70% 1837/2609 [1:45:27<30:29,  2.37s/it][A
Training...:  70% 1838/2609 [1:45:29<29:13,  2.27s/it][A
Training...:  70% 1839/2609 [1:45:31<28:10,  2.19s/it][A
Training...:  71% 1840/2609 [1:45:33<27:01,  2.11s/it][A
Training...:  71% 1841/2609 [1:45:35<25:53,  2.02s/it][A
Training...:  71% 1842/2609 [1:45:37<24:42,  1.93s/it][A
Training...:  71% 1843/2609 [1:45:38<23:24,  1.83s/it][A
Training...:  71% 1844/2609 [1:45:40<22:07,  1.74s/it][A
Training...:  71% 1845/2609 [1:45:41<20:42,  1.63s/it][A
Training...:  71% 1846/2609 [1:45:42<19:21,  1.52s/it][A
Training...:  71% 1847/2609 [1:45:43<17:48,  1.40s/it][A
Training...:  71% 1848/2609 [1:45:44<16:02,  1.26s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:36:32<15:12:43, 9127.17s/it]
Training...:  71% 1848/2609 [1:45:46<16:02,  1.26s/it][A
Training...:  71% 1849/2609 [1:45:46<15:47,  1.25s/it][A
Training...:  71% 1850/2609 [1:45:46<13:03,  1.03s/it][A
Training...:  71% 1851/2609 [1:45:53<35:51,  2.84s/it][A
Training...:  71% 1852/2609 [1:46:00<51:13,  4.06s/it][A
Training...:  71% 1853/2609 [1:46:07<1:00:11,  4.78s/it][A
Training...:  71% 1854/2609 [1:46:13<1:05:12,  5.18s/it][A
Training...:  71% 1855/2609 [1:46:19<1:07:44,  5.39s/it][A
Training...:  71% 1856/2609 [1:46:24<1:08:26,  5.45s/it][A
Training...:  71% 1857/2609 [1:46:30<1:08:10,  5.44s/it][A
Training...:  71% 1858/2609 [1:46:35<1:07:17,  5.38s/it][A
Training...:  71% 1859/2609 [1:46:40<1:05:42,  5.26s/it][A
Training...:  71% 1860/2609 [1:46:45<1:03:53,  5.12s/it][A
Training...:  71% 1861/2609 [1:46:49<1:02:17,  5.00s/it][A
Training...:  71% 1862/2609 [1:46:54<1:00:39,  4.87s/it][A
Training...:  71% 1863/2609 [1:46:58<59:15,  4.77s/it]  [A
Training...:  71% 1864/2609 [1:47:03<57:47,  4.65s/it][A
Training...:  71% 1865/2609 [1:47:07<56:35,  4.56s/it][A
Training...:  72% 1866/2609 [1:47:11<55:02,  4.44s/it][A
Training...:  72% 1867/2609 [1:47:15<53:17,  4.31s/it][A
Training...:  72% 1868/2609 [1:47:19<51:35,  4.18s/it][A
Training...:  72% 1869/2609 [1:47:23<50:02,  4.06s/it][A
Training...:  72% 1870/2609 [1:47:27<48:21,  3.93s/it][A
Training...:  72% 1871/2609 [1:47:30<46:58,  3.82s/it][A
Training...:  72% 1872/2609 [1:47:34<45:29,  3.70s/it][A
Training...:  72% 1873/2609 [1:47:37<44:17,  3.61s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:38:27<15:12:43, 9127.17s/it]
Training...:  72% 1873/2609 [1:47:41<44:17,  3.61s/it][A
Training...:  72% 1874/2609 [1:47:41<44:54,  3.67s/it][A
Training...:  72% 1875/2609 [1:47:44<43:05,  3.52s/it][A
Training...:  72% 1876/2609 [1:47:47<41:27,  3.39s/it][A
Training...:  72% 1877/2609 [1:47:50<40:12,  3.30s/it][A
Training...:  72% 1878/2609 [1:47:53<38:49,  3.19s/it][A
Training...:  72% 1879/2609 [1:47:56<37:45,  3.10s/it][A
Training...:  72% 1880/2609 [1:47:59<36:34,  3.01s/it][A
Training...:  72% 1881/2609 [1:48:01<35:29,  2.92s/it][A
Training...:  72% 1882/2609 [1:48:04<34:24,  2.84s/it][A
Training...:  72% 1883/2609 [1:48:07<33:27,  2.77s/it][A
Training...:  72% 1884/2609 [1:48:09<32:22,  2.68s/it][A
Training...:  72% 1885/2609 [1:48:12<31:22,  2.60s/it][A
Training...:  72% 1886/2609 [1:48:14<30:21,  2.52s/it][A
Training...:  72% 1887/2609 [1:48:16<29:24,  2.44s/it][A
Training...:  72% 1888/2609 [1:48:18<28:15,  2.35s/it][A
Training...:  72% 1889/2609 [1:48:20<27:11,  2.27s/it][A
Training...:  72% 1890/2609 [1:48:22<26:02,  2.17s/it][A
Training...:  72% 1891/2609 [1:48:24<24:54,  2.08s/it][A
Training...:  73% 1892/2609 [1:48:26<23:37,  1.98s/it][A
Training...:  73% 1893/2609 [1:48:28<22:24,  1.88s/it][A
Training...:  73% 1894/2609 [1:48:29<21:04,  1.77s/it][A
Training...:  73% 1895/2609 [1:48:31<19:49,  1.67s/it][A
Training...:  73% 1896/2609 [1:48:32<18:24,  1.55s/it][A
Training...:  73% 1897/2609 [1:48:33<16:55,  1.43s/it][A
Training...:  73% 1898/2609 [1:48:34<15:22,  1.30s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:39:22<15:12:43, 9127.17s/it]
Training...:  73% 1898/2609 [1:48:35<15:22,  1.30s/it][A
Training...:  73% 1899/2609 [1:48:35<14:50,  1.25s/it][A
Training...:  73% 1900/2609 [1:48:36<12:22,  1.05s/it][A
Training...:  73% 1901/2609 [1:48:43<33:58,  2.88s/it][A
Training...:  73% 1902/2609 [1:48:50<48:43,  4.13s/it][A
Training...:  73% 1903/2609 [1:48:57<57:32,  4.89s/it][A
Training...:  73% 1904/2609 [1:49:03<1:02:07,  5.29s/it][A
Training...:  73% 1905/2609 [1:49:09<1:05:21,  5.57s/it][A
Training...:  73% 1906/2609 [1:49:15<1:05:57,  5.63s/it][A
Training...:  73% 1907/2609 [1:49:20<1:05:38,  5.61s/it][A
Training...:  73% 1908/2609 [1:49:26<1:04:36,  5.53s/it][A
Training...:  73% 1909/2609 [1:49:31<1:03:44,  5.46s/it][A
Training...:  73% 1910/2609 [1:49:36<1:02:00,  5.32s/it][A
Training...:  73% 1911/2609 [1:49:41<1:00:26,  5.20s/it][A
Training...:  73% 1912/2609 [1:49:46<58:27,  5.03s/it]  [A
Training...:  73% 1913/2609 [1:49:50<56:54,  4.91s/it][A
Training...:  73% 1914/2609 [1:49:54<54:58,  4.75s/it][A
Training...:  73% 1915/2609 [1:49:59<53:28,  4.62s/it][A
Training...:  73% 1916/2609 [1:50:03<51:50,  4.49s/it][A
Training...:  73% 1917/2609 [1:50:07<50:24,  4.37s/it][A
Training...:  74% 1918/2609 [1:50:11<48:56,  4.25s/it][A
Training...:  74% 1919/2609 [1:50:15<47:35,  4.14s/it][A
Training...:  74% 1920/2609 [1:50:19<46:12,  4.02s/it][A
Training...:  74% 1921/2609 [1:50:22<44:49,  3.91s/it][A
Training...:  74% 1922/2609 [1:50:26<43:30,  3.80s/it][A
Training...:  74% 1923/2609 [1:50:29<42:28,  3.71s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:41:20<15:12:43, 9127.17s/it]
Training...:  74% 1923/2609 [1:50:33<42:28,  3.71s/it][A
Training...:  74% 1924/2609 [1:50:33<43:22,  3.80s/it][A
Training...:  74% 1925/2609 [1:50:37<41:36,  3.65s/it][A
Training...:  74% 1926/2609 [1:50:40<39:58,  3.51s/it][A
Training...:  74% 1927/2609 [1:50:43<39:00,  3.43s/it][A
Training...:  74% 1928/2609 [1:50:46<37:28,  3.30s/it][A
Training...:  74% 1929/2609 [1:50:49<36:14,  3.20s/it][A
Training...:  74% 1930/2609 [1:50:52<34:57,  3.09s/it][A
Training...:  74% 1931/2609 [1:50:55<33:53,  3.00s/it][A
Training...:  74% 1932/2609 [1:50:57<33:04,  2.93s/it][A
Training...:  74% 1933/2609 [1:51:00<32:10,  2.86s/it][A
Training...:  74% 1934/2609 [1:51:03<31:04,  2.76s/it][A
Training...:  74% 1935/2609 [1:51:05<29:59,  2.67s/it][A
Training...:  74% 1936/2609 [1:51:07<28:48,  2.57s/it][A
Training...:  74% 1937/2609 [1:51:10<27:51,  2.49s/it][A
Training...:  74% 1938/2609 [1:51:12<26:44,  2.39s/it][A
Training...:  74% 1939/2609 [1:51:14<25:37,  2.29s/it][A
Training...:  74% 1940/2609 [1:51:16<24:36,  2.21s/it][A
Training...:  74% 1941/2609 [1:51:18<23:27,  2.11s/it][A
Training...:  74% 1942/2609 [1:51:20<22:24,  2.02s/it][A
Training...:  74% 1943/2609 [1:51:21<21:18,  1.92s/it][A
Training...:  75% 1944/2609 [1:51:23<20:04,  1.81s/it][A
Training...:  75% 1945/2609 [1:51:24<18:49,  1.70s/it][A
Training...:  75% 1946/2609 [1:51:26<17:30,  1.58s/it][A
Training...:  75% 1947/2609 [1:51:27<16:06,  1.46s/it][A
Training...:  75% 1948/2609 [1:51:28<14:36,  1.33s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:42:16<15:12:43, 9127.17s/it]
Training...:  75% 1948/2609 [1:51:29<14:36,  1.33s/it][A
Training...:  75% 1949/2609 [1:51:29<14:03,  1.28s/it][A
Training...:  75% 1950/2609 [1:51:30<11:39,  1.06s/it][A
Training...:  75% 1951/2609 [1:51:37<31:40,  2.89s/it][A
Training...:  75% 1952/2609 [1:51:44<45:25,  4.15s/it][A
Training...:  75% 1953/2609 [1:51:50<53:17,  4.87s/it][A
Training...:  75% 1954/2609 [1:51:57<57:32,  5.27s/it][A
Training...:  75% 1955/2609 [1:52:03<59:44,  5.48s/it][A
Training...:  75% 1956/2609 [1:52:08<1:00:03,  5.52s/it][A
Training...:  75% 1957/2609 [1:52:14<59:41,  5.49s/it]  [A
Training...:  75% 1958/2609 [1:52:19<58:48,  5.42s/it][A
Training...:  75% 1959/2609 [1:52:24<57:40,  5.32s/it][A
Training...:  75% 1960/2609 [1:52:29<56:02,  5.18s/it][A
Training...:  75% 1961/2609 [1:52:34<54:22,  5.04s/it][A
Training...:  75% 1962/2609 [1:52:38<52:37,  4.88s/it][A
Training...:  75% 1963/2609 [1:52:43<51:43,  4.80s/it][A
Training...:  75% 1964/2609 [1:52:47<50:19,  4.68s/it][A
Training...:  75% 1965/2609 [1:52:51<48:43,  4.54s/it][A
Training...:  75% 1966/2609 [1:52:55<46:59,  4.39s/it][A
Training...:  75% 1967/2609 [1:52:59<45:35,  4.26s/it][A
Training...:  75% 1968/2609 [1:53:03<44:13,  4.14s/it][A
Training...:  75% 1969/2609 [1:53:07<42:52,  4.02s/it][A
Training...:  76% 1970/2609 [1:53:10<41:28,  3.89s/it][A
Training...:  76% 1971/2609 [1:53:14<40:15,  3.79s/it][A
Training...:  76% 1972/2609 [1:53:17<38:58,  3.67s/it][A
Training...:  76% 1973/2609 [1:53:21<37:56,  3.58s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:44:11<15:12:43, 9127.17s/it]
Training...:  76% 1973/2609 [1:53:25<37:56,  3.58s/it][A
Training...:  76% 1974/2609 [1:53:25<38:23,  3.63s/it][A
Training...:  76% 1975/2609 [1:53:28<36:42,  3.47s/it][A
Training...:  76% 1976/2609 [1:53:31<35:20,  3.35s/it][A
Training...:  76% 1977/2609 [1:53:34<34:40,  3.29s/it][A
Training...:  76% 1978/2609 [1:53:37<33:19,  3.17s/it][A
Training...:  76% 1979/2609 [1:53:40<32:12,  3.07s/it][A
Training...:  76% 1980/2609 [1:53:42<31:04,  2.96s/it][A
Training...:  76% 1981/2609 [1:53:45<30:09,  2.88s/it][A
Training...:  76% 1982/2609 [1:53:48<29:06,  2.79s/it][A
Training...:  76% 1983/2609 [1:53:50<28:11,  2.70s/it][A
Training...:  76% 1984/2609 [1:53:52<27:11,  2.61s/it][A
Training...:  76% 1985/2609 [1:53:55<26:14,  2.52s/it][A
Training...:  76% 1986/2609 [1:53:57<25:18,  2.44s/it][A
Training...:  76% 1987/2609 [1:53:59<24:27,  2.36s/it][A
Training...:  76% 1988/2609 [1:54:01<23:28,  2.27s/it][A
Training...:  76% 1989/2609 [1:54:03<22:32,  2.18s/it][A
Training...:  76% 1990/2609 [1:54:05<21:33,  2.09s/it][A
Training...:  76% 1991/2609 [1:54:07<20:35,  2.00s/it][A
Training...:  76% 1992/2609 [1:54:09<19:38,  1.91s/it][A
Training...:  76% 1993/2609 [1:54:10<18:39,  1.82s/it][A
Training...:  76% 1994/2609 [1:54:12<17:38,  1.72s/it][A
Training...:  76% 1995/2609 [1:54:13<16:37,  1.62s/it][A
Training...:  77% 1996/2609 [1:54:14<15:30,  1.52s/it][A
Training...:  77% 1997/2609 [1:54:15<14:16,  1.40s/it][A
Training...:  77% 1998/2609 [1:54:16<12:57,  1.27s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:45:04<15:12:43, 9127.17s/it]
Training...:  77% 1998/2609 [1:54:18<12:57,  1.27s/it][A
Training...:  77% 1999/2609 [1:54:18<12:32,  1.23s/it][A
Training...:  77% 2000/2609 [1:54:18<10:29,  1.03s/it][A
Training...:  77% 2001/2609 [1:54:25<29:02,  2.87s/it][A
Training...:  77% 2002/2609 [1:54:32<41:32,  4.11s/it][A
Training...:  77% 2003/2609 [1:54:39<49:01,  4.85s/it][A
Training...:  77% 2004/2609 [1:54:45<53:06,  5.27s/it][A
Training...:  77% 2005/2609 [1:54:51<55:05,  5.47s/it][A
Training...:  77% 2006/2609 [1:54:57<55:20,  5.51s/it][A
Training...:  77% 2007/2609 [1:55:02<55:16,  5.51s/it][A
Training...:  77% 2008/2609 [1:55:07<54:35,  5.45s/it][A
Training...:  77% 2009/2609 [1:55:13<53:33,  5.36s/it][A
Training...:  77% 2010/2609 [1:55:18<52:43,  5.28s/it][A
Training...:  77% 2011/2609 [1:55:23<51:54,  5.21s/it][A
Training...:  77% 2012/2609 [1:55:27<50:06,  5.04s/it][A
Training...:  77% 2013/2609 [1:55:32<48:45,  4.91s/it][A
Training...:  77% 2014/2609 [1:55:36<47:12,  4.76s/it][A
Training...:  77% 2015/2609 [1:55:41<45:52,  4.63s/it][A
Training...:  77% 2016/2609 [1:55:45<44:21,  4.49s/it][A
Training...:  77% 2017/2609 [1:55:49<42:59,  4.36s/it][A
Training...:  77% 2018/2609 [1:55:53<41:38,  4.23s/it][A
Training...:  77% 2019/2609 [1:55:57<40:23,  4.11s/it][A
Training...:  77% 2020/2609 [1:56:00<39:12,  3.99s/it][A
Training...:  77% 2021/2609 [1:56:04<38:10,  3.90s/it][A
Training...:  78% 2022/2609 [1:56:08<36:54,  3.77s/it][A
Training...:  78% 2023/2609 [1:56:11<36:48,  3.77s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:47:02<15:12:43, 9127.17s/it]
Training...:  78% 2023/2609 [1:56:15<36:48,  3.77s/it][A
Training...:  78% 2024/2609 [1:56:15<37:10,  3.81s/it][A
Training...:  78% 2025/2609 [1:56:19<35:25,  3.64s/it][A
Training...:  78% 2026/2609 [1:56:22<33:48,  3.48s/it][A
Training...:  78% 2027/2609 [1:56:25<32:40,  3.37s/it][A
Training...:  78% 2028/2609 [1:56:28<31:29,  3.25s/it][A
Training...:  78% 2029/2609 [1:56:31<30:30,  3.16s/it][A
Training...:  78% 2030/2609 [1:56:33<29:31,  3.06s/it][A
Training...:  78% 2031/2609 [1:56:36<28:24,  2.95s/it][A
Training...:  78% 2032/2609 [1:56:39<27:21,  2.84s/it][A
Training...:  78% 2033/2609 [1:56:41<26:27,  2.76s/it][A
Training...:  78% 2034/2609 [1:56:44<25:33,  2.67s/it][A
Training...:  78% 2035/2609 [1:56:46<24:38,  2.58s/it][A
Training...:  78% 2036/2609 [1:56:48<23:52,  2.50s/it][A
Training...:  78% 2037/2609 [1:56:51<22:54,  2.40s/it][A
Training...:  78% 2038/2609 [1:56:53<21:56,  2.31s/it][A
Training...:  78% 2039/2609 [1:56:55<21:00,  2.21s/it][A
Training...:  78% 2040/2609 [1:56:57<20:03,  2.11s/it][A
Training...:  78% 2041/2609 [1:56:58<19:11,  2.03s/it][A
Training...:  78% 2042/2609 [1:57:00<18:18,  1.94s/it][A
Training...:  78% 2043/2609 [1:57:02<17:17,  1.83s/it][A
Training...:  78% 2044/2609 [1:57:03<16:19,  1.73s/it][A
Training...:  78% 2045/2609 [1:57:05<15:14,  1.62s/it][A
Training...:  78% 2046/2609 [1:57:06<14:10,  1.51s/it][A
Training...:  78% 2047/2609 [1:57:07<13:05,  1.40s/it][A
Training...:  78% 2048/2609 [1:57:08<11:57,  1.28s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:47:56<15:12:43, 9127.17s/it]
Training...:  78% 2048/2609 [1:57:09<11:57,  1.28s/it][A
Training...:  79% 2049/2609 [1:57:09<11:38,  1.25s/it][A
Training...:  79% 2050/2609 [1:57:10<09:43,  1.04s/it][A
Training...:  79% 2051/2609 [1:57:17<26:26,  2.84s/it][A
Training...:  79% 2052/2609 [1:57:24<37:46,  4.07s/it][A
Training...:  79% 2053/2609 [1:57:30<44:29,  4.80s/it][A
Training...:  79% 2054/2609 [1:57:36<48:17,  5.22s/it][A
Training...:  79% 2055/2609 [1:57:42<50:00,  5.42s/it][A
Training...:  79% 2056/2609 [1:57:48<50:21,  5.46s/it][A
Training...:  79% 2057/2609 [1:57:53<50:15,  5.46s/it][A
Training...:  79% 2058/2609 [1:57:58<49:03,  5.34s/it][A
Training...:  79% 2059/2609 [1:58:03<48:01,  5.24s/it][A
Training...:  79% 2060/2609 [1:58:08<46:47,  5.11s/it][A
Training...:  79% 2061/2609 [1:58:13<45:51,  5.02s/it][A
Training...:  79% 2062/2609 [1:58:18<44:55,  4.93s/it][A
Training...:  79% 2063/2609 [1:58:22<44:01,  4.84s/it][A
Training...:  79% 2064/2609 [1:58:27<42:42,  4.70s/it][A
Training...:  79% 2065/2609 [1:58:31<41:32,  4.58s/it][A
Training...:  79% 2066/2609 [1:58:35<40:11,  4.44s/it][A
Training...:  79% 2067/2609 [1:58:39<39:03,  4.32s/it][A
Training...:  79% 2068/2609 [1:58:43<37:51,  4.20s/it][A
Training...:  79% 2069/2609 [1:58:47<36:50,  4.09s/it][A
Training...:  79% 2070/2609 [1:58:51<35:44,  3.98s/it][A
Training...:  79% 2071/2609 [1:58:54<34:45,  3.88s/it][A
Training...:  79% 2072/2609 [1:58:58<33:35,  3.75s/it][A
Training...:  79% 2073/2609 [1:59:01<32:45,  3.67s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:49:52<15:12:43, 9127.17s/it]
Training...:  79% 2073/2609 [1:59:05<32:45,  3.67s/it][A
Training...:  79% 2074/2609 [1:59:05<33:08,  3.72s/it][A
Training...:  80% 2075/2609 [1:59:08<31:49,  3.58s/it][A
Training...:  80% 2076/2609 [1:59:11<30:42,  3.46s/it][A
Training...:  80% 2077/2609 [1:59:15<29:39,  3.35s/it][A
Training...:  80% 2078/2609 [1:59:18<28:38,  3.24s/it][A
Training...:  80% 2079/2609 [1:59:20<27:48,  3.15s/it][A
Training...:  80% 2080/2609 [1:59:23<26:52,  3.05s/it][A
Training...:  80% 2081/2609 [1:59:26<26:02,  2.96s/it][A
Training...:  80% 2082/2609 [1:59:29<25:09,  2.86s/it][A
Training...:  80% 2083/2609 [1:59:31<24:21,  2.78s/it][A
Training...:  80% 2084/2609 [1:59:34<23:29,  2.69s/it][A
Training...:  80% 2085/2609 [1:59:36<22:42,  2.60s/it][A
Training...:  80% 2086/2609 [1:59:39<22:02,  2.53s/it][A
Training...:  80% 2087/2609 [1:59:41<21:20,  2.45s/it][A
Training...:  80% 2088/2609 [1:59:43<20:38,  2.38s/it][A
Training...:  80% 2089/2609 [1:59:45<19:58,  2.31s/it][A
Training...:  80% 2090/2609 [1:59:47<19:07,  2.21s/it][A
Training...:  80% 2091/2609 [1:59:49<18:15,  2.12s/it][A
Training...:  80% 2092/2609 [1:59:51<17:25,  2.02s/it][A
Training...:  80% 2093/2609 [1:59:53<16:34,  1.93s/it][A
Training...:  80% 2094/2609 [1:59:54<15:35,  1.82s/it][A
Training...:  80% 2095/2609 [1:59:56<14:39,  1.71s/it][A
Training...:  80% 2096/2609 [1:59:57<13:40,  1.60s/it][A
Training...:  80% 2097/2609 [1:59:58<12:37,  1.48s/it][A
Training...:  80% 2098/2609 [1:59:59<11:26,  1.34s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:50:47<15:12:43, 9127.17s/it]
Training...:  80% 2098/2609 [2:00:00<11:26,  1.34s/it][A
Training...:  80% 2099/2609 [2:00:00<11:01,  1.30s/it][A
Training...:  80% 2100/2609 [2:00:01<09:13,  1.09s/it][A
Training...:  81% 2101/2609 [2:00:08<25:03,  2.96s/it][A
Training...:  81% 2102/2609 [2:00:15<35:23,  4.19s/it][A
Training...:  81% 2103/2609 [2:00:22<41:17,  4.90s/it][A
Training...:  81% 2104/2609 [2:00:28<44:28,  5.29s/it][A
Training...:  81% 2105/2609 [2:00:34<46:03,  5.48s/it][A
Training...:  81% 2106/2609 [2:00:40<46:53,  5.59s/it][A
Training...:  81% 2107/2609 [2:00:45<47:00,  5.62s/it][A
Training...:  81% 2108/2609 [2:00:51<46:14,  5.54s/it][A
Training...:  81% 2109/2609 [2:00:56<45:20,  5.44s/it][A
Training...:  81% 2110/2609 [2:01:01<44:13,  5.32s/it][A
Training...:  81% 2111/2609 [2:01:06<43:03,  5.19s/it][A
Training...:  81% 2112/2609 [2:01:11<41:43,  5.04s/it][A
Training...:  81% 2113/2609 [2:01:15<40:47,  4.93s/it][A
Training...:  81% 2114/2609 [2:01:20<39:42,  4.81s/it][A
Training...:  81% 2115/2609 [2:01:24<38:40,  4.70s/it][A
Training...:  81% 2116/2609 [2:01:29<37:30,  4.56s/it][A
Training...:  81% 2117/2609 [2:01:33<36:19,  4.43s/it][A
Training...:  81% 2118/2609 [2:01:37<35:07,  4.29s/it][A
Training...:  81% 2119/2609 [2:01:41<34:09,  4.18s/it][A
Training...:  81% 2120/2609 [2:01:44<33:04,  4.06s/it][A
Training...:  81% 2121/2609 [2:01:48<32:18,  3.97s/it][A
Training...:  81% 2122/2609 [2:01:52<31:40,  3.90s/it][A
Training...:  81% 2123/2609 [2:01:55<30:54,  3.82s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:52:46<15:12:43, 9127.17s/it]
Training...:  81% 2123/2609 [2:01:59<30:54,  3.82s/it][A
Training...:  81% 2124/2609 [2:01:59<31:17,  3.87s/it][A
Training...:  81% 2125/2609 [2:02:03<29:39,  3.68s/it][A
Training...:  81% 2126/2609 [2:02:06<28:17,  3.52s/it][A
Training...:  82% 2127/2609 [2:02:09<27:21,  3.40s/it][A
Training...:  82% 2128/2609 [2:02:12<26:21,  3.29s/it][A
Training...:  82% 2129/2609 [2:02:15<25:18,  3.16s/it][A
Training...:  82% 2130/2609 [2:02:18<24:21,  3.05s/it][A
Training...:  82% 2131/2609 [2:02:20<23:44,  2.98s/it][A
Training...:  82% 2132/2609 [2:02:23<22:50,  2.87s/it][A
Training...:  82% 2133/2609 [2:02:26<22:04,  2.78s/it][A
Training...:  82% 2134/2609 [2:02:28<21:15,  2.69s/it][A
Training...:  82% 2135/2609 [2:02:30<20:29,  2.59s/it][A
Training...:  82% 2136/2609 [2:02:33<19:46,  2.51s/it][A
Training...:  82% 2137/2609 [2:02:35<19:07,  2.43s/it][A
Training...:  82% 2138/2609 [2:02:37<18:15,  2.33s/it][A
Training...:  82% 2139/2609 [2:02:39<17:32,  2.24s/it][A
Training...:  82% 2140/2609 [2:02:41<16:46,  2.15s/it][A
Training...:  82% 2141/2609 [2:02:43<15:59,  2.05s/it][A
Training...:  82% 2142/2609 [2:02:45<15:08,  1.95s/it][A
Training...:  82% 2143/2609 [2:02:46<14:19,  1.85s/it][A
Training...:  82% 2144/2609 [2:02:48<13:27,  1.74s/it][A
Training...:  82% 2145/2609 [2:02:49<12:37,  1.63s/it][A
Training...:  82% 2146/2609 [2:02:50<11:43,  1.52s/it][A
Training...:  82% 2147/2609 [2:02:52<10:53,  1.41s/it][A
Training...:  82% 2148/2609 [2:02:53<09:55,  1.29s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:53:40<15:12:43, 9127.17s/it]
Training...:  82% 2148/2609 [2:02:54<09:55,  1.29s/it][A
Training...:  82% 2149/2609 [2:02:54<09:35,  1.25s/it][A
Training...:  82% 2150/2609 [2:02:54<08:01,  1.05s/it][A
Training...:  82% 2151/2609 [2:03:01<21:45,  2.85s/it][A
Training...:  82% 2152/2609 [2:03:08<31:07,  4.09s/it][A
Training...:  83% 2153/2609 [2:03:15<36:33,  4.81s/it][A
Training...:  83% 2154/2609 [2:03:21<39:14,  5.17s/it][A
Training...:  83% 2155/2609 [2:03:27<40:39,  5.37s/it][A
Training...:  83% 2156/2609 [2:03:32<40:58,  5.43s/it][A
Training...:  83% 2157/2609 [2:03:38<41:25,  5.50s/it][A
Training...:  83% 2158/2609 [2:03:43<40:49,  5.43s/it][A
Training...:  83% 2159/2609 [2:03:48<39:47,  5.31s/it][A
Training...:  83% 2160/2609 [2:03:53<38:39,  5.17s/it][A
Training...:  83% 2161/2609 [2:03:58<37:42,  5.05s/it][A
Training...:  83% 2162/2609 [2:04:02<36:39,  4.92s/it][A
Training...:  83% 2163/2609 [2:04:07<35:51,  4.82s/it][A
Training...:  83% 2164/2609 [2:04:11<34:49,  4.70s/it][A
Training...:  83% 2165/2609 [2:04:16<33:48,  4.57s/it][A
Training...:  83% 2166/2609 [2:04:20<32:42,  4.43s/it][A
Training...:  83% 2167/2609 [2:04:24<31:51,  4.33s/it][A
Training...:  83% 2168/2609 [2:04:28<30:54,  4.21s/it][A
Training...:  83% 2169/2609 [2:04:32<30:14,  4.12s/it][A
Training...:  83% 2170/2609 [2:04:35<29:19,  4.01s/it][A
Training...:  83% 2171/2609 [2:04:39<28:27,  3.90s/it][A
Training...:  83% 2172/2609 [2:04:43<27:40,  3.80s/it][A
Training...:  83% 2173/2609 [2:04:46<26:50,  3.69s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:55:37<15:12:43, 9127.17s/it]
Training...:  83% 2173/2609 [2:04:50<26:50,  3.69s/it][A
Training...:  83% 2174/2609 [2:04:50<27:23,  3.78s/it][A
Training...:  83% 2175/2609 [2:04:53<26:14,  3.63s/it][A
Training...:  83% 2176/2609 [2:04:57<25:13,  3.50s/it][A
Training...:  83% 2177/2609 [2:05:00<24:24,  3.39s/it][A
Training...:  83% 2178/2609 [2:05:03<23:27,  3.26s/it][A
Training...:  84% 2179/2609 [2:05:06<22:45,  3.18s/it][A
Training...:  84% 2180/2609 [2:05:08<21:54,  3.06s/it][A
Training...:  84% 2181/2609 [2:05:11<21:15,  2.98s/it][A
Training...:  84% 2182/2609 [2:05:14<20:32,  2.89s/it][A
Training...:  84% 2183/2609 [2:05:17<19:59,  2.82s/it][A
Training...:  84% 2184/2609 [2:05:19<19:14,  2.72s/it][A
Training...:  84% 2185/2609 [2:05:21<18:36,  2.63s/it][A
Training...:  84% 2186/2609 [2:05:24<17:58,  2.55s/it][A
Training...:  84% 2187/2609 [2:05:26<17:14,  2.45s/it][A
Training...:  84% 2188/2609 [2:05:28<16:32,  2.36s/it][A
Training...:  84% 2189/2609 [2:05:30<15:52,  2.27s/it][A
Training...:  84% 2190/2609 [2:05:32<15:11,  2.17s/it][A
Training...:  84% 2191/2609 [2:05:34<14:32,  2.09s/it][A
Training...:  84% 2192/2609 [2:05:36<13:49,  1.99s/it][A
Training...:  84% 2193/2609 [2:05:38<13:07,  1.89s/it][A
Training...:  84% 2194/2609 [2:05:39<12:17,  1.78s/it][A
Training...:  84% 2195/2609 [2:05:40<11:31,  1.67s/it][A
Training...:  84% 2196/2609 [2:05:42<10:43,  1.56s/it][A
Training...:  84% 2197/2609 [2:05:43<09:51,  1.44s/it][A
Training...:  84% 2198/2609 [2:05:44<08:53,  1.30s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:56:32<15:12:43, 9127.17s/it]
Training...:  84% 2198/2609 [2:05:45<08:53,  1.30s/it][A
Training...:  84% 2199/2609 [2:05:45<08:33,  1.25s/it][A
Training...:  84% 2200/2609 [2:05:46<07:11,  1.06s/it][A
Training...:  84% 2201/2609 [2:05:53<19:45,  2.91s/it][A
Training...:  84% 2202/2609 [2:06:00<28:03,  4.14s/it][A
Training...:  84% 2203/2609 [2:06:06<33:04,  4.89s/it][A
Training...:  84% 2204/2609 [2:06:13<35:27,  5.25s/it][A
Training...:  85% 2205/2609 [2:06:18<36:33,  5.43s/it][A
Training...:  85% 2206/2609 [2:06:24<36:46,  5.48s/it][A
Training...:  85% 2207/2609 [2:06:30<36:43,  5.48s/it][A
Training...:  85% 2208/2609 [2:06:35<36:10,  5.41s/it][A
Training...:  85% 2209/2609 [2:06:40<35:30,  5.33s/it][A
Training...:  85% 2210/2609 [2:06:45<34:31,  5.19s/it][A
Training...:  85% 2211/2609 [2:06:50<33:38,  5.07s/it][A
Training...:  85% 2212/2609 [2:06:54<32:36,  4.93s/it][A
Training...:  85% 2213/2609 [2:06:59<31:41,  4.80s/it][A
Training...:  85% 2214/2609 [2:07:03<30:45,  4.67s/it][A
Training...:  85% 2215/2609 [2:07:07<30:06,  4.58s/it][A
Training...:  85% 2216/2609 [2:07:12<29:10,  4.45s/it][A
Training...:  85% 2217/2609 [2:07:16<28:18,  4.33s/it][A
Training...:  85% 2218/2609 [2:07:20<27:29,  4.22s/it][A
Training...:  85% 2219/2609 [2:07:23<26:44,  4.11s/it][A
Training...:  85% 2220/2609 [2:07:27<25:52,  3.99s/it][A
Training...:  85% 2221/2609 [2:07:31<25:09,  3.89s/it][A
Training...:  85% 2222/2609 [2:07:34<24:26,  3.79s/it][A
Training...:  85% 2223/2609 [2:07:38<23:43,  3.69s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:58:28<15:12:43, 9127.17s/it]
Training...:  85% 2223/2609 [2:07:42<23:43,  3.69s/it][A
Training...:  85% 2224/2609 [2:07:42<24:09,  3.77s/it][A
Training...:  85% 2225/2609 [2:07:45<23:05,  3.61s/it][A
Training...:  85% 2226/2609 [2:07:48<22:14,  3.48s/it][A
Training...:  85% 2227/2609 [2:07:51<21:26,  3.37s/it][A
Training...:  85% 2228/2609 [2:07:54<20:42,  3.26s/it][A
Training...:  85% 2229/2609 [2:07:57<20:12,  3.19s/it][A
Training...:  85% 2230/2609 [2:08:00<19:34,  3.10s/it][A
Training...:  86% 2231/2609 [2:08:03<19:01,  3.02s/it][A
Training...:  86% 2232/2609 [2:08:06<18:14,  2.90s/it][A
Training...:  86% 2233/2609 [2:08:08<17:30,  2.79s/it][A
Training...:  86% 2234/2609 [2:08:11<16:49,  2.69s/it][A
Training...:  86% 2235/2609 [2:08:13<16:11,  2.60s/it][A
Training...:  86% 2236/2609 [2:08:15<15:34,  2.50s/it][A
Training...:  86% 2237/2609 [2:08:18<15:04,  2.43s/it][A
Training...:  86% 2238/2609 [2:08:20<14:25,  2.33s/it][A
Training...:  86% 2239/2609 [2:08:22<13:48,  2.24s/it][A
Training...:  86% 2240/2609 [2:08:24<13:12,  2.15s/it][A
Training...:  86% 2241/2609 [2:08:25<12:38,  2.06s/it][A
Training...:  86% 2242/2609 [2:08:27<12:01,  1.97s/it][A
Training...:  86% 2243/2609 [2:08:29<11:24,  1.87s/it][A
Training...:  86% 2244/2609 [2:08:30<10:43,  1.76s/it][A
Training...:  86% 2245/2609 [2:08:32<10:01,  1.65s/it][A
Training...:  86% 2246/2609 [2:08:33<09:15,  1.53s/it][A
Training...:  86% 2247/2609 [2:08:34<08:28,  1.41s/it][A
Training...:  86% 2248/2609 [2:08:35<07:39,  1.27s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [37:59:23<15:12:43, 9127.17s/it]
Training...:  86% 2248/2609 [2:08:36<07:39,  1.27s/it][A
Training...:  86% 2249/2609 [2:08:36<07:21,  1.23s/it][A
Training...:  86% 2250/2609 [2:08:37<06:06,  1.02s/it][A
Training...:  86% 2251/2609 [2:08:44<17:17,  2.90s/it][A
Training...:  86% 2252/2609 [2:08:51<24:35,  4.13s/it][A
Training...:  86% 2253/2609 [2:08:58<28:38,  4.83s/it][A
Training...:  86% 2254/2609 [2:09:04<30:56,  5.23s/it][A
Training...:  86% 2255/2609 [2:09:10<31:58,  5.42s/it][A
Training...:  86% 2256/2609 [2:09:15<32:01,  5.44s/it][A
Training...:  87% 2257/2609 [2:09:20<31:53,  5.44s/it][A
Training...:  87% 2258/2609 [2:09:26<31:14,  5.34s/it][A
Training...:  87% 2259/2609 [2:09:31<30:41,  5.26s/it][A
Training...:  87% 2260/2609 [2:09:35<29:50,  5.13s/it][A
Training...:  87% 2261/2609 [2:09:40<29:07,  5.02s/it][A
Training...:  87% 2262/2609 [2:09:45<28:14,  4.88s/it][A
Training...:  87% 2263/2609 [2:09:49<27:32,  4.78s/it][A
Training...:  87% 2264/2609 [2:09:54<26:48,  4.66s/it][A
Training...:  87% 2265/2609 [2:09:58<26:01,  4.54s/it][A
Training...:  87% 2266/2609 [2:10:02<25:08,  4.40s/it][A
Training...:  87% 2267/2609 [2:10:06<24:26,  4.29s/it][A
Training...:  87% 2268/2609 [2:10:10<23:42,  4.17s/it][A
Training...:  87% 2269/2609 [2:10:14<23:02,  4.07s/it][A
Training...:  87% 2270/2609 [2:10:18<22:20,  3.95s/it][A
Training...:  87% 2271/2609 [2:10:21<21:49,  3.88s/it][A
Training...:  87% 2272/2609 [2:10:25<21:09,  3.77s/it][A
Training...:  87% 2273/2609 [2:10:28<20:33,  3.67s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [38:01:19<15:12:43, 9127.17s/it]
Training...:  87% 2273/2609 [2:10:32<20:33,  3.67s/it][A
Training...:  87% 2274/2609 [2:10:32<20:55,  3.75s/it][A
Training...:  87% 2275/2609 [2:10:35<20:03,  3.60s/it][A
Training...:  87% 2276/2609 [2:10:38<19:12,  3.46s/it][A
Training...:  87% 2277/2609 [2:10:42<18:31,  3.35s/it][A
Training...:  87% 2278/2609 [2:10:45<17:49,  3.23s/it][A
Training...:  87% 2279/2609 [2:10:47<17:12,  3.13s/it][A
Training...:  87% 2280/2609 [2:10:50<16:42,  3.05s/it][A
Training...:  87% 2281/2609 [2:10:53<16:13,  2.97s/it][A
Training...:  87% 2282/2609 [2:10:56<15:36,  2.86s/it][A
Training...:  88% 2283/2609 [2:10:58<15:03,  2.77s/it][A
Training...:  88% 2284/2609 [2:11:01<14:30,  2.68s/it][A
Training...:  88% 2285/2609 [2:11:03<14:03,  2.60s/it][A
Training...:  88% 2286/2609 [2:11:05<13:33,  2.52s/it][A
Training...:  88% 2287/2609 [2:11:08<13:06,  2.44s/it][A
Training...:  88% 2288/2609 [2:11:10<12:32,  2.34s/it][A
Training...:  88% 2289/2609 [2:11:12<11:53,  2.23s/it][A
Training...:  88% 2290/2609 [2:11:14<11:18,  2.13s/it][A
Training...:  88% 2291/2609 [2:11:15<10:41,  2.02s/it][A
Training...:  88% 2292/2609 [2:11:17<10:07,  1.92s/it][A
Training...:  88% 2293/2609 [2:11:19<09:31,  1.81s/it][A
Training...:  88% 2294/2609 [2:11:20<08:57,  1.71s/it][A
Training...:  88% 2295/2609 [2:11:22<08:26,  1.61s/it][A
Training...:  88% 2296/2609 [2:11:23<07:52,  1.51s/it][A
Training...:  88% 2297/2609 [2:11:24<07:19,  1.41s/it][A
Training...:  88% 2298/2609 [2:11:25<06:37,  1.28s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [38:02:13<15:12:43, 9127.17s/it]
Training...:  88% 2298/2609 [2:11:26<06:37,  1.28s/it][A
Training...:  88% 2299/2609 [2:11:26<06:21,  1.23s/it][A
Training...:  88% 2300/2609 [2:11:27<05:16,  1.03s/it][A
Training...:  88% 2301/2609 [2:11:34<14:43,  2.87s/it][A
Training...:  88% 2302/2609 [2:11:41<21:13,  4.15s/it][A
Training...:  88% 2303/2609 [2:11:48<24:56,  4.89s/it][A
Training...:  88% 2304/2609 [2:11:54<27:03,  5.32s/it][A
Training...:  88% 2305/2609 [2:12:00<28:02,  5.53s/it][A
Training...:  88% 2306/2609 [2:12:06<28:13,  5.59s/it][A
Training...:  88% 2307/2609 [2:12:11<28:10,  5.60s/it][A
Training...:  88% 2308/2609 [2:12:17<27:37,  5.51s/it][A
Training...:  89% 2309/2609 [2:12:22<27:03,  5.41s/it][A
Training...:  89% 2310/2609 [2:12:27<26:17,  5.28s/it][A
Training...:  89% 2311/2609 [2:12:32<25:41,  5.17s/it][A
Training...:  89% 2312/2609 [2:12:36<24:55,  5.04s/it][A
Training...:  89% 2313/2609 [2:12:41<24:12,  4.91s/it][A
Training...:  89% 2314/2609 [2:12:45<23:22,  4.76s/it][A
Training...:  89% 2315/2609 [2:12:50<22:45,  4.64s/it][A
Training...:  89% 2316/2609 [2:12:54<22:03,  4.52s/it][A
Training...:  89% 2317/2609 [2:12:58<21:27,  4.41s/it][A
Training...:  89% 2318/2609 [2:13:02<20:44,  4.28s/it][A
Training...:  89% 2319/2609 [2:13:06<20:10,  4.17s/it][A
Training...:  89% 2320/2609 [2:13:10<19:27,  4.04s/it][A
Training...:  89% 2321/2609 [2:13:13<18:56,  3.95s/it][A
Training...:  89% 2322/2609 [2:13:17<18:21,  3.84s/it][A
Training...:  89% 2323/2609 [2:13:21<17:52,  3.75s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [38:04:11<15:12:43, 9127.17s/it]
Training...:  89% 2323/2609 [2:13:25<17:52,  3.75s/it][A
Training...:  89% 2324/2609 [2:13:25<18:17,  3.85s/it][A
Training...:  89% 2325/2609 [2:13:28<17:38,  3.73s/it][A
Training...:  89% 2326/2609 [2:13:31<16:52,  3.58s/it][A
Training...:  89% 2327/2609 [2:13:34<16:14,  3.45s/it][A
Training...:  89% 2328/2609 [2:13:37<15:32,  3.32s/it][A
Training...:  89% 2329/2609 [2:13:40<14:55,  3.20s/it][A
Training...:  89% 2330/2609 [2:13:43<14:21,  3.09s/it][A
Training...:  89% 2331/2609 [2:13:46<13:52,  3.00s/it][A
Training...:  89% 2332/2609 [2:13:49<13:21,  2.90s/it][A
Training...:  89% 2333/2609 [2:13:51<12:57,  2.82s/it][A
Training...:  89% 2334/2609 [2:13:54<12:29,  2.72s/it][A
Training...:  89% 2335/2609 [2:13:56<11:58,  2.62s/it][A
Training...:  90% 2336/2609 [2:13:58<11:27,  2.52s/it][A
Training...:  90% 2337/2609 [2:14:01<10:57,  2.42s/it][A
Training...:  90% 2338/2609 [2:14:03<10:29,  2.32s/it][A
Training...:  90% 2339/2609 [2:14:05<10:03,  2.24s/it][A
Training...:  90% 2340/2609 [2:14:07<09:35,  2.14s/it][A
Training...:  90% 2341/2609 [2:14:09<09:10,  2.05s/it][A
Training...:  90% 2342/2609 [2:14:10<08:43,  1.96s/it][A
Training...:  90% 2343/2609 [2:14:12<08:17,  1.87s/it][A
Training...:  90% 2344/2609 [2:14:14<07:48,  1.77s/it][A
Training...:  90% 2345/2609 [2:14:15<07:21,  1.67s/it][A
Training...:  90% 2346/2609 [2:14:16<06:49,  1.56s/it][A
Training...:  90% 2347/2609 [2:14:17<06:15,  1.43s/it][A
Training...:  90% 2348/2609 [2:14:18<05:38,  1.30s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [38:05:06<15:12:43, 9127.17s/it]
Training...:  90% 2348/2609 [2:14:19<05:38,  1.30s/it][A
Training...:  90% 2349/2609 [2:14:19<05:24,  1.25s/it][A
Training...:  90% 2350/2609 [2:14:20<04:29,  1.04s/it][A
Training...:  90% 2351/2609 [2:14:27<12:24,  2.88s/it][A
Training...:  90% 2352/2609 [2:14:34<17:39,  4.12s/it][A
Training...:  90% 2353/2609 [2:14:41<20:39,  4.84s/it][A
Training...:  90% 2354/2609 [2:14:47<22:13,  5.23s/it][A
Training...:  90% 2355/2609 [2:14:53<23:08,  5.47s/it][A
Training...:  90% 2356/2609 [2:14:59<23:21,  5.54s/it][A
Training...:  90% 2357/2609 [2:15:04<23:13,  5.53s/it][A
Training...:  90% 2358/2609 [2:15:09<22:41,  5.42s/it][A
Training...:  90% 2359/2609 [2:15:14<22:16,  5.35s/it][A
Training...:  90% 2360/2609 [2:15:19<21:34,  5.20s/it][A
Training...:  90% 2361/2609 [2:15:24<20:54,  5.06s/it][A
Training...:  91% 2362/2609 [2:15:29<20:11,  4.91s/it][A
Training...:  91% 2363/2609 [2:15:33<19:38,  4.79s/it][A
Training...:  91% 2364/2609 [2:15:38<19:04,  4.67s/it][A
Training...:  91% 2365/2609 [2:15:42<18:36,  4.58s/it][A
Training...:  91% 2366/2609 [2:15:46<18:01,  4.45s/it][A
Training...:  91% 2367/2609 [2:15:50<17:23,  4.31s/it][A
Training...:  91% 2368/2609 [2:15:54<16:46,  4.17s/it][A
Training...:  91% 2369/2609 [2:15:58<16:09,  4.04s/it][A
Training...:  91% 2370/2609 [2:16:01<15:35,  3.92s/it][A
Training...:  91% 2371/2609 [2:16:05<15:08,  3.82s/it][A
Training...:  91% 2372/2609 [2:16:08<14:38,  3.71s/it][A
Training...:  91% 2373/2609 [2:16:12<14:12,  3.61s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [38:07:02<15:12:43, 9127.17s/it]
Training...:  91% 2373/2609 [2:16:15<14:12,  3.61s/it][A
Training...:  91% 2374/2609 [2:16:15<14:23,  3.67s/it][A
Training...:  91% 2375/2609 [2:16:19<13:43,  3.52s/it][A
Training...:  91% 2376/2609 [2:16:22<13:12,  3.40s/it][A
Training...:  91% 2377/2609 [2:16:25<12:44,  3.30s/it][A
Training...:  91% 2378/2609 [2:16:28<12:25,  3.23s/it][A
Training...:  91% 2379/2609 [2:16:31<12:02,  3.14s/it][A
Training...:  91% 2380/2609 [2:16:34<11:36,  3.04s/it][A
Training...:  91% 2381/2609 [2:16:36<11:12,  2.95s/it][A
Training...:  91% 2382/2609 [2:16:39<10:48,  2.85s/it][A
Training...:  91% 2383/2609 [2:16:42<10:24,  2.76s/it][A
Training...:  91% 2384/2609 [2:16:44<09:59,  2.66s/it][A
Training...:  91% 2385/2609 [2:16:46<09:38,  2.58s/it][A
Training...:  91% 2386/2609 [2:16:49<09:15,  2.49s/it][A
Training...:  91% 2387/2609 [2:16:51<08:56,  2.42s/it][A
Training...:  92% 2388/2609 [2:16:53<08:34,  2.33s/it][A
Training...:  92% 2389/2609 [2:16:55<08:12,  2.24s/it][A
Training...:  92% 2390/2609 [2:16:57<07:51,  2.15s/it][A
Training...:  92% 2391/2609 [2:16:59<07:28,  2.06s/it][A
Training...:  92% 2392/2609 [2:17:01<07:06,  1.96s/it][A
Training...:  92% 2393/2609 [2:17:02<06:43,  1.87s/it][A
Training...:  92% 2394/2609 [2:17:04<06:18,  1.76s/it][A
Training...:  92% 2395/2609 [2:17:05<05:55,  1.66s/it][A
Training...:  92% 2396/2609 [2:17:06<05:30,  1.55s/it][A
Training...:  92% 2397/2609 [2:17:08<05:05,  1.44s/it][A
Training...:  92% 2398/2609 [2:17:09<04:38,  1.32s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [38:07:57<15:12:43, 9127.17s/it]
Training...:  92% 2398/2609 [2:17:10<04:38,  1.32s/it][A
Training...:  92% 2399/2609 [2:17:10<04:28,  1.28s/it][A
Training...:  92% 2400/2609 [2:17:10<03:44,  1.08s/it][A
Training...:  92% 2401/2609 [2:17:18<10:00,  2.89s/it][A
Training...:  92% 2402/2609 [2:17:25<14:13,  4.12s/it][A
Training...:  92% 2403/2609 [2:17:31<16:41,  4.86s/it][A
Training...:  92% 2404/2609 [2:17:37<17:56,  5.25s/it][A
Training...:  92% 2405/2609 [2:17:43<18:34,  5.47s/it][A
Training...:  92% 2406/2609 [2:17:49<18:42,  5.53s/it][A
Training...:  92% 2407/2609 [2:17:55<18:43,  5.56s/it][A
Training...:  92% 2408/2609 [2:18:00<18:39,  5.57s/it][A
Training...:  92% 2409/2609 [2:18:05<18:13,  5.47s/it][A
Training...:  92% 2410/2609 [2:18:10<17:34,  5.30s/it][A
Training...:  92% 2411/2609 [2:18:15<17:01,  5.16s/it][A
Training...:  92% 2412/2609 [2:18:20<16:25,  5.00s/it][A
Training...:  92% 2413/2609 [2:18:24<15:55,  4.87s/it][A
Training...:  93% 2414/2609 [2:18:29<15:19,  4.72s/it][A
Training...:  93% 2415/2609 [2:18:33<14:50,  4.59s/it][A
Training...:  93% 2416/2609 [2:18:37<14:16,  4.44s/it][A
Training...:  93% 2417/2609 [2:18:41<13:49,  4.32s/it][A
Training...:  93% 2418/2609 [2:18:45<13:20,  4.19s/it][A
Training...:  93% 2419/2609 [2:18:49<12:54,  4.07s/it][A
Training...:  93% 2420/2609 [2:18:53<12:28,  3.96s/it][A
Training...:  93% 2421/2609 [2:18:56<12:06,  3.86s/it][A
Training...:  93% 2422/2609 [2:19:00<11:41,  3.75s/it][A
Training...:  93% 2423/2609 [2:19:03<11:22,  3.67s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [38:09:54<15:12:43, 9127.17s/it]
Training...:  93% 2423/2609 [2:19:07<11:22,  3.67s/it][A
Training...:  93% 2424/2609 [2:19:07<11:33,  3.75s/it][A
Training...:  93% 2425/2609 [2:19:10<11:04,  3.61s/it][A
Training...:  93% 2426/2609 [2:19:13<10:34,  3.47s/it][A
Training...:  93% 2427/2609 [2:19:17<10:10,  3.35s/it][A
Training...:  93% 2428/2609 [2:19:20<09:44,  3.23s/it][A
Training...:  93% 2429/2609 [2:19:22<09:25,  3.14s/it][A
Training...:  93% 2430/2609 [2:19:25<09:03,  3.03s/it][A
Training...:  93% 2431/2609 [2:19:28<08:45,  2.95s/it][A
Training...:  93% 2432/2609 [2:19:31<08:25,  2.86s/it][A
Training...:  93% 2433/2609 [2:19:33<08:08,  2.78s/it][A
Training...:  93% 2434/2609 [2:19:36<07:48,  2.68s/it][A
Training...:  93% 2435/2609 [2:19:38<07:31,  2.59s/it][A
Training...:  93% 2436/2609 [2:19:40<07:15,  2.52s/it][A
Training...:  93% 2437/2609 [2:19:43<06:57,  2.43s/it][A
Training...:  93% 2438/2609 [2:19:45<06:37,  2.33s/it][A
Training...:  93% 2439/2609 [2:19:47<06:21,  2.25s/it][A
Training...:  94% 2440/2609 [2:19:49<06:03,  2.15s/it][A
Training...:  94% 2441/2609 [2:19:51<05:47,  2.07s/it][A
Training...:  94% 2442/2609 [2:19:52<05:29,  1.97s/it][A
Training...:  94% 2443/2609 [2:19:54<05:11,  1.87s/it][A
Training...:  94% 2444/2609 [2:19:56<04:52,  1.77s/it][A
Training...:  94% 2445/2609 [2:19:57<04:34,  1.67s/it][A
Training...:  94% 2446/2609 [2:19:58<04:14,  1.56s/it][A
Training...:  94% 2447/2609 [2:19:59<03:55,  1.45s/it][A
Training...:  94% 2448/2609 [2:20:00<03:34,  1.33s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [38:10:48<15:12:43, 9127.17s/it]
Training...:  94% 2448/2609 [2:20:02<03:34,  1.33s/it][A
Training...:  94% 2449/2609 [2:20:02<03:24,  1.28s/it][A
Training...:  94% 2450/2609 [2:20:02<02:48,  1.06s/it][A
Training...:  94% 2451/2609 [2:20:09<07:38,  2.90s/it][A
Training...:  94% 2452/2609 [2:20:17<10:56,  4.18s/it][A
Training...:  94% 2453/2609 [2:20:23<12:51,  4.95s/it][A
Training...:  94% 2454/2609 [2:20:30<13:45,  5.32s/it][A
Training...:  94% 2455/2609 [2:20:36<14:11,  5.53s/it][A
Training...:  94% 2456/2609 [2:20:41<14:14,  5.59s/it][A
Training...:  94% 2457/2609 [2:20:47<14:03,  5.55s/it][A
Training...:  94% 2458/2609 [2:20:52<13:40,  5.43s/it][A
Training...:  94% 2459/2609 [2:20:57<13:19,  5.33s/it][A
Training...:  94% 2460/2609 [2:21:02<12:58,  5.23s/it][A
Training...:  94% 2461/2609 [2:21:07<12:35,  5.11s/it][A
Training...:  94% 2462/2609 [2:21:11<12:06,  4.94s/it][A
Training...:  94% 2463/2609 [2:21:16<11:42,  4.81s/it][A
Training...:  94% 2464/2609 [2:21:20<11:18,  4.68s/it][A
Training...:  94% 2465/2609 [2:21:24<10:56,  4.56s/it][A
Training...:  95% 2466/2609 [2:21:29<10:33,  4.43s/it][A
Training...:  95% 2467/2609 [2:21:33<10:13,  4.32s/it][A
Training...:  95% 2468/2609 [2:21:37<09:52,  4.20s/it][A
Training...:  95% 2469/2609 [2:21:40<09:33,  4.10s/it][A
Training...:  95% 2470/2609 [2:21:44<09:13,  3.98s/it][A
Training...:  95% 2471/2609 [2:21:48<08:55,  3.88s/it][A
Training...:  95% 2472/2609 [2:21:51<08:36,  3.77s/it][A
Training...:  95% 2473/2609 [2:21:55<08:21,  3.69s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [38:12:45<15:12:43, 9127.17s/it]
Training...:  95% 2473/2609 [2:21:59<08:21,  3.69s/it][A
Training...:  95% 2474/2609 [2:21:59<08:29,  3.78s/it][A
Training...:  95% 2475/2609 [2:22:02<08:06,  3.63s/it][A
Training...:  95% 2476/2609 [2:22:05<07:46,  3.51s/it][A
Training...:  95% 2477/2609 [2:22:08<07:27,  3.39s/it][A
Training...:  95% 2478/2609 [2:22:11<07:08,  3.27s/it][A
Training...:  95% 2479/2609 [2:22:14<06:53,  3.18s/it][A
Training...:  95% 2480/2609 [2:22:17<06:36,  3.08s/it][A
Training...:  95% 2481/2609 [2:22:20<06:23,  3.00s/it][A
Training...:  95% 2482/2609 [2:22:23<06:06,  2.88s/it][A
Training...:  95% 2483/2609 [2:22:25<05:51,  2.79s/it][A
Training...:  95% 2484/2609 [2:22:28<05:36,  2.70s/it][A
Training...:  95% 2485/2609 [2:22:30<05:22,  2.60s/it][A
Training...:  95% 2486/2609 [2:22:32<05:08,  2.51s/it][A
Training...:  95% 2487/2609 [2:22:35<04:55,  2.42s/it][A
Training...:  95% 2488/2609 [2:22:37<04:42,  2.33s/it][A
Training...:  95% 2489/2609 [2:22:39<04:29,  2.24s/it][A
Training...:  95% 2490/2609 [2:22:41<04:16,  2.15s/it][A
Training...:  95% 2491/2609 [2:22:43<04:03,  2.06s/it][A
Training...:  96% 2492/2609 [2:22:44<03:50,  1.97s/it][A
Training...:  96% 2493/2609 [2:22:46<03:37,  1.88s/it][A
Training...:  96% 2494/2609 [2:22:48<03:24,  1.78s/it][A
Training...:  96% 2495/2609 [2:22:49<03:10,  1.67s/it][A
Training...:  96% 2496/2609 [2:22:50<02:56,  1.56s/it][A
Training...:  96% 2497/2609 [2:22:51<02:39,  1.43s/it][A
Training...:  96% 2498/2609 [2:22:52<02:22,  1.29s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [38:13:40<15:12:43, 9127.17s/it]
Training...:  96% 2498/2609 [2:22:53<02:22,  1.29s/it][A
Training...:  96% 2499/2609 [2:22:53<02:16,  1.24s/it][A
Training...:  96% 2500/2609 [2:22:54<01:52,  1.03s/it][A
Training...:  96% 2501/2609 [2:23:01<05:11,  2.88s/it][A
Training...:  96% 2502/2609 [2:23:08<07:22,  4.14s/it][A
Training...:  96% 2503/2609 [2:23:15<08:37,  4.88s/it][A
Training...:  96% 2504/2609 [2:23:21<09:20,  5.33s/it][A
Training...:  96% 2505/2609 [2:23:27<09:36,  5.55s/it][A
Training...:  96% 2506/2609 [2:23:33<09:37,  5.61s/it][A
Training...:  96% 2507/2609 [2:23:39<09:32,  5.61s/it][A
Training...:  96% 2508/2609 [2:23:44<09:16,  5.51s/it][A
Training...:  96% 2509/2609 [2:23:49<09:00,  5.41s/it][A
Training...:  96% 2510/2609 [2:23:54<08:42,  5.28s/it][A
Training...:  96% 2511/2609 [2:23:59<08:24,  5.15s/it][A
Training...:  96% 2512/2609 [2:24:04<08:07,  5.03s/it][A
Training...:  96% 2513/2609 [2:24:08<07:54,  4.94s/it][A
Training...:  96% 2514/2609 [2:24:13<07:37,  4.81s/it][A
Training...:  96% 2515/2609 [2:24:17<07:19,  4.67s/it][A
Training...:  96% 2516/2609 [2:24:21<06:59,  4.51s/it][A
Training...:  96% 2517/2609 [2:24:25<06:43,  4.38s/it][A
Training...:  97% 2518/2609 [2:24:29<06:28,  4.27s/it][A
Training...:  97% 2519/2609 [2:24:33<06:14,  4.16s/it][A
Training...:  97% 2520/2609 [2:24:37<06:01,  4.06s/it][A
Training...:  97% 2521/2609 [2:24:41<05:50,  3.99s/it][A
Training...:  97% 2522/2609 [2:24:45<05:38,  3.89s/it][A
Training...:  97% 2523/2609 [2:24:48<05:24,  3.78s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [38:15:39<15:12:43, 9127.17s/it]
Training...:  97% 2523/2609 [2:24:52<05:24,  3.78s/it][A
Training...:  97% 2524/2609 [2:24:52<05:27,  3.85s/it][A
Training...:  97% 2525/2609 [2:24:56<05:11,  3.71s/it][A
Training...:  97% 2526/2609 [2:24:59<04:57,  3.58s/it][A
Training...:  97% 2527/2609 [2:25:02<04:44,  3.46s/it][A
Training...:  97% 2528/2609 [2:25:05<04:31,  3.35s/it][A
Training...:  97% 2529/2609 [2:25:08<04:21,  3.27s/it][A
Training...:  97% 2530/2609 [2:25:11<04:09,  3.16s/it][A
Training...:  97% 2531/2609 [2:25:14<03:58,  3.06s/it][A
Training...:  97% 2532/2609 [2:25:17<03:47,  2.96s/it][A
Training...:  97% 2533/2609 [2:25:19<03:37,  2.86s/it][A
Training...:  97% 2534/2609 [2:25:22<03:26,  2.75s/it][A
Training...:  97% 2535/2609 [2:25:24<03:16,  2.65s/it][A
Training...:  97% 2536/2609 [2:25:27<03:06,  2.55s/it][A
Training...:  97% 2537/2609 [2:25:29<02:56,  2.46s/it][A
Training...:  97% 2538/2609 [2:25:31<02:46,  2.35s/it][A
Training...:  97% 2539/2609 [2:25:33<02:37,  2.26s/it][A
Training...:  97% 2540/2609 [2:25:35<02:28,  2.16s/it][A
Training...:  97% 2541/2609 [2:25:37<02:20,  2.07s/it][A
Training...:  97% 2542/2609 [2:25:38<02:11,  1.97s/it][A
Training...:  97% 2543/2609 [2:25:40<02:03,  1.87s/it][A
Training...:  98% 2544/2609 [2:25:42<01:54,  1.77s/it][A
Training...:  98% 2545/2609 [2:25:43<01:46,  1.66s/it][A
Training...:  98% 2546/2609 [2:25:44<01:37,  1.55s/it][A
Training...:  98% 2547/2609 [2:25:46<01:29,  1.44s/it][A
Training...:  98% 2548/2609 [2:25:47<01:19,  1.31s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [38:16:34<15:12:43, 9127.17s/it]
Training...:  98% 2548/2609 [2:25:48<01:19,  1.31s/it][A
Training...:  98% 2549/2609 [2:25:48<01:15,  1.26s/it][A
Training...:  98% 2550/2609 [2:25:48<01:01,  1.04s/it][A
Training...:  98% 2551/2609 [2:25:55<02:47,  2.88s/it][A
Training...:  98% 2552/2609 [2:26:02<03:55,  4.14s/it][A
Training...:  98% 2553/2609 [2:26:09<04:32,  4.87s/it][A
Training...:  98% 2554/2609 [2:26:15<04:49,  5.27s/it][A
Training...:  98% 2555/2609 [2:26:21<04:57,  5.50s/it][A
Training...:  98% 2556/2609 [2:26:27<04:54,  5.56s/it][A
Training...:  98% 2557/2609 [2:26:33<04:49,  5.57s/it][A
Training...:  98% 2558/2609 [2:26:38<04:42,  5.53s/it][A
Training...:  98% 2559/2609 [2:26:43<04:32,  5.44s/it][A
Training...:  98% 2560/2609 [2:26:48<04:18,  5.27s/it][A
Training...:  98% 2561/2609 [2:26:53<04:05,  5.12s/it][A
Training...:  98% 2562/2609 [2:26:57<03:52,  4.96s/it][A
Training...:  98% 2563/2609 [2:27:02<03:41,  4.82s/it][A
Training...:  98% 2564/2609 [2:27:06<03:30,  4.67s/it][A
Training...:  98% 2565/2609 [2:27:11<03:19,  4.54s/it][A
Training...:  98% 2566/2609 [2:27:15<03:09,  4.41s/it][A
Training...:  98% 2567/2609 [2:27:19<02:59,  4.28s/it][A
Training...:  98% 2568/2609 [2:27:22<02:50,  4.16s/it][A
Training...:  98% 2569/2609 [2:27:26<02:42,  4.06s/it][A
Training...:  99% 2570/2609 [2:27:30<02:33,  3.94s/it][A
Training...:  99% 2571/2609 [2:27:34<02:25,  3.83s/it][A
Training...:  99% 2572/2609 [2:27:37<02:17,  3.73s/it][A
Training...:  99% 2573/2609 [2:27:40<02:10,  3.63s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [38:18:31<15:12:43, 9127.17s/it]
Training...:  99% 2573/2609 [2:27:44<02:10,  3.63s/it][A
Training...:  99% 2574/2609 [2:27:44<02:08,  3.68s/it][A
Training...:  99% 2575/2609 [2:27:47<02:00,  3.53s/it][A
Training...:  99% 2576/2609 [2:27:50<01:52,  3.40s/it][A
Training...:  99% 2577/2609 [2:27:54<01:45,  3.29s/it][A
Training...:  99% 2578/2609 [2:27:56<01:38,  3.18s/it][A
Training...:  99% 2579/2609 [2:27:59<01:33,  3.11s/it][A
Training...:  99% 2580/2609 [2:28:02<01:27,  3.03s/it][A
Training...:  99% 2581/2609 [2:28:05<01:22,  2.95s/it][A
Training...:  99% 2582/2609 [2:28:08<01:17,  2.88s/it][A
Training...:  99% 2583/2609 [2:28:10<01:12,  2.79s/it][A
Training...:  99% 2584/2609 [2:28:13<01:07,  2.71s/it][A
Training...:  99% 2585/2609 [2:28:15<01:03,  2.64s/it][A
Training...:  99% 2586/2609 [2:28:18<00:58,  2.53s/it][A
Training...:  99% 2587/2609 [2:28:20<00:53,  2.42s/it][A
Training...:  99% 2588/2609 [2:28:22<00:48,  2.31s/it][A
Training...:  99% 2589/2609 [2:28:24<00:44,  2.22s/it][A
Training...:  99% 2590/2609 [2:28:26<00:40,  2.12s/it][A
Training...:  99% 2591/2609 [2:28:28<00:36,  2.03s/it][A
Training...:  99% 2592/2609 [2:28:29<00:32,  1.93s/it][A
Training...:  99% 2593/2609 [2:28:31<00:29,  1.83s/it][A
Training...:  99% 2594/2609 [2:28:32<00:26,  1.73s/it][A
Training...:  99% 2595/2609 [2:28:34<00:22,  1.63s/it][A
Training...: 100% 2596/2609 [2:28:35<00:19,  1.52s/it][A
Training...: 100% 2597/2609 [2:28:36<00:16,  1.40s/it][A
Training...: 100% 2598/2609 [2:28:37<00:13,  1.27s/it][A                                                                                                                                                                    
                                                      [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  70% 14/20 [38:19:25<15:12:43, 9127.17s/it]
Training...: 100% 2598/2609 [2:28:38<00:13,  1.27s/it][A
Training...: 100% 2599/2609 [2:28:38<00:12,  1.22s/it][A
Training...: 100% 2600/2609 [2:28:39<00:09,  1.02s/it][A
Training...: 100% 2601/2609 [2:28:45<00:21,  2.71s/it][A
Training...: 100% 2602/2609 [2:28:51<00:24,  3.55s/it][A
Training...: 100% 2603/2609 [2:28:55<00:23,  3.84s/it][A
Training...: 100% 2604/2609 [2:28:59<00:19,  3.83s/it][A
Training...: 100% 2605/2609 [2:29:02<00:14,  3.64s/it][A
Training...: 100% 2606/2609 [2:29:05<00:10,  3.34s/it][A
Training...: 100% 2607/2609 [2:29:07<00:06,  3.02s/it][A
Training...: 100% 2608/2609 [2:29:09<00:02,  2.67s/it][A
Training...: 100% 2609/2609 [2:29:11<00:00,  2.29s/it][ATraining...: 100% 2609/2609 [2:29:11<00:00,  3.43s/it]
Step... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:19:57<12:36:12, 9074.48s/it]
Step... (38250 | Loss: 0.006366381887346506, Learning Rate: 2.3739390599075705e-05, Gradient Norm: 0.4642100930213928)
Step... (38275 | Loss: 0.0033844432327896357, Learning Rate: 2.3688888177275658e-05, Gradient Norm: 0.40817007422447205)
Step... (38300 | Loss: 0.007455904968082905, Learning Rate: 2.363838575547561e-05, Gradient Norm: 0.40506547689437866)
Step... (38325 | Loss: 0.006757034454494715, Learning Rate: 2.358787605771795e-05, Gradient Norm: 0.8448126912117004)
Step... (38350 | Loss: 0.005674361251294613, Learning Rate: 2.3537373635917902e-05, Gradient Norm: 0.3147808313369751)
Step... (38375 | Loss: 0.001808203523978591, Learning Rate: 2.348686939512845e-05, Gradient Norm: 0.20130884647369385)
Step... (38400 | Loss: 0.005590107757598162, Learning Rate: 2.3436361516360193e-05, Gradient Norm: 0.31089991331100464)
Step... (38425 | Loss: 0.005966721568256617, Learning Rate: 2.3385857275570743e-05, Gradient Norm: 0.5390709042549133)
Step... (38450 | Loss: 0.0019575413316488266, Learning Rate: 2.3335354853770696e-05, Gradient Norm: 0.13021700084209442)
Step... (38475 | Loss: 0.0024031559005379677, Learning Rate: 2.3284845156013034e-05, Gradient Norm: 0.3032660484313965)
Step... (38500 | Loss: 0.003947082906961441, Learning Rate: 2.3234342734212987e-05, Gradient Norm: 0.22641871869564056)
Step... (38525 | Loss: 0.003122656373307109, Learning Rate: 2.318384031241294e-05, Gradient Norm: 0.4811563491821289)
Step... (38550 | Loss: 0.010906867682933807, Learning Rate: 2.313333061465528e-05, Gradient Norm: 0.4082331359386444)
Step... (38575 | Loss: 0.002596016274765134, Learning Rate: 2.308282819285523e-05, Gradient Norm: 0.29308828711509705)
Step... (38600 | Loss: 0.004942723549902439, Learning Rate: 2.3032325771055184e-05, Gradient Norm: 0.40310630202293396)
Step... (38625 | Loss: 0.002130720764398575, Learning Rate: 2.2981816073297523e-05, Gradient Norm: 0.2628665566444397)
Step... (38650 | Loss: 0.02096829190850258, Learning Rate: 2.2931313651497476e-05, Gradient Norm: 0.5548680424690247)
Step... (38675 | Loss: 0.043137844651937485, Learning Rate: 2.2880809410708025e-05, Gradient Norm: 0.82944655418396)
Step... (38700 | Loss: 0.008061195723712444, Learning Rate: 2.2830301531939767e-05, Gradient Norm: 0.3392728865146637)
Step... (38725 | Loss: 0.0014339858898892999, Learning Rate: 2.2779797291150317e-05, Gradient Norm: 0.2014901340007782)
Step... (38750 | Loss: 0.026414720341563225, Learning Rate: 2.272929486935027e-05, Gradient Norm: 0.6348156929016113)
Step... (38775 | Loss: 0.011452091857790947, Learning Rate: 2.2678785171592608e-05, Gradient Norm: 0.7714160084724426)
Step... (38800 | Loss: 0.008010935969650745, Learning Rate: 2.262828274979256e-05, Gradient Norm: 0.4824948012828827)
Step... (38825 | Loss: 0.03206228092312813, Learning Rate: 2.2577780327992514e-05, Gradient Norm: 0.8431407809257507)
Step... (38850 | Loss: 0.010996922850608826, Learning Rate: 2.2527270630234852e-05, Gradient Norm: 0.5085827708244324)
Step... (38875 | Loss: 0.028462404385209084, Learning Rate: 2.2476768208434805e-05, Gradient Norm: 1.0846291780471802)
Step... (38900 | Loss: 0.005203528795391321, Learning Rate: 2.2426265786634758e-05, Gradient Norm: 0.26003244519233704)
Step... (38925 | Loss: 0.0011801383225247264, Learning Rate: 2.2375756088877097e-05, Gradient Norm: 0.1436111330986023)
Step... (38950 | Loss: 0.003362857736647129, Learning Rate: 2.232525366707705e-05, Gradient Norm: 0.16047145426273346)
Step... (38975 | Loss: 0.0026505221612751484, Learning Rate: 2.22747494262876e-05, Gradient Norm: 0.22491216659545898)
Step... (39000 | Loss: 0.007087004836648703, Learning Rate: 2.222424154751934e-05, Gradient Norm: 0.33928975462913513)
Step... (39025 | Loss: 0.0015777440275996923, Learning Rate: 2.217373730672989e-05, Gradient Norm: 0.2513529062271118)
Step... (39050 | Loss: 0.012398017570376396, Learning Rate: 2.2123234884929843e-05, Gradient Norm: 0.5030176639556885)
Step... (39075 | Loss: 0.013747001998126507, Learning Rate: 2.2072725187172182e-05, Gradient Norm: 0.6377426981925964)
Step... (3910Training...:   0% 0/2609 [00:00<?, ?it/s][A0 | Loss: 0.007258648052811623, Learning Rate: 2.2022222765372135e-05, Gradient Norm: 0.28894975781440735)
Step... (39125 | Loss: 0.011791885830461979, Learning Rate: 2.1971720343572088e-05, Gradient Norm: 1.0832571983337402)

Training...:   0% 1/2609 [00:07<5:14:08,  7.23s/it][A
Training...:   0% 2/2609 [00:14<5:12:20,  7.19s/it][A
Training...:   0% 3/2609 [00:20<5:00:02,  6.91s/it][A
Training...:   0% 4/2609 [00:27<4:50:55,  6.70s/it][A
Training...:   0% 5/2609 [00:33<4:42:00,  6.50s/it][A
Training...:   0% 6/2609 [00:39<4:31:00,  6.25s/it][A
Training...:   0% 7/2609 [00:44<4:22:22,  6.05s/it][A
Training...:   0% 8/2609 [00:50<4:13:53,  5.86s/it][A
Training...:   0% 9/2609 [00:55<4:06:12,  5.68s/it][A
Training...:   0% 10/2609 [01:00<3:58:04,  5.50s/it][A
Training...:   0% 11/2609 [01:05<3:50:28,  5.32s/it][A
Training...:   0% 12/2609 [01:10<3:43:13,  5.16s/it][A
Training...:   0% 13/2609 [01:15<3:36:59,  5.02s/it][A
Training...:   1% 14/2609 [01:19<3:29:42,  4.85s/it][A                                                                                                                                                                    
                                                    [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:21:23<12:36:12, 9074.48s/it]
Training...:   1% 14/2609 [01:24<3:29:42,  4.85s/it][A
Training...:   1% 15/2609 [01:24<3:31:37,  4.90s/it][A
Training...:   1% 16/2609 [01:28<3:21:38,  4.67s/it][A
Training...:   1% 17/2609 [01:32<3:13:35,  4.48s/it][A
Training...:   1% 18/2609 [01:36<3:06:44,  4.32s/it][A
Training...:   1% 19/2609 [01:40<3:01:40,  4.21s/it][A
Training...:   1% 20/2609 [01:44<2:56:22,  4.09s/it][A
Training...:   1% 21/2609 [01:48<2:50:22,  3.95s/it][A
Training...:   1% 22/2609 [01:51<2:44:57,  3.83s/it][A
Training...:   1% 23/2609 [01:55<2:40:16,  3.72s/it][A
Training...:   1% 24/2609 [01:58<2:35:04,  3.60s/it][A
Training...:   1% 25/2609 [02:01<2:30:59,  3.51s/it][A
Training...:   1% 26/2609 [02:04<2:26:22,  3.40s/it][A
Training...:   1% 27/2609 [02:08<2:22:58,  3.32s/it][A
Training...:   1% 28/2609 [02:11<2:19:13,  3.24s/it][A
Training...:   1% 29/2609 [02:14<2:16:46,  3.18s/it][A
Training...:   1% 30/2609 [02:17<2:13:26,  3.10s/it][A
Training...:   1% 31/2609 [02:19<2:09:19,  3.01s/it][A
Training...:   1% 32/2609 [02:22<2:04:56,  2.91s/it][A
Training...:   1% 33/2609 [02:25<2:00:30,  2.81s/it][A
Training...:   1% 34/2609 [02:27<1:56:22,  2.71s/it][A
Training...:   1% 35/2609 [02:29<1:51:57,  2.61s/it][A
Training...:   1% 36/2609 [02:32<1:48:34,  2.53s/it][A
Training...:   1% 37/2609 [02:34<1:44:57,  2.45s/it][A
Training...:   1% 38/2609 [02:36<1:40:58,  2.36s/it][A
Training...:   1% 39/2609 [02:38<1:36:47,  2.26s/it][A                                                                                                                                                                    
                                                    [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:22:40<12:36:12, 9074.48s/it]
Training...:   1% 39/2609 [02:41<1:36:47,  2.26s/it][A
Training...:   2% 40/2609 [02:41<1:38:08,  2.29s/it][A
Training...:   2% 41/2609 [02:42<1:32:22,  2.16s/it][A
Training...:   2% 42/2609 [02:44<1:26:39,  2.03s/it][A
Training...:   2% 43/2609 [02:46<1:21:54,  1.92s/it][A
Training...:   2% 44/2609 [02:47<1:17:10,  1.81s/it][A
Training...:   2% 45/2609 [02:49<1:12:19,  1.69s/it][A
Training...:   2% 46/2609 [02:50<1:07:26,  1.58s/it][A
Training...:   2% 47/2609 [02:51<1:02:03,  1.45s/it][A
Training...:   2% 48/2609 [02:52<56:15,  1.32s/it]  [A
Training...:   2% 49/2609 [02:53<49:51,  1.17s/it][A
Training...:   2% 50/2609 [02:54<42:08,  1.01it/s][A
Training...:   2% 51/2609 [03:01<2:02:38,  2.88s/it][A
Training...:   2% 52/2609 [03:08<2:56:31,  4.14s/it][A
Training...:   2% 53/2609 [03:15<3:28:49,  4.90s/it][A
Training...:   2% 54/2609 [03:21<3:46:39,  5.32s/it][A
Training...:   2% 55/2609 [03:27<3:55:27,  5.53s/it][A
Training...:   2% 56/2609 [03:33<3:56:46,  5.56s/it][A
Training...:   2% 57/2609 [03:38<3:57:59,  5.60s/it][A
Training...:   2% 58/2609 [03:44<3:53:40,  5.50s/it][A
Training...:   2% 59/2609 [03:49<3:49:17,  5.40s/it][A
Training...:   2% 60/2609 [03:54<3:44:11,  5.28s/it][A
Training...:   2% 61/2609 [03:59<3:40:57,  5.20s/it][A
Training...:   2% 62/2609 [04:03<3:33:26,  5.03s/it][A
Training...:   2% 63/2609 [04:08<3:27:12,  4.88s/it][A
Training...:   2% 64/2609 [04:12<3:20:22,  4.72s/it][A                                                                                                                                                                    
                                                    [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:24:16<12:36:12, 9074.48s/it]
Training...:   2% 64/2609 [04:17<3:20:22,  4.72s/it][A
Training...:   2% 65/2609 [04:17<3:22:20,  4.77s/it][A
Training...:   3% 66/2609 [04:21<3:13:24,  4.56s/it][A
Training...:   3% 67/2609 [04:25<3:06:46,  4.41s/it][A
Training...:   3% 68/2609 [04:29<3:00:30,  4.26s/it][A
Training...:   3% 69/2609 [04:33<2:55:10,  4.14s/it][A
Training...:   3% 70/2609 [04:37<2:49:59,  4.02s/it][A
Training...:   3% 71/2609 [04:40<2:44:41,  3.89s/it][A
Training...:   3% 72/2609 [04:44<2:39:37,  3.78s/it][A
Training...:   3% 73/2609 [04:47<2:36:21,  3.70s/it][A
Training...:   3% 74/2609 [04:51<2:32:38,  3.61s/it][A
Training...:   3% 75/2609 [04:54<2:28:18,  3.51s/it][A
Training...:   3% 76/2609 [04:57<2:24:02,  3.41s/it][A
Training...:   3% 77/2609 [05:00<2:19:21,  3.30s/it][A
Training...:   3% 78/2609 [05:03<2:15:15,  3.21s/it][A
Training...:   3% 79/2609 [05:06<2:11:36,  3.12s/it][A
Training...:   3% 80/2609 [05:09<2:07:51,  3.03s/it][A
Training...:   3% 81/2609 [05:12<2:04:13,  2.95s/it][A
Training...:   3% 82/2609 [05:14<2:00:04,  2.85s/it][A
Training...:   3% 83/2609 [05:17<1:56:20,  2.76s/it][A
Training...:   3% 84/2609 [05:19<1:52:26,  2.67s/it][A
Training...:   3% 85/2609 [05:22<1:48:33,  2.58s/it][A
Training...:   3% 86/2609 [05:24<1:44:49,  2.49s/it][A
Training...:   3% 87/2609 [05:26<1:40:49,  2.40s/it][A
Training...:   3% 88/2609 [05:28<1:37:06,  2.31s/it][A
Training...:   3% 89/2609 [05:30<1:33:09,  2.22s/it][A                                                                                                                                                                    
                                                    [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:25:32<12:36:12, 9074.48s/it]
Training...:   3% 89/2609 [05:33<1:33:09,  2.22s/it][A
Training...:   3% 90/2609 [05:33<1:34:40,  2.25s/it][A
Training...:   3% 91/2609 [05:35<1:29:19,  2.13s/it][A
Training...:   4% 92/2609 [05:36<1:24:15,  2.01s/it][A
Training...:   4% 93/2609 [05:38<1:19:42,  1.90s/it][A
Training...:   4% 94/2609 [05:39<1:15:01,  1.79s/it][A
Training...:   4% 95/2609 [05:41<1:10:13,  1.68s/it][A
Training...:   4% 96/2609 [05:42<1:05:31,  1.56s/it][A
Training...:   4% 97/2609 [05:43<1:00:19,  1.44s/it][A
Training...:   4% 98/2609 [05:44<54:39,  1.31s/it]  [A
Training...:   4% 99/2609 [05:45<48:32,  1.16s/it][A
Training...:   4% 100/2609 [05:46<41:00,  1.02it/s][A
Training...:   4% 101/2609 [05:53<1:59:48,  2.87s/it][A
Training...:   4% 102/2609 [06:00<2:54:04,  4.17s/it][A
Training...:   4% 103/2609 [06:07<3:23:36,  4.88s/it][A
Training...:   4% 104/2609 [06:13<3:40:54,  5.29s/it][A
Training...:   4% 105/2609 [06:19<3:48:38,  5.48s/it][A
Training...:   4% 106/2609 [06:25<3:51:46,  5.56s/it][A
Training...:   4% 107/2609 [06:30<3:51:15,  5.55s/it][A
Training...:   4% 108/2609 [06:35<3:48:24,  5.48s/it][A
Training...:   4% 109/2609 [06:41<3:44:55,  5.40s/it][A
Training...:   4% 110/2609 [06:46<3:38:46,  5.25s/it][A
Training...:   4% 111/2609 [06:50<3:33:48,  5.14s/it][A
Training...:   4% 112/2609 [06:55<3:27:55,  5.00s/it][A
Training...:   4% 113/2609 [07:00<3:22:36,  4.87s/it][A
Training...:   4% 114/2609 [07:04<3:16:17,  4.72s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:27:08<12:36:12, 9074.48s/it]
Training...:   4% 114/2609 [07:09<3:16:17,  4.72s/it][A
Training...:   4% 115/2609 [07:09<3:19:51,  4.81s/it][A
Training...:   4% 116/2609 [07:13<3:12:11,  4.63s/it][A
Training...:   4% 117/2609 [07:17<3:05:58,  4.48s/it][A
Training...:   5% 118/2609 [07:21<2:59:11,  4.32s/it][A
Training...:   5% 119/2609 [07:25<2:54:03,  4.19s/it][A
Training...:   5% 120/2609 [07:29<2:48:57,  4.07s/it][A
Training...:   5% 121/2609 [07:33<2:44:10,  3.96s/it][A
Training...:   5% 122/2609 [07:36<2:39:12,  3.84s/it][A
Training...:   5% 123/2609 [07:40<2:35:34,  3.75s/it][A
Training...:   5% 124/2609 [07:43<2:31:25,  3.66s/it][A
Training...:   5% 125/2609 [07:47<2:27:13,  3.56s/it][A
Training...:   5% 126/2609 [07:50<2:22:40,  3.45s/it][A
Training...:   5% 127/2609 [07:53<2:18:44,  3.35s/it][A
Training...:   5% 128/2609 [07:56<2:15:00,  3.26s/it][A
Training...:   5% 129/2609 [07:59<2:12:07,  3.20s/it][A
Training...:   5% 130/2609 [08:02<2:08:07,  3.10s/it][A
Training...:   5% 131/2609 [08:05<2:04:32,  3.02s/it][A
Training...:   5% 132/2609 [08:07<2:00:22,  2.92s/it][A
Training...:   5% 133/2609 [08:10<1:56:02,  2.81s/it][A
Training...:   5% 134/2609 [08:12<1:52:08,  2.72s/it][A
Training...:   5% 135/2609 [08:15<1:48:00,  2.62s/it][A
Training...:   5% 136/2609 [08:17<1:44:00,  2.52s/it][A
Training...:   5% 137/2609 [08:19<1:40:24,  2.44s/it][A
Training...:   5% 138/2609 [08:22<1:36:22,  2.34s/it][A
Training...:   5% 139/2609 [08:24<1:32:34,  2.25s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:28:25<12:36:12, 9074.48s/it]
Training...:   5% 139/2609 [08:26<1:32:34,  2.25s/it][A
Training...:   5% 140/2609 [08:26<1:33:51,  2.28s/it][A
Training...:   5% 141/2609 [08:28<1:28:22,  2.15s/it][A
Training...:   5% 142/2609 [08:29<1:23:16,  2.03s/it][A
Training...:   5% 143/2609 [08:31<1:18:37,  1.91s/it][A
Training...:   6% 144/2609 [08:33<1:14:00,  1.80s/it][A
Training...:   6% 145/2609 [08:34<1:10:15,  1.71s/it][A
Training...:   6% 146/2609 [08:36<1:05:35,  1.60s/it][A
Training...:   6% 147/2609 [08:37<1:00:32,  1.48s/it][A
Training...:   6% 148/2609 [08:38<55:31,  1.35s/it]  [A
Training...:   6% 149/2609 [08:39<49:35,  1.21s/it][A
Training...:   6% 150/2609 [08:39<41:44,  1.02s/it][A
Training...:   6% 151/2609 [08:46<1:57:57,  2.88s/it][A
Training...:   6% 152/2609 [08:54<2:49:13,  4.13s/it][A
Training...:   6% 153/2609 [09:00<3:19:56,  4.88s/it][A
Training...:   6% 154/2609 [09:06<3:35:54,  5.28s/it][A
Training...:   6% 155/2609 [09:12<3:44:23,  5.49s/it][A
Training...:   6% 156/2609 [09:18<3:46:17,  5.53s/it][A
Training...:   6% 157/2609 [09:23<3:44:48,  5.50s/it][A
Training...:   6% 158/2609 [09:29<3:41:13,  5.42s/it][A
Training...:   6% 159/2609 [09:34<3:36:51,  5.31s/it][A
Training...:   6% 160/2609 [09:39<3:31:34,  5.18s/it][A
Training...:   6% 161/2609 [09:43<3:26:51,  5.07s/it][A
Training...:   6% 162/2609 [09:48<3:21:20,  4.94s/it][A
Training...:   6% 163/2609 [09:53<3:17:05,  4.83s/it][A
Training...:   6% 164/2609 [09:57<3:11:41,  4.70s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:30:01<12:36:12, 9074.48s/it]
Training...:   6% 164/2609 [10:02<3:11:41,  4.70s/it][A
Training...:   6% 165/2609 [10:02<3:14:15,  4.77s/it][A
Training...:   6% 166/2609 [10:06<3:06:18,  4.58s/it][A
Training...:   6% 167/2609 [10:10<3:00:05,  4.42s/it][A
Training...:   6% 168/2609 [10:14<2:55:55,  4.32s/it][A
Training...:   6% 169/2609 [10:18<2:51:37,  4.22s/it][A
Training...:   7% 170/2609 [10:22<2:45:35,  4.07s/it][A
Training...:   7% 171/2609 [10:26<2:40:23,  3.95s/it][A
Training...:   7% 172/2609 [10:29<2:34:32,  3.80s/it][A
Training...:   7% 173/2609 [10:32<2:30:06,  3.70s/it][A
Training...:   7% 174/2609 [10:36<2:26:38,  3.61s/it][A
Training...:   7% 175/2609 [10:39<2:22:50,  3.52s/it][A
Training...:   7% 176/2609 [10:42<2:18:34,  3.42s/it][A
Training...:   7% 177/2609 [10:45<2:14:46,  3.32s/it][A
Training...:   7% 178/2609 [10:48<2:10:33,  3.22s/it][A
Training...:   7% 179/2609 [10:51<2:06:29,  3.12s/it][A
Training...:   7% 180/2609 [10:54<2:02:30,  3.03s/it][A
Training...:   7% 181/2609 [10:57<1:58:51,  2.94s/it][A
Training...:   7% 182/2609 [11:00<1:54:59,  2.84s/it][A
Training...:   7% 183/2609 [11:02<1:51:52,  2.77s/it][A
Training...:   7% 184/2609 [11:05<1:48:24,  2.68s/it][A
Training...:   7% 185/2609 [11:07<1:44:35,  2.59s/it][A
Training...:   7% 186/2609 [11:09<1:41:03,  2.50s/it][A
Training...:   7% 187/2609 [11:11<1:37:50,  2.42s/it][A
Training...:   7% 188/2609 [11:14<1:33:44,  2.32s/it][A
Training...:   7% 189/2609 [11:16<1:29:48,  2.23s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:31:17<12:36:12, 9074.48s/it]
Training...:   7% 189/2609 [11:18<1:29:48,  2.23s/it][A
Training...:   7% 190/2609 [11:18<1:31:32,  2.27s/it][A
Training...:   7% 191/2609 [11:20<1:26:33,  2.15s/it][A
Training...:   7% 192/2609 [11:22<1:21:14,  2.02s/it][A
Training...:   7% 193/2609 [11:23<1:16:27,  1.90s/it][A
Training...:   7% 194/2609 [11:25<1:11:46,  1.78s/it][A
Training...:   7% 195/2609 [11:26<1:07:03,  1.67s/it][A
Training...:   8% 196/2609 [11:27<1:02:26,  1.55s/it][A
Training...:   8% 197/2609 [11:28<57:35,  1.43s/it]  [A
Training...:   8% 198/2609 [11:30<52:35,  1.31s/it][A
Training...:   8% 199/2609 [11:30<46:32,  1.16s/it][A
Training...:   8% 200/2609 [11:31<39:35,  1.01it/s][A
Training...:   8% 201/2609 [11:38<1:53:43,  2.83s/it][A
Training...:   8% 202/2609 [11:45<2:44:35,  4.10s/it][A
Training...:   8% 203/2609 [11:52<3:14:22,  4.85s/it][A
Training...:   8% 204/2609 [11:58<3:30:02,  5.24s/it][A
Training...:   8% 205/2609 [12:04<3:38:36,  5.46s/it][A
Training...:   8% 206/2609 [12:10<3:42:07,  5.55s/it][A
Training...:   8% 207/2609 [12:15<3:41:33,  5.53s/it][A
Training...:   8% 208/2609 [12:20<3:39:10,  5.48s/it][A
Training...:   8% 209/2609 [12:26<3:35:24,  5.39s/it][A
Training...:   8% 210/2609 [12:31<3:29:47,  5.25s/it][A
Training...:   8% 211/2609 [12:35<3:24:27,  5.12s/it][A
Training...:   8% 212/2609 [12:40<3:19:50,  5.00s/it][A
Training...:   8% 213/2609 [12:45<3:15:21,  4.89s/it][A
Training...:   8% 214/2609 [12:49<3:08:38,  4.73s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:32:53<12:36:12, 9074.48s/it]
Training...:   8% 214/2609 [12:54<3:08:38,  4.73s/it][A
Training...:   8% 215/2609 [12:54<3:10:27,  4.77s/it][A
Training...:   8% 216/2609 [12:58<3:01:40,  4.56s/it][A
Training...:   8% 217/2609 [13:02<2:54:26,  4.38s/it][A
Training...:   8% 218/2609 [13:06<2:47:58,  4.22s/it][A
Training...:   8% 219/2609 [13:10<2:42:20,  4.08s/it][A
Training...:   8% 220/2609 [13:13<2:37:20,  3.95s/it][A
Training...:   8% 221/2609 [13:17<2:32:28,  3.83s/it][A
Training...:   9% 222/2609 [13:20<2:28:03,  3.72s/it][A
Training...:   9% 223/2609 [13:24<2:24:21,  3.63s/it][A
Training...:   9% 224/2609 [13:27<2:19:50,  3.52s/it][A
Training...:   9% 225/2609 [13:30<2:16:08,  3.43s/it][A
Training...:   9% 226/2609 [13:33<2:11:40,  3.32s/it][A
Training...:   9% 227/2609 [13:36<2:08:09,  3.23s/it][A
Training...:   9% 228/2609 [13:39<2:04:49,  3.15s/it][A
Training...:   9% 229/2609 [13:42<2:01:33,  3.06s/it][A
Training...:   9% 230/2609 [13:45<1:58:03,  2.98s/it][A
Training...:   9% 231/2609 [13:47<1:54:44,  2.90s/it][A
Training...:   9% 232/2609 [13:50<1:51:03,  2.80s/it][A
Training...:   9% 233/2609 [13:53<1:47:46,  2.72s/it][A
Training...:   9% 234/2609 [13:55<1:44:25,  2.64s/it][A
Training...:   9% 235/2609 [13:57<1:41:24,  2.56s/it][A
Training...:   9% 236/2609 [14:00<1:38:10,  2.48s/it][A
Training...:   9% 237/2609 [14:02<1:34:50,  2.40s/it][A
Training...:   9% 238/2609 [14:04<1:31:06,  2.31s/it][A
Training...:   9% 239/2609 [14:06<1:27:51,  2.22s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:34:07<12:36:12, 9074.48s/it]
Training...:   9% 239/2609 [14:08<1:27:51,  2.22s/it][A
Training...:   9% 240/2609 [14:08<1:29:15,  2.26s/it][A
Training...:   9% 241/2609 [14:10<1:24:19,  2.14s/it][A
Training...:   9% 242/2609 [14:12<1:19:27,  2.01s/it][A
Training...:   9% 243/2609 [14:14<1:15:05,  1.90s/it][A
Training...:   9% 244/2609 [14:15<1:10:25,  1.79s/it][A
Training...:   9% 245/2609 [14:17<1:05:52,  1.67s/it][A
Training...:   9% 246/2609 [14:18<1:01:01,  1.55s/it][A
Training...:   9% 247/2609 [14:19<56:19,  1.43s/it]  [A
Training...:  10% 248/2609 [14:20<51:13,  1.30s/it][A
Training...:  10% 249/2609 [14:21<45:46,  1.16s/it][A
Training...:  10% 250/2609 [14:21<38:31,  1.02it/s][A
Training...:  10% 251/2609 [14:29<1:52:14,  2.86s/it][A
Training...:  10% 252/2609 [14:36<2:45:39,  4.22s/it][A
Training...:  10% 253/2609 [14:43<3:14:07,  4.94s/it][A
Training...:  10% 254/2609 [14:49<3:29:54,  5.35s/it][A
Training...:  10% 255/2609 [14:55<3:37:49,  5.55s/it][A
Training...:  10% 256/2609 [15:01<3:39:57,  5.61s/it][A
Training...:  10% 257/2609 [15:06<3:38:43,  5.58s/it][A
Training...:  10% 258/2609 [15:11<3:35:02,  5.49s/it][A
Training...:  10% 259/2609 [15:16<3:29:42,  5.35s/it][A
Training...:  10% 260/2609 [15:21<3:23:44,  5.20s/it][A
Training...:  10% 261/2609 [15:26<3:19:13,  5.09s/it][A
Training...:  10% 262/2609 [15:31<3:13:17,  4.94s/it][A
Training...:  10% 263/2609 [15:35<3:07:52,  4.81s/it][A
Training...:  10% 264/2609 [15:40<3:03:09,  4.69s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:35:44<12:36:12, 9074.48s/it]
Training...:  10% 264/2609 [15:45<3:03:09,  4.69s/it][A
Training...:  10% 265/2609 [15:45<3:06:14,  4.77s/it][A
Training...:  10% 266/2609 [15:49<2:58:07,  4.56s/it][A
Training...:  10% 267/2609 [15:53<2:52:24,  4.42s/it][A
Training...:  10% 268/2609 [15:57<2:45:43,  4.25s/it][A
Training...:  10% 269/2609 [16:00<2:40:40,  4.12s/it][A
Training...:  10% 270/2609 [16:04<2:35:25,  3.99s/it][A
Training...:  10% 271/2609 [16:08<2:31:05,  3.88s/it][A
Training...:  10% 272/2609 [16:11<2:28:20,  3.81s/it][A
Training...:  10% 273/2609 [16:15<2:24:30,  3.71s/it][A
Training...:  11% 274/2609 [16:18<2:20:09,  3.60s/it][A
Training...:  11% 275/2609 [16:21<2:15:53,  3.49s/it][A
Training...:  11% 276/2609 [16:25<2:11:52,  3.39s/it][A
Training...:  11% 277/2609 [16:28<2:08:19,  3.30s/it][A
Training...:  11% 278/2609 [16:31<2:04:31,  3.21s/it][A
Training...:  11% 279/2609 [16:34<2:01:02,  3.12s/it][A
Training...:  11% 280/2609 [16:36<1:57:25,  3.03s/it][A
Training...:  11% 281/2609 [16:39<1:54:20,  2.95s/it][A
Training...:  11% 282/2609 [16:42<1:51:55,  2.89s/it][A
Training...:  11% 283/2609 [16:45<1:48:37,  2.80s/it][A
Training...:  11% 284/2609 [16:47<1:45:16,  2.72s/it][A
Training...:  11% 285/2609 [16:49<1:41:49,  2.63s/it][A
Training...:  11% 286/2609 [16:52<1:38:21,  2.54s/it][A
Training...:  11% 287/2609 [16:54<1:35:25,  2.47s/it][A
Training...:  11% 288/2609 [16:56<1:31:58,  2.38s/it][A
Training...:  11% 289/2609 [16:58<1:28:49,  2.30s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:37:00<12:36:12, 9074.48s/it]
Training...:  11% 289/2609 [17:01<1:28:49,  2.30s/it][A
Training...:  11% 290/2609 [17:01<1:29:55,  2.33s/it][A
Training...:  11% 291/2609 [17:03<1:24:30,  2.19s/it][A
Training...:  11% 292/2609 [17:04<1:19:39,  2.06s/it][A
Training...:  11% 293/2609 [17:06<1:14:50,  1.94s/it][A
Training...:  11% 294/2609 [17:08<1:09:57,  1.81s/it][A
Training...:  11% 295/2609 [17:09<1:05:01,  1.69s/it][A
Training...:  11% 296/2609 [17:10<1:00:13,  1.56s/it][A
Training...:  11% 297/2609 [17:11<55:24,  1.44s/it]  [A
Training...:  11% 298/2609 [17:12<50:00,  1.30s/it][A
Training...:  11% 299/2609 [17:13<44:02,  1.14s/it][A
Training...:  11% 300/2609 [17:14<37:19,  1.03it/s][A
Training...:  12% 301/2609 [17:21<1:48:34,  2.82s/it][A
Training...:  12% 302/2609 [17:28<2:36:52,  4.08s/it][A
Training...:  12% 303/2609 [17:34<3:05:12,  4.82s/it][A
Training...:  12% 304/2609 [17:41<3:22:37,  5.27s/it][A
Training...:  12% 305/2609 [17:47<3:30:46,  5.49s/it][A
Training...:  12% 306/2609 [17:52<3:32:52,  5.55s/it][A
Training...:  12% 307/2609 [17:58<3:32:32,  5.54s/it][A
Training...:  12% 308/2609 [18:03<3:31:49,  5.52s/it][A
Training...:  12% 309/2609 [18:10<3:39:14,  5.72s/it][A
Training...:  12% 310/2609 [18:15<3:32:00,  5.53s/it][A
Training...:  12% 311/2609 [18:20<3:24:10,  5.33s/it][A
Training...:  12% 312/2609 [18:24<3:16:11,  5.12s/it][A
Training...:  12% 313/2609 [18:29<3:10:19,  4.97s/it][A
Training...:  12% 314/2609 [18:33<3:04:06,  4.81s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:38:37<12:36:12, 9074.48s/it]
Training...:  12% 314/2609 [18:38<3:04:06,  4.81s/it][A
Training...:  12% 315/2609 [18:38<3:05:43,  4.86s/it][A
Training...:  12% 316/2609 [18:42<2:58:19,  4.67s/it][A
Training...:  12% 317/2609 [18:47<2:51:42,  4.50s/it][A
Training...:  12% 318/2609 [18:50<2:44:59,  4.32s/it][A
Training...:  12% 319/2609 [18:54<2:39:54,  4.19s/it][A
Training...:  12% 320/2609 [18:58<2:34:39,  4.05s/it][A
Training...:  12% 321/2609 [19:02<2:30:36,  3.95s/it][A
Training...:  12% 322/2609 [19:05<2:26:07,  3.83s/it][A
Training...:  12% 323/2609 [19:09<2:21:19,  3.71s/it][A
Training...:  12% 324/2609 [19:12<2:16:58,  3.60s/it][A
Training...:  12% 325/2609 [19:15<2:12:53,  3.49s/it][A
Training...:  12% 326/2609 [19:19<2:09:00,  3.39s/it][A
Training...:  13% 327/2609 [19:22<2:05:23,  3.30s/it][A
Training...:  13% 328/2609 [19:25<2:01:46,  3.20s/it][A
Training...:  13% 329/2609 [19:28<1:59:06,  3.13s/it][A
Training...:  13% 330/2609 [19:30<1:55:27,  3.04s/it][A
Training...:  13% 331/2609 [19:33<1:52:02,  2.95s/it][A
Training...:  13% 332/2609 [19:36<1:48:37,  2.86s/it][A
Training...:  13% 333/2609 [19:38<1:45:33,  2.78s/it][A
Training...:  13% 334/2609 [19:41<1:42:23,  2.70s/it][A
Training...:  13% 335/2609 [19:43<1:39:04,  2.61s/it][A
Training...:  13% 336/2609 [19:46<1:35:46,  2.53s/it][A
Training...:  13% 337/2609 [19:48<1:32:01,  2.43s/it][A
Training...:  13% 338/2609 [19:50<1:27:55,  2.32s/it][A
Training...:  13% 339/2609 [19:52<1:24:14,  2.23s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:39:53<12:36:12, 9074.48s/it]
Training...:  13% 339/2609 [19:54<1:24:14,  2.23s/it][A
Training...:  13% 340/2609 [19:54<1:25:23,  2.26s/it][A
Training...:  13% 341/2609 [19:56<1:20:55,  2.14s/it][A
Training...:  13% 342/2609 [19:58<1:16:24,  2.02s/it][A
Training...:  13% 343/2609 [19:59<1:12:08,  1.91s/it][A
Training...:  13% 344/2609 [20:01<1:07:34,  1.79s/it][A
Training...:  13% 345/2609 [20:02<1:02:53,  1.67s/it][A
Training...:  13% 346/2609 [20:04<58:18,  1.55s/it]  [A
Training...:  13% 347/2609 [20:05<53:44,  1.43s/it][A
Training...:  13% 348/2609 [20:06<48:32,  1.29s/it][A
Training...:  13% 349/2609 [20:07<43:04,  1.14s/it][A
Training...:  13% 350/2609 [20:07<36:27,  1.03it/s][A
Training...:  13% 351/2609 [20:14<1:47:23,  2.85s/it][A
Training...:  13% 352/2609 [20:22<2:37:43,  4.19s/it][A
Training...:  14% 353/2609 [20:28<3:06:26,  4.96s/it][A
Training...:  14% 354/2609 [20:35<3:23:13,  5.41s/it][A
Training...:  14% 355/2609 [20:41<3:31:28,  5.63s/it][A
Training...:  14% 356/2609 [20:47<3:34:12,  5.70s/it][A
Training...:  14% 357/2609 [20:53<3:34:04,  5.70s/it][A
Training...:  14% 358/2609 [20:58<3:31:36,  5.64s/it][A
Training...:  14% 359/2609 [21:03<3:27:40,  5.54s/it][A
Training...:  14% 360/2609 [21:08<3:21:49,  5.38s/it][A
Training...:  14% 361/2609 [21:13<3:16:29,  5.24s/it][A
Training...:  14% 362/2609 [21:18<3:10:42,  5.09s/it][A
Training...:  14% 363/2609 [21:23<3:06:22,  4.98s/it][A
Training...:  14% 364/2609 [21:27<3:00:53,  4.83s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:41:31<12:36:12, 9074.48s/it]
Training...:  14% 364/2609 [21:32<3:00:53,  4.83s/it][A
Training...:  14% 365/2609 [21:32<3:03:06,  4.90s/it][A
Training...:  14% 366/2609 [21:37<2:55:06,  4.68s/it][A
Training...:  14% 367/2609 [21:41<2:49:35,  4.54s/it][A
Training...:  14% 368/2609 [21:45<2:45:36,  4.43s/it][A
Training...:  14% 369/2609 [21:49<2:40:58,  4.31s/it][A
Training...:  14% 370/2609 [21:53<2:35:05,  4.16s/it][A
Training...:  14% 371/2609 [21:56<2:30:20,  4.03s/it][A
Training...:  14% 372/2609 [22:00<2:25:02,  3.89s/it][A
Training...:  14% 373/2609 [22:03<2:20:16,  3.76s/it][A
Training...:  14% 374/2609 [22:07<2:16:36,  3.67s/it][A
Training...:  14% 375/2609 [22:10<2:12:43,  3.56s/it][A
Training...:  14% 376/2609 [22:13<2:08:41,  3.46s/it][A
Training...:  14% 377/2609 [22:17<2:05:14,  3.37s/it][A
Training...:  14% 378/2609 [22:20<2:02:07,  3.28s/it][A
Training...:  15% 379/2609 [22:23<1:59:26,  3.21s/it][A
Training...:  15% 380/2609 [22:26<1:56:16,  3.13s/it][A
Training...:  15% 381/2609 [22:29<1:53:13,  3.05s/it][A
Training...:  15% 382/2609 [22:31<1:49:56,  2.96s/it][A
Training...:  15% 383/2609 [22:34<1:46:25,  2.87s/it][A
Training...:  15% 384/2609 [22:37<1:42:37,  2.77s/it][A
Training...:  15% 385/2609 [22:39<1:39:31,  2.69s/it][A
Training...:  15% 386/2609 [22:41<1:35:51,  2.59s/it][A
Training...:  15% 387/2609 [22:44<1:32:25,  2.50s/it][A
Training...:  15% 388/2609 [22:46<1:28:53,  2.40s/it][A
Training...:  15% 389/2609 [22:48<1:25:29,  2.31s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:42:49<12:36:12, 9074.48s/it]
Training...:  15% 389/2609 [22:50<1:25:29,  2.31s/it][A
Training...:  15% 390/2609 [22:50<1:26:27,  2.34s/it][A
Training...:  15% 391/2609 [22:52<1:21:37,  2.21s/it][A
Training...:  15% 392/2609 [22:54<1:17:02,  2.08s/it][A
Training...:  15% 393/2609 [22:56<1:12:39,  1.97s/it][A
Training...:  15% 394/2609 [22:57<1:08:25,  1.85s/it][A
Training...:  15% 395/2609 [22:59<1:04:03,  1.74s/it][A
Training...:  15% 396/2609 [23:00<59:34,  1.62s/it]  [A
Training...:  15% 397/2609 [23:01<55:12,  1.50s/it][A
Training...:  15% 398/2609 [23:02<50:08,  1.36s/it][A
Training...:  15% 399/2609 [23:03<44:10,  1.20s/it][A
Training...:  15% 400/2609 [23:04<37:14,  1.01s/it][A
Training...:  15% 401/2609 [23:11<1:44:25,  2.84s/it][A
Training...:  15% 402/2609 [23:18<2:30:34,  4.09s/it][A
Training...:  15% 403/2609 [23:24<2:57:46,  4.84s/it][A
Training...:  15% 404/2609 [23:31<3:13:14,  5.26s/it][A
Training...:  16% 405/2609 [23:37<3:22:46,  5.52s/it][A
Training...:  16% 406/2609 [23:43<3:26:20,  5.62s/it][A
Training...:  16% 407/2609 [23:48<3:24:39,  5.58s/it][A
Training...:  16% 408/2609 [23:53<3:20:50,  5.47s/it][A
Training...:  16% 409/2609 [23:58<3:16:18,  5.35s/it][A
Training...:  16% 410/2609 [24:03<3:11:07,  5.21s/it][A
Training...:  16% 411/2609 [24:08<3:06:04,  5.08s/it][A
Training...:  16% 412/2609 [24:13<3:00:43,  4.94s/it][A
Training...:  16% 413/2609 [24:17<2:55:22,  4.79s/it][A
Training...:  16% 414/2609 [24:22<2:50:36,  4.66s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:44:25<12:36:12, 9074.48s/it]
Training...:  16% 414/2609 [24:26<2:50:36,  4.66s/it][A
Training...:  16% 415/2609 [24:26<2:52:52,  4.73s/it][A
Training...:  16% 416/2609 [24:31<2:45:56,  4.54s/it][A
Training...:  16% 417/2609 [24:35<2:39:48,  4.37s/it][A
Training...:  16% 418/2609 [24:38<2:34:41,  4.24s/it][A
Training...:  16% 419/2609 [24:42<2:30:36,  4.13s/it][A
Training...:  16% 420/2609 [24:46<2:26:17,  4.01s/it][A
Training...:  16% 421/2609 [24:50<2:23:20,  3.93s/it][A
Training...:  16% 422/2609 [24:53<2:19:03,  3.82s/it][A
Training...:  16% 423/2609 [24:57<2:14:53,  3.70s/it][A
Training...:  16% 424/2609 [25:00<2:10:58,  3.60s/it][A
Training...:  16% 425/2609 [25:03<2:07:23,  3.50s/it][A
Training...:  16% 426/2609 [25:07<2:03:25,  3.39s/it][A
Training...:  16% 427/2609 [25:10<2:00:38,  3.32s/it][A
Training...:  16% 428/2609 [25:13<1:57:58,  3.25s/it][A
Training...:  16% 429/2609 [25:16<1:54:35,  3.15s/it][A
Training...:  16% 430/2609 [25:18<1:50:40,  3.05s/it][A
Training...:  17% 431/2609 [25:21<1:46:53,  2.94s/it][A
Training...:  17% 432/2609 [25:24<1:42:54,  2.84s/it][A
Training...:  17% 433/2609 [25:26<1:39:45,  2.75s/it][A
Training...:  17% 434/2609 [25:29<1:36:13,  2.65s/it][A
Training...:  17% 435/2609 [25:31<1:32:50,  2.56s/it][A
Training...:  17% 436/2609 [25:33<1:30:07,  2.49s/it][A
Training...:  17% 437/2609 [25:36<1:26:54,  2.40s/it][A
Training...:  17% 438/2609 [25:38<1:23:41,  2.31s/it][A
Training...:  17% 439/2609 [25:40<1:20:19,  2.22s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:45:41<12:36:12, 9074.48s/it]
Training...:  17% 439/2609 [25:42<1:20:19,  2.22s/it][A
Training...:  17% 440/2609 [25:42<1:21:24,  2.25s/it][A
Training...:  17% 441/2609 [25:44<1:16:30,  2.12s/it][A
Training...:  17% 442/2609 [25:46<1:11:53,  1.99s/it][A
Training...:  17% 443/2609 [25:47<1:07:57,  1.88s/it][A
Training...:  17% 444/2609 [25:49<1:03:58,  1.77s/it][A
Training...:  17% 445/2609 [25:50<59:48,  1.66s/it]  [A
Training...:  17% 446/2609 [25:51<55:19,  1.53s/it][A
Training...:  17% 447/2609 [25:52<50:46,  1.41s/it][A
Training...:  17% 448/2609 [25:53<45:47,  1.27s/it][A
Training...:  17% 449/2609 [25:54<40:33,  1.13s/it][A
Training...:  17% 450/2609 [25:55<34:22,  1.05it/s][A
Training...:  17% 451/2609 [26:02<1:41:26,  2.82s/it][A
Training...:  17% 452/2609 [26:09<2:28:41,  4.14s/it][A
Training...:  17% 453/2609 [26:16<2:55:58,  4.90s/it][A
Training...:  17% 454/2609 [26:22<3:11:27,  5.33s/it][A
Training...:  17% 455/2609 [26:28<3:19:15,  5.55s/it][A
Training...:  17% 456/2609 [26:34<3:20:51,  5.60s/it][A
Training...:  18% 457/2609 [26:39<3:19:57,  5.58s/it][A
Training...:  18% 458/2609 [26:45<3:16:52,  5.49s/it][A
Training...:  18% 459/2609 [26:50<3:12:44,  5.38s/it][A
Training...:  18% 460/2609 [26:55<3:07:57,  5.25s/it][A
Training...:  18% 461/2609 [27:00<3:03:11,  5.12s/it][A
Training...:  18% 462/2609 [27:04<2:58:08,  4.98s/it][A
Training...:  18% 463/2609 [27:09<2:54:55,  4.89s/it][A
Training...:  18% 464/2609 [27:13<2:49:12,  4.73s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:47:17<12:36:12, 9074.48s/it]
Training...:  18% 464/2609 [27:18<2:49:12,  4.73s/it][A
Training...:  18% 465/2609 [27:18<2:51:00,  4.79s/it][A
Training...:  18% 466/2609 [27:22<2:43:54,  4.59s/it][A
Training...:  18% 467/2609 [27:26<2:38:01,  4.43s/it][A
Training...:  18% 468/2609 [27:30<2:32:25,  4.27s/it][A
Training...:  18% 469/2609 [27:34<2:28:09,  4.15s/it][A
Training...:  18% 470/2609 [27:38<2:23:32,  4.03s/it][A
Training...:  18% 471/2609 [27:42<2:19:37,  3.92s/it][A
Training...:  18% 472/2609 [27:45<2:15:34,  3.81s/it][A
Training...:  18% 473/2609 [27:49<2:12:19,  3.72s/it][A
Training...:  18% 474/2609 [27:52<2:07:43,  3.59s/it][A
Training...:  18% 475/2609 [27:55<2:04:43,  3.51s/it][A
Training...:  18% 476/2609 [27:58<2:00:38,  3.39s/it][A
Training...:  18% 477/2609 [28:01<1:57:34,  3.31s/it][A
Training...:  18% 478/2609 [28:04<1:53:53,  3.21s/it][A
Training...:  18% 479/2609 [28:07<1:51:12,  3.13s/it][A
Training...:  18% 480/2609 [28:10<1:47:58,  3.04s/it][A
Training...:  18% 481/2609 [28:13<1:45:15,  2.97s/it][A
Training...:  18% 482/2609 [28:16<1:41:14,  2.86s/it][A
Training...:  19% 483/2609 [28:18<1:37:55,  2.76s/it][A
Training...:  19% 484/2609 [28:21<1:34:20,  2.66s/it][A
Training...:  19% 485/2609 [28:23<1:30:51,  2.57s/it][A
Training...:  19% 486/2609 [28:25<1:27:21,  2.47s/it][A
Training...:  19% 487/2609 [28:27<1:24:13,  2.38s/it][A
Training...:  19% 488/2609 [28:29<1:20:47,  2.29s/it][A
Training...:  19% 489/2609 [28:31<1:17:34,  2.20s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:48:33<12:36:12, 9074.48s/it]
Training...:  19% 489/2609 [28:34<1:17:34,  2.20s/it][A
Training...:  19% 490/2609 [28:34<1:18:30,  2.22s/it][A
Training...:  19% 491/2609 [28:36<1:14:23,  2.11s/it][A
Training...:  19% 492/2609 [28:37<1:10:15,  1.99s/it][A
Training...:  19% 493/2609 [28:39<1:06:16,  1.88s/it][A
Training...:  19% 494/2609 [28:40<1:01:58,  1.76s/it][A
Training...:  19% 495/2609 [28:42<57:48,  1.64s/it]  [A
Training...:  19% 496/2609 [28:43<53:28,  1.52s/it][A
Training...:  19% 497/2609 [28:44<49:06,  1.39s/it][A
Training...:  19% 498/2609 [28:45<44:26,  1.26s/it][A
Training...:  19% 499/2609 [28:46<39:34,  1.13s/it][A
Training...:  19% 500/2609 [28:46<33:20,  1.05it/s][A
Training...:  19% 501/2609 [28:53<1:38:38,  2.81s/it][A
Training...:  19% 502/2609 [29:01<2:23:07,  4.08s/it][A
Training...:  19% 503/2609 [29:07<2:48:58,  4.81s/it][A
Training...:  19% 504/2609 [29:13<3:03:27,  5.23s/it][A
Training...:  19% 505/2609 [29:19<3:10:16,  5.43s/it][A
Training...:  19% 506/2609 [29:25<3:12:31,  5.49s/it][A
Training...:  19% 507/2609 [29:30<3:13:06,  5.51s/it][A
Training...:  19% 508/2609 [29:36<3:11:26,  5.47s/it][A
Training...:  20% 509/2609 [29:41<3:10:39,  5.45s/it][A
Training...:  20% 510/2609 [29:46<3:06:25,  5.33s/it][A
Training...:  20% 511/2609 [29:51<3:03:41,  5.25s/it][A
Training...:  20% 512/2609 [29:56<3:00:01,  5.15s/it][A
Training...:  20% 513/2609 [30:01<2:57:17,  5.07s/it][A
Training...:  20% 514/2609 [30:05<2:50:34,  4.89s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:50:09<12:36:12, 9074.48s/it]
Training...:  20% 514/2609 [30:10<2:50:34,  4.89s/it][A
Training...:  20% 515/2609 [30:10<2:51:22,  4.91s/it][A
Training...:  20% 516/2609 [30:15<2:42:47,  4.67s/it][A
Training...:  20% 517/2609 [30:19<2:36:14,  4.48s/it][A
Training...:  20% 518/2609 [30:23<2:30:16,  4.31s/it][A
Training...:  20% 519/2609 [30:26<2:25:45,  4.18s/it][A
Training...:  20% 520/2609 [30:30<2:21:31,  4.06s/it][A
Training...:  20% 521/2609 [30:34<2:17:08,  3.94s/it][A
Training...:  20% 522/2609 [30:37<2:12:37,  3.81s/it][A
Training...:  20% 523/2609 [30:41<2:09:02,  3.71s/it][A
Training...:  20% 524/2609 [30:44<2:05:06,  3.60s/it][A
Training...:  20% 525/2609 [30:47<2:01:26,  3.50s/it][A
Training...:  20% 526/2609 [30:51<1:57:27,  3.38s/it][A
Training...:  20% 527/2609 [30:54<1:54:19,  3.29s/it][A
Training...:  20% 528/2609 [30:57<1:50:47,  3.19s/it][A
Training...:  20% 529/2609 [31:00<1:48:04,  3.12s/it][A
Training...:  20% 530/2609 [31:02<1:44:45,  3.02s/it][A
Training...:  20% 531/2609 [31:05<1:41:34,  2.93s/it][A
Training...:  20% 532/2609 [31:08<1:38:08,  2.84s/it][A
Training...:  20% 533/2609 [31:10<1:35:32,  2.76s/it][A
Training...:  20% 534/2609 [31:13<1:32:16,  2.67s/it][A
Training...:  21% 535/2609 [31:15<1:28:55,  2.57s/it][A
Training...:  21% 536/2609 [31:17<1:25:38,  2.48s/it][A
Training...:  21% 537/2609 [31:20<1:22:36,  2.39s/it][A
Training...:  21% 538/2609 [31:22<1:19:24,  2.30s/it][A
Training...:  21% 539/2609 [31:24<1:16:06,  2.21s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:51:25<12:36:12, 9074.48s/it]
Training...:  21% 539/2609 [31:26<1:16:06,  2.21s/it][A
Training...:  21% 540/2609 [31:26<1:17:16,  2.24s/it][A
Training...:  21% 541/2609 [31:28<1:12:45,  2.11s/it][A
Training...:  21% 542/2609 [31:29<1:08:39,  1.99s/it][A
Training...:  21% 543/2609 [31:31<1:04:57,  1.89s/it][A
Training...:  21% 544/2609 [31:33<1:01:34,  1.79s/it][A
Training...:  21% 545/2609 [31:34<57:46,  1.68s/it]  [A
Training...:  21% 546/2609 [31:35<53:42,  1.56s/it][A
Training...:  21% 547/2609 [31:37<49:40,  1.45s/it][A
Training...:  21% 548/2609 [31:38<45:14,  1.32s/it][A
Training...:  21% 549/2609 [31:38<39:58,  1.16s/it][A
Training...:  21% 550/2609 [31:39<33:47,  1.02it/s][A
Training...:  21% 551/2609 [31:46<1:37:28,  2.84s/it][A
Training...:  21% 552/2609 [31:53<2:20:26,  4.10s/it][A
Training...:  21% 553/2609 [32:00<2:46:06,  4.85s/it][A
Training...:  21% 554/2609 [32:06<3:00:55,  5.28s/it][A
Training...:  21% 555/2609 [32:12<3:12:18,  5.62s/it][A
Training...:  21% 556/2609 [32:18<3:13:47,  5.66s/it][A
Training...:  21% 557/2609 [32:24<3:12:13,  5.62s/it][A
Training...:  21% 558/2609 [32:29<3:07:55,  5.50s/it][A
Training...:  21% 559/2609 [32:34<3:04:03,  5.39s/it][A
Training...:  21% 560/2609 [32:39<2:58:53,  5.24s/it][A
Training...:  22% 561/2609 [32:44<2:54:56,  5.13s/it][A
Training...:  22% 562/2609 [32:48<2:48:46,  4.95s/it][A
Training...:  22% 563/2609 [32:53<2:44:16,  4.82s/it][A
Training...:  22% 564/2609 [32:57<2:39:27,  4.68s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:53:01<12:36:12, 9074.48s/it]
Training...:  22% 564/2609 [33:02<2:39:27,  4.68s/it][A
Training...:  22% 565/2609 [33:02<2:41:36,  4.74s/it][A
Training...:  22% 566/2609 [33:06<2:35:07,  4.56s/it][A
Training...:  22% 567/2609 [33:10<2:29:40,  4.40s/it][A
Training...:  22% 568/2609 [33:14<2:24:31,  4.25s/it][A
Training...:  22% 569/2609 [33:18<2:20:15,  4.13s/it][A
Training...:  22% 570/2609 [33:22<2:15:42,  3.99s/it][A
Training...:  22% 571/2609 [33:25<2:12:12,  3.89s/it][A
Training...:  22% 572/2609 [33:29<2:08:15,  3.78s/it][A
Training...:  22% 573/2609 [33:32<2:04:22,  3.67s/it][A
Training...:  22% 574/2609 [33:36<2:00:50,  3.56s/it][A
Training...:  22% 575/2609 [33:39<1:57:04,  3.45s/it][A
Training...:  22% 576/2609 [33:42<1:53:20,  3.35s/it][A
Training...:  22% 577/2609 [33:45<1:50:31,  3.26s/it][A
Training...:  22% 578/2609 [33:48<1:47:14,  3.17s/it][A
Training...:  22% 579/2609 [33:51<1:44:44,  3.10s/it][A
Training...:  22% 580/2609 [33:54<1:41:30,  3.00s/it][A
Training...:  22% 581/2609 [33:56<1:38:43,  2.92s/it][A
Training...:  22% 582/2609 [33:59<1:35:39,  2.83s/it][A
Training...:  22% 583/2609 [34:01<1:32:45,  2.75s/it][A
Training...:  22% 584/2609 [34:04<1:30:14,  2.67s/it][A
Training...:  22% 585/2609 [34:06<1:27:47,  2.60s/it][A
Training...:  22% 586/2609 [34:09<1:24:57,  2.52s/it][A
Training...:  22% 587/2609 [34:11<1:22:24,  2.45s/it][A
Training...:  23% 588/2609 [34:13<1:19:08,  2.35s/it][A
Training...:  23% 589/2609 [34:15<1:16:12,  2.26s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:54:17<12:36:12, 9074.48s/it]
Training...:  23% 589/2609 [34:18<1:16:12,  2.26s/it][A
Training...:  23% 590/2609 [34:18<1:17:33,  2.31s/it][A
Training...:  23% 591/2609 [34:19<1:13:00,  2.17s/it][A
Training...:  23% 592/2609 [34:21<1:09:05,  2.06s/it][A
Training...:  23% 593/2609 [34:23<1:05:19,  1.94s/it][A
Training...:  23% 594/2609 [34:24<1:01:26,  1.83s/it][A
Training...:  23% 595/2609 [34:26<57:57,  1.73s/it]  [A
Training...:  23% 596/2609 [34:27<53:47,  1.60s/it][A
Training...:  23% 597/2609 [34:29<49:46,  1.48s/it][A
Training...:  23% 598/2609 [34:30<45:05,  1.35s/it][A
Training...:  23% 599/2609 [34:30<39:52,  1.19s/it][A
Training...:  23% 600/2609 [34:31<33:33,  1.00s/it][A
Training...:  23% 601/2609 [34:38<1:35:54,  2.87s/it][A
Training...:  23% 602/2609 [34:45<2:17:10,  4.10s/it][A
Training...:  23% 603/2609 [34:52<2:41:49,  4.84s/it][A
Training...:  23% 604/2609 [34:58<2:55:34,  5.25s/it][A
Training...:  23% 605/2609 [35:04<3:02:00,  5.45s/it][A
Training...:  23% 606/2609 [35:09<3:04:15,  5.52s/it][A
Training...:  23% 607/2609 [35:15<3:05:15,  5.55s/it][A
Training...:  23% 608/2609 [35:20<3:02:23,  5.47s/it][A
Training...:  23% 609/2609 [35:25<2:58:10,  5.35s/it][A
Training...:  23% 610/2609 [35:30<2:54:52,  5.25s/it][A
Training...:  23% 611/2609 [35:35<2:50:43,  5.13s/it][A
Training...:  23% 612/2609 [35:40<2:45:08,  4.96s/it][A
Training...:  23% 613/2609 [35:44<2:40:28,  4.82s/it][A
Training...:  24% 614/2609 [35:49<2:36:47,  4.72s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:55:53<12:36:12, 9074.48s/it]
Training...:  24% 614/2609 [35:54<2:36:47,  4.72s/it][A
Training...:  24% 615/2609 [35:54<2:40:38,  4.83s/it][A
Training...:  24% 616/2609 [35:58<2:33:11,  4.61s/it][A
Training...:  24% 617/2609 [36:02<2:27:39,  4.45s/it][A
Training...:  24% 618/2609 [36:06<2:21:50,  4.27s/it][A
Training...:  24% 619/2609 [36:10<2:17:32,  4.15s/it][A
Training...:  24% 620/2609 [36:14<2:13:05,  4.01s/it][A
Training...:  24% 621/2609 [36:17<2:09:32,  3.91s/it][A
Training...:  24% 622/2609 [36:21<2:05:32,  3.79s/it][A
Training...:  24% 623/2609 [36:24<2:01:59,  3.69s/it][A
Training...:  24% 624/2609 [36:27<1:58:20,  3.58s/it][A
Training...:  24% 625/2609 [36:31<1:55:10,  3.48s/it][A
Training...:  24% 626/2609 [36:34<1:52:01,  3.39s/it][A
Training...:  24% 627/2609 [36:37<1:49:02,  3.30s/it][A
Training...:  24% 628/2609 [36:40<1:45:30,  3.20s/it][A
Training...:  24% 629/2609 [36:43<1:42:57,  3.12s/it][A
Training...:  24% 630/2609 [36:46<1:39:56,  3.03s/it][A
Training...:  24% 631/2609 [36:49<1:37:28,  2.96s/it][A
Training...:  24% 632/2609 [36:51<1:34:29,  2.87s/it][A
Training...:  24% 633/2609 [36:54<1:31:37,  2.78s/it][A
Training...:  24% 634/2609 [36:56<1:28:25,  2.69s/it][A
Training...:  24% 635/2609 [36:59<1:25:40,  2.60s/it][A
Training...:  24% 636/2609 [37:01<1:22:33,  2.51s/it][A
Training...:  24% 637/2609 [37:03<1:19:51,  2.43s/it][A
Training...:  24% 638/2609 [37:05<1:16:55,  2.34s/it][A
Training...:  24% 639/2609 [37:07<1:14:27,  2.27s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:57:09<12:36:12, 9074.48s/it]
Training...:  24% 639/2609 [37:10<1:14:27,  2.27s/it][A
Training...:  25% 640/2609 [37:10<1:15:26,  2.30s/it][A
Training...:  25% 641/2609 [37:12<1:11:29,  2.18s/it][A
Training...:  25% 642/2609 [37:13<1:07:23,  2.06s/it][A
Training...:  25% 643/2609 [37:15<1:04:03,  1.96s/it][A
Training...:  25% 644/2609 [37:17<1:00:16,  1.84s/it][A
Training...:  25% 645/2609 [37:18<56:54,  1.74s/it]  [A
Training...:  25% 646/2609 [37:20<52:59,  1.62s/it][A
Training...:  25% 647/2609 [37:21<48:57,  1.50s/it][A
Training...:  25% 648/2609 [37:22<44:55,  1.37s/it][A
Training...:  25% 649/2609 [37:23<39:49,  1.22s/it][A
Training...:  25% 650/2609 [37:23<33:31,  1.03s/it][A
Training...:  25% 651/2609 [37:30<1:33:39,  2.87s/it][A
Training...:  25% 652/2609 [37:38<2:14:30,  4.12s/it][A
Training...:  25% 653/2609 [37:44<2:38:52,  4.87s/it][A
Training...:  25% 654/2609 [37:51<2:53:43,  5.33s/it][A
Training...:  25% 655/2609 [37:57<3:01:26,  5.57s/it][A
Training...:  25% 656/2609 [38:02<3:02:22,  5.60s/it][A
Training...:  25% 657/2609 [38:08<3:00:42,  5.55s/it][A
Training...:  25% 658/2609 [38:13<2:57:18,  5.45s/it][A
Training...:  25% 659/2609 [38:18<2:54:55,  5.38s/it][A
Training...:  25% 660/2609 [38:23<2:50:18,  5.24s/it][A
Training...:  25% 661/2609 [38:28<2:45:58,  5.11s/it][A
Training...:  25% 662/2609 [38:33<2:42:15,  5.00s/it][A
Training...:  25% 663/2609 [38:37<2:38:48,  4.90s/it][A
Training...:  25% 664/2609 [38:42<2:34:01,  4.75s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [38:58:46<12:36:12, 9074.48s/it]
Training...:  25% 664/2609 [38:47<2:34:01,  4.75s/it][A
Training...:  25% 665/2609 [38:47<2:36:22,  4.83s/it][A
Training...:  26% 666/2609 [38:51<2:30:12,  4.64s/it][A
Training...:  26% 667/2609 [38:55<2:24:18,  4.46s/it][A
Training...:  26% 668/2609 [38:59<2:19:55,  4.33s/it][A
Training...:  26% 669/2609 [39:03<2:15:54,  4.20s/it][A
Training...:  26% 670/2609 [39:07<2:12:13,  4.09s/it][A
Training...:  26% 671/2609 [39:11<2:08:55,  3.99s/it][A
Training...:  26% 672/2609 [39:14<2:04:50,  3.87s/it][A
Training...:  26% 673/2609 [39:18<2:01:29,  3.77s/it][A
Training...:  26% 674/2609 [39:21<1:57:59,  3.66s/it][A
Training...:  26% 675/2609 [39:24<1:54:45,  3.56s/it][A
Training...:  26% 676/2609 [39:28<1:51:06,  3.45s/it][A
Training...:  26% 677/2609 [39:31<1:47:57,  3.35s/it][A
Training...:  26% 678/2609 [39:34<1:44:51,  3.26s/it][A
Training...:  26% 679/2609 [39:37<1:41:49,  3.17s/it][A
Training...:  26% 680/2609 [39:40<1:39:03,  3.08s/it][A
Training...:  26% 681/2609 [39:42<1:36:24,  3.00s/it][A
Training...:  26% 682/2609 [39:45<1:33:07,  2.90s/it][A
Training...:  26% 683/2609 [39:48<1:30:00,  2.80s/it][A
Training...:  26% 684/2609 [39:50<1:27:07,  2.72s/it][A
Training...:  26% 685/2609 [39:53<1:24:39,  2.64s/it][A
Training...:  26% 686/2609 [39:55<1:21:48,  2.55s/it][A
Training...:  26% 687/2609 [39:57<1:18:51,  2.46s/it][A
Training...:  26% 688/2609 [39:59<1:15:20,  2.35s/it][A
Training...:  26% 689/2609 [40:01<1:12:18,  2.26s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [39:00:03<12:36:12, 9074.48s/it]
Training...:  26% 689/2609 [40:04<1:12:18,  2.26s/it][A
Training...:  26% 690/2609 [40:04<1:12:57,  2.28s/it][A
Training...:  26% 691/2609 [40:06<1:08:41,  2.15s/it][A
Training...:  27% 692/2609 [40:07<1:04:33,  2.02s/it][A
Training...:  27% 693/2609 [40:09<1:00:55,  1.91s/it][A
Training...:  27% 694/2609 [40:10<57:23,  1.80s/it]  [A
Training...:  27% 695/2609 [40:12<53:48,  1.69s/it][A
Training...:  27% 696/2609 [40:13<50:22,  1.58s/it][A
Training...:  27% 697/2609 [40:14<46:18,  1.45s/it][A
Training...:  27% 698/2609 [40:15<42:15,  1.33s/it][A
Training...:  27% 699/2609 [40:16<37:33,  1.18s/it][A
Training...:  27% 700/2609 [40:17<31:29,  1.01it/s][A
Training...:  27% 701/2609 [40:24<1:31:42,  2.88s/it][A
Training...:  27% 702/2609 [40:31<2:11:41,  4.14s/it][A
Training...:  27% 703/2609 [40:38<2:35:06,  4.88s/it][A
Training...:  27% 704/2609 [40:44<2:48:52,  5.32s/it][A
Training...:  27% 705/2609 [40:50<2:54:56,  5.51s/it][A
Training...:  27% 706/2609 [40:56<2:56:36,  5.57s/it][A
Training...:  27% 707/2609 [41:01<2:56:06,  5.56s/it][A
Training...:  27% 708/2609 [41:07<2:53:21,  5.47s/it][A
Training...:  27% 709/2609 [41:12<2:51:31,  5.42s/it][A
Training...:  27% 710/2609 [41:17<2:47:58,  5.31s/it][A
Training...:  27% 711/2609 [41:22<2:43:40,  5.17s/it][A
Training...:  27% 712/2609 [41:26<2:39:08,  5.03s/it][A
Training...:  27% 713/2609 [41:31<2:35:20,  4.92s/it][A
Training...:  27% 714/2609 [41:35<2:30:23,  4.76s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [39:01:39<12:36:12, 9074.48s/it]
Training...:  27% 714/2609 [41:40<2:30:23,  4.76s/it][A
Training...:  27% 715/2609 [41:40<2:32:25,  4.83s/it][A
Training...:  27% 716/2609 [41:45<2:26:04,  4.63s/it][A
Training...:  27% 717/2609 [41:49<2:21:16,  4.48s/it][A
Training...:  28% 718/2609 [41:53<2:15:56,  4.31s/it][A
Training...:  28% 719/2609 [41:57<2:12:05,  4.19s/it][A
Training...:  28% 720/2609 [42:00<2:08:15,  4.07s/it][A
Training...:  28% 721/2609 [42:04<2:05:05,  3.98s/it][A
Training...:  28% 722/2609 [42:08<2:01:16,  3.86s/it][A
Training...:  28% 723/2609 [42:11<1:59:00,  3.79s/it][A
Training...:  28% 724/2609 [42:15<1:56:12,  3.70s/it][A
Training...:  28% 725/2609 [42:18<1:53:13,  3.61s/it][A
Training...:  28% 726/2609 [42:21<1:49:48,  3.50s/it][A
Training...:  28% 727/2609 [42:25<1:46:47,  3.40s/it][A
Training...:  28% 728/2609 [42:28<1:43:35,  3.30s/it][A
Training...:  28% 729/2609 [42:31<1:40:39,  3.21s/it][A
Training...:  28% 730/2609 [42:34<1:37:31,  3.11s/it][A
Training...:  28% 731/2609 [42:36<1:34:56,  3.03s/it][A
Training...:  28% 732/2609 [42:39<1:31:37,  2.93s/it][A
Training...:  28% 733/2609 [42:42<1:28:42,  2.84s/it][A
Training...:  28% 734/2609 [42:44<1:25:06,  2.72s/it][A
Training...:  28% 735/2609 [42:47<1:22:12,  2.63s/it][A
Training...:  28% 736/2609 [42:49<1:19:06,  2.53s/it][A
Training...:  28% 737/2609 [42:51<1:16:20,  2.45s/it][A
Training...:  28% 738/2609 [42:53<1:13:11,  2.35s/it][A
Training...:  28% 739/2609 [42:55<1:10:23,  2.26s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [39:02:57<12:36:12, 9074.48s/it]
Training...:  28% 739/2609 [42:58<1:10:23,  2.26s/it][A
Training...:  28% 740/2609 [42:58<1:11:31,  2.30s/it][A
Training...:  28% 741/2609 [43:00<1:07:27,  2.17s/it][A
Training...:  28% 742/2609 [43:01<1:03:30,  2.04s/it][A
Training...:  28% 743/2609 [43:03<1:00:02,  1.93s/it][A
Training...:  29% 744/2609 [43:05<56:46,  1.83s/it]  [A
Training...:  29% 745/2609 [43:06<53:22,  1.72s/it][A
Training...:  29% 746/2609 [43:07<49:35,  1.60s/it][A
Training...:  29% 747/2609 [43:09<45:43,  1.47s/it][A
Training...:  29% 748/2609 [43:10<41:18,  1.33s/it][A
Training...:  29% 749/2609 [43:10<36:11,  1.17s/it][A
Training...:  29% 750/2609 [43:11<30:11,  1.03it/s][A
Training...:  29% 751/2609 [43:18<1:26:32,  2.79s/it][A
Training...:  29% 752/2609 [43:25<2:06:21,  4.08s/it][A
Training...:  29% 753/2609 [43:32<2:29:31,  4.83s/it][A
Training...:  29% 754/2609 [43:38<2:43:03,  5.27s/it][A
Training...:  29% 755/2609 [43:44<2:50:44,  5.53s/it][A
Training...:  29% 756/2609 [43:50<2:51:58,  5.57s/it][A
Training...:  29% 757/2609 [43:55<2:52:02,  5.57s/it][A
Training...:  29% 758/2609 [44:01<2:49:35,  5.50s/it][A
Training...:  29% 759/2609 [44:06<2:46:23,  5.40s/it][A
Training...:  29% 760/2609 [44:11<2:41:55,  5.25s/it][A
Training...:  29% 761/2609 [44:16<2:37:53,  5.13s/it][A
Training...:  29% 762/2609 [44:20<2:33:38,  4.99s/it][A
Training...:  29% 763/2609 [44:25<2:29:07,  4.85s/it][A
Training...:  29% 764/2609 [44:29<2:24:29,  4.70s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [39:04:33<12:36:12, 9074.48s/it]
Training...:  29% 764/2609 [44:34<2:24:29,  4.70s/it][A
Training...:  29% 765/2609 [44:34<2:26:16,  4.76s/it][A
Training...:  29% 766/2609 [44:38<2:20:49,  4.58s/it][A
Training...:  29% 767/2609 [44:42<2:16:46,  4.45s/it][A
Training...:  29% 768/2609 [44:46<2:11:00,  4.27s/it][A
Training...:  29% 769/2609 [44:50<2:06:06,  4.11s/it][A
Training...:  30% 770/2609 [44:53<2:01:21,  3.96s/it][A
Training...:  30% 771/2609 [44:57<1:57:38,  3.84s/it][A
Training...:  30% 772/2609 [45:00<1:54:06,  3.73s/it][A
Training...:  30% 773/2609 [45:04<1:51:06,  3.63s/it][A
Training...:  30% 774/2609 [45:07<1:47:44,  3.52s/it][A
Training...:  30% 775/2609 [45:10<1:44:30,  3.42s/it][A
Training...:  30% 776/2609 [45:13<1:41:46,  3.33s/it][A
Training...:  30% 777/2609 [45:17<1:39:01,  3.24s/it][A
Training...:  30% 778/2609 [45:19<1:36:07,  3.15s/it][A
Training...:  30% 779/2609 [45:22<1:33:24,  3.06s/it][A
Training...:  30% 780/2609 [45:25<1:30:31,  2.97s/it][A
Training...:  30% 781/2609 [45:28<1:28:15,  2.90s/it][A
Training...:  30% 782/2609 [45:30<1:25:28,  2.81s/it][A
Training...:  30% 783/2609 [45:33<1:22:52,  2.72s/it][A
Training...:  30% 784/2609 [45:35<1:20:14,  2.64s/it][A
Training...:  30% 785/2609 [45:38<1:18:19,  2.58s/it][A
Training...:  30% 786/2609 [45:40<1:15:46,  2.49s/it][A
Training...:  30% 787/2609 [45:42<1:13:05,  2.41s/it][A
Training...:  30% 788/2609 [45:44<1:10:03,  2.31s/it][A
Training...:  30% 789/2609 [45:46<1:07:33,  2.23s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [39:05:48<12:36:12, 9074.48s/it]
Training...:  30% 789/2609 [45:49<1:07:33,  2.23s/it][A
Training...:  30% 790/2609 [45:49<1:08:37,  2.26s/it][A
Training...:  30% 791/2609 [45:51<1:04:49,  2.14s/it][A
Training...:  30% 792/2609 [45:52<1:01:27,  2.03s/it][A
Training...:  30% 793/2609 [45:54<57:54,  1.91s/it]  [A
Training...:  30% 794/2609 [45:56<54:18,  1.80s/it][A
Training...:  30% 795/2609 [45:57<50:45,  1.68s/it][A
Training...:  31% 796/2609 [45:58<47:00,  1.56s/it][A
Training...:  31% 797/2609 [45:59<43:06,  1.43s/it][A
Training...:  31% 798/2609 [46:00<38:52,  1.29s/it][A
Training...:  31% 799/2609 [46:01<34:20,  1.14s/it][A
Training...:  31% 800/2609 [46:02<29:02,  1.04it/s][A
Training...:  31% 801/2609 [46:09<1:24:03,  2.79s/it][A
Training...:  31% 802/2609 [46:16<2:02:30,  4.07s/it][A
Training...:  31% 803/2609 [46:22<2:24:35,  4.80s/it][A
Training...:  31% 804/2609 [46:28<2:37:03,  5.22s/it][A
Training...:  31% 805/2609 [46:34<2:43:13,  5.43s/it][A
Training...:  31% 806/2609 [46:40<2:46:01,  5.53s/it][A
Training...:  31% 807/2609 [46:46<2:46:41,  5.55s/it][A
Training...:  31% 808/2609 [46:51<2:43:40,  5.45s/it][A
Training...:  31% 809/2609 [46:56<2:40:19,  5.34s/it][A
Training...:  31% 810/2609 [47:01<2:36:26,  5.22s/it][A
Training...:  31% 811/2609 [47:06<2:34:22,  5.15s/it][A
Training...:  31% 812/2609 [47:11<2:29:09,  4.98s/it][A
Training...:  31% 813/2609 [47:15<2:24:47,  4.84s/it][A
Training...:  31% 814/2609 [47:19<2:20:09,  4.68s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [39:07:23<12:36:12, 9074.48s/it]
Training...:  31% 814/2609 [47:24<2:20:09,  4.68s/it][A
Training...:  31% 815/2609 [47:24<2:21:56,  4.75s/it][A
Training...:  31% 816/2609 [47:28<2:16:04,  4.55s/it][A
Training...:  31% 817/2609 [47:33<2:13:22,  4.47s/it][A
Training...:  31% 818/2609 [47:37<2:09:25,  4.34s/it][A
Training...:  31% 819/2609 [47:41<2:06:16,  4.23s/it][A
Training...:  31% 820/2609 [47:44<2:02:38,  4.11s/it][A
Training...:  31% 821/2609 [47:48<1:59:33,  4.01s/it][A
Training...:  32% 822/2609 [47:52<1:56:03,  3.90s/it][A
Training...:  32% 823/2609 [47:55<1:52:56,  3.79s/it][A
Training...:  32% 824/2609 [47:59<1:50:06,  3.70s/it][A
Training...:  32% 825/2609 [48:02<1:47:07,  3.60s/it][A
Training...:  32% 826/2609 [48:06<1:43:54,  3.50s/it][A
Training...:  32% 827/2609 [48:09<1:41:35,  3.42s/it][A
Training...:  32% 828/2609 [48:12<1:38:22,  3.31s/it][A
Training...:  32% 829/2609 [48:15<1:36:03,  3.24s/it][A
Training...:  32% 830/2609 [48:18<1:33:07,  3.14s/it][A
Training...:  32% 831/2609 [48:21<1:30:31,  3.06s/it][A
Training...:  32% 832/2609 [48:23<1:27:46,  2.96s/it][A
Training...:  32% 833/2609 [48:26<1:25:22,  2.88s/it][A
Training...:  32% 834/2609 [48:29<1:23:07,  2.81s/it][A
Training...:  32% 835/2609 [48:31<1:20:28,  2.72s/it][A
Training...:  32% 836/2609 [48:34<1:17:41,  2.63s/it][A
Training...:  32% 837/2609 [48:36<1:15:13,  2.55s/it][A
Training...:  32% 838/2609 [48:38<1:12:27,  2.45s/it][A
Training...:  32% 839/2609 [48:40<1:09:56,  2.37s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [39:08:42<12:36:12, 9074.48s/it]
Training...:  32% 839/2609 [48:43<1:09:56,  2.37s/it][A
Training...:  32% 840/2609 [48:43<1:10:34,  2.39s/it][A
Training...:  32% 841/2609 [48:45<1:06:39,  2.26s/it][A
Training...:  32% 842/2609 [48:47<1:03:01,  2.14s/it][A
Training...:  32% 843/2609 [48:49<59:49,  2.03s/it]  [A
Training...:  32% 844/2609 [48:50<55:59,  1.90s/it][A
Training...:  32% 845/2609 [48:52<52:11,  1.78s/it][A
Training...:  32% 846/2609 [48:53<48:27,  1.65s/it][A
Training...:  32% 847/2609 [48:54<44:44,  1.52s/it][A
Training...:  33% 848/2609 [48:55<40:30,  1.38s/it][A
Training...:  33% 849/2609 [48:56<35:48,  1.22s/it][A
Training...:  33% 850/2609 [48:57<30:24,  1.04s/it][A
Training...:  33% 851/2609 [49:04<1:27:47,  3.00s/it][A
Training...:  33% 852/2609 [49:11<2:02:55,  4.20s/it][A
Training...:  33% 853/2609 [49:18<2:24:54,  4.95s/it][A
Training...:  33% 854/2609 [49:24<2:37:09,  5.37s/it][A
Training...:  33% 855/2609 [49:30<2:42:47,  5.57s/it][A
Training...:  33% 856/2609 [49:36<2:44:06,  5.62s/it][A
Training...:  33% 857/2609 [49:42<2:43:38,  5.60s/it][A
Training...:  33% 858/2609 [49:47<2:40:48,  5.51s/it][A
Training...:  33% 859/2609 [49:52<2:37:21,  5.40s/it][A
Training...:  33% 860/2609 [49:57<2:33:02,  5.25s/it][A
Training...:  33% 861/2609 [50:02<2:29:27,  5.13s/it][A
Training...:  33% 862/2609 [50:07<2:25:24,  4.99s/it][A
Training...:  33% 863/2609 [50:11<2:22:15,  4.89s/it][A
Training...:  33% 864/2609 [50:16<2:18:22,  4.76s/it][A                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [39:10:20<12:36:12, 9074.48s/it]
Training...:  33% 864/2609 [50:21<2:18:22,  4.76s/it][AStep... (39150 | Loss: 0.005663597956299782, Learning Rate: 2.1921210645814426e-05, Gradient Norm: 0.24181143939495087)
Step... (39175 | Loss: 0.004537872038781643, Learning Rate: 2.187070822401438e-05, Gradient Norm: 0.43446776270866394)
Step... (39200 | Loss: 0.011330018751323223, Learning Rate: 2.1820198526256718e-05, Gradient Norm: 0.31593137979507446)
Step... (39225 | Loss: 0.0036220962647348642, Learning Rate: 2.176969610445667e-05, Gradient Norm: 0.4208236634731293)
Step... (39250 | Loss: 0.007049445528537035, Learning Rate: 2.1719193682656623e-05, Gradient Norm: 0.2932644784450531)
Step... (39275 | Loss: 0.000867899099830538, Learning Rate: 2.1668683984898962e-05, Gradient Norm: 0.06052510067820549)
Step... (39300 | Loss: 0.007362527307122946, Learning Rate: 2.1618181563098915e-05, Gradient Norm: 0.3475872874259949)
Step... (39325 | Loss: 0.01233012042939663, Learning Rate: 2.1567677322309464e-05, Gradient Norm: 0.562920868396759)
Step... (39350 | Loss: 0.010619554668664932, Learning Rate: 2.1517169443541206e-05, Gradient Norm: 0.3721556067466736)
Step... (39375 | Loss: 0.0029588353354483843, Learning Rate: 2.1466665202751756e-05, Gradient Norm: 0.2560773193836212)
Step... (39400 | Loss: 0.014661382883787155, Learning Rate: 2.141616278095171e-05, Gradient Norm: 0.45202115178108215)
Step... (39425 | Loss: 0.0012555483262985945, Learning Rate: 2.1365653083194047e-05, Gradient Norm: 0.09331259876489639)
Step... (39450 | Loss: 0.006984964478760958, Learning Rate: 2.1315150661394e-05, Gradient Norm: 0.32199838757514954)
Step... (39475 | Loss: 0.002614290453493595, Learning Rate: 2.1264648239593953e-05, Gradient Norm: 0.239640012383461)
Step... (39500 | Loss: 0.012972896918654442, Learning Rate: 2.121413854183629e-05, Gradient Norm: 0.4224223494529724)
Step... (39525 | Loss: 0.0014267879305407405, Learning Rate: 2.1163636120036244e-05, Gradient Norm: 0.14581619203090668)
Step... (39550 | Loss: 0.009150893427431583, Learning Rate: 2.1113133698236197e-05, Gradient Norm: 0.3224756121635437)
Step... (39575 | Loss: 0.0062528857961297035, Learning Rate: 2.1062624000478536e-05, Gradient Norm: 0.4313350319862366)
Step... (39600 | Loss: 0.005999272223562002, Learning Rate: 2.101212157867849e-05, Gradient Norm: 0.26112037897109985)
Step... (39625 | Loss: 0.00171805324498564, Learning Rate: 2.0961617337889038e-05, Gradient Norm: 0.20973463356494904)
Step... (39650 | Loss: 0.011333448812365532, Learning Rate: 2.091110945912078e-05, Gradient Norm: 0.7432307600975037)
Step... (39675 | Loss: 0.003105670213699341, Learning Rate: 2.086060521833133e-05, Gradient Norm: 0.27117863297462463)
Step... (39700 | Loss: 0.007631966844201088, Learning Rate: 2.0810102796531282e-05, Gradient Norm: 0.2719336748123169)
Step... (39725 | Loss: 0.0014715262223035097, Learning Rate: 2.075959309877362e-05, Gradient Norm: 0.17892318964004517)
Step... (39750 | Loss: 0.008563756011426449, Learning Rate: 2.0709090676973574e-05, Gradient Norm: 0.3132147192955017)
Step... (39775 | Loss: 0.003937766887247562, Learning Rate: 2.0658588255173527e-05, Gradient Norm: 0.3379051387310028)
Step... (39800 | Loss: 0.008548744022846222, Learning Rate: 2.0608078557415865e-05, Gradient Norm: 0.31039077043533325)
Step... (39825 | Loss: 0.005375166889280081, Learning Rate: 2.0557576135615818e-05, Gradient Norm: 0.3544764518737793)
Step... (39850 | Loss: 0.012468231841921806, Learning Rate: 2.050707371381577e-05, Gradient Norm: 0.37834450602531433)
Step... (39875 | Loss: 0.002374002244323492, Learning Rate: 2.045656401605811e-05, Gradient Norm: 0.329526424407959)
Step... (39900 | Loss: 0.010876493528485298, Learning Rate: 2.0406061594258063e-05, Gradient Norm: 0.45964315533638)
Step... (39925 | Loss: 0.0037406240589916706, Learning Rate: 2.0355557353468612e-05, Gradient Norm: 0.344849169254303)
Step... (39950 | Loss: 0.006664845161139965, Learning Rate: 2.0305049474700354e-05, Gradient Norm: 0.42040544748306274)
Step... (39975 | Loss: 0.001721777836792171, Learning Rate: 2.0254545233910903e-05, Gradient Norm: 0.20142707228660583)
Step... (4000

Evaluating ...:   0% 0/220 [00:00<?, ?it/s][A[A0 | Loss: 0.007109322119504213, Learning Rate: 2.0204042812110856e-05, Gradient Norm: 0.3250739574432373)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   0% 1/220 [00:03<13:30,  3.70s/it][A[A

Evaluating ...:   1% 2/220 [00:06<11:55,  3.28s/it][A[A

Evaluating ...:   1% 3/220 [00:09<10:45,  2.97s/it][A[A

Evaluating ...:   2% 4/220 [00:11<10:17,  2.86s/it][A[A

Evaluating ...:   2% 5/220 [00:14<09:58,  2.79s/it][A[A

Evaluating ...:   3% 6/220 [00:16<09:19,  2.61s/it][A[A

Evaluating ...:   3% 7/220 [00:19<09:00,  2.54s/it][A[A

Evaluating ...:   4% 8/220 [00:21<08:43,  2.47s/it][A[A

Evaluating ...:   4% 9/220 [00:24<08:37,  2.45s/it][A[A

Evaluating ...:   5% 10/220 [00:26<08:26,  2.41s/it][A[A

Evaluating ...:   5% 11/220 [00:28<08:22,  2.40s/it][A[A

Evaluating ...:   5% 12/220 [00:30<07:54,  2.28s/it][A[A

Evaluating ...:   6% 13/220 [00:33<08:03,  2.34s/it][A[A

Evaluating ...:   6% 14/220 [00:36<08:44,  2.55s/it][A[A

Evaluating ...:   7% 15/220 [00:38<08:05,  2.37s/it][A[A

Evaluating ...:   7% 16/220 [00:40<07:33,  2.22s/it][A[A

Evaluating ...:   8% 17/220 [00:42<07:36,  2.25s/it][A[A

Evaluating ...:   8% 18/220 [00:44<07:51,  2.33s/it][A[A

Evaluating ...:   9% 19/220 [00:47<08:25,  2.51s/it][A[A

Evaluating ...:   9% 20/220 [00:50<08:10,  2.45s/it][A[A

Evaluating ...:  10% 21/220 [00:52<08:22,  2.52s/it][A[A

Evaluating ...:  10% 22/220 [00:55<08:36,  2.61s/it][A[A

Evaluating ...:  10% 23/220 [00:58<08:26,  2.57s/it][A[A

Evaluating ...:  11% 24/220 [01:00<08:24,  2.57s/it][A[A

Evaluating ...:  11% 25/220 [01:03<08:08,  2.50s/it][A[A

Evaluating ...:  12% 26/220 [01:05<08:22,  2.59s/it][A[A

Evaluating ...:  12% 27/220 [01:08<08:23,  2.61s/it][A[A

Evaluating ...:  13% 28/220 [01:11<08:31,  2.66s/it][A[A

Evaluating ...:  13% 29/220 [01:13<08:28,  2.66s/it][A[A

Evaluating ...:  14% 30/220 [01:16<08:32,  2.70s/it][A[A

Evaluating ...:  14% 31/220 [01:19<08:58,  2.85s/it][A[A

Evaluating ...:  15% 32/220 [01:22<08:43,  2.78s/it][A[A

Evaluating ...:  15% 33/220 [01:24<08:10,  2.62s/it][A[A

Evaluating ...:  15% 34/220 [01:27<07:55,  2.56s/it][A[A

Evaluating ...:  16% 35/220 [01:30<08:24,  2.73s/it][A[A

Evaluating ...:  16% 36/220 [01:33<08:18,  2.71s/it][A[A

Evaluating ...:  17% 37/220 [01:35<08:23,  2.75s/it][A[A

Evaluating ...:  17% 38/220 [01:38<07:58,  2.63s/it][A[A

Evaluating ...:  18% 39/220 [01:40<07:36,  2.52s/it][A[A

Evaluating ...:  18% 40/220 [01:42<07:31,  2.51s/it][A[A

Evaluating ...:  19% 41/220 [01:45<07:31,  2.52s/it][A[A

Evaluating ...:  19% 42/220 [01:48<07:48,  2.63s/it][A[A

Evaluating ...:  20% 43/220 [01:51<07:52,  2.67s/it][A[A

Evaluating ...:  20% 44/220 [01:53<07:38,  2.60s/it][A[A

Evaluating ...:  20% 45/220 [01:56<07:28,  2.56s/it][A[A

Evaluating ...:  21% 46/220 [01:58<07:31,  2.59s/it][A[A

Evaluating ...:  21% 47/220 [02:01<07:34,  2.62s/it][A[A

Evaluating ...:  22% 48/220 [02:04<07:31,  2.63s/it][A[A

Evaluating ...:  22% 49/220 [02:06<07:40,  2.70s/it][A[A

Evaluating ...:  23% 50/220 [02:09<07:31,  2.65s/it][A[A

Evaluating ...:  23% 51/220 [02:13<08:24,  2.98s/it][A[A

Evaluating ...:  24% 52/220 [02:16<08:13,  2.94s/it][A[A

Evaluating ...:  24% 53/220 [02:18<08:06,  2.91s/it][A[A

Evaluating ...:  25% 54/220 [02:21<07:37,  2.76s/it][A[A

Evaluating ...:  25% 55/220 [02:24<07:37,  2.77s/it][A[A

Evaluating ...:  25% 56/220 [02:26<07:13,  2.65s/it][A[A

Evaluating ...:  26% 57/220 [02:29<07:17,  2.68s/it][A[A

Evaluating ...:  26% 58/220 [02:31<06:51,  2.54s/it][A[A

Evaluating ...:  27% 59/220 [02:33<06:29,  2.42s/it][A[A

Evaluating ...:  27% 60/220 [02:36<06:28,  2.43s/it][A[A

Evaluating ...:  28% 61/220 [02:38<06:23,  2.41s/it][A[A

Evaluating ...:  28% 62/220 [02:40<06:15,  2.38s/it][A[A

Evaluating ...:  29% 63/220 [02:43<06:17,  2.40s/it][A[A

Evaluating ...:  29% 64/220 [02:45<06:28,  2.49s/it][A[A

Evaluating ...:  30% 65/220 [02:48<06:35,  2.55s/it][A[A

Evaluating ...:  30% 66/220 [02:50<06:20,  2.47s/it][A[A

Evaluating ...:  30% 67/220 [02:53<06:15,  2.46s/it][A[A

Evaluating ...:  31% 68/220 [02:55<06:15,  2.47s/it][A[A

Evaluating ...:  31% 69/220 [02:57<05:55,  2.35s/it][A[A

Evaluating ...:  32% 70/220 [03:00<05:57,  2.39s/it][A[A

Evaluating ...:  32% 71/220 [03:02<05:58,  2.41s/it][A[A

Evaluating ...:  33% 72/220 [03:05<05:54,  2.40s/it][A[A

Evaluating ...:  33% 73/220 [03:06<05:28,  2.24s/it][A[A

Evaluating ...:  34% 74/220 [03:09<05:27,  2.24s/it][A[A

Evaluating ...:  34% 75/220 [03:12<06:09,  2.55s/it][A[A

Evaluating ...:  35% 76/220 [03:14<05:57,  2.49s/it][A[A

Evaluating ...:  35% 77/220 [03:17<06:05,  2.56s/it][A[A

Evaluating ...:  35% 78/220 [03:19<05:33,  2.35s/it][A[A

Evaluating ...:  36% 79/220 [03:21<05:35,  2.38s/it][A[A

Evaluating ...:  36% 80/220 [03:24<05:54,  2.53s/it][A[A

Evaluating ...:  37% 81/220 [03:27<06:11,  2.67s/it][A[A

Evaluating ...:  37% 82/220 [03:30<06:07,  2.66s/it][A[A

Evaluating ...:  38% 83/220 [03:32<05:47,  2.54s/it][A[A

Evaluating ...:  38% 84/220 [03:35<05:50,  2.58s/it][A[A

Evaluating ...:  39% 85/220 [03:37<05:21,  2.38s/it][A[A

Evaluating ...:  39% 86/220 [03:39<05:16,  2.36s/it][A[A

Evaluating ...:  40% 87/220 [03:42<05:25,  2.44s/it][A[A

Evaluating ...:  40% 88/220 [03:44<05:26,  2.48s/it][A[A

Evaluating ...:  40% 89/220 [03:47<05:24,  2.47s/it][A[A

Evaluating ...:  41% 90/220 [03:49<05:30,  2.54s/it][A[A

Evaluating ...:  41% 91/220 [03:52<05:24,  2.51s/it][A[A

Evaluating ...:  42% 92/220 [03:55<05:28,  2.56s/it][A[A

Evaluating ...:  42% 93/220 [03:57<05:31,  2.61s/it][A[A

Evaluating ...:  43% 94/220 [04:00<05:17,  2.52s/it][A[A

Evaluating ...:  43% 95/220 [04:02<05:25,  2.60s/it][A[A

Evaluating ...:  44% 96/220 [04:05<05:23,  2.61s/it][A[A

Evaluating ...:  44% 97/220 [04:08<05:26,  2.66s/it][A[A

Evaluating ...:  45% 98/220 [04:10<05:18,  2.61s/it][A[A

Evaluating ...:  45% 99/220 [04:13<05:04,  2.51s/it][A[A

Evaluating ...:  45% 100/220 [04:15<04:59,  2.49s/it][A[A

Evaluating ...:  46% 101/220 [04:18<05:20,  2.69s/it][A[A

Evaluating ...:  46% 102/220 [04:21<05:09,  2.63s/it][A[A

Evaluating ...:  47% 103/220 [04:23<05:08,  2.63s/it][A[A

Evaluating ...:  47% 104/220 [04:26<05:04,  2.62s/it][A[A

Evaluating ...:  48% 105/220 [04:29<05:09,  2.69s/it][A[A

Evaluating ...:  48% 106/220 [04:32<05:13,  2.75s/it][A[A

Evaluating ...:  49% 107/220 [04:34<05:05,  2.70s/it][A[A

Evaluating ...:  49% 108/220 [04:37<04:57,  2.65s/it][A[A

Evaluating ...:  50% 109/220 [04:39<04:37,  2.50s/it][A[A

Evaluating ...:  50% 110/220 [04:41<04:27,  2.43s/it][A[A

Evaluating ...:  50% 111/220 [04:44<04:37,  2.55s/it][A[A

Evaluating ...:  51% 112/220 [04:46<04:24,  2.45s/it][A[A

Evaluating ...:  51% 113/220 [04:48<04:10,  2.34s/it][A[A

Evaluating ...:  52% 114/220 [04:51<04:18,  2.44s/it][A[A

Evaluating ...:  52% 115/220 [04:53<04:19,  2.47s/it][A[A

Evaluating ...:  53% 116/220 [04:56<04:21,  2.51s/it][A[A

Evaluating ...:  53% 117/220 [04:59<04:22,  2.55s/it][A[A

Evaluating ...:  54% 118/220 [05:01<04:16,  2.52s/it][A[A

Evaluating ...:  54% 119/220 [05:03<04:03,  2.41s/it][A[A

Evaluating ...:  55% 120/220 [05:07<04:25,  2.65s/it][A[A

Evaluating ...:  55% 121/220 [05:09<04:22,  2.65s/it][A[A

Evaluating ...:  55% 122/220 [05:12<04:11,  2.56s/it][A[A

Evaluating ...:  56% 123/220 [05:14<04:11,  2.59s/it][A[A

Evaluating ...:  56% 124/220 [05:17<04:20,  2.72s/it][A[A

Evaluating ...:  57% 125/220 [05:20<04:13,  2.67s/it][A[A

Evaluating ...:  57% 126/220 [05:22<04:11,  2.67s/it][A[A

Evaluating ...:  58% 127/220 [05:25<04:00,  2.59s/it][A[A

Evaluating ...:  58% 128/220 [05:27<03:47,  2.48s/it][A[A

Evaluating ...:  59% 129/220 [05:30<03:52,  2.55s/it][A[A

Evaluating ...:  59% 130/220 [05:32<03:43,  2.49s/it][A[A

Evaluating ...:  60% 131/220 [05:35<03:48,  2.57s/it][A[A

Evaluating ...:  60% 132/220 [05:38<03:51,  2.63s/it][A[A

Evaluating ...:  60% 133/220 [05:40<03:47,  2.62s/it][A[A

Evaluating ...:  61% 134/220 [05:43<03:53,  2.72s/it][A[A

Evaluating ...:  61% 135/220 [05:45<03:38,  2.58s/it][A[A

Evaluating ...:  62% 136/220 [05:48<03:34,  2.56s/it][A[A

Evaluating ...:  62% 137/220 [05:50<03:22,  2.44s/it][A[A

Evaluating ...:  63% 138/220 [05:53<03:20,  2.44s/it][A[A

Evaluating ...:  63% 139/220 [05:55<03:17,  2.44s/it][A[A

Evaluating ...:  64% 140/220 [05:58<03:28,  2.60s/it][A[A

Evaluating ...:  64% 141/220 [06:01<03:30,  2.66s/it][A[A

Evaluating ...:  65% 142/220 [06:04<03:31,  2.72s/it][A[A

Evaluating ...:  65% 143/220 [06:06<03:23,  2.64s/it][A[A

Evaluating ...:  65% 144/220 [06:09<03:27,  2.73s/it][A[A

Evaluating ...:  66% 145/220 [06:11<03:17,  2.63s/it][A[A

Evaluating ...:  66% 146/220 [06:14<03:12,  2.60s/it][A[A

Evaluating ...:  67% 147/220 [06:17<03:17,  2.70s/it][A[A

Evaluating ...:  67% 148/220 [06:19<03:11,  2.66s/it][A[A

Evaluating ...:  68% 149/220 [06:22<03:14,  2.74s/it][A[A

Evaluating ...:  68% 150/220 [06:25<03:09,  2.71s/it][A[A

Evaluating ...:  69% 151/220 [06:29<03:24,  2.96s/it][A[A

Evaluating ...:  69% 152/220 [06:31<03:16,  2.90s/it][A[A

Evaluating ...:  70% 153/220 [06:34<03:05,  2.77s/it][A[A

Evaluating ...:  70% 154/220 [06:37<03:05,  2.81s/it][A[A

Evaluating ...:  70% 155/220 [06:39<02:51,  2.64s/it][A[A

Evaluating ...:  71% 156/220 [06:41<02:44,  2.57s/it][A[A

Evaluating ...:  71% 157/220 [06:44<02:40,  2.54s/it][A[A

Evaluating ...:  72% 158/220 [06:46<02:36,  2.52s/it][A[A

Evaluating ...:  72% 159/220 [06:49<02:32,  2.49s/it][A[A

Evaluating ...:  73% 160/220 [06:51<02:22,  2.38s/it][A[A

Evaluating ...:  73% 161/220 [06:53<02:19,  2.36s/it][A[A

Evaluating ...:  74% 162/220 [06:56<02:17,  2.36s/it][A[A

Evaluating ...:  74% 163/220 [06:58<02:14,  2.36s/it][A[A

Evaluating ...:  75% 164/220 [07:00<02:14,  2.41s/it][A[A

Evaluating ...:  75% 165/220 [07:03<02:18,  2.52s/it][A[A

Evaluating ...:  75% 166/220 [07:06<02:16,  2.52s/it][A[A

Evaluating ...:  76% 167/220 [07:08<02:13,  2.53s/it][A[A

Evaluating ...:  76% 168/220 [07:11<02:17,  2.65s/it][A[A

Evaluating ...:  77% 169/220 [07:13<02:09,  2.54s/it][A[A

Evaluating ...:  77% 170/220 [07:16<02:10,  2.62s/it][A[A

Evaluating ...:  78% 171/220 [07:18<02:01,  2.48s/it][A[A

Evaluating ...:  78% 172/220 [07:22<02:13,  2.78s/it][A[A

Evaluating ...:  79% 173/220 [07:24<02:07,  2.71s/it][A[A

Evaluating ...:  79% 174/220 [07:27<02:02,  2.67s/it][A[A

Evaluating ...:  80% 175/220 [07:30<02:01,  2.70s/it][A[A

Evaluating ...:  80% 176/220 [07:32<01:58,  2.70s/it][A[A

Evaluating ...:  80% 177/220 [07:35<01:49,  2.55s/it][A[A

Evaluating ...:  81% 178/220 [07:37<01:49,  2.60s/it][A[A

Evaluating ...:  81% 179/220 [07:40<01:43,  2.53s/it][A[A

Evaluating ...:  82% 180/220 [07:43<01:46,  2.66s/it][A[A

Evaluating ...:  82% 181/220 [07:46<01:45,  2.71s/it][A[A

Evaluating ...:  83% 182/220 [07:48<01:43,  2.73s/it][A[A

Evaluating ...:  83% 183/220 [07:51<01:40,  2.71s/it][A[A

Evaluating ...:  84% 184/220 [07:54<01:41,  2.81s/it][A[A

Evaluating ...:  84% 185/220 [07:57<01:36,  2.75s/it][A[A

Evaluating ...:  85% 186/220 [08:00<01:35,  2.79s/it][A[A

Evaluating ...:  85% 187/220 [08:02<01:30,  2.76s/it][A[A

Evaluating ...:  85% 188/220 [08:05<01:27,  2.73s/it][A[A

Evaluating ...:  86% 189/220 [08:08<01:23,  2.71s/it][A[A

Evaluating ...:  86% 190/220 [08:10<01:20,  2.69s/it][A[A

Evaluating ...:  87% 191/220 [08:13<01:16,  2.65s/it][A[A

Evaluating ...:  87% 192/220 [08:15<01:10,  2.51s/it][A[A

Evaluating ...:  88% 193/220 [08:18<01:10,  2.62s/it][A[A

Evaluating ...:  88% 194/220 [08:20<01:07,  2.59s/it][A[A

Evaluating ...:  89% 195/220 [08:23<01:05,  2.61s/it][A[A

Evaluating ...:  89% 196/220 [08:25<01:00,  2.53s/it][A[A

Evaluating ...:  90% 197/220 [08:28<00:57,  2.50s/it][A[A

Evaluating ...:  90% 198/220 [08:30<00:54,  2.46s/it][A[A

Evaluating ...:  90% 199/220 [08:33<00:51,  2.44s/it][A[A

Evaluating ...:  91% 200/220 [08:35<00:48,  2.44s/it][A[A

Evaluating ...:  91% 201/220 [08:38<00:52,  2.74s/it][A[A

Evaluating ...:  92% 202/220 [08:41<00:48,  2.69s/it][A[A

Evaluating ...:  92% 203/220 [08:43<00:44,  2.62s/it][A[A

Evaluating ...:  93% 204/220 [08:46<00:40,  2.54s/it][A[A

Evaluating ...:  93% 205/220 [08:48<00:37,  2.51s/it][A[A

Evaluating ...:  94% 206/220 [08:51<00:34,  2.47s/it][A[A

Evaluating ...:  94% 207/220 [08:53<00:32,  2.49s/it][A[A

Evaluating ...:  95% 208/220 [08:56<00:31,  2.60s/it][A[A

Evaluating ...:  95% 209/220 [08:59<00:29,  2.65s/it][A[A

Evaluating ...:  95% 210/220 [09:02<00:27,  2.72s/it][A[A

Evaluating ...:  96% 211/220 [09:04<00:24,  2.68s/it][A[A

Evaluating ...:  96% 212/220 [09:07<00:21,  2.67s/it][A[A

Evaluating ...:  97% 213/220 [09:10<00:19,  2.78s/it][A[A

Evaluating ...:  97% 214/220 [09:12<00:15,  2.54s/it][A[A

Evaluating ...:  98% 215/220 [09:15<00:12,  2.56s/it][A[A

Evaluating ...:  98% 216/220 [09:17<00:10,  2.65s/it][A[A

Evaluating ...:  99% 217/220 [09:20<00:07,  2.60s/it][A[A

Evaluating ...:  99% 218/220 [09:22<00:05,  2.61s/it][A[A

Evaluating ...: 100% 219/220 [09:25<00:02,  2.55s/it][A[A

Evaluating ...: 100% 220/220 [09:27<00:00,  2.45s/it][A[AEvaluating ...: 100% 220/220 [09:27<00:00,  2.58s/it]
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:51: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  device_metrics = jax.tree_map(lambda x: x[0], device_metrics)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:45: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(stack_args, *forest)
run_flax_speech_recognition_seq2seq.py:1392: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  eval_metrics = jax.tree_map(jnp.mean, eval_metrics)
                                                                                                                                                                    
                                                     [AStep... (30000/50000 | Eval Loss: 0.8915673494338989 | Eval wer: 0.13890397321024528 | Eval cer: 0.08773022751895991 |):  75% 15/20 [39:19:48<12:36:12, 9074.48s/it]
Training...:  33% 864/2609 [59:49<2:18:22,  4.76s/it][Arun_flax_speech_recognition_seq2seq.py:1425: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  params = jax.device_get(jax.tree_map(lambda x: x[0], state.params))
Configuration saved in /home/sanchitgandhi/train-flax-wav2vec2-2-bart-large-voxpopuli-black-box/flax-wav2vec2-2-bart-large-voxpopuli-black-box/config.json
tcmalloc: large alloc 2586787840 bytes == 0x3d8668000 @  0x7f0edf2a6680 0x7f0edf2c6bdd 0x7f0da608226f 0x7f0da6091290 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da6092324 0x7f0da608cd74 0x7f0da608d52e 0x505166 0x56bbfa 0x569dba 0x5f6eb3 0x56cc1f 0x569dba 0x5f6eb3 0x56cc1f 0x5f6cd6 0x56bacd 0x569dba 0x50bca0 0x56cc1f 0x569dba 0x5f6eb3 0x56bacd 0x569dba 0x5f6eb3
Model weights saved in /home/sanchitgandhi/train-flax-wav2vec2-2-bart-large-voxpopuli-black-box/flax-wav2vec2-2-bart-large-voxpopuli-black-box/flax_model.msgpack
tokenizer config file saved in ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/tokenizer_config.json
Special tokens file saved in ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/special_tokens_map.json

Training...:  33% 865/2609 [1:01:54<103:03:07, 212.72s/it][A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:25: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(

Training...:  33% 866/2609 [1:01:58<72:47:34, 150.35s/it] [A
Training...:  33% 867/2609 [1:02:02<51:31:17, 106.47s/it][A
Training...:  33% 868/2609 [1:02:06<36:37:14, 75.72s/it] [A
Training...:  33% 869/2609 [1:02:10<26:11:09, 54.18s/it][A
Training...:  33% 870/2609 [1:02:14<18:52:23, 39.07s/it][A
Training...:  33% 871/2609 [1:02:18<13:44:00, 28.45s/it][A
Training...:  33% 872/2609 [1:02:22<10:08:21, 21.01s/it][A
Training...:  33% 873/2609 [1:02:25<7:36:20, 15.77s/it] [A
Training...:  33% 874/2609 [1:02:29<5:49:13, 12.08s/it][A
Training...:  34% 875/2609 [1:02:32<4:33:34,  9.47s/it][A
Training...:  34% 876/2609 [1:02:35<3:39:15,  7.59s/it][A
Training...:  34% 877/2609 [1:02:38<3:00:32,  6.25s/it][A
Training...:  34% 878/2609 [1:02:41<2:32:46,  5.30s/it][A
Training...:  34% 879/2609 [1:02:44<2:12:50,  4.61s/it][A
Training...:  34% 880/2609 [1:02:47<1:58:18,  4.11s/it][A
Training...:  34% 881/2609 [1:02:50<1:47:59,  3.75s/it][A
Training...:  34% 882/2609 [1:02:53<1:39:26,  3.46s/it][A
Training...:  34% 883/2609 [1:02:56<1:32:18,  3.21s/it][A
Training...:  34% 884/2609 [1:02:58<1:26:34,  3.01s/it][A
Training...:  34% 885/2609 [1:03:01<1:22:06,  2.86s/it][A
Training...:  34% 886/2609 [1:03:03<1:18:04,  2.72s/it][A
Training...:  34% 887/2609 [1:03:05<1:14:47,  2.61s/it][A
Training...:  34% 888/2609 [1:03:08<1:11:15,  2.48s/it][A
Training...:  34% 889/2609 [1:03:10<1:08:09,  2.38s/it][A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:61: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x[0], tree)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
                                                                                                                                                                    
                                                       [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:23:11<12:36:12, 9074.48s/it]
Training...:  34% 889/2609 [1:03:12<1:08:09,  2.38s/it][A
Training...:  34% 890/2609 [1:03:12<1:08:35,  2.39s/it][A
Training...:  34% 891/2609 [1:03:14<1:04:43,  2.26s/it][A
Training...:  34% 892/2609 [1:03:16<1:01:03,  2.13s/it][A
Training...:  34% 893/2609 [1:03:18<57:38,  2.02s/it]  [A
Training...:  34% 894/2609 [1:03:19<54:01,  1.89s/it][A
Training...:  34% 895/2609 [1:03:21<50:48,  1.78s/it][A
Training...:  34% 896/2609 [1:03:22<46:58,  1.65s/it][A
Training...:  34% 897/2609 [1:03:23<43:17,  1.52s/it][A
Training...:  34% 898/2609 [1:03:24<39:23,  1.38s/it][A
Training...:  34% 899/2609 [1:03:25<34:41,  1.22s/it][A
Training...:  34% 900/2609 [1:03:26<29:18,  1.03s/it][A
Training...:  35% 901/2609 [1:03:33<1:22:09,  2.89s/it][A
Training...:  35% 902/2609 [1:03:40<1:58:20,  4.16s/it][A
Training...:  35% 903/2609 [1:03:47<2:19:22,  4.90s/it][A
Training...:  35% 904/2609 [1:03:53<2:30:57,  5.31s/it][A
Training...:  35% 905/2609 [1:03:59<2:36:18,  5.50s/it][A
Training...:  35% 906/2609 [1:04:05<2:38:08,  5.57s/it][A
Training...:  35% 907/2609 [1:04:10<2:37:30,  5.55s/it][A
Training...:  35% 908/2609 [1:04:16<2:35:23,  5.48s/it][A
Training...:  35% 909/2609 [1:04:21<2:32:34,  5.38s/it][A
Training...:  35% 910/2609 [1:04:26<2:28:45,  5.25s/it][A
Training...:  35% 911/2609 [1:04:30<2:24:37,  5.11s/it][A
Training...:  35% 912/2609 [1:04:35<2:20:36,  4.97s/it][A
Training...:  35% 913/2609 [1:04:40<2:16:56,  4.84s/it][A
Training...:  35% 914/2609 [1:04:44<2:13:07,  4.71s/it][A                                                                                                                                                                    
                                                       [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:24:48<12:36:12, 9074.48s/it]
Training...:  35% 914/2609 [1:04:49<2:13:07,  4.71s/it][A
Training...:  35% 915/2609 [1:04:49<2:15:26,  4.80s/it][A
Training...:  35% 916/2609 [1:04:53<2:10:14,  4.62s/it][A
Training...:  35% 917/2609 [1:04:57<2:05:38,  4.46s/it][A
Training...:  35% 918/2609 [1:05:01<2:01:18,  4.30s/it][A
Training...:  35% 919/2609 [1:05:05<1:58:14,  4.20s/it][A
Training...:  35% 920/2609 [1:05:09<1:53:58,  4.05s/it][A
Training...:  35% 921/2609 [1:05:13<1:50:54,  3.94s/it][A
Training...:  35% 922/2609 [1:05:16<1:48:01,  3.84s/it][A
Training...:  35% 923/2609 [1:05:20<1:45:08,  3.74s/it][A
Training...:  35% 924/2609 [1:05:23<1:41:56,  3.63s/it][A
Training...:  35% 925/2609 [1:05:26<1:39:21,  3.54s/it][A
Training...:  35% 926/2609 [1:05:30<1:36:06,  3.43s/it][A
Training...:  36% 927/2609 [1:05:33<1:33:21,  3.33s/it][A
Training...:  36% 928/2609 [1:05:36<1:30:24,  3.23s/it][A
Training...:  36% 929/2609 [1:05:39<1:27:56,  3.14s/it][A
Training...:  36% 930/2609 [1:05:41<1:25:36,  3.06s/it][A
Training...:  36% 931/2609 [1:05:44<1:23:17,  2.98s/it][A
Training...:  36% 932/2609 [1:05:47<1:20:36,  2.88s/it][A
Training...:  36% 933/2609 [1:05:50<1:18:35,  2.81s/it][A
Training...:  36% 934/2609 [1:05:52<1:15:23,  2.70s/it][A
Training...:  36% 935/2609 [1:05:54<1:12:36,  2.60s/it][A
Training...:  36% 936/2609 [1:05:57<1:09:46,  2.50s/it][A
Training...:  36% 937/2609 [1:05:59<1:07:03,  2.41s/it][A
Training...:  36% 938/2609 [1:06:01<1:04:12,  2.31s/it][A
Training...:  36% 939/2609 [1:06:03<1:01:59,  2.23s/it][A                                                                                                                                                                    
                                                       [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:26:04<12:36:12, 9074.48s/it]
Training...:  36% 939/2609 [1:06:05<1:01:59,  2.23s/it][A
Training...:  36% 940/2609 [1:06:05<1:02:53,  2.26s/it][A
Training...:  36% 941/2609 [1:06:07<59:03,  2.12s/it]  [A
Training...:  36% 942/2609 [1:06:09<55:23,  1.99s/it][A
Training...:  36% 943/2609 [1:06:10<52:14,  1.88s/it][A
Training...:  36% 944/2609 [1:06:12<48:58,  1.76s/it][A
Training...:  36% 945/2609 [1:06:13<45:50,  1.65s/it][A
Training...:  36% 946/2609 [1:06:15<42:43,  1.54s/it][A
Training...:  36% 947/2609 [1:06:16<39:49,  1.44s/it][A
Training...:  36% 948/2609 [1:06:17<36:08,  1.31s/it][A
Training...:  36% 949/2609 [1:06:18<32:13,  1.16s/it][A
Training...:  36% 950/2609 [1:06:18<27:25,  1.01it/s][A
Training...:  36% 951/2609 [1:06:25<1:19:49,  2.89s/it][A
Training...:  36% 952/2609 [1:06:33<1:55:04,  4.17s/it][A
Training...:  37% 953/2609 [1:06:39<2:15:51,  4.92s/it][A
Training...:  37% 954/2609 [1:06:46<2:28:18,  5.38s/it][A
Training...:  37% 955/2609 [1:06:52<2:35:12,  5.63s/it][A
Training...:  37% 956/2609 [1:06:58<2:36:11,  5.67s/it][A
Training...:  37% 957/2609 [1:07:03<2:35:18,  5.64s/it][A
Training...:  37% 958/2609 [1:07:09<2:32:21,  5.54s/it][A
Training...:  37% 959/2609 [1:07:14<2:29:26,  5.43s/it][A
Training...:  37% 960/2609 [1:07:19<2:25:25,  5.29s/it][A
Training...:  37% 961/2609 [1:07:24<2:21:27,  5.15s/it][A
Training...:  37% 962/2609 [1:07:28<2:17:26,  5.01s/it][A
Training...:  37% 963/2609 [1:07:33<2:13:54,  4.88s/it][A
Training...:  37% 964/2609 [1:07:37<2:09:56,  4.74s/it][A                                                                                                                                                                    
                                                       [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:27:41<12:36:12, 9074.48s/it]
Training...:  37% 964/2609 [1:07:42<2:09:56,  4.74s/it][A
Training...:  37% 965/2609 [1:07:42<2:11:20,  4.79s/it][A
Training...:  37% 966/2609 [1:07:46<2:05:42,  4.59s/it][A
Training...:  37% 967/2609 [1:07:50<2:01:08,  4.43s/it][A
Training...:  37% 968/2609 [1:07:54<1:56:29,  4.26s/it][A
Training...:  37% 969/2609 [1:07:58<1:52:57,  4.13s/it][A
Training...:  37% 970/2609 [1:08:02<1:49:30,  4.01s/it][A
Training...:  37% 971/2609 [1:08:05<1:46:46,  3.91s/it][A
Training...:  37% 972/2609 [1:08:09<1:43:14,  3.78s/it][A
Training...:  37% 973/2609 [1:08:12<1:40:39,  3.69s/it][A
Training...:  37% 974/2609 [1:08:16<1:37:06,  3.56s/it][A
Training...:  37% 975/2609 [1:08:19<1:34:11,  3.46s/it][A
Training...:  37% 976/2609 [1:08:22<1:31:08,  3.35s/it][A
Training...:  37% 977/2609 [1:08:25<1:28:56,  3.27s/it][A
Training...:  37% 978/2609 [1:08:28<1:26:15,  3.17s/it][A
Training...:  38% 979/2609 [1:08:31<1:23:26,  3.07s/it][A
Training...:  38% 980/2609 [1:08:34<1:21:10,  2.99s/it][A
Training...:  38% 981/2609 [1:08:36<1:19:01,  2.91s/it][A
Training...:  38% 982/2609 [1:08:39<1:16:24,  2.82s/it][A
Training...:  38% 983/2609 [1:08:42<1:14:02,  2.73s/it][A
Training...:  38% 984/2609 [1:08:44<1:11:19,  2.63s/it][A
Training...:  38% 985/2609 [1:08:46<1:08:49,  2.54s/it][A
Training...:  38% 986/2609 [1:08:48<1:06:17,  2.45s/it][A
Training...:  38% 987/2609 [1:08:51<1:03:49,  2.36s/it][A
Training...:  38% 988/2609 [1:08:53<1:01:20,  2.27s/it][A
Training...:  38% 989/2609 [1:08:55<58:51,  2.18s/it]  [A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:28:56<12:36:12, 9074.48s/it]
Training...:  38% 989/2609 [1:08:57<58:51,  2.18s/it][A
Training...:  38% 990/2609 [1:08:57<59:49,  2.22s/it][A
Training...:  38% 991/2609 [1:08:59<56:09,  2.08s/it][A
Training...:  38% 992/2609 [1:09:00<52:53,  1.96s/it][A
Training...:  38% 993/2609 [1:09:02<49:28,  1.84s/it][A
Training...:  38% 994/2609 [1:09:03<46:19,  1.72s/it][A
Training...:  38% 995/2609 [1:09:05<43:08,  1.60s/it][A
Training...:  38% 996/2609 [1:09:06<40:10,  1.49s/it][A
Training...:  38% 997/2609 [1:09:07<37:00,  1.38s/it][A
Training...:  38% 998/2609 [1:09:08<33:31,  1.25s/it][A
Training...:  38% 999/2609 [1:09:09<29:42,  1.11s/it][A
Training...:  38% 1000/2609 [1:09:09<25:18,  1.06it/s][A
Training...:  38% 1001/2609 [1:09:16<1:14:04,  2.76s/it][A
Training...:  38% 1002/2609 [1:09:23<1:47:56,  4.03s/it][A
Training...:  38% 1003/2609 [1:09:30<2:08:26,  4.80s/it][A
Training...:  38% 1004/2609 [1:09:36<2:20:12,  5.24s/it][A
Training...:  39% 1005/2609 [1:09:42<2:26:34,  5.48s/it][A
Training...:  39% 1006/2609 [1:09:48<2:28:57,  5.58s/it][A
Training...:  39% 1007/2609 [1:09:54<2:28:04,  5.55s/it][A
Training...:  39% 1008/2609 [1:09:59<2:25:37,  5.46s/it][A
Training...:  39% 1009/2609 [1:10:04<2:23:11,  5.37s/it][A
Training...:  39% 1010/2609 [1:10:09<2:18:20,  5.19s/it][A
Training...:  39% 1011/2609 [1:10:14<2:15:02,  5.07s/it][A
Training...:  39% 1012/2609 [1:10:18<2:11:55,  4.96s/it][A
Training...:  39% 1013/2609 [1:10:23<2:08:34,  4.83s/it][A
Training...:  39% 1014/2609 [1:10:27<2:04:35,  4.69s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:30:31<12:36:12, 9074.48s/it]
Training...:  39% 1014/2609 [1:10:32<2:04:35,  4.69s/it][A
Training...:  39% 1015/2609 [1:10:32<2:06:56,  4.78s/it][A
Training...:  39% 1016/2609 [1:10:36<2:01:29,  4.58s/it][A
Training...:  39% 1017/2609 [1:10:40<1:56:48,  4.40s/it][A
Training...:  39% 1018/2609 [1:10:44<1:52:50,  4.26s/it][A
Training...:  39% 1019/2609 [1:10:48<1:49:13,  4.12s/it][A
Training...:  39% 1020/2609 [1:10:52<1:45:39,  3.99s/it][A
Training...:  39% 1021/2609 [1:10:55<1:42:46,  3.88s/it][A
Training...:  39% 1022/2609 [1:10:59<1:40:16,  3.79s/it][A
Training...:  39% 1023/2609 [1:11:02<1:37:06,  3.67s/it][A
Training...:  39% 1024/2609 [1:11:06<1:34:06,  3.56s/it][A
Training...:  39% 1025/2609 [1:11:09<1:31:21,  3.46s/it][A
Training...:  39% 1026/2609 [1:11:12<1:28:31,  3.36s/it][A
Training...:  39% 1027/2609 [1:11:15<1:26:23,  3.28s/it][A
Training...:  39% 1028/2609 [1:11:18<1:23:58,  3.19s/it][A
Training...:  39% 1029/2609 [1:11:21<1:22:08,  3.12s/it][A
Training...:  39% 1030/2609 [1:11:24<1:20:12,  3.05s/it][A
Training...:  40% 1031/2609 [1:11:27<1:18:27,  2.98s/it][A
Training...:  40% 1032/2609 [1:11:29<1:16:01,  2.89s/it][A
Training...:  40% 1033/2609 [1:11:32<1:14:27,  2.83s/it][A
Training...:  40% 1034/2609 [1:11:35<1:12:09,  2.75s/it][A
Training...:  40% 1035/2609 [1:11:37<1:09:52,  2.66s/it][A
Training...:  40% 1036/2609 [1:11:39<1:07:37,  2.58s/it][A
Training...:  40% 1037/2609 [1:11:42<1:05:21,  2.49s/it][A
Training...:  40% 1038/2609 [1:11:44<1:03:14,  2.42s/it][A
Training...:  40% 1039/2609 [1:11:46<1:00:56,  2.33s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:31:47<12:36:12, 9074.48s/it]
Training...:  40% 1039/2609 [1:11:48<1:00:56,  2.33s/it][A
Training...:  40% 1040/2609 [1:11:48<1:01:38,  2.36s/it][A
Training...:  40% 1041/2609 [1:11:50<58:27,  2.24s/it]  [A
Training...:  40% 1042/2609 [1:11:52<55:15,  2.12s/it][A
Training...:  40% 1043/2609 [1:11:54<52:04,  1.99s/it][A
Training...:  40% 1044/2609 [1:11:56<48:58,  1.88s/it][A
Training...:  40% 1045/2609 [1:11:57<45:51,  1.76s/it][A
Training...:  40% 1046/2609 [1:11:58<42:38,  1.64s/it][A
Training...:  40% 1047/2609 [1:12:00<39:17,  1.51s/it][A
Training...:  40% 1048/2609 [1:12:01<35:29,  1.36s/it][A
Training...:  40% 1049/2609 [1:12:01<31:32,  1.21s/it][A
Training...:  40% 1050/2609 [1:12:02<26:35,  1.02s/it][A
Training...:  40% 1051/2609 [1:12:09<1:14:33,  2.87s/it][A
Training...:  40% 1052/2609 [1:12:16<1:47:01,  4.12s/it][A
Training...:  40% 1053/2609 [1:12:23<2:06:55,  4.89s/it][A
Training...:  40% 1054/2609 [1:12:29<2:18:41,  5.35s/it][A
Training...:  40% 1055/2609 [1:12:36<2:25:11,  5.61s/it][A
Training...:  40% 1056/2609 [1:12:41<2:27:08,  5.68s/it][A
Training...:  41% 1057/2609 [1:12:47<2:27:07,  5.69s/it][A
Training...:  41% 1058/2609 [1:12:53<2:25:16,  5.62s/it][A
Training...:  41% 1059/2609 [1:12:58<2:23:31,  5.56s/it][A
Training...:  41% 1060/2609 [1:13:03<2:19:51,  5.42s/it][A
Training...:  41% 1061/2609 [1:13:08<2:16:05,  5.27s/it][A
Training...:  41% 1062/2609 [1:13:13<2:12:21,  5.13s/it][A
Training...:  41% 1063/2609 [1:13:18<2:08:20,  4.98s/it][A
Training...:  41% 1064/2609 [1:13:22<2:07:56,  4.97s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:33:27<12:36:12, 9074.48s/it]
Training...:  41% 1064/2609 [1:13:28<2:07:56,  4.97s/it][A
Training...:  41% 1065/2609 [1:13:28<2:10:07,  5.06s/it][A
Training...:  41% 1066/2609 [1:13:32<2:04:02,  4.82s/it][A
Training...:  41% 1067/2609 [1:13:36<1:59:58,  4.67s/it][A
Training...:  41% 1068/2609 [1:13:40<1:55:42,  4.50s/it][A
Training...:  41% 1069/2609 [1:13:45<1:52:25,  4.38s/it][A
Training...:  41% 1070/2609 [1:13:48<1:49:02,  4.25s/it][A
Training...:  41% 1071/2609 [1:13:52<1:45:45,  4.13s/it][A
Training...:  41% 1072/2609 [1:13:56<1:41:45,  3.97s/it][A
Training...:  41% 1073/2609 [1:13:59<1:38:37,  3.85s/it][A
Training...:  41% 1074/2609 [1:14:03<1:35:22,  3.73s/it][A
Training...:  41% 1075/2609 [1:14:06<1:32:18,  3.61s/it][A
Training...:  41% 1076/2609 [1:14:10<1:29:40,  3.51s/it][A
Training...:  41% 1077/2609 [1:14:13<1:26:58,  3.41s/it][A
Training...:  41% 1078/2609 [1:14:16<1:24:18,  3.30s/it][A
Training...:  41% 1079/2609 [1:14:19<1:21:54,  3.21s/it][A
Training...:  41% 1080/2609 [1:14:22<1:19:11,  3.11s/it][A
Training...:  41% 1081/2609 [1:14:24<1:16:51,  3.02s/it][A
Training...:  41% 1082/2609 [1:14:27<1:14:26,  2.93s/it][A
Training...:  42% 1083/2609 [1:14:30<1:11:47,  2.82s/it][A
Training...:  42% 1084/2609 [1:14:32<1:09:21,  2.73s/it][A
Training...:  42% 1085/2609 [1:14:35<1:07:21,  2.65s/it][A
Training...:  42% 1086/2609 [1:14:37<1:05:15,  2.57s/it][A
Training...:  42% 1087/2609 [1:14:39<1:02:54,  2.48s/it][A
Training...:  42% 1088/2609 [1:14:41<1:00:14,  2.38s/it][A
Training...:  42% 1089/2609 [1:14:44<57:43,  2.28s/it]  [A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:34:45<12:36:12, 9074.48s/it]
Training...:  42% 1089/2609 [1:14:46<57:43,  2.28s/it][A
Training...:  42% 1090/2609 [1:14:46<58:32,  2.31s/it][A
Training...:  42% 1091/2609 [1:14:48<55:22,  2.19s/it][A
Training...:  42% 1092/2609 [1:14:50<52:21,  2.07s/it][A
Training...:  42% 1093/2609 [1:14:51<49:38,  1.96s/it][A
Training...:  42% 1094/2609 [1:14:53<46:39,  1.85s/it][A
Training...:  42% 1095/2609 [1:14:54<43:43,  1.73s/it][A
Training...:  42% 1096/2609 [1:14:56<40:46,  1.62s/it][A
Training...:  42% 1097/2609 [1:14:57<37:44,  1.50s/it][A
Training...:  42% 1098/2609 [1:14:58<34:14,  1.36s/it][A
Training...:  42% 1099/2609 [1:14:59<30:08,  1.20s/it][A
Training...:  42% 1100/2609 [1:14:59<25:09,  1.00s/it][A
Training...:  42% 1101/2609 [1:15:07<1:11:34,  2.85s/it][A
Training...:  42% 1102/2609 [1:15:14<1:43:32,  4.12s/it][A
Training...:  42% 1103/2609 [1:15:20<2:02:43,  4.89s/it][A
Training...:  42% 1104/2609 [1:15:27<2:13:14,  5.31s/it][A
Training...:  42% 1105/2609 [1:15:33<2:19:34,  5.57s/it][A
Training...:  42% 1106/2609 [1:15:39<2:21:40,  5.66s/it][A
Training...:  42% 1107/2609 [1:15:44<2:21:37,  5.66s/it][A
Training...:  42% 1108/2609 [1:15:50<2:19:18,  5.57s/it][A
Training...:  43% 1109/2609 [1:15:55<2:16:43,  5.47s/it][A
Training...:  43% 1110/2609 [1:16:00<2:13:25,  5.34s/it][A
Training...:  43% 1111/2609 [1:16:05<2:09:58,  5.21s/it][A
Training...:  43% 1112/2609 [1:16:10<2:06:25,  5.07s/it][A
Training...:  43% 1113/2609 [1:16:14<2:03:01,  4.93s/it][A
Training...:  43% 1114/2609 [1:16:19<1:59:50,  4.81s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:36:23<12:36:12, 9074.48s/it]
Training...:  43% 1114/2609 [1:16:24<1:59:50,  4.81s/it][A
Training...:  43% 1115/2609 [1:16:24<2:01:22,  4.87s/it][A
Training...:  43% 1116/2609 [1:16:28<1:56:03,  4.66s/it][A
Training...:  43% 1117/2609 [1:16:32<1:51:55,  4.50s/it][A
Training...:  43% 1118/2609 [1:16:36<1:47:49,  4.34s/it][A
Training...:  43% 1119/2609 [1:16:40<1:44:23,  4.20s/it][A
Training...:  43% 1120/2609 [1:16:44<1:40:57,  4.07s/it][A
Training...:  43% 1121/2609 [1:16:47<1:38:06,  3.96s/it][A
Training...:  43% 1122/2609 [1:16:51<1:35:03,  3.84s/it][A
Training...:  43% 1123/2609 [1:16:54<1:31:58,  3.71s/it][A
Training...:  43% 1124/2609 [1:16:58<1:29:17,  3.61s/it][A
Training...:  43% 1125/2609 [1:17:01<1:26:46,  3.51s/it][A
Training...:  43% 1126/2609 [1:17:04<1:23:58,  3.40s/it][A
Training...:  43% 1127/2609 [1:17:07<1:21:20,  3.29s/it][A
Training...:  43% 1128/2609 [1:17:10<1:18:40,  3.19s/it][A
Training...:  43% 1129/2609 [1:17:13<1:16:23,  3.10s/it][A
Training...:  43% 1130/2609 [1:17:16<1:14:17,  3.01s/it][A
Training...:  43% 1131/2609 [1:17:18<1:11:49,  2.92s/it][A
Training...:  43% 1132/2609 [1:17:21<1:09:40,  2.83s/it][A
Training...:  43% 1133/2609 [1:17:24<1:07:36,  2.75s/it][A
Training...:  43% 1134/2609 [1:17:26<1:05:30,  2.66s/it][A
Training...:  44% 1135/2609 [1:17:28<1:03:21,  2.58s/it][A
Training...:  44% 1136/2609 [1:17:31<1:01:03,  2.49s/it][A
Training...:  44% 1137/2609 [1:17:33<59:17,  2.42s/it]  [A
Training...:  44% 1138/2609 [1:17:35<56:56,  2.32s/it][A
Training...:  44% 1139/2609 [1:17:37<55:06,  2.25s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:37:39<12:36:12, 9074.48s/it]
Training...:  44% 1139/2609 [1:17:40<55:06,  2.25s/it][A
Training...:  44% 1140/2609 [1:17:40<55:53,  2.28s/it][A
Training...:  44% 1141/2609 [1:17:41<52:49,  2.16s/it][A
Training...:  44% 1142/2609 [1:17:43<49:40,  2.03s/it][A
Training...:  44% 1143/2609 [1:17:45<47:10,  1.93s/it][A
Training...:  44% 1144/2609 [1:17:46<44:26,  1.82s/it][A
Training...:  44% 1145/2609 [1:17:48<41:30,  1.70s/it][A
Training...:  44% 1146/2609 [1:17:49<38:27,  1.58s/it][A
Training...:  44% 1147/2609 [1:17:50<35:33,  1.46s/it][A
Training...:  44% 1148/2609 [1:17:51<32:19,  1.33s/it][A
Training...:  44% 1149/2609 [1:17:52<28:44,  1.18s/it][A
Training...:  44% 1150/2609 [1:17:53<24:07,  1.01it/s][A
Training...:  44% 1151/2609 [1:18:00<1:09:43,  2.87s/it][A
Training...:  44% 1152/2609 [1:18:07<1:41:51,  4.19s/it][A
Training...:  44% 1153/2609 [1:18:14<1:59:40,  4.93s/it][A
Training...:  44% 1154/2609 [1:18:20<2:09:39,  5.35s/it][A
Training...:  44% 1155/2609 [1:18:26<2:14:36,  5.55s/it][A
Training...:  44% 1156/2609 [1:18:32<2:16:03,  5.62s/it][A
Training...:  44% 1157/2609 [1:18:38<2:15:55,  5.62s/it][A
Training...:  44% 1158/2609 [1:18:43<2:13:58,  5.54s/it][A
Training...:  44% 1159/2609 [1:18:48<2:12:20,  5.48s/it][A
Training...:  44% 1160/2609 [1:18:53<2:09:07,  5.35s/it][A
Training...:  44% 1161/2609 [1:18:58<2:06:10,  5.23s/it][A
Training...:  45% 1162/2609 [1:19:03<2:02:26,  5.08s/it][A
Training...:  45% 1163/2609 [1:19:08<1:59:13,  4.95s/it][A
Training...:  45% 1164/2609 [1:19:12<1:56:28,  4.84s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:39:16<12:36:12, 9074.48s/it]
Training...:  45% 1164/2609 [1:19:17<1:56:28,  4.84s/it][A
Training...:  45% 1165/2609 [1:19:17<1:58:02,  4.90s/it][A
Training...:  45% 1166/2609 [1:19:22<1:53:03,  4.70s/it][A
Training...:  45% 1167/2609 [1:19:26<1:49:26,  4.55s/it][A
Training...:  45% 1168/2609 [1:19:30<1:45:20,  4.39s/it][A
Training...:  45% 1169/2609 [1:19:34<1:42:12,  4.26s/it][A
Training...:  45% 1170/2609 [1:19:38<1:39:01,  4.13s/it][A
Training...:  45% 1171/2609 [1:19:41<1:36:16,  4.02s/it][A
Training...:  45% 1172/2609 [1:19:45<1:33:25,  3.90s/it][A
Training...:  45% 1173/2609 [1:19:49<1:31:18,  3.81s/it][A
Training...:  45% 1174/2609 [1:19:52<1:28:43,  3.71s/it][A
Training...:  45% 1175/2609 [1:19:55<1:26:04,  3.60s/it][A
Training...:  45% 1176/2609 [1:19:59<1:23:42,  3.50s/it][A
Training...:  45% 1177/2609 [1:20:02<1:21:26,  3.41s/it][A
Training...:  45% 1178/2609 [1:20:05<1:19:04,  3.32s/it][A
Training...:  45% 1179/2609 [1:20:08<1:16:54,  3.23s/it][A
Training...:  45% 1180/2609 [1:20:11<1:14:40,  3.14s/it][A
Training...:  45% 1181/2609 [1:20:14<1:12:47,  3.06s/it][A
Training...:  45% 1182/2609 [1:20:16<1:10:32,  2.97s/it][A
Training...:  45% 1183/2609 [1:20:19<1:08:38,  2.89s/it][A
Training...:  45% 1184/2609 [1:20:22<1:06:21,  2.79s/it][A
Training...:  45% 1185/2609 [1:20:24<1:04:13,  2.71s/it][A
Training...:  45% 1186/2609 [1:20:27<1:01:56,  2.61s/it][A
Training...:  45% 1187/2609 [1:20:29<59:44,  2.52s/it]  [A
Training...:  46% 1188/2609 [1:20:31<57:09,  2.41s/it][A
Training...:  46% 1189/2609 [1:20:33<54:49,  2.32s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:40:35<12:36:12, 9074.48s/it]
Training...:  46% 1189/2609 [1:20:36<54:49,  2.32s/it][A
Training...:  46% 1190/2609 [1:20:36<55:35,  2.35s/it][A
Training...:  46% 1191/2609 [1:20:38<52:31,  2.22s/it][A
Training...:  46% 1192/2609 [1:20:39<49:14,  2.09s/it][A
Training...:  46% 1193/2609 [1:20:41<46:42,  1.98s/it][A
Training...:  46% 1194/2609 [1:20:43<43:46,  1.86s/it][A
Training...:  46% 1195/2609 [1:20:44<41:01,  1.74s/it][A
Training...:  46% 1196/2609 [1:20:45<37:53,  1.61s/it][A
Training...:  46% 1197/2609 [1:20:47<34:51,  1.48s/it][A
Training...:  46% 1198/2609 [1:20:48<31:25,  1.34s/it][A
Training...:  46% 1199/2609 [1:20:48<27:43,  1.18s/it][A
Training...:  46% 1200/2609 [1:20:49<23:21,  1.01it/s][A
Training...:  46% 1201/2609 [1:20:56<1:06:11,  2.82s/it][A
Training...:  46% 1202/2609 [1:21:03<1:36:25,  4.11s/it][A
Training...:  46% 1203/2609 [1:21:10<1:55:50,  4.94s/it][A
Training...:  46% 1204/2609 [1:21:17<2:07:21,  5.44s/it][A
Training...:  46% 1205/2609 [1:21:23<2:12:41,  5.67s/it][A
Training...:  46% 1206/2609 [1:21:29<2:14:02,  5.73s/it][A
Training...:  46% 1207/2609 [1:21:34<2:13:18,  5.71s/it][A
Training...:  46% 1208/2609 [1:21:40<2:11:02,  5.61s/it][A
Training...:  46% 1209/2609 [1:21:45<2:08:17,  5.50s/it][A
Training...:  46% 1210/2609 [1:21:50<2:05:05,  5.37s/it][A
Training...:  46% 1211/2609 [1:21:55<2:01:52,  5.23s/it][A
Training...:  46% 1212/2609 [1:22:00<1:57:46,  5.06s/it][A
Training...:  46% 1213/2609 [1:22:04<1:54:25,  4.92s/it][A
Training...:  47% 1214/2609 [1:22:09<1:51:16,  4.79s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:42:13<12:36:12, 9074.48s/it]
Training...:  47% 1214/2609 [1:22:14<1:51:16,  4.79s/it][A
Training...:  47% 1215/2609 [1:22:14<1:52:40,  4.85s/it][A
Training...:  47% 1216/2609 [1:22:18<1:47:45,  4.64s/it][A
Training...:  47% 1217/2609 [1:22:22<1:43:57,  4.48s/it][A
Training...:  47% 1218/2609 [1:22:26<1:40:12,  4.32s/it][A
Training...:  47% 1219/2609 [1:22:30<1:37:27,  4.21s/it][A
Training...:  47% 1220/2609 [1:22:34<1:34:10,  4.07s/it][A
Training...:  47% 1221/2609 [1:22:37<1:31:43,  3.97s/it][A
Training...:  47% 1222/2609 [1:22:41<1:29:05,  3.85s/it][A
Training...:  47% 1223/2609 [1:22:44<1:26:18,  3.74s/it][A
Training...:  47% 1224/2609 [1:22:48<1:23:45,  3.63s/it][A
Training...:  47% 1225/2609 [1:22:51<1:21:06,  3.52s/it][A
Training...:  47% 1226/2609 [1:22:54<1:18:50,  3.42s/it][A
Training...:  47% 1227/2609 [1:22:57<1:16:56,  3.34s/it][A
Training...:  47% 1228/2609 [1:23:00<1:14:48,  3.25s/it][A
Training...:  47% 1229/2609 [1:23:03<1:13:03,  3.18s/it][A
Training...:  47% 1230/2609 [1:23:06<1:10:53,  3.08s/it][A
Training...:  47% 1231/2609 [1:23:09<1:08:38,  2.99s/it][A
Training...:  47% 1232/2609 [1:23:12<1:06:11,  2.88s/it][A
Training...:  47% 1233/2609 [1:23:14<1:03:57,  2.79s/it][A
Training...:  47% 1234/2609 [1:23:17<1:01:48,  2.70s/it][A
Training...:  47% 1235/2609 [1:23:19<59:58,  2.62s/it]  [A
Training...:  47% 1236/2609 [1:23:22<58:01,  2.54s/it][A
Training...:  47% 1237/2609 [1:23:24<56:01,  2.45s/it][A
Training...:  47% 1238/2609 [1:23:26<53:49,  2.36s/it][A
Training...:  47% 1239/2609 [1:23:28<51:39,  2.26s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:43:29<12:36:12, 9074.48s/it]
Training...:  47% 1239/2609 [1:23:30<51:39,  2.26s/it][A
Training...:  48% 1240/2609 [1:23:30<52:18,  2.29s/it][A
Training...:  48% 1241/2609 [1:23:32<49:19,  2.16s/it][A
Training...:  48% 1242/2609 [1:23:34<46:31,  2.04s/it][A
Training...:  48% 1243/2609 [1:23:36<43:56,  1.93s/it][A
Training...:  48% 1244/2609 [1:23:37<41:16,  1.81s/it][A
Training...:  48% 1245/2609 [1:23:39<38:42,  1.70s/it][A
Training...:  48% 1246/2609 [1:23:40<35:52,  1.58s/it][A
Training...:  48% 1247/2609 [1:23:41<32:45,  1.44s/it][A
Training...:  48% 1248/2609 [1:23:42<29:20,  1.29s/it][A
Training...:  48% 1249/2609 [1:23:43<25:45,  1.14s/it][A
Training...:  48% 1250/2609 [1:23:43<21:37,  1.05it/s][A
Training...:  48% 1251/2609 [1:23:51<1:05:31,  2.89s/it][A
Training...:  48% 1252/2609 [1:23:58<1:34:36,  4.18s/it][A
Training...:  48% 1253/2609 [1:24:05<1:51:41,  4.94s/it][A
Training...:  48% 1254/2609 [1:24:11<2:01:07,  5.36s/it][A
Training...:  48% 1255/2609 [1:24:17<2:06:02,  5.59s/it][A
Training...:  48% 1256/2609 [1:24:23<2:07:31,  5.65s/it][A
Training...:  48% 1257/2609 [1:24:28<2:06:21,  5.61s/it][A
Training...:  48% 1258/2609 [1:24:34<2:03:30,  5.48s/it][A
Training...:  48% 1259/2609 [1:24:39<2:00:40,  5.36s/it][A
Training...:  48% 1260/2609 [1:24:43<1:57:11,  5.21s/it][A
Training...:  48% 1261/2609 [1:24:48<1:54:26,  5.09s/it][A
Training...:  48% 1262/2609 [1:24:53<1:50:43,  4.93s/it][A
Training...:  48% 1263/2609 [1:24:57<1:47:57,  4.81s/it][A
Training...:  48% 1264/2609 [1:25:02<1:44:41,  4.67s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:45:06<12:36:12, 9074.48s/it]
Training...:  48% 1264/2609 [1:25:07<1:44:41,  4.67s/it][A
Training...:  48% 1265/2609 [1:25:07<1:46:31,  4.76s/it][A
Training...:  49% 1266/2609 [1:25:11<1:42:42,  4.59s/it][A
Training...:  49% 1267/2609 [1:25:15<1:39:24,  4.44s/it][A
Training...:  49% 1268/2609 [1:25:19<1:35:59,  4.29s/it][A
Training...:  49% 1269/2609 [1:25:23<1:33:12,  4.17s/it][A
Training...:  49% 1270/2609 [1:25:27<1:30:07,  4.04s/it][A
Training...:  49% 1271/2609 [1:25:30<1:27:43,  3.93s/it][A
Training...:  49% 1272/2609 [1:25:34<1:25:16,  3.83s/it][A
Training...:  49% 1273/2609 [1:25:37<1:23:01,  3.73s/it][A
Training...:  49% 1274/2609 [1:25:41<1:20:38,  3.62s/it][A
Training...:  49% 1275/2609 [1:25:44<1:18:29,  3.53s/it][A
Training...:  49% 1276/2609 [1:25:47<1:15:50,  3.41s/it][A
Training...:  49% 1277/2609 [1:25:50<1:13:54,  3.33s/it][A
Training...:  49% 1278/2609 [1:25:53<1:11:28,  3.22s/it][A
Training...:  49% 1279/2609 [1:25:56<1:09:35,  3.14s/it][A
Training...:  49% 1280/2609 [1:25:59<1:07:31,  3.05s/it][A
Training...:  49% 1281/2609 [1:26:02<1:05:46,  2.97s/it][A
Training...:  49% 1282/2609 [1:26:05<1:03:46,  2.88s/it][A
Training...:  49% 1283/2609 [1:26:07<1:01:53,  2.80s/it][A
Training...:  49% 1284/2609 [1:26:10<59:57,  2.72s/it]  [A
Training...:  49% 1285/2609 [1:26:12<58:23,  2.65s/it][A
Training...:  49% 1286/2609 [1:26:15<56:48,  2.58s/it][A
Training...:  49% 1287/2609 [1:26:17<55:08,  2.50s/it][A
Training...:  49% 1288/2609 [1:26:19<52:53,  2.40s/it][A
Training...:  49% 1289/2609 [1:26:21<50:35,  2.30s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:46:22<12:36:12, 9074.48s/it]
Training...:  49% 1289/2609 [1:26:23<50:35,  2.30s/it][A
Training...:  49% 1290/2609 [1:26:23<51:04,  2.32s/it][A
Training...:  49% 1291/2609 [1:26:25<48:01,  2.19s/it][A
Training...:  50% 1292/2609 [1:26:27<45:03,  2.05s/it][A
Training...:  50% 1293/2609 [1:26:29<42:34,  1.94s/it][A
Training...:  50% 1294/2609 [1:26:30<39:57,  1.82s/it][A
Training...:  50% 1295/2609 [1:26:32<37:24,  1.71s/it][A
Training...:  50% 1296/2609 [1:26:33<34:39,  1.58s/it][A
Training...:  50% 1297/2609 [1:26:34<31:52,  1.46s/it][A
Training...:  50% 1298/2609 [1:26:35<28:43,  1.31s/it][A
Training...:  50% 1299/2609 [1:26:36<25:14,  1.16s/it][A
Training...:  50% 1300/2609 [1:26:37<21:11,  1.03it/s][A
Training...:  50% 1301/2609 [1:26:44<1:02:11,  2.85s/it][A
Training...:  50% 1302/2609 [1:26:51<1:30:42,  4.16s/it][A
Training...:  50% 1303/2609 [1:26:58<1:46:15,  4.88s/it][A
Training...:  50% 1304/2609 [1:27:04<1:55:55,  5.33s/it][A
Training...:  50% 1305/2609 [1:27:10<2:00:35,  5.55s/it][A
Training...:  50% 1306/2609 [1:27:16<2:02:09,  5.63s/it][A
Training...:  50% 1307/2609 [1:27:21<2:01:50,  5.61s/it][A
Training...:  50% 1308/2609 [1:27:27<1:59:25,  5.51s/it][A
Training...:  50% 1309/2609 [1:27:32<1:57:17,  5.41s/it][A
Training...:  50% 1310/2609 [1:27:37<1:54:27,  5.29s/it][A
Training...:  50% 1311/2609 [1:27:42<1:51:20,  5.15s/it][A
Training...:  50% 1312/2609 [1:27:46<1:48:31,  5.02s/it][A
Training...:  50% 1313/2609 [1:27:51<1:45:24,  4.88s/it][A
Training...:  50% 1314/2609 [1:27:55<1:41:58,  4.72s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:47:59<12:36:12, 9074.48s/it]
Training...:  50% 1314/2609 [1:28:00<1:41:58,  4.72s/it][A
Training...:  50% 1315/2609 [1:28:00<1:43:23,  4.79s/it][A
Training...:  50% 1316/2609 [1:28:04<1:38:54,  4.59s/it][A
Training...:  50% 1317/2609 [1:28:08<1:35:25,  4.43s/it][A
Training...:  51% 1318/2609 [1:28:12<1:32:13,  4.29s/it][A
Training...:  51% 1319/2609 [1:28:16<1:29:15,  4.15s/it][A
Training...:  51% 1320/2609 [1:28:20<1:27:28,  4.07s/it][A
Training...:  51% 1321/2609 [1:28:24<1:25:36,  3.99s/it][A
Training...:  51% 1322/2609 [1:28:27<1:23:06,  3.87s/it][A
Training...:  51% 1323/2609 [1:28:31<1:20:43,  3.77s/it][A
Training...:  51% 1324/2609 [1:28:34<1:18:10,  3.65s/it][A
Training...:  51% 1325/2609 [1:28:38<1:16:00,  3.55s/it][A
Training...:  51% 1326/2609 [1:28:41<1:13:12,  3.42s/it][A
Training...:  51% 1327/2609 [1:28:44<1:10:50,  3.32s/it][A
Training...:  51% 1328/2609 [1:28:47<1:08:31,  3.21s/it][A
Training...:  51% 1329/2609 [1:28:50<1:06:28,  3.12s/it][A
Training...:  51% 1330/2609 [1:28:53<1:04:22,  3.02s/it][A
Training...:  51% 1331/2609 [1:28:55<1:02:17,  2.92s/it][A
Training...:  51% 1332/2609 [1:28:58<1:00:16,  2.83s/it][A
Training...:  51% 1333/2609 [1:29:00<58:21,  2.74s/it]  [A
Training...:  51% 1334/2609 [1:29:03<56:25,  2.66s/it][A
Training...:  51% 1335/2609 [1:29:05<54:49,  2.58s/it][A
Training...:  51% 1336/2609 [1:29:08<52:51,  2.49s/it][A
Training...:  51% 1337/2609 [1:29:10<51:15,  2.42s/it][A
Training...:  51% 1338/2609 [1:29:12<49:19,  2.33s/it][A
Training...:  51% 1339/2609 [1:29:14<47:18,  2.23s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:49:15<12:36:12, 9074.48s/it]
Training...:  51% 1339/2609 [1:29:16<47:18,  2.23s/it][A
Training...:  51% 1340/2609 [1:29:16<47:43,  2.26s/it][A
Training...:  51% 1341/2609 [1:29:18<44:53,  2.12s/it][A
Training...:  51% 1342/2609 [1:29:20<42:15,  2.00s/it][A
Training...:  51% 1343/2609 [1:29:21<39:47,  1.89s/it][A
Training...:  52% 1344/2609 [1:29:23<37:07,  1.76s/it][A
Training...:  52% 1345/2609 [1:29:24<34:36,  1.64s/it][A
Training...:  52% 1346/2609 [1:29:25<32:07,  1.53s/it][A
Training...:  52% 1347/2609 [1:29:27<29:34,  1.41s/it][A
Training...:  52% 1348/2609 [1:29:28<26:43,  1.27s/it][A
Training...:  52% 1349/2609 [1:29:28<23:48,  1.13s/it][A
Training...:  52% 1350/2609 [1:29:29<20:20,  1.03it/s][A
Training...:  52% 1351/2609 [1:29:36<59:47,  2.85s/it][A
Training...:  52% 1352/2609 [1:29:43<1:25:52,  4.10s/it][A
Training...:  52% 1353/2609 [1:29:50<1:41:11,  4.83s/it][A
Training...:  52% 1354/2609 [1:29:56<1:49:36,  5.24s/it][A
Training...:  52% 1355/2609 [1:30:02<1:53:40,  5.44s/it][A
Training...:  52% 1356/2609 [1:30:07<1:54:41,  5.49s/it][A
Training...:  52% 1357/2609 [1:30:13<1:54:31,  5.49s/it][A
Training...:  52% 1358/2609 [1:30:18<1:52:39,  5.40s/it][A
Training...:  52% 1359/2609 [1:30:23<1:50:58,  5.33s/it][A
Training...:  52% 1360/2609 [1:30:28<1:48:48,  5.23s/it][A
Training...:  52% 1361/2609 [1:30:33<1:45:50,  5.09s/it][A
Training...:  52% 1362/2609 [1:30:38<1:42:39,  4.94s/it][A
Training...:  52% 1363/2609 [1:30:42<1:40:11,  4.82s/it][A
Training...:  52% 1364/2609 [1:30:47<1:37:26,  4.70s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:50:50<12:36:12, 9074.48s/it]
Training...:  52% 1364/2609 [1:30:51<1:37:26,  4.70s/it][A
Training...:  52% 1365/2609 [1:30:51<1:38:34,  4.75s/it][A
Training...:  52% 1366/2609 [1:30:56<1:34:18,  4.55s/it][A
Training...:  52% 1367/2609 [1:31:00<1:31:11,  4.41s/it][A
Training...:  52% 1368/2609 [1:31:04<1:28:06,  4.26s/it][A
Training...:  52% 1369/2609 [1:31:07<1:25:45,  4.15s/it][A
Training...:  53% 1370/2609 [1:31:11<1:23:12,  4.03s/it][A
Training...:  53% 1371/2609 [1:31:15<1:20:37,  3.91s/it][A
Training...:  53% 1372/2609 [1:31:18<1:18:13,  3.79s/it][A
Training...:  53% 1373/2609 [1:31:22<1:16:20,  3.71s/it][A
Training...:  53% 1374/2609 [1:31:25<1:14:17,  3.61s/it][A
Training...:  53% 1375/2609 [1:31:29<1:12:31,  3.53s/it][A
Training...:  53% 1376/2609 [1:31:32<1:10:19,  3.42s/it][A
Training...:  53% 1377/2609 [1:31:35<1:08:25,  3.33s/it][A
Training...:  53% 1378/2609 [1:31:38<1:06:21,  3.23s/it][A
Training...:  53% 1379/2609 [1:31:41<1:04:19,  3.14s/it][A
Training...:  53% 1380/2609 [1:31:44<1:02:17,  3.04s/it][A
Training...:  53% 1381/2609 [1:31:46<1:00:29,  2.96s/it][A
Training...:  53% 1382/2609 [1:31:49<58:29,  2.86s/it]  [A
Training...:  53% 1383/2609 [1:31:52<56:48,  2.78s/it][A
Training...:  53% 1384/2609 [1:31:54<55:04,  2.70s/it][A
Training...:  53% 1385/2609 [1:31:57<53:28,  2.62s/it][A
Training...:  53% 1386/2609 [1:31:59<51:46,  2.54s/it][A
Training...:  53% 1387/2609 [1:32:01<49:51,  2.45s/it][A
Training...:  53% 1388/2609 [1:32:03<47:45,  2.35s/it][A
Training...:  53% 1389/2609 [1:32:05<45:54,  2.26s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:52:07<12:36:12, 9074.48s/it]
Training...:  53% 1389/2609 [1:32:08<45:54,  2.26s/it][A
Training...:  53% 1390/2609 [1:32:08<46:34,  2.29s/it][A
Training...:  53% 1391/2609 [1:32:09<43:51,  2.16s/it][A
Training...:  53% 1392/2609 [1:32:11<41:16,  2.03s/it][A
Training...:  53% 1393/2609 [1:32:13<38:53,  1.92s/it][A
Training...:  53% 1394/2609 [1:32:14<36:25,  1.80s/it][A
Training...:  53% 1395/2609 [1:32:16<33:54,  1.68s/it][A
Training...:  54% 1396/2609 [1:32:17<31:21,  1.55s/it][A
Training...:  54% 1397/2609 [1:32:18<28:49,  1.43s/it][A
Training...:  54% 1398/2609 [1:32:19<25:53,  1.28s/it][A
Training...:  54% 1399/2609 [1:32:20<22:52,  1.13s/it][A
Training...:  54% 1400/2609 [1:32:20<19:18,  1.04it/s][A
Training...:  54% 1401/2609 [1:32:28<57:51,  2.87s/it][A
Training...:  54% 1402/2609 [1:32:35<1:23:24,  4.15s/it][A
Training...:  54% 1403/2609 [1:32:42<1:38:23,  4.90s/it][A
Training...:  54% 1404/2609 [1:32:48<1:47:06,  5.33s/it][A
Training...:  54% 1405/2609 [1:32:54<1:51:12,  5.54s/it][A
Training...:  54% 1406/2609 [1:33:00<1:51:56,  5.58s/it][A
Training...:  54% 1407/2609 [1:33:05<1:51:59,  5.59s/it][A
Training...:  54% 1408/2609 [1:33:11<1:50:10,  5.50s/it][A
Training...:  54% 1409/2609 [1:33:16<1:47:50,  5.39s/it][A
Training...:  54% 1410/2609 [1:33:21<1:45:15,  5.27s/it][A
Training...:  54% 1411/2609 [1:33:25<1:42:34,  5.14s/it][A
Training...:  54% 1412/2609 [1:33:30<1:39:37,  4.99s/it][A
Training...:  54% 1413/2609 [1:33:35<1:37:09,  4.87s/it][A
Training...:  54% 1414/2609 [1:33:39<1:34:35,  4.75s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:53:43<12:36:12, 9074.48s/it]
Training...:  54% 1414/2609 [1:33:44<1:34:35,  4.75s/it][A
Training...:  54% 1415/2609 [1:33:44<1:36:20,  4.84s/it][A
Training...:  54% 1416/2609 [1:33:49<1:32:56,  4.67s/it][A
Training...:  54% 1417/2609 [1:33:53<1:29:56,  4.53s/it][A
Training...:  54% 1418/2609 [1:33:57<1:26:16,  4.35s/it][A
Training...:  54% 1419/2609 [1:34:01<1:23:25,  4.21s/it][A
Training...:  54% 1420/2609 [1:34:04<1:20:36,  4.07s/it][A
Training...:  54% 1421/2609 [1:34:08<1:18:25,  3.96s/it][A
Training...:  55% 1422/2609 [1:34:12<1:15:54,  3.84s/it][A
Training...:  55% 1423/2609 [1:34:15<1:13:31,  3.72s/it][A
Training...:  55% 1424/2609 [1:34:18<1:11:39,  3.63s/it][A
Training...:  55% 1425/2609 [1:34:22<1:09:30,  3.52s/it][A
Training...:  55% 1426/2609 [1:34:25<1:07:15,  3.41s/it][A
Training...:  55% 1427/2609 [1:34:28<1:05:32,  3.33s/it][A
Training...:  55% 1428/2609 [1:34:31<1:03:50,  3.24s/it][A
Training...:  55% 1429/2609 [1:34:34<1:02:01,  3.15s/it][A
Training...:  55% 1430/2609 [1:34:37<1:00:07,  3.06s/it][A
Training...:  55% 1431/2609 [1:34:40<58:31,  2.98s/it]  [A
Training...:  55% 1432/2609 [1:34:42<56:29,  2.88s/it][A
Training...:  55% 1433/2609 [1:34:45<54:44,  2.79s/it][A
Training...:  55% 1434/2609 [1:34:47<52:54,  2.70s/it][A
Training...:  55% 1435/2609 [1:34:50<51:03,  2.61s/it][A
Training...:  55% 1436/2609 [1:34:52<49:12,  2.52s/it][A
Training...:  55% 1437/2609 [1:34:54<47:38,  2.44s/it][A
Training...:  55% 1438/2609 [1:34:56<45:43,  2.34s/it][A
Training...:  55% 1439/2609 [1:34:58<44:02,  2.26s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:55:00<12:36:12, 9074.48s/it]
Training...:  55% 1439/2609 [1:35:01<44:02,  2.26s/it][A
Training...:  55% 1440/2609 [1:35:01<44:51,  2.30s/it][A
Training...:  55% 1441/2609 [1:35:03<42:08,  2.17s/it][A
Training...:  55% 1442/2609 [1:35:04<39:49,  2.05s/it][A
Training...:  55% 1443/2609 [1:35:06<37:34,  1.93s/it][A
Training...:  55% 1444/2609 [1:35:08<35:09,  1.81s/it][A
Training...:  55% 1445/2609 [1:35:09<32:48,  1.69s/it][A
Training...:  55% 1446/2609 [1:35:10<30:22,  1.57s/it][A
Training...:  55% 1447/2609 [1:35:11<27:44,  1.43s/it][A
Training...:  56% 1448/2609 [1:35:12<24:51,  1.28s/it][A
Training...:  56% 1449/2609 [1:35:13<22:05,  1.14s/it][A
Training...:  56% 1450/2609 [1:35:14<18:31,  1.04it/s][A
Training...:  56% 1451/2609 [1:35:21<54:38,  2.83s/it][A
Training...:  56% 1452/2609 [1:35:28<1:19:22,  4.12s/it][A
Training...:  56% 1453/2609 [1:35:35<1:33:54,  4.87s/it][A
Training...:  56% 1454/2609 [1:35:41<1:42:03,  5.30s/it][A
Training...:  56% 1455/2609 [1:35:47<1:46:47,  5.55s/it][A
Training...:  56% 1456/2609 [1:35:53<1:49:19,  5.69s/it][A
Training...:  56% 1457/2609 [1:35:59<1:49:59,  5.73s/it][A
Training...:  56% 1458/2609 [1:36:04<1:48:03,  5.63s/it][A
Training...:  56% 1459/2609 [1:36:10<1:45:48,  5.52s/it][A
Training...:  56% 1460/2609 [1:36:15<1:42:31,  5.35s/it][A
Training...:  56% 1461/2609 [1:36:19<1:39:23,  5.19s/it][A
Training...:  56% 1462/2609 [1:36:24<1:36:24,  5.04s/it][A
Training...:  56% 1463/2609 [1:36:29<1:33:53,  4.92s/it][A
Training...:  56% 1464/2609 [1:36:33<1:30:48,  4.76s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:56:37<12:36:12, 9074.48s/it]
Training...:  56% 1464/2609 [1:36:38<1:30:48,  4.76s/it][A
Training...:  56% 1465/2609 [1:36:38<1:31:56,  4.82s/it][A
Training...:  56% 1466/2609 [1:36:42<1:28:23,  4.64s/it][A
Training...:  56% 1467/2609 [1:36:46<1:25:17,  4.48s/it][A
Training...:  56% 1468/2609 [1:36:50<1:22:18,  4.33s/it][A
Training...:  56% 1469/2609 [1:36:54<1:20:05,  4.21s/it][A
Training...:  56% 1470/2609 [1:36:58<1:17:43,  4.09s/it][A
Training...:  56% 1471/2609 [1:37:02<1:15:56,  4.00s/it][A
Training...:  56% 1472/2609 [1:37:06<1:13:39,  3.89s/it][A
Training...:  56% 1473/2609 [1:37:09<1:11:42,  3.79s/it][A
Training...:  56% 1474/2609 [1:37:13<1:09:56,  3.70s/it][A
Training...:  57% 1475/2609 [1:37:16<1:07:59,  3.60s/it][A
Training...:  57% 1476/2609 [1:37:19<1:06:23,  3.52s/it][A
Training...:  57% 1477/2609 [1:37:22<1:04:25,  3.42s/it][A
Training...:  57% 1478/2609 [1:37:25<1:02:14,  3.30s/it][A
Training...:  57% 1479/2609 [1:37:28<1:00:17,  3.20s/it][A
Training...:  57% 1480/2609 [1:37:31<58:40,  3.12s/it]  [A
Training...:  57% 1481/2609 [1:37:34<57:38,  3.07s/it][A
Training...:  57% 1482/2609 [1:37:37<55:31,  2.96s/it][A
Training...:  57% 1483/2609 [1:37:40<53:30,  2.85s/it][A
Training...:  57% 1484/2609 [1:37:42<51:34,  2.75s/it][A
Training...:  57% 1485/2609 [1:37:45<49:50,  2.66s/it][A
Training...:  57% 1486/2609 [1:37:47<48:08,  2.57s/it][A
Training...:  57% 1487/2609 [1:37:49<46:31,  2.49s/it][A
Training...:  57% 1488/2609 [1:37:51<44:43,  2.39s/it][A
Training...:  57% 1489/2609 [1:37:54<43:00,  2.30s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:57:55<12:36:12, 9074.48s/it]
Training...:  57% 1489/2609 [1:37:56<43:00,  2.30s/it][A
Training...:  57% 1490/2609 [1:37:56<43:16,  2.32s/it][A
Training...:  57% 1491/2609 [1:37:58<40:34,  2.18s/it][A
Training...:  57% 1492/2609 [1:37:59<38:10,  2.05s/it][A
Training...:  57% 1493/2609 [1:38:01<35:51,  1.93s/it][A
Training...:  57% 1494/2609 [1:38:03<33:40,  1.81s/it][A
Training...:  57% 1495/2609 [1:38:04<31:23,  1.69s/it][A
Training...:  57% 1496/2609 [1:38:05<29:06,  1.57s/it][A
Training...:  57% 1497/2609 [1:38:07<26:47,  1.45s/it][A
Training...:  57% 1498/2609 [1:38:07<24:10,  1.31s/it][A
Training...:  57% 1499/2609 [1:38:08<21:31,  1.16s/it][A
Training...:  57% 1500/2609 [1:38:09<18:11,  1.02it/s][A
Training...:  58% 1501/2609 [1:38:16<52:37,  2.85s/it][A
Training...:  58% 1502/2609 [1:38:23<1:16:07,  4.13s/it][A
Training...:  58% 1503/2609 [1:38:30<1:29:42,  4.87s/it][A
Training...:  58% 1504/2609 [1:38:36<1:37:49,  5.31s/it][A
Training...:  58% 1505/2609 [1:38:42<1:41:49,  5.53s/it][A
Training...:  58% 1506/2609 [1:38:48<1:42:34,  5.58s/it][A
Training...:  58% 1507/2609 [1:38:54<1:42:44,  5.59s/it][A
Training...:  58% 1508/2609 [1:38:59<1:41:04,  5.51s/it][A
Training...:  58% 1509/2609 [1:39:04<1:39:43,  5.44s/it][A
Training...:  58% 1510/2609 [1:39:09<1:37:33,  5.33s/it][A
Training...:  58% 1511/2609 [1:39:14<1:35:23,  5.21s/it][A
Training...:  58% 1512/2609 [1:39:19<1:32:43,  5.07s/it][A
Training...:  58% 1513/2609 [1:39:23<1:30:14,  4.94s/it][A
Training...:  58% 1514/2609 [1:39:28<1:27:57,  4.82s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [39:59:32<12:36:12, 9074.48s/it]
Training...:  58% 1514/2609 [1:39:33<1:27:57,  4.82s/it][A
Training...:  58% 1515/2609 [1:39:33<1:30:07,  4.94s/it][A
Training...:  58% 1516/2609 [1:39:38<1:26:15,  4.74s/it][A
Training...:  58% 1517/2609 [1:39:42<1:22:46,  4.55s/it][A
Training...:  58% 1518/2609 [1:39:46<1:19:24,  4.37s/it][A
Training...:  58% 1519/2609 [1:39:49<1:16:49,  4.23s/it][A
Training...:  58% 1520/2609 [1:39:53<1:13:57,  4.08s/it][A
Training...:  58% 1521/2609 [1:39:57<1:11:35,  3.95s/it][A
Training...:  58% 1522/2609 [1:40:00<1:09:19,  3.83s/it][A
Training...:  58% 1523/2609 [1:40:04<1:07:25,  3.73s/it][A
Training...:  58% 1524/2609 [1:40:07<1:05:40,  3.63s/it][A
Training...:  58% 1525/2609 [1:40:11<1:03:55,  3.54s/it][A
Training...:  58% 1526/2609 [1:40:14<1:01:48,  3.42s/it][A
Training...:  59% 1527/2609 [1:40:17<1:00:08,  3.34s/it][A
Training...:  59% 1528/2609 [1:40:20<58:27,  3.25s/it]  [A
Training...:  59% 1529/2609 [1:40:23<56:53,  3.16s/it][A
Training...:  59% 1530/2609 [1:40:26<55:01,  3.06s/it][A
Training...:  59% 1531/2609 [1:40:29<53:33,  2.98s/it][A
Training...:  59% 1532/2609 [1:40:31<51:54,  2.89s/it][A
Training...:  59% 1533/2609 [1:40:34<50:17,  2.80s/it][A
Training...:  59% 1534/2609 [1:40:36<48:44,  2.72s/it][A
Training...:  59% 1535/2609 [1:40:39<47:05,  2.63s/it][A
Training...:  59% 1536/2609 [1:40:41<45:18,  2.53s/it][A
Training...:  59% 1537/2609 [1:40:43<43:41,  2.44s/it][A
Training...:  59% 1538/2609 [1:40:45<41:50,  2.34s/it][A
Training...:  59% 1539/2609 [1:40:47<40:14,  2.26s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:00:49<12:36:12, 9074.48s/it]
Training...:  59% 1539/2609 [1:40:50<40:14,  2.26s/it][A
Training...:  59% 1540/2609 [1:40:50<40:43,  2.29s/it][A
Training...:  59% 1541/2609 [1:40:52<38:25,  2.16s/it][A
Training...:  59% 1542/2609 [1:40:53<36:09,  2.03s/it][A
Training...:  59% 1543/2609 [1:40:55<34:02,  1.92s/it][A
Training...:  59% 1544/2609 [1:40:57<31:51,  1.79s/it][A
Training...:  59% 1545/2609 [1:40:58<29:47,  1.68s/it][A
Training...:  59% 1546/2609 [1:40:59<27:43,  1.56s/it][A
Training...:  59% 1547/2609 [1:41:00<25:30,  1.44s/it][A
Training...:  59% 1548/2609 [1:41:01<22:56,  1.30s/it][A
Training...:  59% 1549/2609 [1:41:02<20:20,  1.15s/it][A
Training...:  59% 1550/2609 [1:41:03<17:10,  1.03it/s][A
Training...:  59% 1551/2609 [1:41:10<49:49,  2.83s/it][A
Training...:  59% 1552/2609 [1:41:17<1:12:15,  4.10s/it][A
Training...:  60% 1553/2609 [1:41:24<1:25:45,  4.87s/it][A
Training...:  60% 1554/2609 [1:41:30<1:33:04,  5.29s/it][A
Training...:  60% 1555/2609 [1:41:36<1:37:12,  5.53s/it][A
Training...:  60% 1556/2609 [1:41:42<1:38:39,  5.62s/it][A
Training...:  60% 1557/2609 [1:41:48<1:39:23,  5.67s/it][A
Training...:  60% 1558/2609 [1:41:53<1:38:43,  5.64s/it][A
Training...:  60% 1559/2609 [1:41:58<1:36:26,  5.51s/it][A
Training...:  60% 1560/2609 [1:42:03<1:33:32,  5.35s/it][A
Training...:  60% 1561/2609 [1:42:08<1:30:53,  5.20s/it][A
Training...:  60% 1562/2609 [1:42:13<1:28:08,  5.05s/it][A
Training...:  60% 1563/2609 [1:42:18<1:25:39,  4.91s/it][A
Training...:  60% 1564/2609 [1:42:22<1:23:13,  4.78s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:02:26<12:36:12, 9074.48s/it]
Training...:  60% 1564/2609 [1:42:27<1:23:13,  4.78s/it][A
Training...:  60% 1565/2609 [1:42:27<1:23:56,  4.82s/it][A
Training...:  60% 1566/2609 [1:42:31<1:20:33,  4.63s/it][A
Training...:  60% 1567/2609 [1:42:35<1:17:22,  4.45s/it][A
Training...:  60% 1568/2609 [1:42:39<1:14:26,  4.29s/it][A
Training...:  60% 1569/2609 [1:42:43<1:12:22,  4.18s/it][A
Training...:  60% 1570/2609 [1:42:47<1:09:58,  4.04s/it][A
Training...:  60% 1571/2609 [1:42:50<1:07:54,  3.92s/it][A
Training...:  60% 1572/2609 [1:42:54<1:05:38,  3.80s/it][A
Training...:  60% 1573/2609 [1:42:57<1:03:54,  3.70s/it][A
Training...:  60% 1574/2609 [1:43:01<1:01:52,  3.59s/it][A
Training...:  60% 1575/2609 [1:43:04<1:00:21,  3.50s/it][A
Training...:  60% 1576/2609 [1:43:07<58:29,  3.40s/it]  [A
Training...:  60% 1577/2609 [1:43:10<56:48,  3.30s/it][A
Training...:  60% 1578/2609 [1:43:13<55:17,  3.22s/it][A
Training...:  61% 1579/2609 [1:43:16<53:40,  3.13s/it][A
Training...:  61% 1580/2609 [1:43:19<51:49,  3.02s/it][A
Training...:  61% 1581/2609 [1:43:22<50:13,  2.93s/it][A
Training...:  61% 1582/2609 [1:43:24<48:51,  2.85s/it][A
Training...:  61% 1583/2609 [1:43:27<47:19,  2.77s/it][A
Training...:  61% 1584/2609 [1:43:29<45:42,  2.68s/it][A
Training...:  61% 1585/2609 [1:43:32<44:06,  2.58s/it][A
Training...:  61% 1586/2609 [1:43:34<42:35,  2.50s/it][A
Training...:  61% 1587/2609 [1:43:36<41:10,  2.42s/it][A
Training...:  61% 1588/2609 [1:43:38<39:23,  2.31s/it][A
Training...:  61% 1589/2609 [1:43:40<37:52,  2.23s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:03:42<12:36:12, 9074.48s/it]
Training...:  61% 1589/2609 [1:43:43<37:52,  2.23s/it][A
Training...:  61% 1590/2609 [1:43:43<38:19,  2.26s/it][A
Training...:  61% 1591/2609 [1:43:44<36:07,  2.13s/it][A
Training...:  61% 1592/2609 [1:43:46<34:04,  2.01s/it][A
Training...:  61% 1593/2609 [1:43:48<32:01,  1.89s/it][A
Training...:  61% 1594/2609 [1:43:49<30:08,  1.78s/it][A
Training...:  61% 1595/2609 [1:43:51<28:15,  1.67s/it][A
Training...:  61% 1596/2609 [1:43:52<26:29,  1.57s/it][A
Training...:  61% 1597/2609 [1:43:53<24:32,  1.45s/it][A
Training...:  61% 1598/2609 [1:43:54<22:16,  1.32s/it][A
Training...:  61% 1599/2609 [1:43:55<19:42,  1.17s/it][A
Training...:  61% 1600/2609 [1:43:56<16:38,  1.01it/s][A
Training...:  61% 1601/2609 [1:44:03<48:38,  2.90s/it][A
Training...:  61% 1602/2609 [1:44:10<1:09:43,  4.15s/it][A
Training...:  61% 1603/2609 [1:44:17<1:21:32,  4.86s/it][A
Training...:  61% 1604/2609 [1:44:23<1:28:06,  5.26s/it][A
Training...:  62% 1605/2609 [1:44:29<1:31:39,  5.48s/it][A
Training...:  62% 1606/2609 [1:44:35<1:32:57,  5.56s/it][A
Training...:  62% 1607/2609 [1:44:40<1:33:03,  5.57s/it][A
Training...:  62% 1608/2609 [1:44:45<1:31:06,  5.46s/it][A
Training...:  62% 1609/2609 [1:44:50<1:29:05,  5.35s/it][A
Training...:  62% 1610/2609 [1:44:55<1:26:55,  5.22s/it][A
Training...:  62% 1611/2609 [1:45:00<1:24:34,  5.08s/it][A
Training...:  62% 1612/2609 [1:45:05<1:22:08,  4.94s/it][A
Training...:  62% 1613/2609 [1:45:09<1:19:56,  4.82s/it][A
Training...:  62% 1614/2609 [1:45:14<1:17:38,  4.68s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:05:17<12:36:12, 9074.48s/it]
Training...:  62% 1614/2609 [1:45:18<1:17:38,  4.68s/it][A
Training...:  62% 1615/2609 [1:45:18<1:18:28,  4.74s/it][A
Training...:  62% 1616/2609 [1:45:23<1:15:27,  4.56s/it][A
Training...:  62% 1617/2609 [1:45:27<1:13:05,  4.42s/it][A
Training...:  62% 1618/2609 [1:45:31<1:10:50,  4.29s/it][A
Training...:  62% 1619/2609 [1:45:35<1:09:13,  4.20s/it][A
Training...:  62% 1620/2609 [1:45:38<1:06:51,  4.06s/it][A
Training...:  62% 1621/2609 [1:45:42<1:04:47,  3.93s/it][A
Training...:  62% 1622/2609 [1:45:46<1:02:42,  3.81s/it][A
Training...:  62% 1623/2609 [1:45:49<1:00:47,  3.70s/it][A
Training...:  62% 1624/2609 [1:45:52<59:05,  3.60s/it]  [A
Training...:  62% 1625/2609 [1:45:56<57:29,  3.51s/it][A
Training...:  62% 1626/2609 [1:45:59<55:36,  3.39s/it][A
Training...:  62% 1627/2609 [1:46:02<53:59,  3.30s/it][A
Training...:  62% 1628/2609 [1:46:05<52:12,  3.19s/it][A
Training...:  62% 1629/2609 [1:46:08<50:44,  3.11s/it][A
Training...:  62% 1630/2609 [1:46:11<49:07,  3.01s/it][A
Training...:  63% 1631/2609 [1:46:13<47:38,  2.92s/it][A
Training...:  63% 1632/2609 [1:46:16<46:04,  2.83s/it][A
Training...:  63% 1633/2609 [1:46:18<44:48,  2.75s/it][A
Training...:  63% 1634/2609 [1:46:21<43:07,  2.65s/it][A
Training...:  63% 1635/2609 [1:46:23<41:45,  2.57s/it][A
Training...:  63% 1636/2609 [1:46:26<40:13,  2.48s/it][A
Training...:  63% 1637/2609 [1:46:28<38:43,  2.39s/it][A
Training...:  63% 1638/2609 [1:46:30<37:08,  2.29s/it][A
Training...:  63% 1639/2609 [1:46:32<35:39,  2.21s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:06:33<12:36:12, 9074.48s/it]
Training...:  63% 1639/2609 [1:46:34<35:39,  2.21s/it][A
Training...:  63% 1640/2609 [1:46:34<36:06,  2.24s/it][A
Training...:  63% 1641/2609 [1:46:36<33:59,  2.11s/it][A
Training...:  63% 1642/2609 [1:46:38<32:07,  1.99s/it][A
Training...:  63% 1643/2609 [1:46:39<30:25,  1.89s/it][A
Training...:  63% 1644/2609 [1:46:41<28:29,  1.77s/it][A
Training...:  63% 1645/2609 [1:46:42<26:32,  1.65s/it][A
Training...:  63% 1646/2609 [1:46:43<24:37,  1.53s/it][A
Training...:  63% 1647/2609 [1:46:45<22:38,  1.41s/it][A
Training...:  63% 1648/2609 [1:46:45<20:30,  1.28s/it][A
Training...:  63% 1649/2609 [1:46:46<18:22,  1.15s/it][A
Training...:  63% 1650/2609 [1:46:47<15:34,  1.03it/s][A
Training...:  63% 1651/2609 [1:46:54<44:58,  2.82s/it][A
Training...:  63% 1652/2609 [1:47:01<1:05:29,  4.11s/it][A
Training...:  63% 1653/2609 [1:47:08<1:17:21,  4.86s/it][A
Training...:  63% 1654/2609 [1:47:14<1:23:54,  5.27s/it][A
Training...:  63% 1655/2609 [1:47:20<1:27:15,  5.49s/it][A
Training...:  63% 1656/2609 [1:47:26<1:27:57,  5.54s/it][A
Training...:  64% 1657/2609 [1:47:31<1:27:41,  5.53s/it][A
Training...:  64% 1658/2609 [1:47:36<1:26:16,  5.44s/it][A
Training...:  64% 1659/2609 [1:47:41<1:24:40,  5.35s/it][A
Training...:  64% 1660/2609 [1:47:47<1:23:45,  5.30s/it][A
Training...:  64% 1661/2609 [1:47:52<1:22:16,  5.21s/it][A
Training...:  64% 1662/2609 [1:47:56<1:19:13,  5.02s/it][A
Training...:  64% 1663/2609 [1:48:01<1:16:29,  4.85s/it][A
Training...:  64% 1664/2609 [1:48:05<1:14:00,  4.70s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:08:09<12:36:12, 9074.48s/it]
Training...:  64% 1664/2609 [1:48:10<1:14:00,  4.70s/it][A
Training...:  64% 1665/2609 [1:48:10<1:14:45,  4.75s/it][A
Training...:  64% 1666/2609 [1:48:14<1:11:49,  4.57s/it][A
Training...:  64% 1667/2609 [1:48:18<1:09:33,  4.43s/it][A
Training...:  64% 1668/2609 [1:48:22<1:07:18,  4.29s/it][A
Training...:  64% 1669/2609 [1:48:26<1:05:24,  4.17s/it][A
Training...:  64% 1670/2609 [1:48:30<1:03:17,  4.04s/it][A
Training...:  64% 1671/2609 [1:48:33<1:01:26,  3.93s/it][A
Training...:  64% 1672/2609 [1:48:37<59:35,  3.82s/it]  [A
Training...:  64% 1673/2609 [1:48:40<58:01,  3.72s/it][A
Training...:  64% 1674/2609 [1:48:44<56:13,  3.61s/it][A
Training...:  64% 1675/2609 [1:48:47<54:55,  3.53s/it][A
Training...:  64% 1676/2609 [1:48:50<53:04,  3.41s/it][A
Training...:  64% 1677/2609 [1:48:53<51:35,  3.32s/it][A
Training...:  64% 1678/2609 [1:48:56<49:54,  3.22s/it][A
Training...:  64% 1679/2609 [1:48:59<48:33,  3.13s/it][A
Training...:  64% 1680/2609 [1:49:02<47:05,  3.04s/it][A
Training...:  64% 1681/2609 [1:49:05<45:43,  2.96s/it][A
Training...:  64% 1682/2609 [1:49:08<44:11,  2.86s/it][A
Training...:  65% 1683/2609 [1:49:10<42:47,  2.77s/it][A
Training...:  65% 1684/2609 [1:49:13<41:18,  2.68s/it][A
Training...:  65% 1685/2609 [1:49:15<39:58,  2.60s/it][A
Training...:  65% 1686/2609 [1:49:17<38:31,  2.50s/it][A
Training...:  65% 1687/2609 [1:49:20<37:11,  2.42s/it][A
Training...:  65% 1688/2609 [1:49:22<35:50,  2.33s/it][A
Training...:  65% 1689/2609 [1:49:24<34:16,  2.23s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:09:25<12:36:12, 9074.48s/it]
Training...:  65% 1689/2609 [1:49:26<34:16,  2.23s/it][A
Training...:  65% 1690/2609 [1:49:26<34:46,  2.27s/it][A
Training...:  65% 1691/2609 [1:49:28<32:38,  2.13s/it][A
Training...:  65% 1692/2609 [1:49:30<30:43,  2.01s/it][A
Training...:  65% 1693/2609 [1:49:31<28:49,  1.89s/it][A
Training...:  65% 1694/2609 [1:49:33<26:55,  1.77s/it][A
Training...:  65% 1695/2609 [1:49:34<24:58,  1.64s/it][A
Training...:  65% 1696/2609 [1:49:35<23:13,  1.53s/it][A
Training...:  65% 1697/2609 [1:49:36<21:26,  1.41s/it][A
Training...:  65% 1698/2609 [1:49:37<19:22,  1.28s/it][A
Training...:  65% 1699/2609 [1:49:38<17:10,  1.13s/it][A
Training...:  65% 1700/2609 [1:49:39<14:25,  1.05it/s][A
Training...:  65% 1701/2609 [1:49:46<43:08,  2.85s/it][A
Training...:  65% 1702/2609 [1:49:53<1:02:45,  4.15s/it][A
Training...:  65% 1703/2609 [1:50:00<1:14:32,  4.94s/it][A
Training...:  65% 1704/2609 [1:50:06<1:20:52,  5.36s/it][A
Training...:  65% 1705/2609 [1:50:12<1:23:39,  5.55s/it][A
Training...:  65% 1706/2609 [1:50:18<1:24:09,  5.59s/it][A
Training...:  65% 1707/2609 [1:50:23<1:23:58,  5.59s/it][A
Training...:  65% 1708/2609 [1:50:29<1:22:45,  5.51s/it][A
Training...:  66% 1709/2609 [1:50:34<1:21:29,  5.43s/it][A
Training...:  66% 1710/2609 [1:50:39<1:19:20,  5.30s/it][A
Training...:  66% 1711/2609 [1:50:44<1:17:20,  5.17s/it][A
Training...:  66% 1712/2609 [1:50:49<1:15:33,  5.05s/it][A
Training...:  66% 1713/2609 [1:50:53<1:13:28,  4.92s/it][A
Training...:  66% 1714/2609 [1:50:58<1:11:23,  4.79s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:11:02<12:36:12, 9074.48s/it]
Training...:  66% 1714/2609 [1:51:03<1:11:23,  4.79s/it][A
Training...:  66% 1715/2609 [1:51:03<1:12:30,  4.87s/it][A
Training...:  66% 1716/2609 [1:51:07<1:09:28,  4.67s/it][A
Training...:  66% 1717/2609 [1:51:11<1:07:12,  4.52s/it][A
Training...:  66% 1718/2609 [1:51:15<1:04:42,  4.36s/it][A
Training...:  66% 1719/2609 [1:51:19<1:02:37,  4.22s/it][A
Training...:  66% 1720/2609 [1:51:23<1:00:25,  4.08s/it][A
Training...:  66% 1721/2609 [1:51:27<58:42,  3.97s/it]  [A
Training...:  66% 1722/2609 [1:51:30<56:58,  3.85s/it][A
Training...:  66% 1723/2609 [1:51:34<55:38,  3.77s/it][A
Training...:  66% 1724/2609 [1:51:37<54:09,  3.67s/it][A
Training...:  66% 1725/2609 [1:51:41<53:13,  3.61s/it][A
Training...:  66% 1726/2609 [1:51:44<51:26,  3.50s/it][A
Training...:  66% 1727/2609 [1:51:47<49:51,  3.39s/it][A
Training...:  66% 1728/2609 [1:51:50<48:17,  3.29s/it][A
Training...:  66% 1729/2609 [1:51:53<46:46,  3.19s/it][A
Training...:  66% 1730/2609 [1:51:56<45:08,  3.08s/it][A
Training...:  66% 1731/2609 [1:51:59<43:41,  2.99s/it][A
Training...:  66% 1732/2609 [1:52:01<42:19,  2.90s/it][A
Training...:  66% 1733/2609 [1:52:04<41:04,  2.81s/it][A
Training...:  66% 1734/2609 [1:52:06<39:36,  2.72s/it][A
Training...:  67% 1735/2609 [1:52:09<38:08,  2.62s/it][A
Training...:  67% 1736/2609 [1:52:11<36:53,  2.54s/it][A
Training...:  67% 1737/2609 [1:52:13<35:44,  2.46s/it][A
Training...:  67% 1738/2609 [1:52:16<34:25,  2.37s/it][A
Training...:  67% 1739/2609 [1:52:18<33:06,  2.28s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:12:19<12:36:12, 9074.48s/it]
Training...:  67% 1739/2609 [1:52:20<33:06,  2.28s/it][A
Training...:  67% 1740/2609 [1:52:20<33:31,  2.31s/it][A
Training...:  67% 1741/2609 [1:52:22<31:42,  2.19s/it][A
Training...:  67% 1742/2609 [1:52:24<29:48,  2.06s/it][A
Training...:  67% 1743/2609 [1:52:25<28:07,  1.95s/it][A
Training...:  67% 1744/2609 [1:52:27<26:19,  1.83s/it][A
Training...:  67% 1745/2609 [1:52:28<24:31,  1.70s/it][A
Training...:  67% 1746/2609 [1:52:30<22:37,  1.57s/it][A
Training...:  67% 1747/2609 [1:52:31<20:45,  1.44s/it][A
Training...:  67% 1748/2609 [1:52:32<18:39,  1.30s/it][A
Training...:  67% 1749/2609 [1:52:33<16:32,  1.15s/it][A
Training...:  67% 1750/2609 [1:52:33<14:11,  1.01it/s][A
Training...:  67% 1751/2609 [1:52:40<40:56,  2.86s/it][A
Training...:  67% 1752/2609 [1:52:47<58:56,  4.13s/it][A
Training...:  67% 1753/2609 [1:52:54<1:09:13,  4.85s/it][A
Training...:  67% 1754/2609 [1:53:00<1:14:36,  5.24s/it][A
Training...:  67% 1755/2609 [1:53:06<1:17:23,  5.44s/it][A
Training...:  67% 1756/2609 [1:53:12<1:18:18,  5.51s/it][A
Training...:  67% 1757/2609 [1:53:17<1:17:50,  5.48s/it][A
Training...:  67% 1758/2609 [1:53:22<1:16:17,  5.38s/it][A
Training...:  67% 1759/2609 [1:53:27<1:15:00,  5.29s/it][A
Training...:  67% 1760/2609 [1:53:32<1:13:15,  5.18s/it][A
Training...:  67% 1761/2609 [1:53:37<1:11:47,  5.08s/it][A
Training...:  68% 1762/2609 [1:53:42<1:09:57,  4.96s/it][A
Training...:  68% 1763/2609 [1:53:46<1:08:24,  4.85s/it][A
Training...:  68% 1764/2609 [1:53:51<1:06:13,  4.70s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:13:55<12:36:12, 9074.48s/it]
Training...:  68% 1764/2609 [1:53:56<1:06:13,  4.70s/it][A
Training...:  68% 1765/2609 [1:53:56<1:06:59,  4.76s/it][A
Training...:  68% 1766/2609 [1:54:00<1:04:19,  4.58s/it][A
Training...:  68% 1767/2609 [1:54:04<1:02:05,  4.42s/it][A
Training...:  68% 1768/2609 [1:54:08<59:52,  4.27s/it]  [A
Training...:  68% 1769/2609 [1:54:12<57:55,  4.14s/it][A
Training...:  68% 1770/2609 [1:54:15<55:59,  4.00s/it][A
Training...:  68% 1771/2609 [1:54:19<54:21,  3.89s/it][A
Training...:  68% 1772/2609 [1:54:22<52:36,  3.77s/it][A
Training...:  68% 1773/2609 [1:54:26<51:03,  3.66s/it][A
Training...:  68% 1774/2609 [1:54:29<49:34,  3.56s/it][A
Training...:  68% 1775/2609 [1:54:32<48:17,  3.47s/it][A
Training...:  68% 1776/2609 [1:54:36<46:59,  3.38s/it][A
Training...:  68% 1777/2609 [1:54:39<45:32,  3.28s/it][A
Training...:  68% 1778/2609 [1:54:42<44:11,  3.19s/it][A
Training...:  68% 1779/2609 [1:54:45<43:00,  3.11s/it][A
Training...:  68% 1780/2609 [1:54:47<41:51,  3.03s/it][A
Training...:  68% 1781/2609 [1:54:50<40:36,  2.94s/it][A
Training...:  68% 1782/2609 [1:54:53<39:22,  2.86s/it][A
Training...:  68% 1783/2609 [1:54:55<38:10,  2.77s/it][A
Training...:  68% 1784/2609 [1:54:58<36:57,  2.69s/it][A
Training...:  68% 1785/2609 [1:55:00<35:45,  2.60s/it][A
Training...:  68% 1786/2609 [1:55:03<34:28,  2.51s/it][A
Training...:  68% 1787/2609 [1:55:05<33:16,  2.43s/it][A
Training...:  69% 1788/2609 [1:55:07<31:52,  2.33s/it][A
Training...:  69% 1789/2609 [1:55:09<30:41,  2.25s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:15:10<12:36:12, 9074.48s/it]
Training...:  69% 1789/2609 [1:55:11<30:41,  2.25s/it][A
Training...:  69% 1790/2609 [1:55:11<31:05,  2.28s/it][A
Training...:  69% 1791/2609 [1:55:13<29:27,  2.16s/it][A
Training...:  69% 1792/2609 [1:55:15<27:43,  2.04s/it][A
Training...:  69% 1793/2609 [1:55:17<26:10,  1.92s/it][A
Training...:  69% 1794/2609 [1:55:18<24:33,  1.81s/it][A
Training...:  69% 1795/2609 [1:55:20<22:57,  1.69s/it][A
Training...:  69% 1796/2609 [1:55:21<21:20,  1.57s/it][A
Training...:  69% 1797/2609 [1:55:22<19:44,  1.46s/it][A
Training...:  69% 1798/2609 [1:55:23<17:56,  1.33s/it][A
Training...:  69% 1799/2609 [1:55:24<15:57,  1.18s/it][A
Training...:  69% 1800/2609 [1:55:25<13:34,  1.01s/it][A
Training...:  69% 1801/2609 [1:55:32<38:15,  2.84s/it][A
Training...:  69% 1802/2609 [1:55:39<55:12,  4.10s/it][A
Training...:  69% 1803/2609 [1:55:45<1:05:04,  4.84s/it][A
Training...:  69% 1804/2609 [1:55:51<1:10:17,  5.24s/it][A
Training...:  69% 1805/2609 [1:55:57<1:13:10,  5.46s/it][A
Training...:  69% 1806/2609 [1:56:03<1:13:48,  5.51s/it][A
Training...:  69% 1807/2609 [1:56:09<1:13:41,  5.51s/it][A
Training...:  69% 1808/2609 [1:56:14<1:12:22,  5.42s/it][A
Training...:  69% 1809/2609 [1:56:19<1:11:11,  5.34s/it][A
Training...:  69% 1810/2609 [1:56:24<1:09:38,  5.23s/it][A
Training...:  69% 1811/2609 [1:56:29<1:08:52,  5.18s/it][A
Training...:  69% 1812/2609 [1:56:34<1:06:55,  5.04s/it][A
Training...:  69% 1813/2609 [1:56:38<1:05:07,  4.91s/it][A
Training...:  70% 1814/2609 [1:56:43<1:02:58,  4.75s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:16:47<12:36:12, 9074.48s/it]
Training...:  70% 1814/2609 [1:56:48<1:02:58,  4.75s/it][A
Training...:  70% 1815/2609 [1:56:48<1:03:51,  4.83s/it][A
Training...:  70% 1816/2609 [1:56:52<1:00:58,  4.61s/it][A
Training...:  70% 1817/2609 [1:56:56<58:48,  4.45s/it]  [A
Training...:  70% 1818/2609 [1:57:00<56:51,  4.31s/it][A
Training...:  70% 1819/2609 [1:57:04<55:47,  4.24s/it][A
Training...:  70% 1820/2609 [1:57:08<53:40,  4.08s/it][A
Training...:  70% 1821/2609 [1:57:11<52:15,  3.98s/it][A
Training...:  70% 1822/2609 [1:57:15<50:37,  3.86s/it][A
Training...:  70% 1823/2609 [1:57:18<49:10,  3.75s/it][A
Training...:  70% 1824/2609 [1:57:22<47:31,  3.63s/it][A
Training...:  70% 1825/2609 [1:57:25<46:22,  3.55s/it][A
Training...:  70% 1826/2609 [1:57:28<45:03,  3.45s/it][A
Training...:  70% 1827/2609 [1:57:32<43:52,  3.37s/it][A
Training...:  70% 1828/2609 [1:57:35<42:41,  3.28s/it][A
Training...:  70% 1829/2609 [1:57:38<41:23,  3.18s/it][A
Training...:  70% 1830/2609 [1:57:40<40:10,  3.09s/it][A
Training...:  70% 1831/2609 [1:57:43<38:52,  3.00s/it][A
Training...:  70% 1832/2609 [1:57:46<37:29,  2.90s/it][A
Training...:  70% 1833/2609 [1:57:49<36:28,  2.82s/it][A
Training...:  70% 1834/2609 [1:57:51<35:06,  2.72s/it][A
Training...:  70% 1835/2609 [1:57:53<33:55,  2.63s/it][A
Training...:  70% 1836/2609 [1:57:56<32:42,  2.54s/it][A
Training...:  70% 1837/2609 [1:57:58<31:40,  2.46s/it][A
Training...:  70% 1838/2609 [1:58:00<30:23,  2.37s/it][A
Training...:  70% 1839/2609 [1:58:02<29:23,  2.29s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:18:04<12:36:12, 9074.48s/it]
Training...:  70% 1839/2609 [1:58:05<29:23,  2.29s/it][A
Training...:  71% 1840/2609 [1:58:05<29:53,  2.33s/it][A
Training...:  71% 1841/2609 [1:58:07<28:10,  2.20s/it][A
Training...:  71% 1842/2609 [1:58:08<26:32,  2.08s/it][A
Training...:  71% 1843/2609 [1:58:10<24:58,  1.96s/it][A
Training...:  71% 1844/2609 [1:58:12<23:21,  1.83s/it][A
Training...:  71% 1845/2609 [1:58:13<21:42,  1.71s/it][A
Training...:  71% 1846/2609 [1:58:14<20:11,  1.59s/it][A
Training...:  71% 1847/2609 [1:58:16<18:29,  1.46s/it][A
Training...:  71% 1848/2609 [1:58:17<16:43,  1.32s/it][A
Training...:  71% 1849/2609 [1:58:17<14:53,  1.18s/it][A
Training...:  71% 1850/2609 [1:58:18<12:43,  1.01s/it][A
Training...:  71% 1851/2609 [1:58:25<36:00,  2.85s/it][A
Training...:  71% 1852/2609 [1:58:32<52:07,  4.13s/it][A
Training...:  71% 1853/2609 [1:58:39<1:01:36,  4.89s/it][A
Training...:  71% 1854/2609 [1:58:45<1:07:24,  5.36s/it][A
Training...:  71% 1855/2609 [1:58:51<1:10:13,  5.59s/it][A
Training...:  71% 1856/2609 [1:58:57<1:10:41,  5.63s/it][A
Training...:  71% 1857/2609 [1:59:03<1:10:15,  5.61s/it][A
Training...:  71% 1858/2609 [1:59:08<1:08:54,  5.50s/it][A
Training...:  71% 1859/2609 [1:59:13<1:07:33,  5.40s/it][A
Training...:  71% 1860/2609 [1:59:18<1:05:26,  5.24s/it][A
Training...:  71% 1861/2609 [1:59:23<1:03:47,  5.12s/it][A
Training...:  71% 1862/2609 [1:59:28<1:02:00,  4.98s/it][A
Training...:  71% 1863/2609 [1:59:32<1:00:26,  4.86s/it][A
Training...:  71% 1864/2609 [1:59:36<58:25,  4.71s/it]  [A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:19:40<12:36:12, 9074.48s/it]
Training...:  71% 1864/2609 [1:59:41<58:25,  4.71s/it][A
Training...:  71% 1865/2609 [1:59:41<59:04,  4.76s/it][A
Training...:  72% 1866/2609 [1:59:45<56:34,  4.57s/it][A
Training...:  72% 1867/2609 [1:59:50<54:40,  4.42s/it][A
Training...:  72% 1868/2609 [1:59:53<52:39,  4.26s/it][A
Training...:  72% 1869/2609 [1:59:57<51:20,  4.16s/it][A
Training...:  72% 1870/2609 [2:00:01<50:12,  4.08s/it][A
Training...:  72% 1871/2609 [2:00:05<48:39,  3.96s/it][A
Training...:  72% 1872/2609 [2:00:08<47:02,  3.83s/it][A
Training...:  72% 1873/2609 [2:00:12<45:36,  3.72s/it][A
Training...:  72% 1874/2609 [2:00:15<44:16,  3.61s/it][A
Training...:  72% 1875/2609 [2:00:19<43:06,  3.52s/it][A
Training...:  72% 1876/2609 [2:00:22<41:52,  3.43s/it][A
Training...:  72% 1877/2609 [2:00:25<40:36,  3.33s/it][A
Training...:  72% 1878/2609 [2:00:28<39:19,  3.23s/it][A
Training...:  72% 1879/2609 [2:00:31<38:21,  3.15s/it][A
Training...:  72% 1880/2609 [2:00:34<37:00,  3.05s/it][A
Training...:  72% 1881/2609 [2:00:36<35:53,  2.96s/it][A
Training...:  72% 1882/2609 [2:00:39<34:40,  2.86s/it][A
Training...:  72% 1883/2609 [2:00:42<33:38,  2.78s/it][A
Training...:  72% 1884/2609 [2:00:44<32:28,  2.69s/it][A
Training...:  72% 1885/2609 [2:00:47<31:33,  2.62s/it][A
Training...:  72% 1886/2609 [2:00:49<30:21,  2.52s/it][A
Training...:  72% 1887/2609 [2:00:51<29:27,  2.45s/it][A
Training...:  72% 1888/2609 [2:00:53<28:21,  2.36s/it][A
Training...:  72% 1889/2609 [2:00:55<27:12,  2.27s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:20:57<12:36:12, 9074.48s/it]
Training...:  72% 1889/2609 [2:00:58<27:12,  2.27s/it][A
Training...:  72% 1890/2609 [2:00:58<27:34,  2.30s/it][A
Training...:  72% 1891/2609 [2:01:00<25:59,  2.17s/it][A
Training...:  73% 1892/2609 [2:01:01<24:30,  2.05s/it][A
Training...:  73% 1893/2609 [2:01:03<23:10,  1.94s/it][A
Training...:  73% 1894/2609 [2:01:05<21:48,  1.83s/it][A
Training...:  73% 1895/2609 [2:01:06<20:30,  1.72s/it][A
Training...:  73% 1896/2609 [2:01:07<19:04,  1.61s/it][A
Training...:  73% 1897/2609 [2:01:09<17:30,  1.48s/it][A
Training...:  73% 1898/2609 [2:01:10<15:51,  1.34s/it][A
Training...:  73% 1899/2609 [2:01:10<14:03,  1.19s/it][A
Training...:  73% 1900/2609 [2:01:11<11:47,  1.00it/s][A
Training...:  73% 1901/2609 [2:01:18<33:35,  2.85s/it][A
Training...:  73% 1902/2609 [2:01:25<48:09,  4.09s/it][A
Training...:  73% 1903/2609 [2:01:32<56:30,  4.80s/it][A
Training...:  73% 1904/2609 [2:01:38<1:01:07,  5.20s/it][A
Training...:  73% 1905/2609 [2:01:44<1:03:25,  5.41s/it][A
Training...:  73% 1906/2609 [2:01:49<1:04:01,  5.46s/it][A
Training...:  73% 1907/2609 [2:01:55<1:03:47,  5.45s/it][A
Training...:  73% 1908/2609 [2:02:00<1:02:34,  5.36s/it][A
Training...:  73% 1909/2609 [2:02:05<1:01:48,  5.30s/it][A
Training...:  73% 1910/2609 [2:02:10<1:00:22,  5.18s/it][A
Training...:  73% 1911/2609 [2:02:15<59:12,  5.09s/it]  [A
Training...:  73% 1912/2609 [2:02:19<57:20,  4.94s/it][A
Training...:  73% 1913/2609 [2:02:24<56:13,  4.85s/it][A
Training...:  73% 1914/2609 [2:02:28<54:27,  4.70s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:22:32<12:36:12, 9074.48s/it]
Training...:  73% 1914/2609 [2:02:33<54:27,  4.70s/it][A
Training...:  73% 1915/2609 [2:02:33<55:17,  4.78s/it][A
Training...:  73% 1916/2609 [2:02:37<53:13,  4.61s/it][A
Training...:  73% 1917/2609 [2:02:42<51:29,  4.47s/it][A
Training...:  74% 1918/2609 [2:02:46<49:37,  4.31s/it][A
Training...:  74% 1919/2609 [2:02:50<48:25,  4.21s/it][A
Training...:  74% 1920/2609 [2:02:53<47:10,  4.11s/it][A
Training...:  74% 1921/2609 [2:02:57<46:17,  4.04s/it][A
Training...:  74% 1922/2609 [2:03:01<45:10,  3.95s/it][A
Training...:  74% 1923/2609 [2:03:05<44:14,  3.87s/it][A
Training...:  74% 1924/2609 [2:03:08<43:13,  3.79s/it][A
Training...:  74% 1925/2609 [2:03:12<41:35,  3.65s/it][A
Training...:  74% 1926/2609 [2:03:15<39:54,  3.51s/it][A
Training...:  74% 1927/2609 [2:03:18<38:23,  3.38s/it][A
Training...:  74% 1928/2609 [2:03:21<37:04,  3.27s/it][A
Training...:  74% 1929/2609 [2:03:24<36:05,  3.18s/it][A
Training...:  74% 1930/2609 [2:03:27<34:59,  3.09s/it][A
Training...:  74% 1931/2609 [2:03:30<33:53,  3.00s/it][A
Training...:  74% 1932/2609 [2:03:32<32:40,  2.90s/it][A
Training...:  74% 1933/2609 [2:03:35<31:38,  2.81s/it][A
Training...:  74% 1934/2609 [2:03:37<30:31,  2.71s/it][A
Training...:  74% 1935/2609 [2:03:40<29:29,  2.63s/it][A
Training...:  74% 1936/2609 [2:03:42<28:13,  2.52s/it][A
Training...:  74% 1937/2609 [2:03:44<27:13,  2.43s/it][A
Training...:  74% 1938/2609 [2:03:46<26:02,  2.33s/it][A
Training...:  74% 1939/2609 [2:03:48<25:01,  2.24s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:23:50<12:36:12, 9074.48s/it]
Training...:  74% 1939/2609 [2:03:51<25:01,  2.24s/it][A
Training...:  74% 1940/2609 [2:03:51<25:16,  2.27s/it][A
Training...:  74% 1941/2609 [2:03:53<23:49,  2.14s/it][A
Training...:  74% 1942/2609 [2:03:54<22:26,  2.02s/it][A
Training...:  74% 1943/2609 [2:03:56<21:15,  1.91s/it][A
Training...:  75% 1944/2609 [2:03:57<20:01,  1.81s/it][A
Training...:  75% 1945/2609 [2:03:59<18:46,  1.70s/it][A
Training...:  75% 1946/2609 [2:04:00<17:28,  1.58s/it][A
Training...:  75% 1947/2609 [2:04:01<16:07,  1.46s/it][A
Training...:  75% 1948/2609 [2:04:02<14:36,  1.33s/it][A
Training...:  75% 1949/2609 [2:04:03<12:54,  1.17s/it][A
Training...:  75% 1950/2609 [2:04:04<10:51,  1.01it/s][A
Training...:  75% 1951/2609 [2:04:11<31:08,  2.84s/it][A
Training...:  75% 1952/2609 [2:04:18<45:13,  4.13s/it][A
Training...:  75% 1953/2609 [2:04:25<53:25,  4.89s/it][A
Training...:  75% 1954/2609 [2:04:31<57:50,  5.30s/it][A
Training...:  75% 1955/2609 [2:04:37<59:54,  5.50s/it][A
Training...:  75% 1956/2609 [2:04:43<1:00:38,  5.57s/it][A
Training...:  75% 1957/2609 [2:04:48<1:00:21,  5.55s/it][A
Training...:  75% 1958/2609 [2:04:54<59:37,  5.49s/it]  [A
Training...:  75% 1959/2609 [2:04:59<58:30,  5.40s/it][A
Training...:  75% 1960/2609 [2:05:04<57:09,  5.28s/it][A
Training...:  75% 1961/2609 [2:05:09<55:43,  5.16s/it][A
Training...:  75% 1962/2609 [2:05:13<54:06,  5.02s/it][A
Training...:  75% 1963/2609 [2:05:18<52:40,  4.89s/it][A
Training...:  75% 1964/2609 [2:05:22<51:11,  4.76s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:25:26<12:36:12, 9074.48s/it]
Training...:  75% 1964/2609 [2:05:27<51:11,  4.76s/it][A
Training...:  75% 1965/2609 [2:05:27<51:59,  4.84s/it][A
Training...:  75% 1966/2609 [2:05:32<50:00,  4.67s/it][A
Training...:  75% 1967/2609 [2:05:36<48:26,  4.53s/it][A
Training...:  75% 1968/2609 [2:05:40<46:57,  4.40s/it][A
Training...:  75% 1969/2609 [2:05:44<45:41,  4.28s/it][A
Training...:  76% 1970/2609 [2:05:48<44:22,  4.17s/it][A
Training...:  76% 1971/2609 [2:05:52<42:53,  4.03s/it][A
Training...:  76% 1972/2609 [2:05:55<41:19,  3.89s/it][A
Training...:  76% 1973/2609 [2:05:59<39:58,  3.77s/it][A
Training...:  76% 1974/2609 [2:06:02<38:38,  3.65s/it][A
Training...:  76% 1975/2609 [2:06:05<37:31,  3.55s/it][A
Training...:  76% 1976/2609 [2:06:09<36:22,  3.45s/it][A
Training...:  76% 1977/2609 [2:06:12<35:24,  3.36s/it][A
Training...:  76% 1978/2609 [2:06:15<34:25,  3.27s/it][A
Training...:  76% 1979/2609 [2:06:18<33:26,  3.18s/it][A
Training...:  76% 1980/2609 [2:06:21<32:31,  3.10s/it][A
Training...:  76% 1981/2609 [2:06:23<31:29,  3.01s/it][A
Training...:  76% 1982/2609 [2:06:26<30:26,  2.91s/it][A
Training...:  76% 1983/2609 [2:06:29<29:22,  2.82s/it][A
Training...:  76% 1984/2609 [2:06:31<28:24,  2.73s/it][A
Training...:  76% 1985/2609 [2:06:34<27:30,  2.64s/it][A
Training...:  76% 1986/2609 [2:06:36<26:26,  2.55s/it][A
Training...:  76% 1987/2609 [2:06:38<25:29,  2.46s/it][A
Training...:  76% 1988/2609 [2:06:40<24:24,  2.36s/it][A
Training...:  76% 1989/2609 [2:06:42<23:24,  2.27s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:26:44<12:36:12, 9074.48s/it]
Training...:  76% 1989/2609 [2:06:45<23:24,  2.27s/it][A
Training...:  76% 1990/2609 [2:06:45<23:43,  2.30s/it][A
Training...:  76% 1991/2609 [2:06:47<22:20,  2.17s/it][A
Training...:  76% 1992/2609 [2:06:48<21:07,  2.05s/it][A
Training...:  76% 1993/2609 [2:06:50<19:54,  1.94s/it][A
Training...:  76% 1994/2609 [2:06:52<18:39,  1.82s/it][A
Training...:  76% 1995/2609 [2:06:53<17:28,  1.71s/it][A
Training...:  77% 1996/2609 [2:06:54<16:11,  1.58s/it][A
Training...:  77% 1997/2609 [2:06:56<14:52,  1.46s/it][A
Training...:  77% 1998/2609 [2:06:57<13:20,  1.31s/it][A
Training...:  77% 1999/2609 [2:06:57<11:45,  1.16s/it][A
Training...:  77% 2000/2609 [2:06:58<09:57,  1.02it/s][A
Training...:  77% 2001/2609 [2:07:05<28:28,  2.81s/it][A
Training...:  77% 2002/2609 [2:07:12<41:21,  4.09s/it][A
Training...:  77% 2003/2609 [2:07:19<48:42,  4.82s/it][A
Training...:  77% 2004/2609 [2:07:25<53:02,  5.26s/it][A
Training...:  77% 2005/2609 [2:07:31<55:36,  5.52s/it][A
Training...:  77% 2006/2609 [2:07:37<56:14,  5.60s/it][A
Training...:  77% 2007/2609 [2:07:42<56:14,  5.61s/it][A
Training...:  77% 2008/2609 [2:07:48<55:18,  5.52s/it][A
Training...:  77% 2009/2609 [2:07:53<54:21,  5.44s/it][A
Training...:  77% 2010/2609 [2:07:58<52:44,  5.28s/it][A
Training...:  77% 2011/2609 [2:08:03<51:31,  5.17s/it][A
Training...:  77% 2012/2609 [2:08:07<49:55,  5.02s/it][A
Training...:  77% 2013/2609 [2:08:12<48:33,  4.89s/it][A
Training...:  77% 2014/2609 [2:08:16<46:59,  4.74s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:28:20<12:36:12, 9074.48s/it]
Training...:  77% 2014/2609 [2:08:21<46:59,  4.74s/it][A
Training...:  77% 2015/2609 [2:08:21<47:30,  4.80s/it][A
Training...:  77% 2016/2609 [2:08:26<45:44,  4.63s/it][A
Training...:  77% 2017/2609 [2:08:30<44:15,  4.49s/it][A
Training...:  77% 2018/2609 [2:08:34<42:30,  4.32s/it][A
Training...:  77% 2019/2609 [2:08:38<41:07,  4.18s/it][A
Training...:  77% 2020/2609 [2:08:41<39:30,  4.02s/it][A
Training...:  77% 2021/2609 [2:08:45<38:07,  3.89s/it][A
Training...:  78% 2022/2609 [2:08:48<36:49,  3.76s/it][A
Training...:  78% 2023/2609 [2:08:52<35:48,  3.67s/it][A
Training...:  78% 2024/2609 [2:08:55<34:39,  3.55s/it][A
Training...:  78% 2025/2609 [2:08:58<33:36,  3.45s/it][A
Training...:  78% 2026/2609 [2:09:01<32:34,  3.35s/it][A
Training...:  78% 2027/2609 [2:09:04<31:40,  3.27s/it][A
Training...:  78% 2028/2609 [2:09:07<30:53,  3.19s/it][A
Training...:  78% 2029/2609 [2:09:10<30:12,  3.13s/it][A
Training...:  78% 2030/2609 [2:09:13<29:20,  3.04s/it][A
Training...:  78% 2031/2609 [2:09:16<28:36,  2.97s/it][A
Training...:  78% 2032/2609 [2:09:19<27:42,  2.88s/it][A
Training...:  78% 2033/2609 [2:09:21<26:42,  2.78s/it][A
Training...:  78% 2034/2609 [2:09:24<25:50,  2.70s/it][A
Training...:  78% 2035/2609 [2:09:26<24:54,  2.60s/it][A
Training...:  78% 2036/2609 [2:09:28<24:08,  2.53s/it][A
Training...:  78% 2037/2609 [2:09:31<23:18,  2.45s/it][A
Training...:  78% 2038/2609 [2:09:33<22:25,  2.36s/it][A
Training...:  78% 2039/2609 [2:09:35<21:32,  2.27s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:29:36<12:36:12, 9074.48s/it]
Training...:  78% 2039/2609 [2:09:37<21:32,  2.27s/it][A
Training...:  78% 2040/2609 [2:09:37<21:43,  2.29s/it][A
Training...:  78% 2041/2609 [2:09:39<20:22,  2.15s/it][A
Training...:  78% 2042/2609 [2:09:41<19:11,  2.03s/it][A
Training...:  78% 2043/2609 [2:09:43<18:16,  1.94s/it][A
Training...:  78% 2044/2609 [2:09:44<17:07,  1.82s/it][A
Training...:  78% 2045/2609 [2:09:46<15:52,  1.69s/it][A
Training...:  78% 2046/2609 [2:09:47<14:37,  1.56s/it][A
Training...:  78% 2047/2609 [2:09:48<13:27,  1.44s/it][A
Training...:  78% 2048/2609 [2:09:49<12:05,  1.29s/it][A
Training...:  79% 2049/2609 [2:09:50<10:37,  1.14s/it][A
Training...:  79% 2050/2609 [2:09:50<08:56,  1.04it/s][A
Training...:  79% 2051/2609 [2:09:57<26:14,  2.82s/it][A
Training...:  79% 2052/2609 [2:10:05<38:12,  4.12s/it][A
Training...:  79% 2053/2609 [2:10:11<45:09,  4.87s/it][A
Training...:  79% 2054/2609 [2:10:17<49:01,  5.30s/it][A
Training...:  79% 2055/2609 [2:10:24<51:21,  5.56s/it][A
Training...:  79% 2056/2609 [2:10:30<52:09,  5.66s/it][A
Training...:  79% 2057/2609 [2:10:35<51:34,  5.61s/it][A
Training...:  79% 2058/2609 [2:10:40<50:23,  5.49s/it][A
Training...:  79% 2059/2609 [2:10:45<49:32,  5.40s/it][A
Training...:  79% 2060/2609 [2:10:50<48:10,  5.26s/it][A
Training...:  79% 2061/2609 [2:10:55<46:56,  5.14s/it][A
Training...:  79% 2062/2609 [2:11:00<45:36,  5.00s/it][A
Training...:  79% 2063/2609 [2:11:04<44:26,  4.88s/it][A
Training...:  79% 2064/2609 [2:11:09<42:59,  4.73s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:31:13<12:36:12, 9074.48s/it]
Training...:  79% 2064/2609 [2:11:14<42:59,  4.73s/it][A
Training...:  79% 2065/2609 [2:11:14<43:36,  4.81s/it][A
Training...:  79% 2066/2609 [2:11:18<41:41,  4.61s/it][A
Training...:  79% 2067/2609 [2:11:22<40:15,  4.46s/it][A
Training...:  79% 2068/2609 [2:11:26<38:45,  4.30s/it][A
Training...:  79% 2069/2609 [2:11:30<38:03,  4.23s/it][A
Training...:  79% 2070/2609 [2:11:34<36:44,  4.09s/it][A
Training...:  79% 2071/2609 [2:11:38<35:32,  3.96s/it][A
Training...:  79% 2072/2609 [2:11:41<34:29,  3.85s/it][A
Training...:  79% 2073/2609 [2:11:45<33:28,  3.75s/it][A
Training...:  79% 2074/2609 [2:11:48<32:31,  3.65s/it][A
Training...:  80% 2075/2609 [2:11:51<31:41,  3.56s/it][A
Training...:  80% 2076/2609 [2:11:55<30:42,  3.46s/it][A
Training...:  80% 2077/2609 [2:11:58<29:44,  3.35s/it][A
Training...:  80% 2078/2609 [2:12:01<28:48,  3.25s/it][A
Training...:  80% 2079/2609 [2:12:04<28:03,  3.18s/it][A
Training...:  80% 2080/2609 [2:12:07<27:08,  3.08s/it][A
Training...:  80% 2081/2609 [2:12:09<26:23,  3.00s/it][A
Training...:  80% 2082/2609 [2:12:12<25:30,  2.90s/it][A
Training...:  80% 2083/2609 [2:12:15<24:53,  2.84s/it][A
Training...:  80% 2084/2609 [2:12:17<24:15,  2.77s/it][A
Training...:  80% 2085/2609 [2:12:20<23:27,  2.69s/it][A
Training...:  80% 2086/2609 [2:12:22<22:26,  2.57s/it][A
Training...:  80% 2087/2609 [2:12:24<21:34,  2.48s/it][A
Training...:  80% 2088/2609 [2:12:27<20:32,  2.37s/it][A
Training...:  80% 2089/2609 [2:12:29<19:43,  2.28s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:32:30<12:36:12, 9074.48s/it]
Training...:  80% 2089/2609 [2:12:31<19:43,  2.28s/it][A
Training...:  80% 2090/2609 [2:12:31<19:53,  2.30s/it][A
Training...:  80% 2091/2609 [2:12:33<18:39,  2.16s/it][A
Training...:  80% 2092/2609 [2:12:35<17:32,  2.04s/it][A
Training...:  80% 2093/2609 [2:12:36<16:31,  1.92s/it][A
Training...:  80% 2094/2609 [2:12:38<15:27,  1.80s/it][A
Training...:  80% 2095/2609 [2:12:39<14:29,  1.69s/it][A
Training...:  80% 2096/2609 [2:12:40<13:24,  1.57s/it][A
Training...:  80% 2097/2609 [2:12:42<12:18,  1.44s/it][A
Training...:  80% 2098/2609 [2:12:43<11:01,  1.29s/it][A
Training...:  80% 2099/2609 [2:12:43<09:40,  1.14s/it][A
Training...:  80% 2100/2609 [2:12:44<08:05,  1.05it/s][A
Training...:  81% 2101/2609 [2:12:51<23:48,  2.81s/it][A
Training...:  81% 2102/2609 [2:12:58<34:14,  4.05s/it][A
Training...:  81% 2103/2609 [2:13:04<40:14,  4.77s/it][A
Training...:  81% 2104/2609 [2:13:10<43:33,  5.17s/it][A
Training...:  81% 2105/2609 [2:13:16<45:14,  5.39s/it][A
Training...:  81% 2106/2609 [2:13:22<46:01,  5.49s/it][A
Training...:  81% 2107/2609 [2:13:28<45:50,  5.48s/it][A
Training...:  81% 2108/2609 [2:13:33<45:08,  5.41s/it][A
Training...:  81% 2109/2609 [2:13:38<44:18,  5.32s/it][A
Training...:  81% 2110/2609 [2:13:43<43:28,  5.23s/it][A
Training...:  81% 2111/2609 [2:13:48<42:19,  5.10s/it][A
Training...:  81% 2112/2609 [2:13:52<40:56,  4.94s/it][A
Training...:  81% 2113/2609 [2:13:57<39:38,  4.80s/it][A
Training...:  81% 2114/2609 [2:14:01<38:23,  4.65s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:34:05<12:36:12, 9074.48s/it]
Training...:  81% 2114/2609 [2:14:06<38:23,  4.65s/it][A
Training...:  81% 2115/2609 [2:14:06<39:11,  4.76s/it][A
Training...:  81% 2116/2609 [2:14:10<37:51,  4.61s/it][A
Training...:  81% 2117/2609 [2:14:14<36:26,  4.44s/it][A
Training...:  81% 2118/2609 [2:14:18<34:58,  4.27s/it][A
Training...:  81% 2119/2609 [2:14:22<33:55,  4.15s/it][A
Training...:  81% 2120/2609 [2:14:26<32:32,  3.99s/it][A
Training...:  81% 2121/2609 [2:14:29<31:18,  3.85s/it][A
Training...:  81% 2122/2609 [2:14:33<30:05,  3.71s/it][A
Training...:  81% 2123/2609 [2:14:36<29:11,  3.60s/it][A
Training...:  81% 2124/2609 [2:14:39<28:12,  3.49s/it][A
Training...:  81% 2125/2609 [2:14:42<27:18,  3.39s/it][A
Training...:  81% 2126/2609 [2:14:45<26:27,  3.29s/it][A
Training...:  82% 2127/2609 [2:14:48<25:46,  3.21s/it][A
Training...:  82% 2128/2609 [2:14:51<25:06,  3.13s/it][A
Training...:  82% 2129/2609 [2:14:54<24:22,  3.05s/it][A
Training...:  82% 2130/2609 [2:14:57<23:34,  2.95s/it][A
Training...:  82% 2131/2609 [2:15:00<22:52,  2.87s/it][A
Training...:  82% 2132/2609 [2:15:02<22:01,  2.77s/it][A
Training...:  82% 2133/2609 [2:15:05<21:15,  2.68s/it][A
Training...:  82% 2134/2609 [2:15:07<20:35,  2.60s/it][A
Training...:  82% 2135/2609 [2:15:09<19:50,  2.51s/it][A
Training...:  82% 2136/2609 [2:15:12<19:06,  2.42s/it][A
Training...:  82% 2137/2609 [2:15:14<18:20,  2.33s/it][A
Training...:  82% 2138/2609 [2:15:16<17:37,  2.25s/it][A
Training...:  82% 2139/2609 [2:15:18<16:52,  2.15s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:35:19<12:36:12, 9074.48s/it]
Training...:  82% 2139/2609 [2:15:20<16:52,  2.15s/it][A
Training...:  82% 2140/2609 [2:15:20<17:08,  2.19s/it][A
Training...:  82% 2141/2609 [2:15:22<16:06,  2.06s/it][A
Training...:  82% 2142/2609 [2:15:23<15:09,  1.95s/it][A
Training...:  82% 2143/2609 [2:15:25<14:15,  1.84s/it][A
Training...:  82% 2144/2609 [2:15:26<13:20,  1.72s/it][A
Training...:  82% 2145/2609 [2:15:28<12:24,  1.60s/it][A
Training...:  82% 2146/2609 [2:15:29<11:36,  1.50s/it][A
Training...:  82% 2147/2609 [2:15:30<10:40,  1.39s/it][A
Training...:  82% 2148/2609 [2:15:31<09:37,  1.25s/it][A
Training...:  82% 2149/2609 [2:15:32<08:30,  1.11s/it][A
Training...:  82% 2150/2609 [2:15:32<07:13,  1.06it/s][A
Training...:  82% 2151/2609 [2:15:40<21:26,  2.81s/it][A
Training...:  82% 2152/2609 [2:15:47<31:10,  4.09s/it][A
Training...:  83% 2153/2609 [2:15:53<36:56,  4.86s/it][A
Training...:  83% 2154/2609 [2:16:00<39:55,  5.26s/it][A
Training...:  83% 2155/2609 [2:16:05<41:18,  5.46s/it][A
Training...:  83% 2156/2609 [2:16:11<41:51,  5.54s/it][A
Training...:  83% 2157/2609 [2:16:17<41:36,  5.52s/it][A
Training...:  83% 2158/2609 [2:16:22<40:52,  5.44s/it][A
Training...:  83% 2159/2609 [2:16:27<40:01,  5.34s/it][A
Training...:  83% 2160/2609 [2:16:32<38:49,  5.19s/it][A
Training...:  83% 2161/2609 [2:16:37<37:45,  5.06s/it][A
Training...:  83% 2162/2609 [2:16:41<36:28,  4.89s/it][A
Training...:  83% 2163/2609 [2:16:46<35:31,  4.78s/it][A
Training...:  83% 2164/2609 [2:16:50<34:37,  4.67s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:36:54<12:36:12, 9074.48s/it]
Training...:  83% 2164/2609 [2:16:55<34:37,  4.67s/it][A
Training...:  83% 2165/2609 [2:16:55<35:15,  4.76s/it][A
Training...:  83% 2166/2609 [2:16:59<33:49,  4.58s/it][A
Training...:  83% 2167/2609 [2:17:03<32:28,  4.41s/it][A
Training...:  83% 2168/2609 [2:17:07<31:11,  4.24s/it][A
Training...:  83% 2169/2609 [2:17:11<30:30,  4.16s/it][A
Training...:  83% 2170/2609 [2:17:15<29:21,  4.01s/it][A
Training...:  83% 2171/2609 [2:17:18<28:27,  3.90s/it][A
Training...:  83% 2172/2609 [2:17:22<27:34,  3.79s/it][A
Training...:  83% 2173/2609 [2:17:25<26:43,  3.68s/it][A
Training...:  83% 2174/2609 [2:17:29<25:56,  3.58s/it][A
Training...:  83% 2175/2609 [2:17:32<25:14,  3.49s/it][A
Training...:  83% 2176/2609 [2:17:35<24:29,  3.39s/it][A
Training...:  83% 2177/2609 [2:17:38<23:46,  3.30s/it][A
Training...:  83% 2178/2609 [2:17:41<23:06,  3.22s/it][A
Training...:  84% 2179/2609 [2:17:44<22:27,  3.13s/it][A
Training...:  84% 2180/2609 [2:17:47<21:43,  3.04s/it][A
Training...:  84% 2181/2609 [2:17:50<21:08,  2.96s/it][A
Training...:  84% 2182/2609 [2:17:52<20:20,  2.86s/it][A
Training...:  84% 2183/2609 [2:17:55<19:41,  2.77s/it][A
Training...:  84% 2184/2609 [2:17:57<18:59,  2.68s/it][A
Training...:  84% 2185/2609 [2:18:00<18:20,  2.60s/it][A
Training...:  84% 2186/2609 [2:18:02<17:43,  2.51s/it][A
Training...:  84% 2187/2609 [2:18:04<17:02,  2.42s/it][A
Training...:  84% 2188/2609 [2:18:06<16:21,  2.33s/it][A
Training...:  84% 2189/2609 [2:18:09<15:43,  2.25s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:38:10<12:36:12, 9074.48s/it]
Training...:  84% 2189/2609 [2:18:11<15:43,  2.25s/it][A
Training...:  84% 2190/2609 [2:18:11<15:59,  2.29s/it][A
Training...:  84% 2191/2609 [2:18:13<15:06,  2.17s/it][A
Training...:  84% 2192/2609 [2:18:15<14:16,  2.05s/it][A
Training...:  84% 2193/2609 [2:18:16<13:26,  1.94s/it][A
Training...:  84% 2194/2609 [2:18:18<12:36,  1.82s/it][A
Training...:  84% 2195/2609 [2:18:19<11:48,  1.71s/it][A
Training...:  84% 2196/2609 [2:18:21<10:55,  1.59s/it][A
Training...:  84% 2197/2609 [2:18:22<10:01,  1.46s/it][A
Training...:  84% 2198/2609 [2:18:23<09:05,  1.33s/it][A
Training...:  84% 2199/2609 [2:18:24<08:01,  1.18s/it][A
Training...:  84% 2200/2609 [2:18:24<06:48,  1.00it/s][A
Training...:  84% 2201/2609 [2:18:31<19:03,  2.80s/it][A
Training...:  84% 2202/2609 [2:18:38<27:43,  4.09s/it][A
Training...:  84% 2203/2609 [2:18:45<32:35,  4.82s/it][A
Training...:  84% 2204/2609 [2:18:51<35:32,  5.27s/it][A
Training...:  85% 2205/2609 [2:18:57<36:53,  5.48s/it][A
Training...:  85% 2206/2609 [2:19:03<37:17,  5.55s/it][A
Training...:  85% 2207/2609 [2:19:08<37:02,  5.53s/it][A
Training...:  85% 2208/2609 [2:19:13<36:17,  5.43s/it][A
Training...:  85% 2209/2609 [2:19:19<35:33,  5.33s/it][A
Training...:  85% 2210/2609 [2:19:24<34:51,  5.24s/it][A
Training...:  85% 2211/2609 [2:19:28<34:06,  5.14s/it][A
Training...:  85% 2212/2609 [2:19:33<32:53,  4.97s/it][A
Training...:  85% 2213/2609 [2:19:38<32:02,  4.86s/it][A
Training...:  85% 2214/2609 [2:19:42<31:04,  4.72s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:39:46<12:36:12, 9074.48s/it]
Training...:  85% 2214/2609 [2:19:47<31:04,  4.72s/it][A
Training...:  85% 2215/2609 [2:19:47<31:15,  4.76s/it][A
Training...:  85% 2216/2609 [2:19:51<29:56,  4.57s/it][A
Training...:  85% 2217/2609 [2:19:55<28:47,  4.41s/it][A
Training...:  85% 2218/2609 [2:19:59<27:39,  4.24s/it][A
Training...:  85% 2219/2609 [2:20:03<26:42,  4.11s/it][A
Training...:  85% 2220/2609 [2:20:06<25:45,  3.97s/it][A
Training...:  85% 2221/2609 [2:20:10<24:53,  3.85s/it][A
Training...:  85% 2222/2609 [2:20:13<24:08,  3.74s/it][A
Training...:  85% 2223/2609 [2:20:17<23:21,  3.63s/it][A
Training...:  85% 2224/2609 [2:20:20<22:39,  3.53s/it][A
Training...:  85% 2225/2609 [2:20:23<21:57,  3.43s/it][A
Training...:  85% 2226/2609 [2:20:26<21:17,  3.34s/it][A
Training...:  85% 2227/2609 [2:20:29<20:44,  3.26s/it][A
Training...:  85% 2228/2609 [2:20:32<20:05,  3.16s/it][A
Training...:  85% 2229/2609 [2:20:35<19:31,  3.08s/it][A
Training...:  85% 2230/2609 [2:20:38<18:53,  2.99s/it][A
Training...:  86% 2231/2609 [2:20:41<18:20,  2.91s/it][A
Training...:  86% 2232/2609 [2:20:43<17:45,  2.83s/it][A
Training...:  86% 2233/2609 [2:20:46<17:15,  2.75s/it][A
Training...:  86% 2234/2609 [2:20:48<16:42,  2.67s/it][A
Training...:  86% 2235/2609 [2:20:51<16:11,  2.60s/it][A
Training...:  86% 2236/2609 [2:20:53<15:39,  2.52s/it][A
Training...:  86% 2237/2609 [2:20:55<15:05,  2.43s/it][A
Training...:  86% 2238/2609 [2:20:58<14:30,  2.35s/it][A
Training...:  86% 2239/2609 [2:21:00<13:59,  2.27s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:41:01<12:36:12, 9074.48s/it]
Training...:  86% 2239/2609 [2:21:02<13:59,  2.27s/it][A
Training...:  86% 2240/2609 [2:21:02<14:07,  2.30s/it][A
Training...:  86% 2241/2609 [2:21:04<13:14,  2.16s/it][A
Training...:  86% 2242/2609 [2:21:06<12:24,  2.03s/it][A
Training...:  86% 2243/2609 [2:21:07<11:41,  1.92s/it][A
Training...:  86% 2244/2609 [2:21:09<10:59,  1.81s/it][A
Training...:  86% 2245/2609 [2:21:10<10:17,  1.70s/it][A
Training...:  86% 2246/2609 [2:21:12<09:35,  1.58s/it][A
Training...:  86% 2247/2609 [2:21:13<08:50,  1.46s/it][A
Training...:  86% 2248/2609 [2:21:14<07:58,  1.33s/it][A
Training...:  86% 2249/2609 [2:21:15<07:02,  1.17s/it][A
Training...:  86% 2250/2609 [2:21:15<05:53,  1.01it/s][A
Training...:  86% 2251/2609 [2:21:22<17:06,  2.87s/it][A
Training...:  86% 2252/2609 [2:21:30<24:48,  4.17s/it][A
Training...:  86% 2253/2609 [2:21:36<29:21,  4.95s/it][A
Training...:  86% 2254/2609 [2:21:43<31:39,  5.35s/it][A
Training...:  86% 2255/2609 [2:21:49<32:58,  5.59s/it][A
Training...:  86% 2256/2609 [2:21:55<33:18,  5.66s/it][A
Training...:  87% 2257/2609 [2:22:00<33:12,  5.66s/it][A
Training...:  87% 2258/2609 [2:22:06<32:31,  5.56s/it][A
Training...:  87% 2259/2609 [2:22:11<31:59,  5.48s/it][A
Training...:  87% 2260/2609 [2:22:16<31:11,  5.36s/it][A
Training...:  87% 2261/2609 [2:22:21<30:28,  5.25s/it][A
Training...:  87% 2262/2609 [2:22:26<29:27,  5.09s/it][A
Training...:  87% 2263/2609 [2:22:30<28:40,  4.97s/it][A
Training...:  87% 2264/2609 [2:22:35<27:43,  4.82s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:42:39<12:36:12, 9074.48s/it]
Training...:  87% 2264/2609 [2:22:40<27:43,  4.82s/it][A
Training...:  87% 2265/2609 [2:22:40<28:00,  4.88s/it][A
Training...:  87% 2266/2609 [2:22:44<26:43,  4.68s/it][A
Training...:  87% 2267/2609 [2:22:48<25:54,  4.55s/it][A
Training...:  87% 2268/2609 [2:22:52<24:53,  4.38s/it][A
Training...:  87% 2269/2609 [2:22:56<24:10,  4.27s/it][A
Training...:  87% 2270/2609 [2:23:00<23:19,  4.13s/it][A
Training...:  87% 2271/2609 [2:23:04<22:42,  4.03s/it][A
Training...:  87% 2272/2609 [2:23:08<21:59,  3.92s/it][A
Training...:  87% 2273/2609 [2:23:11<21:20,  3.81s/it][A
Training...:  87% 2274/2609 [2:23:15<20:35,  3.69s/it][A
Training...:  87% 2275/2609 [2:23:18<19:52,  3.57s/it][A
Training...:  87% 2276/2609 [2:23:21<19:12,  3.46s/it][A
Training...:  87% 2277/2609 [2:23:24<18:34,  3.36s/it][A
Training...:  87% 2278/2609 [2:23:27<17:55,  3.25s/it][A
Training...:  87% 2279/2609 [2:23:30<17:23,  3.16s/it][A
Training...:  87% 2280/2609 [2:23:33<16:58,  3.10s/it][A
Training...:  87% 2281/2609 [2:23:36<16:37,  3.04s/it][A
Training...:  87% 2282/2609 [2:23:39<15:58,  2.93s/it][A
Training...:  88% 2283/2609 [2:23:41<15:26,  2.84s/it][A
Training...:  88% 2284/2609 [2:23:44<14:52,  2.75s/it][A
Training...:  88% 2285/2609 [2:23:46<14:20,  2.66s/it][A
Training...:  88% 2286/2609 [2:23:49<13:49,  2.57s/it][A
Training...:  88% 2287/2609 [2:23:51<13:22,  2.49s/it][A
Training...:  88% 2288/2609 [2:23:53<12:48,  2.39s/it][A
Training...:  88% 2289/2609 [2:23:55<12:16,  2.30s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:43:57<12:36:12, 9074.48s/it]
Training...:  88% 2289/2609 [2:23:58<12:16,  2.30s/it][A
Training...:  88% 2290/2609 [2:23:58<12:22,  2.33s/it][A
Training...:  88% 2291/2609 [2:23:59<11:37,  2.19s/it][A
Training...:  88% 2292/2609 [2:24:01<10:54,  2.07s/it][A
Training...:  88% 2293/2609 [2:24:03<10:14,  1.94s/it][A
Training...:  88% 2294/2609 [2:24:04<09:32,  1.82s/it][A
Training...:  88% 2295/2609 [2:24:06<08:54,  1.70s/it][A
Training...:  88% 2296/2609 [2:24:07<08:16,  1.59s/it][A
Training...:  88% 2297/2609 [2:24:08<07:38,  1.47s/it][A
Training...:  88% 2298/2609 [2:24:09<06:57,  1.34s/it][A
Training...:  88% 2299/2609 [2:24:10<06:07,  1.19s/it][A
Training...:  88% 2300/2609 [2:24:11<05:08,  1.00it/s][A
Training...:  88% 2301/2609 [2:24:18<14:39,  2.86s/it][A
Training...:  88% 2302/2609 [2:24:25<21:07,  4.13s/it][A
Training...:  88% 2303/2609 [2:24:32<24:55,  4.89s/it][A
Training...:  88% 2304/2609 [2:24:38<26:56,  5.30s/it][A
Training...:  88% 2305/2609 [2:24:44<27:51,  5.50s/it][A
Training...:  88% 2306/2609 [2:24:50<27:59,  5.54s/it][A
Training...:  88% 2307/2609 [2:24:55<27:52,  5.54s/it][A
Training...:  88% 2308/2609 [2:25:00<27:25,  5.47s/it][A
Training...:  89% 2309/2609 [2:25:06<26:51,  5.37s/it][A
Training...:  89% 2310/2609 [2:25:11<26:10,  5.25s/it][A
Training...:  89% 2311/2609 [2:25:15<25:27,  5.12s/it][A
Training...:  89% 2312/2609 [2:25:20<24:33,  4.96s/it][A
Training...:  89% 2313/2609 [2:25:25<23:50,  4.83s/it][A
Training...:  89% 2314/2609 [2:25:29<23:18,  4.74s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:45:33<12:36:12, 9074.48s/it]
Training...:  89% 2314/2609 [2:25:34<23:18,  4.74s/it][A
Training...:  89% 2315/2609 [2:25:34<23:49,  4.86s/it][A
Training...:  89% 2316/2609 [2:25:38<22:42,  4.65s/it][A
Training...:  89% 2317/2609 [2:25:42<21:51,  4.49s/it][A
Training...:  89% 2318/2609 [2:25:46<20:57,  4.32s/it][A
Training...:  89% 2319/2609 [2:25:50<20:21,  4.21s/it][A
Training...:  89% 2320/2609 [2:25:54<19:49,  4.12s/it][A
Training...:  89% 2321/2609 [2:25:58<19:10,  3.99s/it][A
Training...:  89% 2322/2609 [2:26:02<18:31,  3.87s/it][A
Training...:  89% 2323/2609 [2:26:05<18:03,  3.79s/it][A
Training...:  89% 2324/2609 [2:26:08<17:22,  3.66s/it][A
Training...:  89% 2325/2609 [2:26:12<16:53,  3.57s/it][A
Training...:  89% 2326/2609 [2:26:15<16:20,  3.46s/it][A
Training...:  89% 2327/2609 [2:26:18<15:58,  3.40s/it][A
Training...:  89% 2328/2609 [2:26:21<15:23,  3.29s/it][A
Training...:  89% 2329/2609 [2:26:24<14:54,  3.19s/it][A
Training...:  89% 2330/2609 [2:26:27<14:22,  3.09s/it][A
Training...:  89% 2331/2609 [2:26:30<14:00,  3.02s/it][A
Training...:  89% 2332/2609 [2:26:33<13:31,  2.93s/it][A
Training...:  89% 2333/2609 [2:26:35<13:04,  2.84s/it][A
Training...:  89% 2334/2609 [2:26:38<12:34,  2.74s/it][A
Training...:  89% 2335/2609 [2:26:40<12:11,  2.67s/it][A
Training...:  90% 2336/2609 [2:26:43<11:41,  2.57s/it][A
Training...:  90% 2337/2609 [2:26:45<11:17,  2.49s/it][A
Training...:  90% 2338/2609 [2:26:47<10:51,  2.40s/it][A
Training...:  90% 2339/2609 [2:26:49<10:25,  2.32s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:46:51<12:36:12, 9074.48s/it]
Training...:  90% 2339/2609 [2:26:52<10:25,  2.32s/it][A
Training...:  90% 2340/2609 [2:26:52<10:31,  2.35s/it][A
Training...:  90% 2341/2609 [2:26:54<09:58,  2.23s/it][A
Training...:  90% 2342/2609 [2:26:56<09:22,  2.11s/it][A
Training...:  90% 2343/2609 [2:26:57<08:49,  1.99s/it][A
Training...:  90% 2344/2609 [2:26:59<08:15,  1.87s/it][A
Training...:  90% 2345/2609 [2:27:00<07:41,  1.75s/it][A
Training...:  90% 2346/2609 [2:27:02<07:06,  1.62s/it][A
Training...:  90% 2347/2609 [2:27:03<06:31,  1.49s/it][A
Training...:  90% 2348/2609 [2:27:04<05:56,  1.37s/it][A
Training...:  90% 2349/2609 [2:27:05<05:14,  1.21s/it][A
Training...:  90% 2350/2609 [2:27:05<04:21,  1.01s/it][A
Training...:  90% 2351/2609 [2:27:12<12:08,  2.82s/it][A
Training...:  90% 2352/2609 [2:27:19<17:24,  4.06s/it][A
Training...:  90% 2353/2609 [2:27:26<20:30,  4.80s/it][A
Training...:  90% 2354/2609 [2:27:32<22:28,  5.29s/it][A
Training...:  90% 2355/2609 [2:27:38<23:18,  5.51s/it][A
Training...:  90% 2356/2609 [2:27:44<23:35,  5.60s/it][A
Training...:  90% 2357/2609 [2:27:50<23:48,  5.67s/it][A
Training...:  90% 2358/2609 [2:27:55<23:14,  5.56s/it][A
Training...:  90% 2359/2609 [2:28:00<22:37,  5.43s/it][A
Training...:  90% 2360/2609 [2:28:05<21:59,  5.30s/it][A
Training...:  90% 2361/2609 [2:28:10<21:19,  5.16s/it][A
Training...:  91% 2362/2609 [2:28:15<20:33,  5.00s/it][A
Training...:  91% 2363/2609 [2:28:19<19:53,  4.85s/it][A
Training...:  91% 2364/2609 [2:28:24<19:12,  4.70s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:48:28<12:36:12, 9074.48s/it]
Training...:  91% 2364/2609 [2:28:29<19:12,  4.70s/it][A
Training...:  91% 2365/2609 [2:28:29<19:22,  4.77s/it][A
Training...:  91% 2366/2609 [2:28:33<18:30,  4.57s/it][A
Training...:  91% 2367/2609 [2:28:37<17:47,  4.41s/it][A
Training...:  91% 2368/2609 [2:28:41<17:04,  4.25s/it][A
Training...:  91% 2369/2609 [2:28:44<16:33,  4.14s/it][A
Training...:  91% 2370/2609 [2:28:48<16:06,  4.05s/it][A
Training...:  91% 2371/2609 [2:28:52<15:33,  3.92s/it][A
Training...:  91% 2372/2609 [2:28:55<14:57,  3.79s/it][A
Training...:  91% 2373/2609 [2:28:59<14:30,  3.69s/it][A
Training...:  91% 2374/2609 [2:29:02<14:00,  3.58s/it][A
Training...:  91% 2375/2609 [2:29:05<13:33,  3.47s/it][A
Training...:  91% 2376/2609 [2:29:09<13:02,  3.36s/it][A
Training...:  91% 2377/2609 [2:29:12<12:35,  3.26s/it][A
Training...:  91% 2378/2609 [2:29:14<12:07,  3.15s/it][A
Training...:  91% 2379/2609 [2:29:17<11:43,  3.06s/it][A
Training...:  91% 2380/2609 [2:29:20<11:19,  2.97s/it][A
Training...:  91% 2381/2609 [2:29:23<10:56,  2.88s/it][A
Training...:  91% 2382/2609 [2:29:25<10:32,  2.79s/it][A
Training...:  91% 2383/2609 [2:29:28<10:11,  2.71s/it][A
Training...:  91% 2384/2609 [2:29:30<09:49,  2.62s/it][A
Training...:  91% 2385/2609 [2:29:33<09:28,  2.54s/it][A
Training...:  91% 2386/2609 [2:29:35<09:08,  2.46s/it][A
Training...:  91% 2387/2609 [2:29:37<08:47,  2.38s/it][A
Training...:  92% 2388/2609 [2:29:39<08:27,  2.30s/it][A
Training...:  92% 2389/2609 [2:29:41<08:07,  2.22s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:49:42<12:36:12, 9074.48s/it]
Training...:  92% 2389/2609 [2:29:43<08:07,  2.22s/it][A
Training...:  92% 2390/2609 [2:29:43<08:10,  2.24s/it][A
Training...:  92% 2391/2609 [2:29:45<07:42,  2.12s/it][A
Training...:  92% 2392/2609 [2:29:47<07:16,  2.01s/it][A
Training...:  92% 2393/2609 [2:29:49<06:47,  1.89s/it][A
Training...:  92% 2394/2609 [2:29:50<06:19,  1.76s/it][A
Training...:  92% 2395/2609 [2:29:52<05:52,  1.65s/it][A
Training...:  92% 2396/2609 [2:29:53<05:23,  1.52s/it][A
Training...:  92% 2397/2609 [2:29:54<05:17,  1.50s/it][A
Training...:  92% 2398/2609 [2:29:55<04:41,  1.34s/it][A
Training...:  92% 2399/2609 [2:29:56<04:05,  1.17s/it][A
Training...:  92% 2400/2609 [2:29:56<03:25,  1.02it/s][A
Training...:  92% 2401/2609 [2:30:04<09:52,  2.85s/it][A
Training...:  92% 2402/2609 [2:30:11<14:09,  4.10s/it][A
Training...:  92% 2403/2609 [2:30:18<16:55,  4.93s/it][A
Training...:  92% 2404/2609 [2:30:24<18:10,  5.32s/it][A
Training...:  92% 2405/2609 [2:30:30<18:49,  5.54s/it][A
Training...:  92% 2406/2609 [2:30:36<18:56,  5.60s/it][A
Training...:  92% 2407/2609 [2:30:41<18:52,  5.61s/it][A
Training...:  92% 2408/2609 [2:30:46<18:28,  5.51s/it][A
Training...:  92% 2409/2609 [2:30:52<18:09,  5.45s/it][A
Training...:  92% 2410/2609 [2:30:57<17:33,  5.29s/it][A
Training...:  92% 2411/2609 [2:31:02<17:06,  5.18s/it][A
Training...:  92% 2412/2609 [2:31:06<16:34,  5.05s/it][A
Training...:  92% 2413/2609 [2:31:11<16:08,  4.94s/it][A
Training...:  93% 2414/2609 [2:31:16<15:34,  4.79s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:51:19<12:36:12, 9074.48s/it]
Training...:  93% 2414/2609 [2:31:20<15:34,  4.79s/it][A
Training...:  93% 2415/2609 [2:31:20<15:39,  4.84s/it][A
Training...:  93% 2416/2609 [2:31:25<14:59,  4.66s/it][A
Training...:  93% 2417/2609 [2:31:29<14:24,  4.50s/it][A
Training...:  93% 2418/2609 [2:31:33<13:49,  4.34s/it][A
Training...:  93% 2419/2609 [2:31:37<13:19,  4.21s/it][A
Training...:  93% 2420/2609 [2:31:41<13:00,  4.13s/it][A
Training...:  93% 2421/2609 [2:31:44<12:38,  4.03s/it][A
Training...:  93% 2422/2609 [2:31:48<12:10,  3.91s/it][A
Training...:  93% 2423/2609 [2:31:52<11:45,  3.79s/it][A
Training...:  93% 2424/2609 [2:31:55<11:20,  3.68s/it][A
Training...:  93% 2425/2609 [2:31:58<10:58,  3.58s/it][A
Training...:  93% 2426/2609 [2:32:02<10:32,  3.46s/it][A
Training...:  93% 2427/2609 [2:32:05<10:10,  3.35s/it][A
Training...:  93% 2428/2609 [2:32:08<09:46,  3.24s/it][A
Training...:  93% 2429/2609 [2:32:11<09:26,  3.15s/it][A
Training...:  93% 2430/2609 [2:32:13<09:06,  3.05s/it][A
Training...:  93% 2431/2609 [2:32:16<08:48,  2.97s/it][A
Training...:  93% 2432/2609 [2:32:19<08:28,  2.87s/it][A
Training...:  93% 2433/2609 [2:32:21<08:10,  2.79s/it][A
Training...:  93% 2434/2609 [2:32:24<07:51,  2.70s/it][A
Training...:  93% 2435/2609 [2:32:26<07:33,  2.61s/it][A
Training...:  93% 2436/2609 [2:32:29<07:15,  2.52s/it][A
Training...:  93% 2437/2609 [2:32:31<06:59,  2.44s/it][A
Training...:  93% 2438/2609 [2:32:33<06:39,  2.33s/it][A
Training...:  93% 2439/2609 [2:32:35<06:22,  2.25s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:52:36<12:36:12, 9074.48s/it]
Training...:  93% 2439/2609 [2:32:37<06:22,  2.25s/it][A
Training...:  94% 2440/2609 [2:32:37<06:28,  2.30s/it][A
Training...:  94% 2441/2609 [2:32:39<06:05,  2.17s/it][A
Training...:  94% 2442/2609 [2:32:41<05:42,  2.05s/it][A
Training...:  94% 2443/2609 [2:32:43<05:23,  1.95s/it][A
Training...:  94% 2444/2609 [2:32:44<05:01,  1.83s/it][A
Training...:  94% 2445/2609 [2:32:46<04:41,  1.71s/it][A
Training...:  94% 2446/2609 [2:32:47<04:20,  1.60s/it][A
Training...:  94% 2447/2609 [2:32:48<03:59,  1.48s/it][A
Training...:  94% 2448/2609 [2:32:49<03:36,  1.34s/it][A
Training...:  94% 2449/2609 [2:32:50<03:10,  1.19s/it][A
Training...:  94% 2450/2609 [2:32:51<02:39,  1.00s/it][A
Training...:  94% 2451/2609 [2:32:58<07:34,  2.88s/it][A
Training...:  94% 2452/2609 [2:33:05<10:53,  4.16s/it][A
Training...:  94% 2453/2609 [2:33:12<12:43,  4.90s/it][A
Training...:  94% 2454/2609 [2:33:18<13:42,  5.31s/it][A
Training...:  94% 2455/2609 [2:33:24<14:14,  5.55s/it][A
Training...:  94% 2456/2609 [2:33:30<14:13,  5.58s/it][A
Training...:  94% 2457/2609 [2:33:35<14:08,  5.58s/it][A
Training...:  94% 2458/2609 [2:33:41<13:48,  5.49s/it][A
Training...:  94% 2459/2609 [2:33:46<13:32,  5.42s/it][A
Training...:  94% 2460/2609 [2:33:51<13:15,  5.34s/it][A
Training...:  94% 2461/2609 [2:33:56<12:48,  5.20s/it][A
Training...:  94% 2462/2609 [2:34:00<12:17,  5.02s/it][A
Training...:  94% 2463/2609 [2:34:05<11:54,  4.90s/it][A
Training...:  94% 2464/2609 [2:34:09<11:28,  4.75s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:54:13<12:36:12, 9074.48s/it]
Training...:  94% 2464/2609 [2:34:14<11:28,  4.75s/it][A
Training...:  94% 2465/2609 [2:34:14<11:32,  4.81s/it][A
Training...:  95% 2466/2609 [2:34:19<11:02,  4.63s/it][A
Training...:  95% 2467/2609 [2:34:23<10:34,  4.47s/it][A
Training...:  95% 2468/2609 [2:34:27<10:07,  4.31s/it][A
Training...:  95% 2469/2609 [2:34:31<09:46,  4.19s/it][A
Training...:  95% 2470/2609 [2:34:34<09:24,  4.06s/it][A
Training...:  95% 2471/2609 [2:34:38<09:04,  3.94s/it][A
Training...:  95% 2472/2609 [2:34:42<08:45,  3.84s/it][A
Training...:  95% 2473/2609 [2:34:45<08:30,  3.75s/it][A
Training...:  95% 2474/2609 [2:34:49<08:12,  3.65s/it][A
Training...:  95% 2475/2609 [2:34:52<07:57,  3.56s/it][A
Training...:  95% 2476/2609 [2:34:55<07:40,  3.46s/it][A
Training...:  95% 2477/2609 [2:34:58<07:25,  3.38s/it][A
Training...:  95% 2478/2609 [2:35:01<07:07,  3.26s/it][A
Training...:  95% 2479/2609 [2:35:04<06:53,  3.18s/it][A
Training...:  95% 2480/2609 [2:35:07<06:37,  3.08s/it][A
Training...:  95% 2481/2609 [2:35:10<06:24,  3.00s/it][A
Training...:  95% 2482/2609 [2:35:13<06:08,  2.90s/it][A
Training...:  95% 2483/2609 [2:35:15<05:56,  2.83s/it][A
Training...:  95% 2484/2609 [2:35:18<05:41,  2.74s/it][A
Training...:  95% 2485/2609 [2:35:20<05:28,  2.65s/it][A
Training...:  95% 2486/2609 [2:35:23<05:14,  2.56s/it][A
Training...:  95% 2487/2609 [2:35:25<05:02,  2.48s/it][A
Training...:  95% 2488/2609 [2:35:27<04:49,  2.39s/it][A
Training...:  95% 2489/2609 [2:35:29<04:36,  2.30s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:55:31<12:36:12, 9074.48s/it]
Training...:  95% 2489/2609 [2:35:32<04:36,  2.30s/it][A
Training...:  95% 2490/2609 [2:35:32<04:36,  2.33s/it][A
Training...:  95% 2491/2609 [2:35:34<04:19,  2.20s/it][A
Training...:  96% 2492/2609 [2:35:35<04:02,  2.07s/it][A
Training...:  96% 2493/2609 [2:35:37<03:45,  1.95s/it][A
Training...:  96% 2494/2609 [2:35:38<03:29,  1.82s/it][A
Training...:  96% 2495/2609 [2:35:40<03:14,  1.71s/it][A
Training...:  96% 2496/2609 [2:35:41<03:00,  1.60s/it][A
Training...:  96% 2497/2609 [2:35:42<02:45,  1.48s/it][A
Training...:  96% 2498/2609 [2:35:43<02:29,  1.34s/it][A
Training...:  96% 2499/2609 [2:35:44<02:11,  1.20s/it][A
Training...:  96% 2500/2609 [2:35:45<01:50,  1.02s/it][A
Training...:  96% 2501/2609 [2:35:52<05:11,  2.89s/it][A
Training...:  96% 2502/2609 [2:35:59<07:25,  4.17s/it][A
Training...:  96% 2503/2609 [2:36:06<08:40,  4.91s/it][A
Training...:  96% 2504/2609 [2:36:12<09:15,  5.29s/it][A
Training...:  96% 2505/2609 [2:36:18<09:31,  5.50s/it][A
Training...:  96% 2506/2609 [2:36:24<09:30,  5.54s/it][A
Training...:  96% 2507/2609 [2:36:29<09:24,  5.53s/it][A
Training...:  96% 2508/2609 [2:36:35<09:09,  5.44s/it][A
Training...:  96% 2509/2609 [2:36:40<08:55,  5.35s/it][A
Training...:  96% 2510/2609 [2:36:45<08:38,  5.23s/it][A
Training...:  96% 2511/2609 [2:36:49<08:19,  5.10s/it][A
Training...:  96% 2512/2609 [2:36:54<08:00,  4.96s/it][A
Training...:  96% 2513/2609 [2:36:59<07:41,  4.81s/it][A
Training...:  96% 2514/2609 [2:37:03<07:21,  4.65s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:57:07<12:36:12, 9074.48s/it]
Training...:  96% 2514/2609 [2:37:08<07:21,  4.65s/it][A
Training...:  96% 2515/2609 [2:37:08<07:23,  4.71s/it][A
Training...:  96% 2516/2609 [2:37:12<07:01,  4.54s/it][A
Training...:  96% 2517/2609 [2:37:16<06:42,  4.37s/it][A
Training...:  97% 2518/2609 [2:37:20<06:24,  4.23s/it][A
Training...:  97% 2519/2609 [2:37:23<06:09,  4.11s/it][A
Training...:  97% 2520/2609 [2:37:27<05:53,  3.97s/it][A
Training...:  97% 2521/2609 [2:37:31<05:39,  3.86s/it][A
Training...:  97% 2522/2609 [2:37:34<05:26,  3.76s/it][A
Training...:  97% 2523/2609 [2:37:38<05:16,  3.67s/it][A
Training...:  97% 2524/2609 [2:37:41<05:03,  3.57s/it][A
Training...:  97% 2525/2609 [2:37:44<04:51,  3.47s/it][A
Training...:  97% 2526/2609 [2:37:47<04:41,  3.39s/it][A
Training...:  97% 2527/2609 [2:37:51<04:32,  3.32s/it][A
Training...:  97% 2528/2609 [2:37:54<04:22,  3.24s/it][A
Training...:  97% 2529/2609 [2:37:57<04:13,  3.17s/it][A
Training...:  97% 2530/2609 [2:38:00<04:03,  3.09s/it][A
Training...:  97% 2531/2609 [2:38:02<03:53,  2.99s/it][A
Training...:  97% 2532/2609 [2:38:05<03:42,  2.89s/it][A
Training...:  97% 2533/2609 [2:38:08<03:33,  2.81s/it][A
Training...:  97% 2534/2609 [2:38:10<03:24,  2.72s/it][A
Training...:  97% 2535/2609 [2:38:13<03:14,  2.63s/it][A
Training...:  97% 2536/2609 [2:38:15<03:05,  2.54s/it][A
Training...:  97% 2537/2609 [2:38:17<02:56,  2.46s/it][A
Training...:  97% 2538/2609 [2:38:19<02:47,  2.36s/it][A
Training...:  97% 2539/2609 [2:38:21<02:38,  2.27s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [40:58:23<12:36:12, 9074.48s/it]
Training...:  97% 2539/2609 [2:38:24<02:38,  2.27s/it][A
Training...:  97% 2540/2609 [2:38:24<02:38,  2.30s/it][A
Training...:  97% 2541/2609 [2:38:26<02:27,  2.17s/it][A
Training...:  97% 2542/2609 [2:38:27<02:17,  2.05s/it][A
Training...:  97% 2543/2609 [2:38:29<02:08,  1.95s/it][A
Training...:  98% 2544/2609 [2:38:31<01:59,  1.83s/it][A
Training...:  98% 2545/2609 [2:38:32<01:50,  1.72s/it][A
Training...:  98% 2546/2609 [2:38:33<01:41,  1.60s/it][A
Training...:  98% 2547/2609 [2:38:35<01:31,  1.48s/it][A
Training...:  98% 2548/2609 [2:38:36<01:21,  1.34s/it][A
Training...:  98% 2549/2609 [2:38:36<01:11,  1.20s/it][A
Training...:  98% 2550/2609 [2:38:37<00:59,  1.02s/it][A
Training...:  98% 2551/2609 [2:38:44<02:44,  2.84s/it][A
Training...:  98% 2552/2609 [2:38:51<03:55,  4.13s/it][A
Training...:  98% 2553/2609 [2:38:58<04:34,  4.90s/it][A
Training...:  98% 2554/2609 [2:39:04<04:52,  5.31s/it][A
Training...:  98% 2555/2609 [2:39:10<04:58,  5.53s/it][A
Training...:  98% 2556/2609 [2:39:16<04:57,  5.61s/it][A
Training...:  98% 2557/2609 [2:39:22<04:52,  5.63s/it][A
Training...:  98% 2558/2609 [2:39:27<04:42,  5.54s/it][A
Training...:  98% 2559/2609 [2:39:32<04:30,  5.42s/it][A
Training...:  98% 2560/2609 [2:39:37<04:18,  5.28s/it][A
Training...:  98% 2561/2609 [2:39:42<04:08,  5.17s/it][A
Training...:  98% 2562/2609 [2:39:47<03:57,  5.05s/it][A
Training...:  98% 2563/2609 [2:39:52<03:48,  4.96s/it][A
Training...:  98% 2564/2609 [2:39:56<03:36,  4.81s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |)
Step... (40025 | Loss: 0.001731096999719739, Learning Rate: 2.0153533114353195e-05, Gradient Norm: 0.21352630853652954)
Step... (40050 | Loss: 0.012676391750574112, Learning Rate: 2.0103030692553148e-05, Gradient Norm: 0.4178878962993622)
Step... (40075 | Loss: 0.003783304011449218, Learning Rate: 2.00525282707531e-05, Gradient Norm: 0.31583255529403687)
Step... (40100 | Loss: 0.003092431928962469, Learning Rate: 2.000201857299544e-05, Gradient Norm: 0.28748056292533875)
Step... (40125 | Loss: 0.005786983296275139, Learning Rate: 1.9951516151195392e-05, Gradient Norm: 0.5014819502830505)
Step... (40150 | Loss: 0.010425248183310032, Learning Rate: 1.9901013729395345e-05, Gradient Norm: 0.42844125628471375)
Step... (40175 | Loss: 0.002182785188779235, Learning Rate: 1.9850504031637684e-05, Gradient Norm: 0.2237197607755661)
Step... (40200 | Loss: 0.0057326494716107845, Learning Rate: 1.9800001609837636e-05, Gradient Norm: 0.2564697265625)
Step... (40225 | Loss: 0.029674354940652847, Learning Rate: 1.9749491912079975e-05, Gradient Norm: 0.4267137348651886)
Step... (40250 | Loss: 0.010519194416701794, Learning Rate: 1.9698989490279928e-05, Gradient Norm: 0.32210803031921387)
Step... (40275 | Loss: 0.0029737730510532856, Learning Rate: 1.9648485249490477e-05, Gradient Norm: 0.28586074709892273)
Step... (40300 | Loss: 0.01318079698830843, Learning Rate: 1.959797737072222e-05, Gradient Norm: 0.3593526780605316)
Step... (40325 | Loss: 0.0007817924488335848, Learning Rate: 1.954747312993277e-05, Gradient Norm: 0.08367308974266052)
Step... (40350 | Loss: 0.0160528514534235, Learning Rate: 1.949697070813272e-05, Gradient Norm: 0.6183382272720337)
Step... (40375 | Loss: 0.005939187481999397, Learning Rate: 1.944646101037506e-05, Gradient Norm: 0.28494033217430115)
Step... (40400 | Loss: 0.010606476105749607, Learning Rate: 1.9395958588575013e-05, Gradient Norm: 0.38082563877105713)
Step... (40425 | Loss: 0.0009277539793401957, Learning Rate: 1.9345456166774966e-05, Gradient Norm: 0.07632475346326828)
Step... (40450 | Loss: 0.00820290856063366, Learning Rate: 1.9294946469017304e-05, Gradient Norm: 0.35035479068756104)
Step... (40475 | Loss: 0.012052283622324467, Learning Rate: 1.9244444047217257e-05, Gradient Norm: 0.5321059823036194)
Step... (40500 | Loss: 0.0036823975387960672, Learning Rate: 1.919394162541721e-05, Gradient Norm: 0.24860383570194244)
Step... (40525 | Loss: 0.0007917282055132091, Learning Rate: 1.914343192765955e-05, Gradient Norm: 0.06729711592197418)
Step... (40550 | Loss: 0.0038309996016323566, Learning Rate: 1.90929295058595e-05, Gradient Norm: 0.21012288331985474)
Step... (40575 | Loss: 0.0013189684832468629, Learning Rate: 1.904242526507005e-05, Gradient Norm: 0.09574376791715622)
Step... (40600 | Loss: 0.006761014927178621, Learning Rate: 1.8991917386301793e-05, Gradient Norm: 0.27347099781036377)
Step... (40625 | Loss: 0.0037750646006315947, Learning Rate: 1.8941413145512342e-05, Gradient Norm: 0.28703129291534424)
Step... (40650 | Loss: 0.006834924686700106, Learning Rate: 1.8890910723712295e-05, Gradient Norm: 0.29572343826293945)
Step... (40675 | Loss: 0.007260928396135569, Learning Rate: 1.8840401025954634e-05, Gradient Norm: 0.32260048389434814)
Step... (40700 | Loss: 0.006295331288129091, Learning Rate: 1.8789898604154587e-05, Gradient Norm: 0.274455726146698)
Step... (40725 | Loss: 0.0010774140246212482, Learning Rate: 1.873939618235454e-05, Gradient Norm: 0.08894950151443481)
Step... (40750 | Loss: 0.011189823038876057, Learning Rate: 1.8688886484596878e-05, Gradient Norm: 0.3673408627510071)
Step... (40775 | Loss: 0.004223179072141647, Learning Rate: 1.863838406279683e-05, Gradient Norm: 0.33056333661079407)
Step... (40800 | Loss: 0.010376455262303352, Learning Rate: 1.8587881640996784e-05, Gradient Norm: 0.32993876934051514)
Step... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [41:00:00<12:36:12, 9074.48s/it]
Step... (40825 | Loss: 0.02030031569302082, Learning Rate: 1.8537371943239123e-05, Gradient Norm: 0.8882331848144531)
Step... (40850 | Loss: 0.017259884625673294, Learning Rate: 1.8486869521439075e-05, Gradient Norm: 0.4651859998703003)
Step... (40875 | Loss: 0.0034547951072454453, Learning Rate: 1.8436365280649625e-05, Gradient Norm: 0.4726433753967285)
Step... (40900 | Loss: 0.004200303461402655, Learning Rate: 1.8385857401881367e-05, Gradient Norm: 0.3120351731777191)
Step... (40925 | Loss: 0.005627520382404327, Learning Rate: 1.8335353161091916e-05, Gradient Norm: 0.8471603989601135)
Step... (40950 | Loss: 0.008655885234475136, Learning Rate: 1.828485073929187e-05, Gradient Norm: 0.3711659908294678)
Step... (40975 | Loss: 0.007604861166328192, Learning Rate: 1.8234341041534208e-05, Gradient Norm: 0.44979241490364075)
Step... (41000 | Loss: 0.008074427954852581, Learning Rate: 1.818383861973416e-05, Gradient Norm: 0.3424529731273651)
Step... (41025 | Loss: 0.004953906871378422, Learning Rate: 1.8133336197934113e-05, Gradient Norm: 0.3126450181007385)
Step... (41050 | Loss: 0.013276180252432823, Learning Rate: 1.8082826500176452e-05, Gradient Norm: 0.4258055090904236)
Step... (41075 | Loss: 0.009307430125772953, Learning Rate: 1.8032324078376405e-05, Gradient Norm: 0.45512017607688904)
Step... (41100 | Loss: 0.013932006433606148, Learning Rate: 1.7981821656576358e-05, Gradient Norm: 0.40457087755203247)
Step... (41125 | Loss: 0.0012720683589577675, Learning Rate: 1.7931311958818696e-05, Gradient Norm: 0.16538898646831512)
Step... (41150 | Loss: 0.006515196990221739, Learning Rate: 1.788080953701865e-05, Gradient Norm: 0.3137724995613098)
Step... (41175 | Loss: 0.010544126853346825, Learning Rate: 1.78303052962292e-05, Gradient Norm: 0.5900073051452637)
Step... (41200 | Loss: 0.008001849055290222, Learning Rate: 1.777979741746094e-05, Gradient Norm: 0.3531140983104706)
Step... (41225 | Loss: 0.0012185850646346807, Learning Rate: 1.772929317667149e-05, Gradient Norm: 0.13403673470020294)
Step... (41250 | Loss: 0.010446951724588871, Learning Rate: 1.7678790754871443e-05, Gradient Norm: 0.39603063464164734)
Step... (41275 | Loss: 0.0021415851078927517, Learning Rate: 1.762828105711378e-05, Gradient Norm: 0.1772882640361786)
Step... (41300 | Loss: 0.007697717752307653, Learning Rate: 1.7577778635313734e-05, Gradient Norm: 0.36459851264953613)
Step... (41325 | Loss: 0.005697310436517, Learning Rate: 1.7527270756545477e-05, Gradient Norm: 0.48248597979545593)
Step... (41350 | Loss: 0.01265434455126524, Learning Rate: 1.7476766515756026e-05, Gradient Norm: 0.36618772149086)
Step... (41375 | Loss: 0.00568731501698494, Learning Rate: 1.742626409395598e-05, Gradient Norm: 0.5005014538764954)
Step... (41400 | Loss: 0.012051617726683617, Learning Rate: 1.7375754396198317e-05, Gradient Norm: 0.8206197023391724)
Step... (41425 | Loss: 0.0037189375143498182, Learning Rate: 1.732525197439827e-05, Gradient Norm: 0.3422744572162628)
Step... (41450 | Loss: 0.010511358268558979, Learning Rate: 1.7274749552598223e-05, Gradient Norm: 0.37647831439971924)
Step... (41475 | Loss: 0.0021748170256614685, Learning Rate: 1.7224239854840562e-05, Gradient Norm: 0.19852733612060547)
Step... (41500 | Loss: 0.0048461174592375755, Learning Rate: 1.7173737433040515e-05, Gradient Norm: 0.2889905273914337)
Step... (41525 | Loss: 0.0009858126286417246, Learning Rate: 1.7123233192251064e-05, Gradient Norm: 0.12391667813062668)
Step... (41550 | Loss: 0.010627234354615211, Learning Rate: 1.7072725313482806e-05, Gradient Norm: 0.3682417869567871)
Step... (41575 | Loss: 0.006101132836192846, Learning Rate: 1.7022221072693355e-05, Gradient Norm: 0.4733165502548218)
Step... (41600 | Loss: 0.006899835541844368, Learning Rate: 1.6971718650893308e-05, Gradient Norm: 0.29122596979141235)
Step... (41625 | Loss: 0.004863716196268797, Learning Rate: 1.6921208953135647e-05, Gradient Norm: 0.2983005940914154)
Step... (41650 | Loss: 0.01886710524559021, Learning Rate: 1.68707065313356e-05, Gradient Norm: 0.7201718091964722)
Step... (41675 |Training...:  98% 2564/2609 [2:40:01<03:36,  4.81s/it][A
Training...:  98% 2565/2609 [2:40:01<03:34,  4.87s/it] Loss: 0.0013542532688006759, Learning Rate: 1.6820204109535553e-05, Gradient Norm: 0.11815843731164932)
[A
Training...:  98% 2566/2609 [2:40:05<03:20,  4.67s/it][A
Training...:  98% 2567/2609 [2:40:09<03:08,  4.48s/it][A
Training...:  98% 2568/2609 [2:40:13<02:56,  4.31s/it][A
Training...:  98% 2569/2609 [2:40:17<02:48,  4.21s/it][A
Training...:  99% 2570/2609 [2:40:21<02:39,  4.10s/it][A
Training...:  99% 2571/2609 [2:40:25<02:31,  3.97s/it][A
Training...:  99% 2572/2609 [2:40:28<02:22,  3.84s/it][A
Training...:  99% 2573/2609 [2:40:32<02:14,  3.74s/it][A
Training...:  99% 2574/2609 [2:40:35<02:06,  3.60s/it][A
Training...:  99% 2575/2609 [2:40:38<01:58,  3.49s/it][A
Training...:  99% 2576/2609 [2:40:41<01:51,  3.37s/it][A
Training...:  99% 2577/2609 [2:40:44<01:45,  3.28s/it][A
Training...:  99% 2578/2609 [2:40:47<01:38,  3.17s/it][A
Training...:  99% 2579/2609 [2:40:50<01:32,  3.07s/it][A
Training...:  99% 2580/2609 [2:40:53<01:26,  2.97s/it][A
Training...:  99% 2581/2609 [2:40:56<01:21,  2.90s/it][A
Training...:  99% 2582/2609 [2:40:58<01:15,  2.80s/it][A
Training...:  99% 2583/2609 [2:41:01<01:10,  2.71s/it][A
Training...:  99% 2584/2609 [2:41:03<01:05,  2.63s/it][A
Training...:  99% 2585/2609 [2:41:06<01:00,  2.54s/it][A
Training...:  99% 2586/2609 [2:41:08<00:56,  2.45s/it][A
Training...:  99% 2587/2609 [2:41:10<00:51,  2.36s/it][A
Training...:  99% 2588/2609 [2:41:12<00:47,  2.27s/it][A
Training...:  99% 2589/2609 [2:41:14<00:43,  2.19s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  75% 15/20 [41:01:15<12:36:12, 9074.48s/it]
Training...:  99% 2589/2609 [2:41:16<00:43,  2.19s/it][A
Training...:  99% 2590/2609 [2:41:16<00:42,  2.23s/it][A
Training...:  99% 2591/2609 [2:41:18<00:37,  2.11s/it][A
Training...:  99% 2592/2609 [2:41:20<00:33,  1.99s/it][A
Training...:  99% 2593/2609 [2:41:22<00:30,  1.88s/it][A
Training...:  99% 2594/2609 [2:41:23<00:26,  1.76s/it][A
Training...:  99% 2595/2609 [2:41:24<00:23,  1.65s/it][A
Training...: 100% 2596/2609 [2:41:26<00:19,  1.52s/it][A
Training...: 100% 2597/2609 [2:41:27<00:16,  1.40s/it][A
Training...: 100% 2598/2609 [2:41:28<00:13,  1.27s/it][A
Training...: 100% 2599/2609 [2:41:28<00:11,  1.13s/it][A
Training...: 100% 2600/2609 [2:41:29<00:08,  1.04it/s][A
Training...: 100% 2601/2609 [2:41:36<00:20,  2.62s/it][A
Training...: 100% 2602/2609 [2:41:41<00:24,  3.46s/it][A
Training...: 100% 2603/2609 [2:41:45<00:22,  3.77s/it][A
Training...: 100% 2604/2609 [2:41:49<00:18,  3.78s/it][A
Training...: 100% 2605/2609 [2:41:53<00:14,  3.65s/it][A
Training...: 100% 2606/2609 [2:41:55<00:10,  3.41s/it][A
Training...: 100% 2607/2609 [2:41:58<00:06,  3.14s/it][A
Training...: 100% 2608/2609 [2:42:00<00:02,  2.82s/it][A
Training...: 100% 2609/2609 [2:42:02<00:00,  2.42s/it][ATraining...: 100% 2609/2609 [2:42:02<00:00,  3.73s/it]
Step... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:02:01<10:17:59, 9269.79s/it]
Training...:   0% 0/2609 [00:00<?, ?it/s][AStep... (41700 | Loss: 0.007451063487678766, Learning Rate: 1.676969441177789e-05, Gradient Norm: 0.28363335132598877)
Step... (41725 | Loss: 0.006419208832085133, Learning Rate: 1.6719191989977844e-05, Gradient Norm: 0.4066159725189209)

Training...:   0% 1/2609 [00:07<5:16:42,  7.29s/it][A
Training...:   0% 2/2609 [00:14<5:15:17,  7.26s/it][A
Training...:   0% 3/2609 [00:21<5:08:52,  7.11s/it][A
Training...:   0% 4/2609 [00:27<4:57:57,  6.86s/it][A
Training...:   0% 5/2609 [00:34<4:47:03,  6.61s/it][A                                                                                                                                                                    
                                                   [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:02:43<10:17:59, 9269.79s/it]
Training...:   0% 5/2609 [00:41<4:47:03,  6.61s/it][A
Training...:   0% 6/2609 [00:41<4:53:05,  6.76s/it][A
Training...:   0% 7/2609 [00:46<4:36:32,  6.38s/it][A
Training...:   0% 8/2609 [00:52<4:21:48,  6.04s/it][A
Training...:   0% 9/2609 [00:57<4:10:55,  5.79s/it][A
Training...:   0% 10/2609 [01:02<3:59:40,  5.53s/it][A
Training...:   0% 11/2609 [01:07<3:50:28,  5.32s/it][A
Training...:   0% 12/2609 [01:11<3:42:14,  5.13s/it][A
Training...:   0% 13/2609 [01:16<3:34:28,  4.96s/it][A
Training...:   1% 14/2609 [01:20<3:27:51,  4.81s/it][A
Training...:   1% 15/2609 [01:25<3:21:52,  4.67s/it][A
Training...:   1% 16/2609 [01:29<3:15:03,  4.51s/it][A
Training...:   1% 17/2609 [01:33<3:08:57,  4.37s/it][A
Training...:   1% 18/2609 [01:37<3:03:18,  4.25s/it][A
Training...:   1% 19/2609 [01:41<2:58:25,  4.13s/it][A
Training...:   1% 20/2609 [01:44<2:53:38,  4.02s/it][A
Training...:   1% 21/2609 [01:48<2:49:14,  3.92s/it][A
Training...:   1% 22/2609 [01:52<2:45:16,  3.83s/it][A
Training...:   1% 23/2609 [01:55<2:40:46,  3.73s/it][A
Training...:   1% 24/2609 [01:59<2:36:33,  3.63s/it][A
Training...:   1% 25/2609 [02:02<2:32:19,  3.54s/it][A
Training...:   1% 26/2609 [02:05<2:28:12,  3.44s/it][A
Training...:   1% 27/2609 [02:08<2:23:44,  3.34s/it][A
Training...:   1% 28/2609 [02:11<2:19:26,  3.24s/it][A
Training...:   1% 29/2609 [02:14<2:16:22,  3.17s/it][A
Training...:   1% 30/2609 [02:17<2:13:04,  3.10s/it][A                                                                                                                                                                    
                                                    [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:04:23<10:17:59, 9269.79s/it]
Training...:   1% 30/2609 [02:20<2:13:04,  3.10s/it][A
Training...:   1% 31/2609 [02:20<2:14:58,  3.14s/it][A
Training...:   1% 32/2609 [02:23<2:09:35,  3.02s/it][A
Training...:   1% 33/2609 [02:26<2:04:32,  2.90s/it][A
Training...:   1% 34/2609 [02:28<1:59:23,  2.78s/it][A
Training...:   1% 35/2609 [02:31<1:54:49,  2.68s/it][A
Training...:   1% 36/2609 [02:33<1:50:33,  2.58s/it][A
Training...:   1% 37/2609 [02:35<1:46:34,  2.49s/it][A
Training...:   1% 38/2609 [02:38<1:41:50,  2.38s/it][A
Training...:   1% 39/2609 [02:40<1:37:37,  2.28s/it][A
Training...:   2% 40/2609 [02:42<1:33:16,  2.18s/it][A
Training...:   2% 41/2609 [02:43<1:28:43,  2.07s/it][A
Training...:   2% 42/2609 [02:45<1:24:40,  1.98s/it][A
Training...:   2% 43/2609 [02:47<1:20:06,  1.87s/it][A
Training...:   2% 44/2609 [02:48<1:15:45,  1.77s/it][A
Training...:   2% 45/2609 [02:50<1:11:00,  1.66s/it][A
Training...:   2% 46/2609 [02:51<1:06:11,  1.55s/it][A
Training...:   2% 47/2609 [02:52<1:00:59,  1.43s/it][A
Training...:   2% 48/2609 [02:53<55:56,  1.31s/it]  [A
Training...:   2% 49/2609 [02:54<49:49,  1.17s/it][A
Training...:   2% 50/2609 [02:55<42:33,  1.00it/s][A
Training...:   2% 51/2609 [03:02<2:00:53,  2.84s/it][A
Training...:   2% 52/2609 [03:09<2:56:12,  4.13s/it][A
Training...:   2% 53/2609 [03:16<3:28:52,  4.90s/it][A
Training...:   2% 54/2609 [03:22<3:45:30,  5.30s/it][A
Training...:   2% 55/2609 [03:28<3:54:43,  5.51s/it][A                                                                                                                                                                    
                                                    [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:05:37<10:17:59, 9269.79s/it]
Training...:   2% 55/2609 [03:35<3:54:43,  5.51s/it][A
Training...:   2% 56/2609 [03:35<4:09:55,  5.87s/it][A
Training...:   2% 57/2609 [03:40<4:05:04,  5.76s/it][A
Training...:   2% 58/2609 [03:45<3:57:42,  5.59s/it][A
Training...:   2% 59/2609 [03:50<3:51:30,  5.45s/it][A
Training...:   2% 60/2609 [03:55<3:44:43,  5.29s/it][A
Training...:   2% 61/2609 [04:00<3:38:19,  5.14s/it][A
Training...:   2% 62/2609 [04:05<3:30:47,  4.97s/it][A
Training...:   2% 63/2609 [04:09<3:25:41,  4.85s/it][A
Training...:   2% 64/2609 [04:14<3:19:21,  4.70s/it][A
Training...:   2% 65/2609 [04:18<3:14:47,  4.59s/it][A
Training...:   3% 66/2609 [04:22<3:09:06,  4.46s/it][A
Training...:   3% 67/2609 [04:26<3:04:35,  4.36s/it][A
Training...:   3% 68/2609 [04:30<2:59:33,  4.24s/it][A
Training...:   3% 69/2609 [04:34<2:55:16,  4.14s/it][A
Training...:   3% 70/2609 [04:38<2:50:15,  4.02s/it][A
Training...:   3% 71/2609 [04:41<2:45:17,  3.91s/it][A
Training...:   3% 72/2609 [04:45<2:41:32,  3.82s/it][A
Training...:   3% 73/2609 [04:49<2:38:16,  3.74s/it][A
Training...:   3% 74/2609 [04:52<2:33:35,  3.64s/it][A
Training...:   3% 75/2609 [04:55<2:28:48,  3.52s/it][A
Training...:   3% 76/2609 [04:58<2:23:43,  3.40s/it][A
Training...:   3% 77/2609 [05:01<2:19:22,  3.30s/it][A
Training...:   3% 78/2609 [05:04<2:15:26,  3.21s/it][A
Training...:   3% 79/2609 [05:07<2:11:11,  3.11s/it][A
Training...:   3% 80/2609 [05:10<2:08:24,  3.05s/it][A                                                                                                                                                                    
                                                    [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:07:16<10:17:59, 9269.79s/it]
Training...:   3% 80/2609 [05:13<2:08:24,  3.05s/it][A
Training...:   3% 81/2609 [05:13<2:11:07,  3.11s/it][A
Training...:   3% 82/2609 [05:16<2:05:23,  2.98s/it][A
Training...:   3% 83/2609 [05:19<2:01:11,  2.88s/it][A
Training...:   3% 84/2609 [05:21<1:55:54,  2.75s/it][A
Training...:   3% 85/2609 [05:24<1:51:19,  2.65s/it][A
Training...:   3% 86/2609 [05:26<1:47:18,  2.55s/it][A
Training...:   3% 87/2609 [05:28<1:43:24,  2.46s/it][A
Training...:   3% 88/2609 [05:30<1:38:51,  2.35s/it][A
Training...:   3% 89/2609 [05:32<1:34:48,  2.26s/it][A
Training...:   3% 90/2609 [05:34<1:31:01,  2.17s/it][A
Training...:   3% 91/2609 [05:36<1:26:52,  2.07s/it][A
Training...:   4% 92/2609 [05:38<1:23:02,  1.98s/it][A
Training...:   4% 93/2609 [05:40<1:19:15,  1.89s/it][A
Training...:   4% 94/2609 [05:41<1:15:13,  1.79s/it][A
Training...:   4% 95/2609 [05:43<1:11:13,  1.70s/it][A
Training...:   4% 96/2609 [05:44<1:06:54,  1.60s/it][A
Training...:   4% 97/2609 [05:45<1:02:06,  1.48s/it][A
Training...:   4% 98/2609 [05:46<56:30,  1.35s/it]  [A
Training...:   4% 99/2609 [05:47<50:02,  1.20s/it][A
Training...:   4% 100/2609 [05:48<42:13,  1.01s/it][A
Training...:   4% 101/2609 [05:55<1:58:50,  2.84s/it][A
Training...:   4% 102/2609 [06:02<2:53:04,  4.14s/it][A
Training...:   4% 103/2609 [06:08<3:22:49,  4.86s/it][A
Training...:   4% 104/2609 [06:15<3:40:15,  5.28s/it][A
Training...:   4% 105/2609 [06:21<3:48:24,  5.47s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:08:29<10:17:59, 9269.79s/it]
Training...:   4% 105/2609 [06:27<3:48:24,  5.47s/it][A
Training...:   4% 106/2609 [06:27<4:00:26,  5.76s/it][A
Training...:   4% 107/2609 [06:33<3:57:09,  5.69s/it][A
Training...:   4% 108/2609 [06:38<3:51:21,  5.55s/it][A
Training...:   4% 109/2609 [06:43<3:46:19,  5.43s/it][A
Training...:   4% 110/2609 [06:48<3:40:14,  5.29s/it][A
Training...:   4% 111/2609 [06:53<3:35:13,  5.17s/it][A
Training...:   4% 112/2609 [06:58<3:28:55,  5.02s/it][A
Training...:   4% 113/2609 [07:02<3:23:37,  4.90s/it][A
Training...:   4% 114/2609 [07:07<3:17:09,  4.74s/it][A
Training...:   4% 115/2609 [07:11<3:12:53,  4.64s/it][A
Training...:   4% 116/2609 [07:15<3:08:28,  4.54s/it][A
Training...:   4% 117/2609 [07:19<3:03:04,  4.41s/it][A
Training...:   5% 118/2609 [07:23<2:57:01,  4.26s/it][A
Training...:   5% 119/2609 [07:27<2:51:20,  4.13s/it][A
Training...:   5% 120/2609 [07:31<2:45:49,  4.00s/it][A
Training...:   5% 121/2609 [07:34<2:41:03,  3.88s/it][A
Training...:   5% 122/2609 [07:38<2:36:27,  3.77s/it][A
Training...:   5% 123/2609 [07:41<2:32:01,  3.67s/it][A
Training...:   5% 124/2609 [07:45<2:28:12,  3.58s/it][A
Training...:   5% 125/2609 [07:48<2:23:21,  3.46s/it][A
Training...:   5% 126/2609 [07:51<2:18:55,  3.36s/it][A
Training...:   5% 127/2609 [07:54<2:14:53,  3.26s/it][A
Training...:   5% 128/2609 [07:57<2:11:07,  3.17s/it][A
Training...:   5% 129/2609 [08:00<2:07:54,  3.09s/it][A
Training...:   5% 130/2609 [08:03<2:04:15,  3.01s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:10:08<10:17:59, 9269.79s/it]
Training...:   5% 130/2609 [08:06<2:04:15,  3.01s/it][A
Training...:   5% 131/2609 [08:06<2:05:56,  3.05s/it][A
Training...:   5% 132/2609 [08:08<2:00:26,  2.92s/it][A
Training...:   5% 133/2609 [08:11<1:56:18,  2.82s/it][A
Training...:   5% 134/2609 [08:13<1:51:46,  2.71s/it][A
Training...:   5% 135/2609 [08:16<1:48:04,  2.62s/it][A
Training...:   5% 136/2609 [08:18<1:44:16,  2.53s/it][A
Training...:   5% 137/2609 [08:20<1:40:28,  2.44s/it][A
Training...:   5% 138/2609 [08:23<1:36:28,  2.34s/it][A
Training...:   5% 139/2609 [08:25<1:33:10,  2.26s/it][A
Training...:   5% 140/2609 [08:27<1:28:57,  2.16s/it][A
Training...:   5% 141/2609 [08:28<1:25:14,  2.07s/it][A
Training...:   5% 142/2609 [08:30<1:21:26,  1.98s/it][A
Training...:   5% 143/2609 [08:32<1:17:27,  1.88s/it][A
Training...:   6% 144/2609 [08:33<1:13:02,  1.78s/it][A
Training...:   6% 145/2609 [08:35<1:08:42,  1.67s/it][A
Training...:   6% 146/2609 [08:36<1:03:56,  1.56s/it][A
Training...:   6% 147/2609 [08:37<59:03,  1.44s/it]  [A
Training...:   6% 148/2609 [08:38<53:20,  1.30s/it][A
Training...:   6% 149/2609 [08:39<47:13,  1.15s/it][A
Training...:   6% 150/2609 [08:40<39:53,  1.03it/s][A
Training...:   6% 151/2609 [08:47<1:54:10,  2.79s/it][A
Training...:   6% 152/2609 [08:54<2:45:06,  4.03s/it][A
Training...:   6% 153/2609 [09:00<3:16:10,  4.79s/it][A
Training...:   6% 154/2609 [09:06<3:33:32,  5.22s/it][A
Training...:   6% 155/2609 [09:12<3:43:12,  5.46s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:11:21<10:17:59, 9269.79s/it]
Training...:   6% 155/2609 [09:19<3:43:12,  5.46s/it][A
Training...:   6% 156/2609 [09:19<3:55:12,  5.75s/it][A
Training...:   6% 157/2609 [09:24<3:50:36,  5.64s/it][A
Training...:   6% 158/2609 [09:29<3:45:05,  5.51s/it][A
Training...:   6% 159/2609 [09:34<3:39:42,  5.38s/it][A
Training...:   6% 160/2609 [09:39<3:34:23,  5.25s/it][A
Training...:   6% 161/2609 [09:44<3:28:31,  5.11s/it][A
Training...:   6% 162/2609 [09:49<3:22:21,  4.96s/it][A
Training...:   6% 163/2609 [09:53<3:16:58,  4.83s/it][A
Training...:   6% 164/2609 [09:58<3:10:48,  4.68s/it][A
Training...:   6% 165/2609 [10:02<3:05:46,  4.56s/it][A
Training...:   6% 166/2609 [10:06<2:59:51,  4.42s/it][A
Training...:   6% 167/2609 [10:10<2:55:23,  4.31s/it][A
Training...:   6% 168/2609 [10:14<2:50:05,  4.18s/it][A
Training...:   6% 169/2609 [10:18<2:45:39,  4.07s/it][A
Training...:   7% 170/2609 [10:22<2:41:20,  3.97s/it][A
Training...:   7% 171/2609 [10:25<2:37:15,  3.87s/it][A
Training...:   7% 172/2609 [10:29<2:33:40,  3.78s/it][A
Training...:   7% 173/2609 [10:32<2:29:53,  3.69s/it][A
Training...:   7% 174/2609 [10:36<2:25:29,  3.59s/it][A
Training...:   7% 175/2609 [10:39<2:22:01,  3.50s/it][A
Training...:   7% 176/2609 [10:42<2:17:32,  3.39s/it][A
Training...:   7% 177/2609 [10:45<2:13:40,  3.30s/it][A
Training...:   7% 178/2609 [10:48<2:10:52,  3.23s/it][A
Training...:   7% 179/2609 [10:51<2:07:26,  3.15s/it][A
Training...:   7% 180/2609 [10:54<2:04:16,  3.07s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:13:00<10:17:59, 9269.79s/it]
Training...:   7% 180/2609 [10:57<2:04:16,  3.07s/it][A
Training...:   7% 181/2609 [10:57<2:06:27,  3.12s/it][A
Training...:   7% 182/2609 [11:00<2:01:07,  2.99s/it][A
Training...:   7% 183/2609 [11:03<1:56:43,  2.89s/it][A
Training...:   7% 184/2609 [11:05<1:52:06,  2.77s/it][A
Training...:   7% 185/2609 [11:08<1:47:48,  2.67s/it][A
Training...:   7% 186/2609 [11:10<1:44:05,  2.58s/it][A
Training...:   7% 187/2609 [11:12<1:40:31,  2.49s/it][A
Training...:   7% 188/2609 [11:14<1:36:57,  2.40s/it][A
Training...:   7% 189/2609 [11:16<1:33:02,  2.31s/it][A
Training...:   7% 190/2609 [11:18<1:28:35,  2.20s/it][A
Training...:   7% 191/2609 [11:20<1:24:04,  2.09s/it][A
Training...:   7% 192/2609 [11:22<1:19:39,  1.98s/it][A
Training...:   7% 193/2609 [11:24<1:15:02,  1.86s/it][A
Training...:   7% 194/2609 [11:25<1:10:05,  1.74s/it][A
Training...:   7% 195/2609 [11:26<1:05:26,  1.63s/it][A
Training...:   8% 196/2609 [11:28<1:00:31,  1.51s/it][A
Training...:   8% 197/2609 [11:29<55:44,  1.39s/it]  [A
Training...:   8% 198/2609 [11:30<50:35,  1.26s/it][A
Training...:   8% 199/2609 [11:30<44:56,  1.12s/it][A
Training...:   8% 200/2609 [11:31<37:57,  1.06it/s][A
Training...:   8% 201/2609 [11:38<1:51:31,  2.78s/it][A
Training...:   8% 202/2609 [11:45<2:42:50,  4.06s/it][A
Training...:   8% 203/2609 [11:52<3:14:45,  4.86s/it][A
Training...:   8% 204/2609 [11:58<3:33:39,  5.33s/it][A
Training...:   8% 205/2609 [12:04<3:42:42,  5.56s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:14:13<10:17:59, 9269.79s/it]
Training...:   8% 205/2609 [12:11<3:42:42,  5.56s/it][A
Training...:   8% 206/2609 [12:11<3:55:09,  5.87s/it][A
Training...:   8% 207/2609 [12:16<3:51:18,  5.78s/it][A
Training...:   8% 208/2609 [12:22<3:46:05,  5.65s/it][A
Training...:   8% 209/2609 [12:27<3:39:56,  5.50s/it][A
Training...:   8% 210/2609 [12:32<3:33:16,  5.33s/it][A
Training...:   8% 211/2609 [12:37<3:28:42,  5.22s/it][A
Training...:   8% 212/2609 [12:42<3:22:26,  5.07s/it][A
Training...:   8% 213/2609 [12:46<3:17:01,  4.93s/it][A
Training...:   8% 214/2609 [12:51<3:10:42,  4.78s/it][A
Training...:   8% 215/2609 [12:55<3:06:42,  4.68s/it][A
Training...:   8% 216/2609 [12:59<3:03:08,  4.59s/it][A
Training...:   8% 217/2609 [13:04<2:57:48,  4.46s/it][A
Training...:   8% 218/2609 [13:08<2:52:52,  4.34s/it][A
Training...:   8% 219/2609 [13:12<2:47:44,  4.21s/it][A
Training...:   8% 220/2609 [13:15<2:42:00,  4.07s/it][A
Training...:   8% 221/2609 [13:19<2:37:14,  3.95s/it][A
Training...:   9% 222/2609 [13:23<2:32:41,  3.84s/it][A
Training...:   9% 223/2609 [13:26<2:28:38,  3.74s/it][A
Training...:   9% 224/2609 [13:29<2:24:13,  3.63s/it][A
Training...:   9% 225/2609 [13:33<2:20:40,  3.54s/it][A
Training...:   9% 226/2609 [13:36<2:16:37,  3.44s/it][A
Training...:   9% 227/2609 [13:39<2:12:59,  3.35s/it][A
Training...:   9% 228/2609 [13:42<2:09:12,  3.26s/it][A
Training...:   9% 229/2609 [13:45<2:05:41,  3.17s/it][A
Training...:   9% 230/2609 [13:48<2:02:38,  3.09s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:15:54<10:17:59, 9269.79s/it]
Training...:   9% 230/2609 [13:51<2:02:38,  3.09s/it][A
Training...:   9% 231/2609 [13:51<2:04:17,  3.14s/it][A
Training...:   9% 232/2609 [13:54<1:58:53,  3.00s/it][A
Training...:   9% 233/2609 [13:57<1:53:54,  2.88s/it][A
Training...:   9% 234/2609 [13:59<1:49:38,  2.77s/it][A
Training...:   9% 235/2609 [14:02<1:45:30,  2.67s/it][A
Training...:   9% 236/2609 [14:04<1:41:01,  2.55s/it][A
Training...:   9% 237/2609 [14:06<1:36:56,  2.45s/it][A
Training...:   9% 238/2609 [14:08<1:33:29,  2.37s/it][A
Training...:   9% 239/2609 [14:10<1:29:25,  2.26s/it][A
Training...:   9% 240/2609 [14:12<1:25:18,  2.16s/it][A
Training...:   9% 241/2609 [14:14<1:21:01,  2.05s/it][A
Training...:   9% 242/2609 [14:16<1:17:17,  1.96s/it][A
Training...:   9% 243/2609 [14:17<1:13:18,  1.86s/it][A
Training...:   9% 244/2609 [14:19<1:09:16,  1.76s/it][A
Training...:   9% 245/2609 [14:20<1:05:17,  1.66s/it][A
Training...:   9% 246/2609 [14:22<1:00:49,  1.54s/it][A
Training...:   9% 247/2609 [14:23<56:04,  1.42s/it]  [A
Training...:  10% 248/2609 [14:24<51:01,  1.30s/it][A
Training...:  10% 249/2609 [14:24<45:28,  1.16s/it][A
Training...:  10% 250/2609 [14:25<38:44,  1.01it/s][A
Training...:  10% 251/2609 [14:32<1:51:22,  2.83s/it][A
Training...:  10% 252/2609 [14:39<2:40:14,  4.08s/it][A
Training...:  10% 253/2609 [14:46<3:11:11,  4.87s/it][A
Training...:  10% 254/2609 [14:52<3:28:05,  5.30s/it][A
Training...:  10% 255/2609 [14:58<3:37:11,  5.54s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:17:07<10:17:59, 9269.79s/it]
Training...:  10% 255/2609 [15:05<3:37:11,  5.54s/it][A
Training...:  10% 256/2609 [15:05<3:49:03,  5.84s/it][A
Training...:  10% 257/2609 [15:10<3:45:52,  5.76s/it][A
Training...:  10% 258/2609 [15:16<3:43:44,  5.71s/it][A
Training...:  10% 259/2609 [15:21<3:39:36,  5.61s/it][A
Training...:  10% 260/2609 [15:27<3:33:39,  5.46s/it][A
Training...:  10% 261/2609 [15:31<3:27:45,  5.31s/it][A
Training...:  10% 262/2609 [15:36<3:20:12,  5.12s/it][A
Training...:  10% 263/2609 [15:41<3:13:20,  4.94s/it][A
Training...:  10% 264/2609 [15:45<3:06:35,  4.77s/it][A
Training...:  10% 265/2609 [15:49<3:00:41,  4.63s/it][A
Training...:  10% 266/2609 [15:53<2:54:30,  4.47s/it][A
Training...:  10% 267/2609 [15:57<2:49:35,  4.34s/it][A
Training...:  10% 268/2609 [16:01<2:44:13,  4.21s/it][A
Training...:  10% 269/2609 [16:05<2:40:09,  4.11s/it][A
Training...:  10% 270/2609 [16:09<2:35:52,  4.00s/it][A
Training...:  10% 271/2609 [16:13<2:31:48,  3.90s/it][A
Training...:  10% 272/2609 [16:16<2:27:33,  3.79s/it][A
Training...:  10% 273/2609 [16:20<2:23:49,  3.69s/it][A
Training...:  11% 274/2609 [16:23<2:19:30,  3.58s/it][A
Training...:  11% 275/2609 [16:26<2:15:16,  3.48s/it][A
Training...:  11% 276/2609 [16:29<2:10:50,  3.36s/it][A
Training...:  11% 277/2609 [16:32<2:07:24,  3.28s/it][A
Training...:  11% 278/2609 [16:35<2:03:47,  3.19s/it][A
Training...:  11% 279/2609 [16:38<2:00:30,  3.10s/it][A
Training...:  11% 280/2609 [16:41<1:57:21,  3.02s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:18:47<10:17:59, 9269.79s/it]
Training...:  11% 280/2609 [16:44<1:57:21,  3.02s/it][A
Training...:  11% 281/2609 [16:44<1:58:55,  3.07s/it][A
Training...:  11% 282/2609 [16:47<1:54:11,  2.94s/it][A
Training...:  11% 283/2609 [16:50<1:49:35,  2.83s/it][A
Training...:  11% 284/2609 [16:52<1:45:12,  2.71s/it][A
Training...:  11% 285/2609 [16:54<1:41:09,  2.61s/it][A
Training...:  11% 286/2609 [16:57<1:37:08,  2.51s/it][A
Training...:  11% 287/2609 [16:59<1:33:50,  2.43s/it][A
Training...:  11% 288/2609 [17:01<1:29:50,  2.32s/it][A
Training...:  11% 289/2609 [17:03<1:25:47,  2.22s/it][A
Training...:  11% 290/2609 [17:05<1:22:17,  2.13s/it][A
Training...:  11% 291/2609 [17:07<1:18:34,  2.03s/it][A
Training...:  11% 292/2609 [17:08<1:14:49,  1.94s/it][A
Training...:  11% 293/2609 [17:10<1:10:51,  1.84s/it][A
Training...:  11% 294/2609 [17:11<1:06:42,  1.73s/it][A
Training...:  11% 295/2609 [17:13<1:02:40,  1.63s/it][A
Training...:  11% 296/2609 [17:14<58:11,  1.51s/it]  [A
Training...:  11% 297/2609 [17:15<53:47,  1.40s/it][A
Training...:  11% 298/2609 [17:16<48:33,  1.26s/it][A
Training...:  11% 299/2609 [17:17<42:45,  1.11s/it][A
Training...:  11% 300/2609 [17:17<35:59,  1.07it/s][A
Training...:  12% 301/2609 [17:25<1:47:34,  2.80s/it][A
Training...:  12% 302/2609 [17:31<2:34:50,  4.03s/it][A
Training...:  12% 303/2609 [17:38<3:05:19,  4.82s/it][A
Training...:  12% 304/2609 [17:44<3:21:22,  5.24s/it][A
Training...:  12% 305/2609 [17:50<3:29:19,  5.45s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:19:59<10:17:59, 9269.79s/it]
Training...:  12% 305/2609 [17:57<3:29:19,  5.45s/it][A
Training...:  12% 306/2609 [17:57<3:43:15,  5.82s/it][A
Training...:  12% 307/2609 [18:03<3:41:40,  5.78s/it][A
Training...:  12% 308/2609 [18:08<3:36:29,  5.65s/it][A
Training...:  12% 309/2609 [18:13<3:34:35,  5.60s/it][A
Training...:  12% 310/2609 [18:19<3:29:18,  5.46s/it][A
Training...:  12% 311/2609 [18:24<3:25:52,  5.38s/it][A
Training...:  12% 312/2609 [18:29<3:20:00,  5.22s/it][A
Training...:  12% 313/2609 [18:33<3:14:46,  5.09s/it][A
Training...:  12% 314/2609 [18:38<3:09:01,  4.94s/it][A
Training...:  12% 315/2609 [18:43<3:04:32,  4.83s/it][A
Training...:  12% 316/2609 [18:47<3:00:11,  4.72s/it][A
Training...:  12% 317/2609 [18:51<2:56:02,  4.61s/it][A
Training...:  12% 318/2609 [18:56<2:50:28,  4.46s/it][A
Training...:  12% 319/2609 [19:00<2:46:47,  4.37s/it][A
Training...:  12% 320/2609 [19:04<2:42:15,  4.25s/it][A
Training...:  12% 321/2609 [19:08<2:38:19,  4.15s/it][A
Training...:  12% 322/2609 [19:11<2:33:48,  4.04s/it][A
Training...:  12% 323/2609 [19:15<2:30:13,  3.94s/it][A
Training...:  12% 324/2609 [19:19<2:26:22,  3.84s/it][A
Training...:  12% 325/2609 [19:22<2:23:32,  3.77s/it][A
Training...:  12% 326/2609 [19:26<2:19:26,  3.66s/it][A
Training...:  13% 327/2609 [19:29<2:16:22,  3.59s/it][A
Training...:  13% 328/2609 [19:32<2:13:27,  3.51s/it][A
Training...:  13% 329/2609 [19:36<2:09:39,  3.41s/it][A
Training...:  13% 330/2609 [19:39<2:03:51,  3.26s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:21:44<10:17:59, 9269.79s/it]
Training...:  13% 330/2609 [19:42<2:03:51,  3.26s/it][A
Training...:  13% 331/2609 [19:42<2:03:28,  3.25s/it][A
Training...:  13% 332/2609 [19:44<1:56:51,  3.08s/it][A
Training...:  13% 333/2609 [19:47<1:51:36,  2.94s/it][A
Training...:  13% 334/2609 [19:50<1:46:46,  2.82s/it][A
Training...:  13% 335/2609 [19:52<1:42:09,  2.70s/it][A
Training...:  13% 336/2609 [19:54<1:38:22,  2.60s/it][A
Training...:  13% 337/2609 [19:57<1:34:41,  2.50s/it][A
Training...:  13% 338/2609 [19:59<1:30:52,  2.40s/it][A
Training...:  13% 339/2609 [20:01<1:26:54,  2.30s/it][A
Training...:  13% 340/2609 [20:03<1:23:25,  2.21s/it][A
Training...:  13% 341/2609 [20:05<1:19:33,  2.10s/it][A
Training...:  13% 342/2609 [20:06<1:15:29,  2.00s/it][A
Training...:  13% 343/2609 [20:08<1:11:51,  1.90s/it][A
Training...:  13% 344/2609 [20:10<1:07:57,  1.80s/it][A
Training...:  13% 345/2609 [20:11<1:03:31,  1.68s/it][A
Training...:  13% 346/2609 [20:12<58:49,  1.56s/it]  [A
Training...:  13% 347/2609 [20:14<54:14,  1.44s/it][A
Training...:  13% 348/2609 [20:14<48:54,  1.30s/it][A
Training...:  13% 349/2609 [20:15<43:51,  1.16s/it][A
Training...:  13% 350/2609 [20:16<37:26,  1.01it/s][A
Training...:  13% 351/2609 [20:23<1:46:20,  2.83s/it][A
Training...:  13% 352/2609 [20:30<2:34:42,  4.11s/it][A
Training...:  14% 353/2609 [20:37<3:01:59,  4.84s/it][A
Training...:  14% 354/2609 [20:43<3:18:24,  5.28s/it][A
Training...:  14% 355/2609 [20:49<3:25:43,  5.48s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:22:58<10:17:59, 9269.79s/it]
Training...:  14% 355/2609 [20:55<3:25:43,  5.48s/it][A
Training...:  14% 356/2609 [20:55<3:36:34,  5.77s/it][A
Training...:  14% 357/2609 [21:01<3:33:44,  5.69s/it][A
Training...:  14% 358/2609 [21:06<3:28:42,  5.56s/it][A
Training...:  14% 359/2609 [21:11<3:23:56,  5.44s/it][A
Training...:  14% 360/2609 [21:16<3:19:19,  5.32s/it][A
Training...:  14% 361/2609 [21:21<3:13:49,  5.17s/it][A
Training...:  14% 362/2609 [21:26<3:07:58,  5.02s/it][A
Training...:  14% 363/2609 [21:30<3:01:53,  4.86s/it][A
Training...:  14% 364/2609 [21:35<2:56:23,  4.71s/it][A
Training...:  14% 365/2609 [21:39<2:52:23,  4.61s/it][A
Training...:  14% 366/2609 [21:43<2:48:01,  4.49s/it][A
Training...:  14% 367/2609 [21:47<2:42:20,  4.34s/it][A
Training...:  14% 368/2609 [21:51<2:36:53,  4.20s/it][A
Training...:  14% 369/2609 [21:55<2:31:50,  4.07s/it][A
Training...:  14% 370/2609 [21:59<2:27:42,  3.96s/it][A
Training...:  14% 371/2609 [22:02<2:23:10,  3.84s/it][A
Training...:  14% 372/2609 [22:06<2:19:04,  3.73s/it][A
Training...:  14% 373/2609 [22:09<2:14:42,  3.61s/it][A
Training...:  14% 374/2609 [22:12<2:11:42,  3.54s/it][A
Training...:  14% 375/2609 [22:16<2:07:37,  3.43s/it][A
Training...:  14% 376/2609 [22:19<2:03:47,  3.33s/it][A
Training...:  14% 377/2609 [22:22<1:59:56,  3.22s/it][A
Training...:  14% 378/2609 [22:25<1:56:30,  3.13s/it][A
Training...:  15% 379/2609 [22:27<1:53:20,  3.05s/it][A
Training...:  15% 380/2609 [22:30<1:50:18,  2.97s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:24:36<10:17:59, 9269.79s/it]
Training...:  15% 380/2609 [22:33<1:50:18,  2.97s/it][A
Training...:  15% 381/2609 [22:33<1:51:39,  3.01s/it][A
Training...:  15% 382/2609 [22:36<1:47:28,  2.90s/it][A
Training...:  15% 383/2609 [22:38<1:43:03,  2.78s/it][A
Training...:  15% 384/2609 [22:41<1:39:11,  2.67s/it][A
Training...:  15% 385/2609 [22:43<1:36:02,  2.59s/it][A
Training...:  15% 386/2609 [22:46<1:32:33,  2.50s/it][A
Training...:  15% 387/2609 [22:48<1:29:32,  2.42s/it][A
Training...:  15% 388/2609 [22:50<1:26:17,  2.33s/it][A
Training...:  15% 389/2609 [22:52<1:22:29,  2.23s/it][A
Training...:  15% 390/2609 [22:54<1:19:19,  2.14s/it][A
Training...:  15% 391/2609 [22:56<1:15:46,  2.05s/it][A
Training...:  15% 392/2609 [22:57<1:12:21,  1.96s/it][A
Training...:  15% 393/2609 [22:59<1:09:10,  1.87s/it][A
Training...:  15% 394/2609 [23:01<1:05:02,  1.76s/it][A
Training...:  15% 395/2609 [23:02<1:01:13,  1.66s/it][A
Training...:  15% 396/2609 [23:03<56:54,  1.54s/it]  [A
Training...:  15% 397/2609 [23:04<52:32,  1.43s/it][A
Training...:  15% 398/2609 [23:05<47:44,  1.30s/it][A
Training...:  15% 399/2609 [23:06<42:31,  1.15s/it][A
Training...:  15% 400/2609 [23:07<35:54,  1.03it/s][A
Training...:  15% 401/2609 [23:14<1:43:26,  2.81s/it][A
Training...:  15% 402/2609 [23:21<2:30:46,  4.10s/it][A
Training...:  15% 403/2609 [23:28<2:58:14,  4.85s/it][A
Training...:  15% 404/2609 [23:34<3:12:58,  5.25s/it][A
Training...:  16% 405/2609 [23:40<3:20:32,  5.46s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:25:49<10:17:59, 9269.79s/it]
Training...:  16% 405/2609 [23:46<3:20:32,  5.46s/it][A
Training...:  16% 406/2609 [23:46<3:33:28,  5.81s/it][A
Training...:  16% 407/2609 [23:52<3:34:03,  5.83s/it][A
Training...:  16% 408/2609 [23:58<3:27:55,  5.67s/it][A
Training...:  16% 409/2609 [24:03<3:22:04,  5.51s/it][A
Training...:  16% 410/2609 [24:08<3:16:45,  5.37s/it][A
Training...:  16% 411/2609 [24:13<3:11:56,  5.24s/it][A
Training...:  16% 412/2609 [24:17<3:05:29,  5.07s/it][A
Training...:  16% 413/2609 [24:22<3:00:39,  4.94s/it][A
Training...:  16% 414/2609 [24:26<2:56:11,  4.82s/it][A
Training...:  16% 415/2609 [24:31<2:51:03,  4.68s/it][A
Training...:  16% 416/2609 [24:35<2:45:35,  4.53s/it][A
Training...:  16% 417/2609 [24:39<2:41:13,  4.41s/it][A
Training...:  16% 418/2609 [24:43<2:36:09,  4.28s/it][A
Training...:  16% 419/2609 [24:47<2:32:30,  4.18s/it][A
Training...:  16% 420/2609 [24:51<2:28:53,  4.08s/it][A
Training...:  16% 421/2609 [24:55<2:24:50,  3.97s/it][A
Training...:  16% 422/2609 [24:58<2:20:25,  3.85s/it][A
Training...:  16% 423/2609 [25:02<2:16:27,  3.75s/it][A
Training...:  16% 424/2609 [25:05<2:12:22,  3.63s/it][A
Training...:  16% 425/2609 [25:08<2:08:49,  3.54s/it][A
Training...:  16% 426/2609 [25:12<2:05:19,  3.44s/it][A
Training...:  16% 427/2609 [25:15<2:01:46,  3.35s/it][A
Training...:  16% 428/2609 [25:18<1:57:56,  3.24s/it][A
Training...:  16% 429/2609 [25:21<1:54:50,  3.16s/it][A
Training...:  16% 430/2609 [25:24<1:51:14,  3.06s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:27:29<10:17:59, 9269.79s/it]
Training...:  16% 430/2609 [25:27<1:51:14,  3.06s/it][A
Training...:  17% 431/2609 [25:27<1:52:39,  3.10s/it][A
Training...:  17% 432/2609 [25:29<1:47:36,  2.97s/it][A
Training...:  17% 433/2609 [25:32<1:43:10,  2.84s/it][A
Training...:  17% 434/2609 [25:34<1:39:13,  2.74s/it][A
Training...:  17% 435/2609 [25:37<1:35:27,  2.63s/it][A
Training...:  17% 436/2609 [25:39<1:31:41,  2.53s/it][A
Training...:  17% 437/2609 [25:41<1:28:32,  2.45s/it][A
Training...:  17% 438/2609 [25:43<1:24:56,  2.35s/it][A
Training...:  17% 439/2609 [25:46<1:21:32,  2.25s/it][A
Training...:  17% 440/2609 [25:48<1:19:03,  2.19s/it][A
Training...:  17% 441/2609 [25:49<1:16:08,  2.11s/it][A
Training...:  17% 442/2609 [25:51<1:13:04,  2.02s/it][A
Training...:  17% 443/2609 [25:53<1:09:50,  1.93s/it][A
Training...:  17% 444/2609 [25:55<1:06:29,  1.84s/it][A
Training...:  17% 445/2609 [25:56<1:03:16,  1.75s/it][A
Training...:  17% 446/2609 [25:58<58:40,  1.63s/it]  [A
Training...:  17% 447/2609 [25:59<53:54,  1.50s/it][A
Training...:  17% 448/2609 [26:00<48:35,  1.35s/it][A
Training...:  17% 449/2609 [26:01<42:59,  1.19s/it][A
Training...:  17% 450/2609 [26:01<36:12,  1.01s/it][A
Training...:  17% 451/2609 [26:09<1:45:46,  2.94s/it][A
Training...:  17% 452/2609 [26:16<2:30:03,  4.17s/it][A
Training...:  17% 453/2609 [26:22<2:55:47,  4.89s/it][A
Training...:  17% 454/2609 [26:29<3:11:38,  5.34s/it][A
Training...:  17% 455/2609 [26:35<3:19:27,  5.56s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:28:44<10:17:59, 9269.79s/it]
Training...:  17% 455/2609 [26:41<3:19:27,  5.56s/it][A
Training...:  17% 456/2609 [26:41<3:29:32,  5.84s/it][A
Training...:  18% 457/2609 [26:47<3:26:26,  5.76s/it][A
Training...:  18% 458/2609 [26:52<3:21:18,  5.62s/it][A
Training...:  18% 459/2609 [26:57<3:16:15,  5.48s/it][A
Training...:  18% 460/2609 [27:02<3:09:45,  5.30s/it][A
Training...:  18% 461/2609 [27:07<3:04:46,  5.16s/it][A
Training...:  18% 462/2609 [27:11<2:58:44,  5.00s/it][A
Training...:  18% 463/2609 [27:16<2:54:23,  4.88s/it][A
Training...:  18% 464/2609 [27:21<2:49:49,  4.75s/it][A
Training...:  18% 465/2609 [27:25<2:44:45,  4.61s/it][A
Training...:  18% 466/2609 [27:29<2:39:05,  4.45s/it][A
Training...:  18% 467/2609 [27:33<2:34:36,  4.33s/it][A
Training...:  18% 468/2609 [27:37<2:29:29,  4.19s/it][A
Training...:  18% 469/2609 [27:41<2:26:05,  4.10s/it][A
Training...:  18% 470/2609 [27:44<2:23:01,  4.01s/it][A
Training...:  18% 471/2609 [27:48<2:19:53,  3.93s/it][A
Training...:  18% 472/2609 [27:52<2:15:27,  3.80s/it][A
Training...:  18% 473/2609 [27:55<2:12:08,  3.71s/it][A
Training...:  18% 474/2609 [27:59<2:07:37,  3.59s/it][A
Training...:  18% 475/2609 [28:02<2:03:59,  3.49s/it][A
Training...:  18% 476/2609 [28:05<2:00:09,  3.38s/it][A
Training...:  18% 477/2609 [28:08<1:56:48,  3.29s/it][A
Training...:  18% 478/2609 [28:11<1:53:04,  3.18s/it][A
Training...:  18% 479/2609 [28:14<1:50:23,  3.11s/it][A
Training...:  18% 480/2609 [28:17<1:47:24,  3.03s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:30:22<10:17:59, 9269.79s/it]
Training...:  18% 480/2609 [28:20<1:47:24,  3.03s/it][A
Training...:  18% 481/2609 [28:20<1:49:28,  3.09s/it][A
Training...:  18% 482/2609 [28:23<1:45:00,  2.96s/it][A
Training...:  19% 483/2609 [28:25<1:41:57,  2.88s/it][A
Training...:  19% 484/2609 [28:28<1:37:32,  2.75s/it][A
Training...:  19% 485/2609 [28:30<1:33:44,  2.65s/it][A
Training...:  19% 486/2609 [28:32<1:30:15,  2.55s/it][A
Training...:  19% 487/2609 [28:35<1:27:02,  2.46s/it][A
Training...:  19% 488/2609 [28:37<1:23:21,  2.36s/it][A
Training...:  19% 489/2609 [28:39<1:20:48,  2.29s/it][A
Training...:  19% 490/2609 [28:41<1:17:57,  2.21s/it][A
Training...:  19% 491/2609 [28:43<1:14:54,  2.12s/it][A
Training...:  19% 492/2609 [28:45<1:11:46,  2.03s/it][A
Training...:  19% 493/2609 [28:46<1:08:49,  1.95s/it][A
Training...:  19% 494/2609 [28:48<1:05:10,  1.85s/it][A
Training...:  19% 495/2609 [28:50<1:01:26,  1.74s/it][A
Training...:  19% 496/2609 [28:51<57:25,  1.63s/it]  [A
Training...:  19% 497/2609 [28:52<52:19,  1.49s/it][A
Training...:  19% 498/2609 [28:53<47:07,  1.34s/it][A
Training...:  19% 499/2609 [28:54<41:22,  1.18s/it][A
Training...:  19% 500/2609 [28:54<34:27,  1.02it/s][A
Training...:  19% 501/2609 [29:01<1:37:38,  2.78s/it][A
Training...:  19% 502/2609 [29:08<2:21:35,  4.03s/it][A
Training...:  19% 503/2609 [29:15<2:48:08,  4.79s/it][A
Training...:  19% 504/2609 [29:21<3:02:31,  5.20s/it][A
Training...:  19% 505/2609 [29:27<3:10:32,  5.43s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:31:36<10:17:59, 9269.79s/it]
Training...:  19% 505/2609 [29:34<3:10:32,  5.43s/it][A
Training...:  19% 506/2609 [29:34<3:21:13,  5.74s/it][A
Training...:  19% 507/2609 [29:39<3:18:31,  5.67s/it][A
Training...:  19% 508/2609 [29:44<3:14:24,  5.55s/it][A
Training...:  20% 509/2609 [29:50<3:12:02,  5.49s/it][A
Training...:  20% 510/2609 [29:55<3:07:14,  5.35s/it][A
Training...:  20% 511/2609 [29:59<3:01:23,  5.19s/it][A
Training...:  20% 512/2609 [30:04<2:55:21,  5.02s/it][A
Training...:  20% 513/2609 [30:09<2:51:04,  4.90s/it][A
Training...:  20% 514/2609 [30:13<2:47:00,  4.78s/it][A
Training...:  20% 515/2609 [30:17<2:41:29,  4.63s/it][A
Training...:  20% 516/2609 [30:22<2:36:06,  4.48s/it][A
Training...:  20% 517/2609 [30:26<2:31:26,  4.34s/it][A
Training...:  20% 518/2609 [30:30<2:26:55,  4.22s/it][A
Training...:  20% 519/2609 [30:33<2:22:22,  4.09s/it][A
Training...:  20% 520/2609 [30:37<2:19:12,  4.00s/it][A
Training...:  20% 521/2609 [30:41<2:14:51,  3.88s/it][A
Training...:  20% 522/2609 [30:44<2:10:57,  3.76s/it][A
Training...:  20% 523/2609 [30:48<2:07:10,  3.66s/it][A
Training...:  20% 524/2609 [30:51<2:03:29,  3.55s/it][A
Training...:  20% 525/2609 [30:54<1:59:52,  3.45s/it][A
Training...:  20% 526/2609 [30:57<1:56:14,  3.35s/it][A
Training...:  20% 527/2609 [31:00<1:53:04,  3.26s/it][A
Training...:  20% 528/2609 [31:03<1:49:34,  3.16s/it][A
Training...:  20% 529/2609 [31:06<1:46:37,  3.08s/it][A
Training...:  20% 530/2609 [31:09<1:43:28,  2.99s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:33:14<10:17:59, 9269.79s/it]
Training...:  20% 530/2609 [31:12<1:43:28,  2.99s/it][A
Training...:  20% 531/2609 [31:12<1:45:42,  3.05s/it][A
Training...:  20% 532/2609 [31:15<1:41:18,  2.93s/it][A
Training...:  20% 533/2609 [31:17<1:37:08,  2.81s/it][A
Training...:  20% 534/2609 [31:20<1:33:02,  2.69s/it][A
Training...:  21% 535/2609 [31:22<1:29:39,  2.59s/it][A
Training...:  21% 536/2609 [31:24<1:26:32,  2.50s/it][A
Training...:  21% 537/2609 [31:27<1:23:58,  2.43s/it][A
Training...:  21% 538/2609 [31:29<1:21:51,  2.37s/it][A
Training...:  21% 539/2609 [31:31<1:19:27,  2.30s/it][A
Training...:  21% 540/2609 [31:33<1:16:44,  2.23s/it][A
Training...:  21% 541/2609 [31:35<1:13:43,  2.14s/it][A
Training...:  21% 542/2609 [31:37<1:10:20,  2.04s/it][A
Training...:  21% 543/2609 [31:39<1:07:01,  1.95s/it][A
Training...:  21% 544/2609 [31:40<1:03:21,  1.84s/it][A
Training...:  21% 545/2609 [31:42<59:35,  1.73s/it]  [A
Training...:  21% 546/2609 [31:43<55:49,  1.62s/it][A
Training...:  21% 547/2609 [31:44<50:51,  1.48s/it][A
Training...:  21% 548/2609 [31:45<45:25,  1.32s/it][A
Training...:  21% 549/2609 [31:46<39:54,  1.16s/it][A
Training...:  21% 550/2609 [31:46<33:28,  1.03it/s][A
Training...:  21% 551/2609 [31:53<1:35:30,  2.78s/it][A
Training...:  21% 552/2609 [32:00<2:18:57,  4.05s/it][A
Training...:  21% 553/2609 [32:07<2:44:01,  4.79s/it][A
Training...:  21% 554/2609 [32:13<2:58:15,  5.20s/it][A
Training...:  21% 555/2609 [32:19<3:05:48,  5.43s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:34:28<10:17:59, 9269.79s/it]
Training...:  21% 555/2609 [32:26<3:05:48,  5.43s/it][A
Training...:  21% 556/2609 [32:26<3:16:30,  5.74s/it][A
Training...:  21% 557/2609 [32:31<3:15:08,  5.71s/it][A
Training...:  21% 558/2609 [32:36<3:09:35,  5.55s/it][A
Training...:  21% 559/2609 [32:41<3:05:07,  5.42s/it][A
Training...:  21% 560/2609 [32:47<3:02:07,  5.33s/it][A
Training...:  22% 561/2609 [32:51<2:57:55,  5.21s/it][A
Training...:  22% 562/2609 [32:56<2:51:47,  5.04s/it][A
Training...:  22% 563/2609 [33:01<2:46:14,  4.87s/it][A
Training...:  22% 564/2609 [33:05<2:41:04,  4.73s/it][A
Training...:  22% 565/2609 [33:09<2:36:24,  4.59s/it][A
Training...:  22% 566/2609 [33:13<2:31:22,  4.45s/it][A
Training...:  22% 567/2609 [33:17<2:26:52,  4.32s/it][A
Training...:  22% 568/2609 [33:21<2:22:21,  4.18s/it][A
Training...:  22% 569/2609 [33:25<2:18:42,  4.08s/it][A
Training...:  22% 570/2609 [33:29<2:14:34,  3.96s/it][A
Training...:  22% 571/2609 [33:32<2:11:10,  3.86s/it][A
Training...:  22% 572/2609 [33:36<2:07:40,  3.76s/it][A
Training...:  22% 573/2609 [33:39<2:04:17,  3.66s/it][A
Training...:  22% 574/2609 [33:43<2:01:03,  3.57s/it][A
Training...:  22% 575/2609 [33:46<1:57:55,  3.48s/it][A
Training...:  22% 576/2609 [33:49<1:54:42,  3.39s/it][A
Training...:  22% 577/2609 [33:52<1:51:25,  3.29s/it][A
Training...:  22% 578/2609 [33:55<1:47:57,  3.19s/it][A
Training...:  22% 579/2609 [33:58<1:44:44,  3.10s/it][A
Training...:  22% 580/2609 [34:01<1:41:41,  3.01s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:36:06<10:17:59, 9269.79s/it]
Training...:  22% 580/2609 [34:04<1:41:41,  3.01s/it][A
Training...:  22% 581/2609 [34:04<1:42:41,  3.04s/it][A
Training...:  22% 582/2609 [34:07<1:38:37,  2.92s/it][A
Training...:  22% 583/2609 [34:09<1:34:44,  2.81s/it][A
Training...:  22% 584/2609 [34:12<1:30:59,  2.70s/it][A
Training...:  22% 585/2609 [34:14<1:27:40,  2.60s/it][A
Training...:  22% 586/2609 [34:16<1:24:00,  2.49s/it][A
Training...:  22% 587/2609 [34:18<1:21:01,  2.40s/it][A
Training...:  23% 588/2609 [34:21<1:17:53,  2.31s/it][A
Training...:  23% 589/2609 [34:23<1:14:56,  2.23s/it][A
Training...:  23% 590/2609 [34:24<1:11:46,  2.13s/it][A
Training...:  23% 591/2609 [34:26<1:08:37,  2.04s/it][A
Training...:  23% 592/2609 [34:28<1:05:21,  1.94s/it][A
Training...:  23% 593/2609 [34:30<1:02:26,  1.86s/it][A
Training...:  23% 594/2609 [34:31<58:54,  1.75s/it]  [A
Training...:  23% 595/2609 [34:33<55:07,  1.64s/it][A
Training...:  23% 596/2609 [34:34<51:12,  1.53s/it][A
Training...:  23% 597/2609 [34:35<47:18,  1.41s/it][A
Training...:  23% 598/2609 [34:36<42:54,  1.28s/it][A
Training...:  23% 599/2609 [34:37<38:05,  1.14s/it][A
Training...:  23% 600/2609 [34:37<32:00,  1.05it/s][A
Training...:  23% 601/2609 [34:44<1:34:09,  2.81s/it][A
Training...:  23% 602/2609 [34:51<2:16:25,  4.08s/it][A
Training...:  23% 603/2609 [34:58<2:43:41,  4.90s/it][A
Training...:  23% 604/2609 [35:05<3:00:05,  5.39s/it][A
Training...:  23% 605/2609 [35:11<3:07:04,  5.60s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:37:20<10:17:59, 9269.79s/it]
Training...:  23% 605/2609 [35:17<3:07:04,  5.60s/it][A
Training...:  23% 606/2609 [35:17<3:16:44,  5.89s/it][A
Training...:  23% 607/2609 [35:23<3:13:47,  5.81s/it][A
Training...:  23% 608/2609 [35:28<3:08:26,  5.65s/it][A
Training...:  23% 609/2609 [35:34<3:03:51,  5.52s/it][A
Training...:  23% 610/2609 [35:39<2:58:39,  5.36s/it][A
Training...:  23% 611/2609 [35:43<2:54:12,  5.23s/it][A
Training...:  23% 612/2609 [35:48<2:49:24,  5.09s/it][A
Training...:  23% 613/2609 [35:53<2:44:19,  4.94s/it][A
Training...:  24% 614/2609 [35:57<2:39:04,  4.78s/it][A
Training...:  24% 615/2609 [36:02<2:34:11,  4.64s/it][A
Training...:  24% 616/2609 [36:06<2:29:59,  4.52s/it][A
Training...:  24% 617/2609 [36:10<2:25:02,  4.37s/it][A
Training...:  24% 618/2609 [36:14<2:21:01,  4.25s/it][A
Training...:  24% 619/2609 [36:18<2:17:38,  4.15s/it][A
Training...:  24% 620/2609 [36:21<2:14:07,  4.05s/it][A
Training...:  24% 621/2609 [36:25<2:10:51,  3.95s/it][A
Training...:  24% 622/2609 [36:29<2:07:37,  3.85s/it][A
Training...:  24% 623/2609 [36:32<2:04:07,  3.75s/it][A
Training...:  24% 624/2609 [36:36<2:00:31,  3.64s/it][A
Training...:  24% 625/2609 [36:39<1:57:13,  3.55s/it][A
Training...:  24% 626/2609 [36:42<1:53:48,  3.44s/it][A
Training...:  24% 627/2609 [36:45<1:49:57,  3.33s/it][A
Training...:  24% 628/2609 [36:48<1:46:34,  3.23s/it][A
Training...:  24% 629/2609 [36:51<1:43:39,  3.14s/it][A
Training...:  24% 630/2609 [36:54<1:40:45,  3.05s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:39:00<10:17:59, 9269.79s/it]
Training...:  24% 630/2609 [36:57<1:40:45,  3.05s/it][A
Training...:  24% 631/2609 [36:57<1:42:10,  3.10s/it][A
Training...:  24% 632/2609 [37:00<1:37:52,  2.97s/it][A
Training...:  24% 633/2609 [37:03<1:34:12,  2.86s/it][A
Training...:  24% 634/2609 [37:05<1:31:08,  2.77s/it][A
Training...:  24% 635/2609 [37:08<1:27:51,  2.67s/it][A
Training...:  24% 636/2609 [37:10<1:24:08,  2.56s/it][A
Training...:  24% 637/2609 [37:12<1:21:10,  2.47s/it][A
Training...:  24% 638/2609 [37:14<1:17:36,  2.36s/it][A
Training...:  24% 639/2609 [37:16<1:14:02,  2.26s/it][A
Training...:  25% 640/2609 [37:18<1:10:49,  2.16s/it][A
Training...:  25% 641/2609 [37:20<1:07:44,  2.07s/it][A
Training...:  25% 642/2609 [37:22<1:04:28,  1.97s/it][A
Training...:  25% 643/2609 [37:23<1:01:30,  1.88s/it][A
Training...:  25% 644/2609 [37:25<58:02,  1.77s/it]  [A
Training...:  25% 645/2609 [37:26<54:24,  1.66s/it][A
Training...:  25% 646/2609 [37:28<50:45,  1.55s/it][A
Training...:  25% 647/2609 [37:29<46:58,  1.44s/it][A
Training...:  25% 648/2609 [37:30<42:55,  1.31s/it][A
Training...:  25% 649/2609 [37:31<38:39,  1.18s/it][A
Training...:  25% 650/2609 [37:31<33:05,  1.01s/it][A
Training...:  25% 651/2609 [37:39<1:33:53,  2.88s/it][A
Training...:  25% 652/2609 [37:46<2:16:35,  4.19s/it][A
Training...:  25% 653/2609 [37:53<2:41:20,  4.95s/it][A
Training...:  25% 654/2609 [37:59<2:54:49,  5.37s/it][A
Training...:  25% 655/2609 [38:05<3:01:34,  5.58s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:40:14<10:17:59, 9269.79s/it]
Training...:  25% 655/2609 [38:12<3:01:34,  5.58s/it][A
Training...:  25% 656/2609 [38:12<3:12:02,  5.90s/it][A
Training...:  25% 657/2609 [38:17<3:09:14,  5.82s/it][A
Training...:  25% 658/2609 [38:23<3:03:59,  5.66s/it][A
Training...:  25% 659/2609 [38:28<2:59:43,  5.53s/it][A
Training...:  25% 660/2609 [38:33<2:53:42,  5.35s/it][A
Training...:  25% 661/2609 [38:38<2:49:02,  5.21s/it][A
Training...:  25% 662/2609 [38:42<2:43:23,  5.04s/it][A
Training...:  25% 663/2609 [38:47<2:39:26,  4.92s/it][A
Training...:  25% 664/2609 [38:51<2:34:41,  4.77s/it][A
Training...:  25% 665/2609 [38:55<2:29:22,  4.61s/it][A
Training...:  26% 666/2609 [39:00<2:25:35,  4.50s/it][A
Training...:  26% 667/2609 [39:04<2:21:47,  4.38s/it][A
Training...:  26% 668/2609 [39:08<2:18:03,  4.27s/it][A
Training...:  26% 669/2609 [39:12<2:14:44,  4.17s/it][A
Training...:  26% 670/2609 [39:16<2:10:40,  4.04s/it][A
Training...:  26% 671/2609 [39:19<2:07:12,  3.94s/it][A
Training...:  26% 672/2609 [39:23<2:03:36,  3.83s/it][A
Training...:  26% 673/2609 [39:26<2:00:51,  3.75s/it][A
Training...:  26% 674/2609 [39:30<1:57:15,  3.64s/it][A
Training...:  26% 675/2609 [39:33<1:54:09,  3.54s/it][A
Training...:  26% 676/2609 [39:36<1:51:14,  3.45s/it][A
Training...:  26% 677/2609 [39:39<1:48:31,  3.37s/it][A
Training...:  26% 678/2609 [39:43<1:45:41,  3.28s/it][A
Training...:  26% 679/2609 [39:46<1:42:53,  3.20s/it][A
Training...:  26% 680/2609 [39:48<1:39:57,  3.11s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:41:54<10:17:59, 9269.79s/it]
Training...:  26% 680/2609 [39:52<1:39:57,  3.11s/it][A
Training...:  26% 681/2609 [39:52<1:41:07,  3.15s/it][A
Training...:  26% 682/2609 [39:54<1:36:41,  3.01s/it][A
Training...:  26% 683/2609 [39:57<1:33:07,  2.90s/it][A
Training...:  26% 684/2609 [40:00<1:29:16,  2.78s/it][A
Training...:  26% 685/2609 [40:02<1:26:30,  2.70s/it][A
Training...:  26% 686/2609 [40:04<1:23:20,  2.60s/it][A
Training...:  26% 687/2609 [40:07<1:20:41,  2.52s/it][A
Training...:  26% 688/2609 [40:09<1:18:25,  2.45s/it][A
Training...:  26% 689/2609 [40:11<1:15:19,  2.35s/it][A
Training...:  26% 690/2609 [40:13<1:11:54,  2.25s/it][A
Training...:  26% 691/2609 [40:15<1:08:50,  2.15s/it][A
Training...:  27% 692/2609 [40:17<1:05:14,  2.04s/it][A
Training...:  27% 693/2609 [40:19<1:01:49,  1.94s/it][A
Training...:  27% 694/2609 [40:20<58:15,  1.83s/it]  [A
Training...:  27% 695/2609 [40:22<54:38,  1.71s/it][A
Training...:  27% 696/2609 [40:23<50:54,  1.60s/it][A
Training...:  27% 697/2609 [40:24<47:12,  1.48s/it][A
Training...:  27% 698/2609 [40:25<42:54,  1.35s/it][A
Training...:  27% 699/2609 [40:26<37:41,  1.18s/it][A
Training...:  27% 700/2609 [40:26<31:18,  1.02it/s][A
Training...:  27% 701/2609 [40:34<1:30:28,  2.85s/it][A
Training...:  27% 702/2609 [40:41<2:11:21,  4.13s/it][A
Training...:  27% 703/2609 [40:48<2:35:48,  4.90s/it][A
Training...:  27% 704/2609 [40:54<2:49:32,  5.34s/it][A
Training...:  27% 705/2609 [41:00<2:55:50,  5.54s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:43:09<10:17:59, 9269.79s/it]
Training...:  27% 705/2609 [41:06<2:55:50,  5.54s/it][A
Training...:  27% 706/2609 [41:06<3:05:10,  5.84s/it][A
Training...:  27% 707/2609 [41:12<3:01:29,  5.73s/it][A
Training...:  27% 708/2609 [41:17<2:56:13,  5.56s/it][A
Training...:  27% 709/2609 [41:22<2:52:08,  5.44s/it][A
Training...:  27% 710/2609 [41:27<2:47:00,  5.28s/it][A
Training...:  27% 711/2609 [41:32<2:42:44,  5.14s/it][A
Training...:  27% 712/2609 [41:37<2:37:52,  4.99s/it][A
Training...:  27% 713/2609 [41:41<2:33:16,  4.85s/it][A
Training...:  27% 714/2609 [41:45<2:28:10,  4.69s/it][A
Training...:  27% 715/2609 [41:50<2:23:47,  4.56s/it][A
Training...:  27% 716/2609 [41:54<2:19:45,  4.43s/it][A
Training...:  27% 717/2609 [41:58<2:15:47,  4.31s/it][A
Training...:  28% 718/2609 [42:02<2:11:36,  4.18s/it][A
Training...:  28% 719/2609 [42:06<2:08:20,  4.07s/it][A
Training...:  28% 720/2609 [42:09<2:05:00,  3.97s/it][A
Training...:  28% 721/2609 [42:13<2:02:38,  3.90s/it][A
Training...:  28% 722/2609 [42:17<2:00:19,  3.83s/it][A
Training...:  28% 723/2609 [42:20<1:58:00,  3.75s/it][A
Training...:  28% 724/2609 [42:24<1:54:57,  3.66s/it][A
Training...:  28% 725/2609 [42:27<1:51:15,  3.54s/it][A
Training...:  28% 726/2609 [42:30<1:47:25,  3.42s/it][A
Training...:  28% 727/2609 [42:33<1:44:09,  3.32s/it][A
Training...:  28% 728/2609 [42:36<1:41:08,  3.23s/it][A
Training...:  28% 729/2609 [42:39<1:38:09,  3.13s/it][A
Training...:  28% 730/2609 [42:42<1:35:13,  3.04s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:44:48<10:17:59, 9269.79s/it]
Training...:  28% 730/2609 [42:45<1:35:13,  3.04s/it][A
Training...:  28% 731/2609 [42:45<1:37:16,  3.11s/it][A
Training...:  28% 732/2609 [42:48<1:33:05,  2.98s/it][A
Training...:  28% 733/2609 [42:50<1:29:10,  2.85s/it][A
Training...:  28% 734/2609 [42:53<1:25:32,  2.74s/it][A
Training...:  28% 735/2609 [42:55<1:22:14,  2.63s/it][A
Training...:  28% 736/2609 [42:58<1:18:59,  2.53s/it][A
Training...:  28% 737/2609 [43:00<1:16:03,  2.44s/it][A
Training...:  28% 738/2609 [43:02<1:12:28,  2.32s/it][A
Training...:  28% 739/2609 [43:04<1:09:29,  2.23s/it][A
Training...:  28% 740/2609 [43:06<1:06:27,  2.13s/it][A
Training...:  28% 741/2609 [43:08<1:03:38,  2.04s/it][A
Training...:  28% 742/2609 [43:09<1:00:49,  1.95s/it][A
Training...:  28% 743/2609 [43:11<58:08,  1.87s/it]  [A
Training...:  29% 744/2609 [43:13<55:15,  1.78s/it][A
Training...:  29% 745/2609 [43:14<52:19,  1.68s/it][A
Training...:  29% 746/2609 [43:15<48:52,  1.57s/it][A
Training...:  29% 747/2609 [43:17<45:29,  1.47s/it][A
Training...:  29% 748/2609 [43:18<41:26,  1.34s/it][A
Training...:  29% 749/2609 [43:18<36:55,  1.19s/it][A
Training...:  29% 750/2609 [43:19<31:22,  1.01s/it][A
Training...:  29% 751/2609 [43:26<1:28:59,  2.87s/it][A
Training...:  29% 752/2609 [43:33<2:08:45,  4.16s/it][A
Training...:  29% 753/2609 [43:40<2:31:07,  4.89s/it][A
Training...:  29% 754/2609 [43:46<2:43:55,  5.30s/it][A
Training...:  29% 755/2609 [43:52<2:50:01,  5.50s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:46:01<10:17:59, 9269.79s/it]
Training...:  29% 755/2609 [43:59<2:50:01,  5.50s/it][A
Training...:  29% 756/2609 [43:59<2:59:19,  5.81s/it][A
Training...:  29% 757/2609 [44:04<2:57:16,  5.74s/it][A
Training...:  29% 758/2609 [44:10<2:52:31,  5.59s/it][A
Training...:  29% 759/2609 [44:15<2:47:48,  5.44s/it][A
Training...:  29% 760/2609 [44:20<2:42:27,  5.27s/it][A
Training...:  29% 761/2609 [44:24<2:38:00,  5.13s/it][A
Training...:  29% 762/2609 [44:29<2:35:13,  5.04s/it][A
Training...:  29% 763/2609 [44:34<2:30:58,  4.91s/it][A
Training...:  29% 764/2609 [44:38<2:25:21,  4.73s/it][A
Training...:  29% 765/2609 [44:42<2:20:55,  4.59s/it][A
Training...:  29% 766/2609 [44:46<2:16:32,  4.45s/it][A
Training...:  29% 767/2609 [44:50<2:12:40,  4.32s/it][A
Training...:  29% 768/2609 [44:54<2:08:26,  4.19s/it][A
Training...:  29% 769/2609 [44:58<2:05:34,  4.09s/it][A
Training...:  30% 770/2609 [45:02<2:01:29,  3.96s/it][A
Training...:  30% 771/2609 [45:06<1:58:13,  3.86s/it][A
Training...:  30% 772/2609 [45:09<1:54:45,  3.75s/it][A
Training...:  30% 773/2609 [45:12<1:52:05,  3.66s/it][A
Training...:  30% 774/2609 [45:16<1:49:03,  3.57s/it][A
Training...:  30% 775/2609 [45:19<1:46:09,  3.47s/it][A
Training...:  30% 776/2609 [45:22<1:43:13,  3.38s/it][A
Training...:  30% 777/2609 [45:25<1:41:01,  3.31s/it][A
Training...:  30% 778/2609 [45:28<1:37:56,  3.21s/it][A
Training...:  30% 779/2609 [45:31<1:35:19,  3.13s/it][A
Training...:  30% 780/2609 [45:34<1:32:17,  3.03s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:47:40<10:17:59, 9269.79s/it]
Training...:  30% 780/2609 [45:37<1:32:17,  3.03s/it][A
Training...:  30% 781/2609 [45:37<1:33:55,  3.08s/it][A
Training...:  30% 782/2609 [45:40<1:29:44,  2.95s/it][A
Training...:  30% 783/2609 [45:42<1:26:19,  2.84s/it][A
Training...:  30% 784/2609 [45:45<1:23:20,  2.74s/it][A
Training...:  30% 785/2609 [45:48<1:21:08,  2.67s/it][A
Training...:  30% 786/2609 [45:50<1:18:08,  2.57s/it][A
Training...:  30% 787/2609 [45:52<1:15:03,  2.47s/it][A
Training...:  30% 788/2609 [45:54<1:11:44,  2.36s/it][A
Training...:  30% 789/2609 [45:56<1:08:35,  2.26s/it][A
Training...:  30% 790/2609 [45:58<1:05:33,  2.16s/it][A
Training...:  30% 791/2609 [46:00<1:02:50,  2.07s/it][A
Training...:  30% 792/2609 [46:02<59:37,  1.97s/it]  [A
Training...:  30% 793/2609 [46:03<56:27,  1.87s/it][A
Training...:  30% 794/2609 [46:05<53:20,  1.76s/it][A
Training...:  30% 795/2609 [46:06<50:38,  1.67s/it][A
Training...:  31% 796/2609 [46:08<47:19,  1.57s/it][A
Training...:  31% 797/2609 [46:09<43:51,  1.45s/it][A
Training...:  31% 798/2609 [46:10<40:11,  1.33s/it][A
Training...:  31% 799/2609 [46:11<35:46,  1.19s/it][A
Training...:  31% 800/2609 [46:11<30:27,  1.01s/it][A
Training...:  31% 801/2609 [46:19<1:27:51,  2.92s/it][A
Training...:  31% 802/2609 [46:26<2:06:13,  4.19s/it][A
Training...:  31% 803/2609 [46:33<2:28:31,  4.93s/it][A
Training...:  31% 804/2609 [46:39<2:41:55,  5.38s/it][A
Training...:  31% 805/2609 [46:45<2:47:44,  5.58s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:48:54<10:17:59, 9269.79s/it]
Training...:  31% 805/2609 [46:52<2:47:44,  5.58s/it][A
Training...:  31% 806/2609 [46:52<2:57:34,  5.91s/it][A
Training...:  31% 807/2609 [46:57<2:55:22,  5.84s/it][A
Training...:  31% 808/2609 [47:03<2:50:09,  5.67s/it][A
Training...:  31% 809/2609 [47:08<2:45:16,  5.51s/it][A
Training...:  31% 810/2609 [47:13<2:40:11,  5.34s/it][A
Training...:  31% 811/2609 [47:18<2:36:19,  5.22s/it][A
Training...:  31% 812/2609 [47:22<2:31:36,  5.06s/it][A
Training...:  31% 813/2609 [47:27<2:27:28,  4.93s/it][A
Training...:  31% 814/2609 [47:31<2:22:26,  4.76s/it][A
Training...:  31% 815/2609 [47:36<2:18:36,  4.64s/it][A
Training...:  31% 816/2609 [47:40<2:14:27,  4.50s/it][A
Training...:  31% 817/2609 [47:44<2:11:07,  4.39s/it][A
Training...:  31% 818/2609 [47:48<2:07:16,  4.26s/it][A
Training...:  31% 819/2609 [47:52<2:03:39,  4.14s/it][A
Training...:  31% 820/2609 [47:56<1:59:46,  4.02s/it][A
Training...:  31% 821/2609 [47:59<1:56:00,  3.89s/it][A
Training...:  32% 822/2609 [48:03<1:52:23,  3.77s/it][A
Training...:  32% 823/2609 [48:06<1:49:17,  3.67s/it][A
Training...:  32% 824/2609 [48:10<1:46:59,  3.60s/it][A
Training...:  32% 825/2609 [48:13<1:44:15,  3.51s/it][A
Training...:  32% 826/2609 [48:16<1:41:02,  3.40s/it][A
Training...:  32% 827/2609 [48:19<1:38:04,  3.30s/it][A
Training...:  32% 828/2609 [48:22<1:34:47,  3.19s/it][A
Training...:  32% 829/2609 [48:25<1:32:16,  3.11s/it][A
Training...:  32% 830/2609 [48:28<1:29:33,  3.02s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:50:33<10:17:59, 9269.79s/it]
Training...:  32% 830/2609 [48:31<1:29:33,  3.02s/it][A
Training...:  32% 831/2609 [48:31<1:30:50,  3.07s/it][A
Training...:  32% 832/2609 [48:34<1:26:52,  2.93s/it][A
Training...:  32% 833/2609 [48:36<1:23:17,  2.81s/it][A
Training...:  32% 834/2609 [48:38<1:19:55,  2.70s/it][A
Training...:  32% 835/2609 [48:41<1:16:58,  2.60s/it][A
Training...:  32% 836/2609 [48:43<1:14:04,  2.51s/it][A
Training...:  32% 837/2609 [48:45<1:11:30,  2.42s/it][A
Training...:  32% 838/2609 [48:48<1:09:27,  2.35s/it][A
Training...:  32% 839/2609 [48:50<1:06:53,  2.27s/it][A
Training...:  32% 840/2609 [48:52<1:03:40,  2.16s/it][A
Training...:  32% 841/2609 [48:53<1:00:50,  2.06s/it][A
Training...:  32% 842/2609 [48:55<57:16,  1.94s/it]  [A
Training...:  32% 843/2609 [48:57<53:54,  1.83s/it][A
Training...:  32% 844/2609 [48:58<50:47,  1.73s/it][A
Training...:  32% 845/2609 [48:59<47:35,  1.62s/it][A
Training...:  32% 846/2609 [49:01<44:25,  1.51s/it][A
Training...:  32% 847/2609 [49:02<40:52,  1.39s/it][A
Training...:  33% 848/2609 [49:03<36:57,  1.26s/it][A
Training...:  33% 849/2609 [49:04<32:44,  1.12s/it][A
Training...:  33% 850/2609 [49:04<27:42,  1.06it/s][A
Training...:  33% 851/2609 [49:11<1:22:12,  2.81s/it][A
Training...:  33% 852/2609 [49:18<1:59:42,  4.09s/it][A
Training...:  33% 853/2609 [49:25<2:21:40,  4.84s/it][A
Training...:  33% 854/2609 [49:31<2:33:13,  5.24s/it][A
Training...:  33% 855/2609 [49:37<2:39:57,  5.47s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:51:46<10:17:59, 9269.79s/it]
Training...:  33% 855/2609 [49:44<2:39:57,  5.47s/it][A
Training...:  33% 856/2609 [49:44<2:49:05,  5.79s/it][A
Training...:  33% 857/2609 [49:49<2:46:37,  5.71s/it][A
Training...:  33% 858/2609 [49:54<2:42:05,  5.55s/it][A
Training...:  33% 859/2609 [49:59<2:37:52,  5.41s/it][A
Training...:  33% 860/2609 [50:04<2:34:03,  5.29s/it][A
Training...:  33% 861/2609 [50:09<2:31:08,  5.19s/it][A
Training...:  33% 862/2609 [50:14<2:25:29,  5.00s/it][A
Training...:  33% 863/2609 [50:18<2:21:18,  4.86s/it][A
Training...:  33% 864/2609 [50:23<2:16:45,  4.70s/it][A
Training...:  33% 865/2609 [50:27<2:12:24,  4.56s/it][A
Training...:  33% 866/2609 [50:31<2:08:26,  4.42s/it][A
Training...:  33% 867/2609 [50:35<2:04:24,  4.29s/it][A
Training...:  33% 868/2609 [50:39<2:00:58,  4.17s/it][A
Training...:  33% 869/2609 [50:43<1:57:26,  4.05s/it][A
Training...:  33% 870/2609 [50:46<1:53:45,  3.93s/it][A
Training...:  33% 871/2609 [50:50<1:50:39,  3.82s/it][A
Training...:  33% 872/2609 [50:53<1:47:29,  3.71s/it][A
Training...:  33% 873/2609 [50:57<1:44:58,  3.63s/it][A
Training...:  33% 874/2609 [51:00<1:41:52,  3.52s/it][A
Training...:  34% 875/2609 [51:03<1:38:51,  3.42s/it][A
Training...:  34% 876/2609 [51:06<1:35:47,  3.32s/it][A
Training...:  34% 877/2609 [51:09<1:33:06,  3.23s/it][A
Training...:  34% 878/2609 [51:12<1:30:33,  3.14s/it][A
Training...:  34% 879/2609 [51:15<1:28:06,  3.06s/it][A
Training...:  34% 880/2609 [51:18<1:25:56,  2.98s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:53:24<10:17:59, 9269.79s/it]
Training...:  34% 880/2609 [51:21<1:25:56,  2.98s/it][A
Training...:  34% 881/2609 [51:21<1:27:02,  3.02s/it][A
Training...:  34% 882/2609 [51:24<1:23:38,  2.91s/it][A
Training...:  34% 883/2609 [51:26<1:20:08,  2.79s/it][A
Training...:  34% 884/2609 [51:29<1:16:38,  2.67s/it][A
Training...:  34% 885/2609 [51:31<1:13:52,  2.57s/it][A
Training...:  34% 886/2609 [51:33<1:12:03,  2.51s/it][A
Training...:  34% 887/2609 [51:36<1:09:45,  2.43s/it][A
Training...:  34% 888/2609 [51:38<1:06:51,  2.33s/it][A
Training...:  34% 889/2609 [51:40<1:04:18,  2.24s/it][A
Training...:  34% 890/2609 [51:42<1:01:29,  2.15s/it][A
Training...:  34% 891/2609 [51:44<58:58,  2.06s/it]  [A
Training...:  34% 892/2609 [51:45<56:14,  1.97s/it][A
Training...:  34% 893/2609 [51:47<53:11,  1.86s/it][A
Training...:  34% 894/2609 [51:48<49:59,  1.75s/it][A
Training...:  34% 895/2609 [51:50<46:36,  1.63s/it][A
Training...:  34% 896/2609 [51:51<43:17,  1.52s/it][A
Training...:  34% 897/2609 [51:52<39:45,  1.39s/it][A
Training...:  34% 898/2609 [51:53<35:47,  1.25s/it][A
Training...:  34% 899/2609 [51:54<31:28,  1.10s/it][A
Training...:  34% 900/2609 [51:54<26:28,  1.08it/s][A
Training...:  35% 901/2609 [52:01<1:19:20,  2.79s/it][A
Training...:  35% 902/2609 [52:09<1:55:49,  4.07s/it][A
Training...:  35% 903/2609 [52:15<2:19:03,  4.89s/it][A
Training...:  35% 904/2609 [52:22<2:32:20,  5.36s/it][A
Training...:  35% 905/2609 [52:28<2:38:09,  5.57s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:54:37<10:17:59, 9269.79s/it]
Training...:  35% 905/2609 [52:34<2:38:09,  5.57s/it][A
Training...:  35% 906/2609 [52:34<2:46:51,  5.88s/it][A
Training...:  35% 907/2609 [52:40<2:43:53,  5.78s/it][A
Training...:  35% 908/2609 [52:45<2:39:44,  5.63s/it][A
Training...:  35% 909/2609 [52:50<2:34:55,  5.47s/it][A
Training...:  35% 910/2609 [52:55<2:29:45,  5.29s/it][A
Training...:  35% 911/2609 [53:00<2:25:23,  5.14s/it][A
Training...:  35% 912/2609 [53:05<2:20:32,  4.97s/it][A
Training...:  35% 913/2609 [53:09<2:16:25,  4.83s/it][A
Training...:  35% 914/2609 [53:13<2:12:27,  4.69s/it][A
Training...:  35% 915/2609 [53:18<2:08:22,  4.55s/it][A
Training...:  35% 916/2609 [53:22<2:04:01,  4.40s/it][A
Training...:  35% 917/2609 [53:26<2:00:54,  4.29s/it][A
Training...:  35% 918/2609 [53:30<1:56:47,  4.14s/it][A
Training...:  35% 919/2609 [53:33<1:53:46,  4.04s/it][A
Training...:  35% 920/2609 [53:37<1:50:11,  3.91s/it][A
Training...:  35% 921/2609 [53:41<1:47:15,  3.81s/it][A
Training...:  35% 922/2609 [53:44<1:44:25,  3.71s/it][A
Training...:  35% 923/2609 [53:47<1:41:53,  3.63s/it][A
Training...:  35% 924/2609 [53:51<1:38:46,  3.52s/it][A
Training...:  35% 925/2609 [53:54<1:36:23,  3.43s/it][A
Training...:  35% 926/2609 [53:57<1:33:46,  3.34s/it][A
Training...:  36% 927/2609 [54:00<1:31:35,  3.27s/it][A
Training...:  36% 928/2609 [54:03<1:28:54,  3.17s/it][A
Training...:  36% 929/2609 [54:06<1:26:31,  3.09s/it][A
Training...:  36% 930/2609 [54:09<1:23:45,  2.99s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:56:14<10:17:59, 9269.79s/it]
Training...:  36% 930/2609 [54:12<1:23:45,  2.99s/it][A
Training...:  36% 931/2609 [54:12<1:25:10,  3.05s/it][A
Training...:  36% 932/2609 [54:15<1:21:16,  2.91s/it][A
Training...:  36% 933/2609 [54:17<1:18:07,  2.80s/it][A
Training...:  36% 934/2609 [54:19<1:14:57,  2.69s/it][A
Training...:  36% 935/2609 [54:22<1:12:35,  2.60s/it][A
Training...:  36% 936/2609 [54:24<1:10:50,  2.54s/it][A
Training...:  36% 937/2609 [54:27<1:08:09,  2.45s/it][A
Training...:  36% 938/2609 [54:29<1:05:16,  2.34s/it][A
Training...:  36% 939/2609 [54:31<1:02:28,  2.24s/it][A
Training...:  36% 940/2609 [54:33<59:22,  2.13s/it]  [A
Training...:  36% 941/2609 [54:34<56:44,  2.04s/it][A
Training...:  36% 942/2609 [54:36<54:09,  1.95s/it][A
Training...:  36% 943/2609 [54:38<51:30,  1.85s/it][A
Training...:  36% 944/2609 [54:39<48:40,  1.75s/it][A
Training...:  36% 945/2609 [54:41<45:37,  1.65s/it][A
Training...:  36% 946/2609 [54:42<42:22,  1.53s/it][A
Training...:  36% 947/2609 [54:43<38:52,  1.40s/it][A
Training...:  36% 948/2609 [54:44<35:10,  1.27s/it][A
Training...:  36% 949/2609 [54:45<31:14,  1.13s/it][A
Training...:  36% 950/2609 [54:45<26:15,  1.05it/s][A
Training...:  36% 951/2609 [54:52<1:18:08,  2.83s/it][A
Training...:  36% 952/2609 [55:00<1:52:54,  4.09s/it][A
Training...:  37% 953/2609 [55:06<2:13:19,  4.83s/it][A
Training...:  37% 954/2609 [55:12<2:25:20,  5.27s/it][A
Training...:  37% 955/2609 [55:18<2:31:08,  5.48s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:57:27<10:17:59, 9269.79s/it]
Training...:  37% 955/2609 [55:25<2:31:08,  5.48s/it][A
Training...:  37% 956/2609 [55:25<2:39:55,  5.81s/it][A
Training...:  37% 957/2609 [55:30<2:37:20,  5.71s/it][A
Training...:  37% 958/2609 [55:36<2:33:46,  5.59s/it][A
Training...:  37% 959/2609 [55:41<2:30:37,  5.48s/it][A
Training...:  37% 960/2609 [55:46<2:28:02,  5.39s/it][A
Training...:  37% 961/2609 [55:51<2:23:38,  5.23s/it][A
Training...:  37% 962/2609 [55:56<2:19:14,  5.07s/it][A
Training...:  37% 963/2609 [56:00<2:15:43,  4.95s/it][A
Training...:  37% 964/2609 [56:05<2:12:12,  4.82s/it][A
Training...:  37% 965/2609 [56:09<2:08:00,  4.67s/it][A
Training...:  37% 966/2609 [56:13<2:04:21,  4.54s/it][A
Training...:  37% 967/2609 [56:18<2:01:17,  4.43s/it][A
Training...:  37% 968/2609 [56:22<1:58:17,  4.32s/it][A
Training...:  37% 969/2609 [56:26<1:54:40,  4.20s/it][A
Training...:  37% 970/2609 [56:29<1:50:24,  4.04s/it][A
Training...:  37% 971/2609 [56:33<1:47:00,  3.92s/it][A
Training...:  37% 972/2609 [56:36<1:43:14,  3.78s/it][A
Training...:  37% 973/2609 [56:40<1:40:28,  3.68s/it][A
Training...:  37% 974/2609 [56:43<1:37:40,  3.58s/it][A
Training...:  37% 975/2609 [56:46<1:34:27,  3.47s/it][A
Training...:  37% 976/2609 [56:49<1:31:32,  3.36s/it][A
Training...:  37% 977/2609 [56:53<1:29:02,  3.27s/it][A
Training...:  37% 978/2609 [56:55<1:26:17,  3.17s/it][A
Training...:  38% 979/2609 [56:58<1:24:08,  3.10s/it][A
Training...:  38% 980/2609 [57:01<1:21:50,  3.01s/it][A                                                                                                                                                                    
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [41:59:07<10:17:59, 9269.79s/it]
Training...:  38% 980/2609 [57:04<1:21:50,  3.01s/it][A
Training...:  38% 981/2609 [57:04<1:23:08,  3.06s/it][A
Training...:  38% 982/2609 [57:07<1:19:39,  2.94s/it][A
Training...:  38% 983/2609 [57:10<1:16:57,  2.84s/it][A
Training...:  38% 984/2609 [57:12<1:13:45,  2.72s/it][A
Training...:  38% 985/2609 [57:15<1:11:11,  2.63s/it][A
Training...:  38% 986/2609 [57:17<1:08:42,  2.54s/it][A
Training...:  38% 987/2609 [57:19<1:06:18,  2.45s/it][A
Training...:  38% 988/2609 [57:21<1:04:00,  2.37s/it][A
Training...:  38% 989/2609 [57:23<1:01:24,  2.27s/it][A
Training...:  38% 990/2609 [57:25<58:46,  2.18s/it]  [A
Training...:  38% 991/2609 [57:27<56:10,  2.08s/it][A
Training...:  38% 992/2609 [57:29<53:25,  1.98s/it][A
Training...:  38% 993/2609 [57:31<50:49,  1.89s/it][A
Training...:  38% 994/2609 [57:32<47:54,  1.78s/it][A
Training...:  38% 995/2609 [57:33<44:51,  1.67s/it][A
Training...:  38% 996/2609 [57:35<41:30,  1.54s/it][A
Training...:  38% 997/2609 [57:36<38:11,  1.42s/it][A
Training...:  38% 998/2609 [57:37<34:27,  1.28s/it][A
Training...:  38% 999/2609 [57:38<30:39,  1.14s/it][A
Training...:  38% 1000/2609 [57:38<26:03,  1.03it/s][A
Training...:  38% 1001/2609 [57:45<1:15:23,  2.81s/it][A
Training...:  38% 1002/2609 [57:52<1:50:14,  4.12s/it][A
Training...:  38% 1003/2609 [57:59<2:09:49,  4.85s/it][A
Training...:  38% 1004/2609 [58:05<2:20:21,  5.25s/it][A
Training...:  39% 1005/2609 [58:11<2:25:10,  5.43s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:00:20<10:17:59, 9269.79s/it]
Training...:  39% 1005/2609 [58:18<2:25:10,  5.43s/it][A
Training...:  39% 1006/2609 [58:18<2:34:27,  5.78s/it][A
Training...:  39% 1007/2609 [58:24<2:34:42,  5.79s/it][A
Training...:  39% 1008/2609 [58:29<2:31:07,  5.66s/it][A
Training...:  39% 1009/2609 [58:34<2:27:23,  5.53s/it][A
Training...:  39% 1010/2609 [58:39<2:22:31,  5.35s/it][A
Training...:  39% 1011/2609 [58:44<2:18:11,  5.19s/it][A
Training...:  39% 1012/2609 [58:48<2:13:31,  5.02s/it][A
Training...:  39% 1013/2609 [58:53<2:09:46,  4.88s/it][A
Training...:  39% 1014/2609 [58:57<2:05:36,  4.73s/it][A
Training...:  39% 1015/2609 [59:02<2:01:58,  4.59s/it][A
Training...:  39% 1016/2609 [59:06<1:58:40,  4.47s/it][A
Training...:  39% 1017/2609 [59:10<1:55:12,  4.34s/it][A
Training...:  39% 1018/2609 [59:14<1:51:33,  4.21s/it][A
Training...:  39% 1019/2609 [59:18<1:48:21,  4.09s/it][A
Training...:  39% 1020/2609 [59:21<1:45:06,  3.97s/it][A
Training...:  39% 1021/2609 [59:25<1:42:50,  3.89s/it][A
Training...:  39% 1022/2609 [59:28<1:39:42,  3.77s/it][A
Training...:  39% 1023/2609 [59:32<1:37:12,  3.68s/it][A
Training...:  39% 1024/2609 [59:35<1:34:36,  3.58s/it][A
Training...:  39% 1025/2609 [59:39<1:32:08,  3.49s/it][A
Training...:  39% 1026/2609 [59:42<1:29:20,  3.39s/it][A
Training...:  39% 1027/2609 [59:45<1:26:43,  3.29s/it][A
Training...:  39% 1028/2609 [59:48<1:24:00,  3.19s/it][A
Training...:  39% 1029/2609 [59:51<1:21:57,  3.11s/it][A
Training...:  39% 1030/2609 [59:53<1:19:16,  3.01s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:01:59<10:17:59, 9269.79s/it]
Training...:  39% 1030/2609 [59:57<1:19:16,  3.01s/it][A
Training...:  40% 1031/2609 [59:57<1:20:46,  3.07s/it][A
Training...:  40% 1032/2609 [59:59<1:16:59,  2.93s/it][A
Training...:  40% 1033/2609 [1:00:02<1:13:35,  2.80s/it][A
Training...:  40% 1034/2609 [1:00:04<1:10:39,  2.69s/it][A
Training...:  40% 1035/2609 [1:00:07<1:08:52,  2.63s/it][A
Training...:  40% 1036/2609 [1:00:09<1:06:52,  2.55s/it][A
Training...:  40% 1037/2609 [1:00:11<1:04:12,  2.45s/it][A
Training...:  40% 1038/2609 [1:00:13<1:01:15,  2.34s/it][A
Training...:  40% 1039/2609 [1:00:15<58:48,  2.25s/it]  [A
Training...:  40% 1040/2609 [1:00:17<56:21,  2.16s/it][A
Training...:  40% 1041/2609 [1:00:19<53:58,  2.07s/it][A
Training...:  40% 1042/2609 [1:00:21<51:11,  1.96s/it][A
Training...:  40% 1043/2609 [1:00:23<48:51,  1.87s/it][A
Training...:  40% 1044/2609 [1:00:24<46:09,  1.77s/it][A
Training...:  40% 1045/2609 [1:00:25<43:24,  1.67s/it][A
Training...:  40% 1046/2609 [1:00:27<40:20,  1.55s/it][A
Training...:  40% 1047/2609 [1:00:28<37:00,  1.42s/it][A
Training...:  40% 1048/2609 [1:00:29<33:18,  1.28s/it][A
Training...:  40% 1049/2609 [1:00:30<29:29,  1.13s/it][A
Training...:  40% 1050/2609 [1:00:30<25:03,  1.04it/s][A
Training...:  40% 1051/2609 [1:00:38<1:14:33,  2.87s/it][A
Training...:  40% 1052/2609 [1:00:45<1:48:00,  4.16s/it][A
Training...:  40% 1053/2609 [1:00:51<2:07:23,  4.91s/it][A
Training...:  40% 1054/2609 [1:00:58<2:18:12,  5.33s/it][A
Training...:  40% 1055/2609 [1:01:04<2:23:33,  5.54s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:03:13<10:17:59, 9269.79s/it]
Training...:  40% 1055/2609 [1:01:10<2:23:33,  5.54s/it][A
Training...:  40% 1056/2609 [1:01:10<2:32:01,  5.87s/it][A
Training...:  41% 1057/2609 [1:01:16<2:29:13,  5.77s/it][A
Training...:  41% 1058/2609 [1:01:21<2:25:20,  5.62s/it][A
Training...:  41% 1059/2609 [1:01:26<2:21:44,  5.49s/it][A
Training...:  41% 1060/2609 [1:01:31<2:17:40,  5.33s/it][A
Training...:  41% 1061/2609 [1:01:36<2:14:24,  5.21s/it][A
Training...:  41% 1062/2609 [1:01:41<2:10:27,  5.06s/it][A
Training...:  41% 1063/2609 [1:01:46<2:07:28,  4.95s/it][A
Training...:  41% 1064/2609 [1:01:50<2:03:29,  4.80s/it][A
Training...:  41% 1065/2609 [1:01:54<2:00:32,  4.68s/it][A
Training...:  41% 1066/2609 [1:01:59<1:56:24,  4.53s/it][A
Training...:  41% 1067/2609 [1:02:03<1:53:21,  4.41s/it][A
Training...:  41% 1068/2609 [1:02:07<1:50:09,  4.29s/it][A
Training...:  41% 1069/2609 [1:02:11<1:47:09,  4.17s/it][A
Training...:  41% 1070/2609 [1:02:14<1:44:09,  4.06s/it][A
Training...:  41% 1071/2609 [1:02:18<1:41:26,  3.96s/it][A
Training...:  41% 1072/2609 [1:02:22<1:38:21,  3.84s/it][A
Training...:  41% 1073/2609 [1:02:25<1:35:58,  3.75s/it][A
Training...:  41% 1074/2609 [1:02:29<1:33:16,  3.65s/it][A
Training...:  41% 1075/2609 [1:02:32<1:31:04,  3.56s/it][A
Training...:  41% 1076/2609 [1:02:35<1:28:11,  3.45s/it][A
Training...:  41% 1077/2609 [1:02:38<1:25:50,  3.36s/it][A
Training...:  41% 1078/2609 [1:02:42<1:24:03,  3.29s/it][A
Training...:  41% 1079/2609 [1:02:45<1:22:13,  3.22s/it][A
Training...:  41% 1080/2609 [1:02:48<1:19:55,  3.14s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:04:53<10:17:59, 9269.79s/it]
Training...:  41% 1080/2609 [1:02:51<1:19:55,  3.14s/it][A
Training...:  41% 1081/2609 [1:02:51<1:20:41,  3.17s/it][A
Training...:  41% 1082/2609 [1:02:54<1:17:17,  3.04s/it][A
Training...:  42% 1083/2609 [1:02:56<1:13:46,  2.90s/it][A
Training...:  42% 1084/2609 [1:02:59<1:10:35,  2.78s/it][A
Training...:  42% 1085/2609 [1:03:01<1:07:54,  2.67s/it][A
Training...:  42% 1086/2609 [1:03:03<1:05:55,  2.60s/it][A
Training...:  42% 1087/2609 [1:03:06<1:03:30,  2.50s/it][A
Training...:  42% 1088/2609 [1:03:08<1:01:05,  2.41s/it][A
Training...:  42% 1089/2609 [1:03:10<58:22,  2.30s/it]  [A
Training...:  42% 1090/2609 [1:03:12<56:08,  2.22s/it][A
Training...:  42% 1091/2609 [1:03:14<53:51,  2.13s/it][A
Training...:  42% 1092/2609 [1:03:16<51:25,  2.03s/it][A
Training...:  42% 1093/2609 [1:03:17<49:00,  1.94s/it][A
Training...:  42% 1094/2609 [1:03:19<46:26,  1.84s/it][A
Training...:  42% 1095/2609 [1:03:21<43:45,  1.73s/it][A
Training...:  42% 1096/2609 [1:03:22<40:51,  1.62s/it][A
Training...:  42% 1097/2609 [1:03:23<37:46,  1.50s/it][A
Training...:  42% 1098/2609 [1:03:24<34:16,  1.36s/it][A
Training...:  42% 1099/2609 [1:03:25<30:05,  1.20s/it][A
Training...:  42% 1100/2609 [1:03:26<25:14,  1.00s/it][A
Training...:  42% 1101/2609 [1:03:33<1:11:21,  2.84s/it][A
Training...:  42% 1102/2609 [1:03:40<1:43:30,  4.12s/it][A
Training...:  42% 1103/2609 [1:03:46<2:02:53,  4.90s/it][A
Training...:  42% 1104/2609 [1:03:53<2:14:23,  5.36s/it][A
Training...:  42% 1105/2609 [1:03:59<2:19:53,  5.58s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:06:08<10:17:59, 9269.79s/it]
Training...:  42% 1105/2609 [1:04:06<2:19:53,  5.58s/it][A
Training...:  42% 1106/2609 [1:04:06<2:27:41,  5.90s/it][A
Training...:  42% 1107/2609 [1:04:11<2:25:23,  5.81s/it][A
Training...:  42% 1108/2609 [1:04:16<2:21:18,  5.65s/it][A
Training...:  43% 1109/2609 [1:04:22<2:17:36,  5.50s/it][A
Training...:  43% 1110/2609 [1:04:27<2:12:39,  5.31s/it][A
Training...:  43% 1111/2609 [1:04:31<2:08:35,  5.15s/it][A
Training...:  43% 1112/2609 [1:04:36<2:04:58,  5.01s/it][A
Training...:  43% 1113/2609 [1:04:41<2:01:29,  4.87s/it][A
Training...:  43% 1114/2609 [1:04:45<1:57:28,  4.72s/it][A
Training...:  43% 1115/2609 [1:04:49<1:54:16,  4.59s/it][A
Training...:  43% 1116/2609 [1:04:53<1:50:44,  4.45s/it][A
Training...:  43% 1117/2609 [1:04:57<1:48:03,  4.35s/it][A
Training...:  43% 1118/2609 [1:05:01<1:44:49,  4.22s/it][A
Training...:  43% 1119/2609 [1:05:05<1:42:21,  4.12s/it][A
Training...:  43% 1120/2609 [1:05:09<1:39:50,  4.02s/it][A
Training...:  43% 1121/2609 [1:05:13<1:37:31,  3.93s/it][A
Training...:  43% 1122/2609 [1:05:16<1:34:37,  3.82s/it][A
Training...:  43% 1123/2609 [1:05:20<1:31:59,  3.71s/it][A
Training...:  43% 1124/2609 [1:05:23<1:29:08,  3.60s/it][A
Training...:  43% 1125/2609 [1:05:26<1:26:26,  3.50s/it][A
Training...:  43% 1126/2609 [1:05:29<1:23:46,  3.39s/it][A
Training...:  43% 1127/2609 [1:05:33<1:21:15,  3.29s/it][A
Training...:  43% 1128/2609 [1:05:36<1:19:19,  3.21s/it][A
Training...:  43% 1129/2609 [1:05:39<1:17:27,  3.14s/it][A
Training...:  43% 1130/2609 [1:05:41<1:15:37,  3.07s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:07:47<10:17:59, 9269.79s/it]
Training...:  43% 1130/2609 [1:05:45<1:15:37,  3.07s/it][A
Training...:  43% 1131/2609 [1:05:45<1:17:19,  3.14s/it][A
Training...:  43% 1132/2609 [1:05:47<1:13:46,  3.00s/it][A
Training...:  43% 1133/2609 [1:05:50<1:10:48,  2.88s/it][A
Training...:  43% 1134/2609 [1:05:53<1:07:55,  2.76s/it][A
Training...:  44% 1135/2609 [1:05:55<1:05:37,  2.67s/it][A
Training...:  44% 1136/2609 [1:05:57<1:03:02,  2.57s/it][A
Training...:  44% 1137/2609 [1:06:00<1:00:46,  2.48s/it][A
Training...:  44% 1138/2609 [1:06:02<58:14,  2.38s/it]  [A
Training...:  44% 1139/2609 [1:06:04<55:54,  2.28s/it][A
Training...:  44% 1140/2609 [1:06:06<53:18,  2.18s/it][A
Training...:  44% 1141/2609 [1:06:08<50:43,  2.07s/it][A
Training...:  44% 1142/2609 [1:06:09<48:15,  1.97s/it][A
Training...:  44% 1143/2609 [1:06:11<46:05,  1.89s/it][A
Training...:  44% 1144/2609 [1:06:12<43:26,  1.78s/it][A
Training...:  44% 1145/2609 [1:06:14<40:54,  1.68s/it][A
Training...:  44% 1146/2609 [1:06:15<38:04,  1.56s/it][A
Training...:  44% 1147/2609 [1:06:16<35:02,  1.44s/it][A
Training...:  44% 1148/2609 [1:06:17<31:53,  1.31s/it][A
Training...:  44% 1149/2609 [1:06:18<28:21,  1.17s/it][A
Training...:  44% 1150/2609 [1:06:19<24:07,  1.01it/s][A
Training...:  44% 1151/2609 [1:06:26<1:09:20,  2.85s/it][A
Training...:  44% 1152/2609 [1:06:33<1:39:53,  4.11s/it][A
Training...:  44% 1153/2609 [1:06:40<1:57:47,  4.85s/it][A
Training...:  44% 1154/2609 [1:06:46<2:08:06,  5.28s/it][A
Training...:  44% 1155/2609 [1:06:52<2:13:13,  5.50s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:09:01<10:17:59, 9269.79s/it]
Training...:  44% 1155/2609 [1:06:58<2:13:13,  5.50s/it][A
Training...:  44% 1156/2609 [1:06:58<2:20:47,  5.81s/it][A
Training...:  44% 1157/2609 [1:07:04<2:18:20,  5.72s/it][A
Training...:  44% 1158/2609 [1:07:09<2:14:36,  5.57s/it][A
Training...:  44% 1159/2609 [1:07:14<2:11:25,  5.44s/it][A
Training...:  44% 1160/2609 [1:07:19<2:08:09,  5.31s/it][A
Training...:  44% 1161/2609 [1:07:24<2:04:54,  5.18s/it][A
Training...:  45% 1162/2609 [1:07:29<2:00:46,  5.01s/it][A
Training...:  45% 1163/2609 [1:07:33<1:57:45,  4.89s/it][A
Training...:  45% 1164/2609 [1:07:38<1:54:15,  4.74s/it][A
Training...:  45% 1165/2609 [1:07:42<1:51:45,  4.64s/it][A
Training...:  45% 1166/2609 [1:07:47<1:49:12,  4.54s/it][A
Training...:  45% 1167/2609 [1:07:51<1:46:28,  4.43s/it][A
Training...:  45% 1168/2609 [1:07:55<1:43:25,  4.31s/it][A
Training...:  45% 1169/2609 [1:07:59<1:40:08,  4.17s/it][A
Training...:  45% 1170/2609 [1:08:02<1:36:26,  4.02s/it][A
Training...:  45% 1171/2609 [1:08:06<1:33:46,  3.91s/it][A
Training...:  45% 1172/2609 [1:08:09<1:30:54,  3.80s/it][A
Training...:  45% 1173/2609 [1:08:13<1:28:04,  3.68s/it][A
Training...:  45% 1174/2609 [1:08:16<1:25:17,  3.57s/it][A
Training...:  45% 1175/2609 [1:08:19<1:22:39,  3.46s/it][A
Training...:  45% 1176/2609 [1:08:22<1:20:00,  3.35s/it][A
Training...:  45% 1177/2609 [1:08:26<1:18:04,  3.27s/it][A
Training...:  45% 1178/2609 [1:08:28<1:15:41,  3.17s/it][A
Training...:  45% 1179/2609 [1:08:31<1:13:38,  3.09s/it][A
Training...:  45% 1180/2609 [1:08:34<1:11:28,  3.00s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:10:40<10:17:59, 9269.79s/it]
Training...:  45% 1180/2609 [1:08:37<1:11:28,  3.00s/it][A
Training...:  45% 1181/2609 [1:08:37<1:12:35,  3.05s/it][A
Training...:  45% 1182/2609 [1:08:40<1:09:34,  2.93s/it][A
Training...:  45% 1183/2609 [1:08:43<1:07:12,  2.83s/it][A
Training...:  45% 1184/2609 [1:08:45<1:04:45,  2.73s/it][A
Training...:  45% 1185/2609 [1:08:48<1:03:20,  2.67s/it][A
Training...:  45% 1186/2609 [1:08:50<1:00:50,  2.57s/it][A
Training...:  45% 1187/2609 [1:08:52<58:25,  2.47s/it]  [A
Training...:  46% 1188/2609 [1:08:54<55:56,  2.36s/it][A
Training...:  46% 1189/2609 [1:08:56<53:41,  2.27s/it][A
Training...:  46% 1190/2609 [1:08:58<51:20,  2.17s/it][A
Training...:  46% 1191/2609 [1:09:00<49:01,  2.07s/it][A
Training...:  46% 1192/2609 [1:09:02<46:33,  1.97s/it][A
Training...:  46% 1193/2609 [1:09:03<44:20,  1.88s/it][A
Training...:  46% 1194/2609 [1:09:05<41:50,  1.77s/it][A
Training...:  46% 1195/2609 [1:09:06<39:32,  1.68s/it][A
Training...:  46% 1196/2609 [1:09:08<37:06,  1.58s/it][A
Training...:  46% 1197/2609 [1:09:09<34:42,  1.47s/it][A
Training...:  46% 1198/2609 [1:09:10<31:57,  1.36s/it][A
Training...:  46% 1199/2609 [1:09:11<28:35,  1.22s/it][A
Training...:  46% 1200/2609 [1:09:12<24:06,  1.03s/it][A
Training...:  46% 1201/2609 [1:09:19<1:07:36,  2.88s/it][A
Training...:  46% 1202/2609 [1:09:26<1:37:16,  4.15s/it][A
Training...:  46% 1203/2609 [1:09:33<1:54:23,  4.88s/it][A
Training...:  46% 1204/2609 [1:09:39<2:03:38,  5.28s/it][A
Training...:  46% 1205/2609 [1:09:45<2:10:21,  5.57s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:11:54<10:17:59, 9269.79s/it]
Training...:  46% 1205/2609 [1:09:52<2:10:21,  5.57s/it][A
Training...:  46% 1206/2609 [1:09:52<2:17:25,  5.88s/it][A
Training...:  46% 1207/2609 [1:09:57<2:14:20,  5.75s/it][A
Training...:  46% 1208/2609 [1:10:02<2:10:32,  5.59s/it][A
Training...:  46% 1209/2609 [1:10:07<2:06:57,  5.44s/it][A
Training...:  46% 1210/2609 [1:10:12<2:02:35,  5.26s/it][A
Training...:  46% 1211/2609 [1:10:17<1:58:54,  5.10s/it][A
Training...:  46% 1212/2609 [1:10:21<1:55:06,  4.94s/it][A
Training...:  46% 1213/2609 [1:10:26<1:51:47,  4.80s/it][A
Training...:  47% 1214/2609 [1:10:30<1:48:12,  4.65s/it][A
Training...:  47% 1215/2609 [1:10:34<1:45:04,  4.52s/it][A
Training...:  47% 1216/2609 [1:10:39<1:41:39,  4.38s/it][A
Training...:  47% 1217/2609 [1:10:42<1:38:48,  4.26s/it][A
Training...:  47% 1218/2609 [1:10:46<1:36:12,  4.15s/it][A
Training...:  47% 1219/2609 [1:10:50<1:33:27,  4.03s/it][A
Training...:  47% 1220/2609 [1:10:54<1:30:48,  3.92s/it][A
Training...:  47% 1221/2609 [1:10:57<1:28:51,  3.84s/it][A
Training...:  47% 1222/2609 [1:11:01<1:26:23,  3.74s/it][A
Training...:  47% 1223/2609 [1:11:04<1:23:44,  3.63s/it][A
Training...:  47% 1224/2609 [1:11:08<1:21:16,  3.52s/it][A
Training...:  47% 1225/2609 [1:11:11<1:18:48,  3.42s/it][A
Training...:  47% 1226/2609 [1:11:14<1:16:35,  3.32s/it][A
Training...:  47% 1227/2609 [1:11:17<1:14:31,  3.24s/it][A
Training...:  47% 1228/2609 [1:11:20<1:12:31,  3.15s/it][A
Training...:  47% 1229/2609 [1:11:23<1:10:35,  3.07s/it][A
Training...:  47% 1230/2609 [1:11:26<1:08:33,  2.98s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:13:31<10:17:59, 9269.79s/it]
Training...:  47% 1230/2609 [1:11:29<1:08:33,  2.98s/it][A
Training...:  47% 1231/2609 [1:11:29<1:09:42,  3.04s/it][A
Training...:  47% 1232/2609 [1:11:31<1:06:53,  2.91s/it][A
Training...:  47% 1233/2609 [1:11:34<1:04:31,  2.81s/it][A
Training...:  47% 1234/2609 [1:11:36<1:02:17,  2.72s/it][A
Training...:  47% 1235/2609 [1:11:39<1:00:07,  2.63s/it][A
Training...:  47% 1236/2609 [1:11:41<58:08,  2.54s/it]  [A
Training...:  47% 1237/2609 [1:11:43<56:30,  2.47s/it][A
Training...:  47% 1238/2609 [1:11:46<54:33,  2.39s/it][A
Training...:  47% 1239/2609 [1:11:48<53:02,  2.32s/it][A
Training...:  48% 1240/2609 [1:11:50<51:02,  2.24s/it][A
Training...:  48% 1241/2609 [1:11:52<49:04,  2.15s/it][A
Training...:  48% 1242/2609 [1:11:54<46:54,  2.06s/it][A
Training...:  48% 1243/2609 [1:11:55<44:33,  1.96s/it][A
Training...:  48% 1244/2609 [1:11:57<41:51,  1.84s/it][A
Training...:  48% 1245/2609 [1:11:58<39:12,  1.72s/it][A
Training...:  48% 1246/2609 [1:12:00<36:20,  1.60s/it][A
Training...:  48% 1247/2609 [1:12:01<33:32,  1.48s/it][A
Training...:  48% 1248/2609 [1:12:02<30:23,  1.34s/it][A
Training...:  48% 1249/2609 [1:12:03<26:44,  1.18s/it][A
Training...:  48% 1250/2609 [1:12:03<22:34,  1.00it/s][A
Training...:  48% 1251/2609 [1:12:10<1:04:05,  2.83s/it][A
Training...:  48% 1252/2609 [1:12:17<1:32:37,  4.10s/it][A
Training...:  48% 1253/2609 [1:12:24<1:49:32,  4.85s/it][A
Training...:  48% 1254/2609 [1:12:30<1:58:47,  5.26s/it][A
Training...:  48% 1255/2609 [1:12:36<2:04:47,  5.53s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:14:46<10:17:59, 9269.79s/it]
Training...:  48% 1255/2609 [1:12:43<2:04:47,  5.53s/it][A
Training...:  48% 1256/2609 [1:12:43<2:12:45,  5.89s/it][A
Training...:  48% 1257/2609 [1:12:49<2:10:58,  5.81s/it][A
Training...:  48% 1258/2609 [1:12:54<2:07:28,  5.66s/it][A
Training...:  48% 1259/2609 [1:12:59<2:04:19,  5.53s/it][A
Training...:  48% 1260/2609 [1:13:04<1:59:42,  5.32s/it][A
Training...:  48% 1261/2609 [1:13:09<1:56:16,  5.18s/it][A
Training...:  48% 1262/2609 [1:13:14<1:52:28,  5.01s/it][A
Training...:  48% 1263/2609 [1:13:18<1:49:10,  4.87s/it][A
Training...:  48% 1264/2609 [1:13:23<1:45:53,  4.72s/it][A
Training...:  48% 1265/2609 [1:13:27<1:43:00,  4.60s/it][A
Training...:  49% 1266/2609 [1:13:31<1:39:50,  4.46s/it][A
Training...:  49% 1267/2609 [1:13:35<1:37:55,  4.38s/it][A
Training...:  49% 1268/2609 [1:13:39<1:35:09,  4.26s/it][A
Training...:  49% 1269/2609 [1:13:43<1:32:18,  4.13s/it][A
Training...:  49% 1270/2609 [1:13:47<1:29:40,  4.02s/it][A
Training...:  49% 1271/2609 [1:13:50<1:27:23,  3.92s/it][A
Training...:  49% 1272/2609 [1:13:54<1:25:10,  3.82s/it][A
Training...:  49% 1273/2609 [1:13:58<1:23:01,  3.73s/it][A
Training...:  49% 1274/2609 [1:14:01<1:20:20,  3.61s/it][A
Training...:  49% 1275/2609 [1:14:04<1:18:38,  3.54s/it][A
Training...:  49% 1276/2609 [1:14:07<1:16:31,  3.44s/it][A
Training...:  49% 1277/2609 [1:14:11<1:14:18,  3.35s/it][A
Training...:  49% 1278/2609 [1:14:14<1:12:14,  3.26s/it][A
Training...:  49% 1279/2609 [1:14:17<1:10:11,  3.17s/it][A
Training...:  49% 1280/2609 [1:14:19<1:08:13,  3.08s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:16:25<10:17:59, 9269.79s/it]
Training...:  49% 1280/2609 [1:14:23<1:08:13,  3.08s/it][A
Training...:  49% 1281/2609 [1:14:23<1:09:17,  3.13s/it][A
Training...:  49% 1282/2609 [1:14:25<1:06:09,  2.99s/it][A
Training...:  49% 1283/2609 [1:14:28<1:03:30,  2.87s/it][A
Training...:  49% 1284/2609 [1:14:30<1:00:48,  2.75s/it][A
Training...:  49% 1285/2609 [1:14:33<58:28,  2.65s/it]  [A
Training...:  49% 1286/2609 [1:14:35<56:39,  2.57s/it][A
Training...:  49% 1287/2609 [1:14:37<54:33,  2.48s/it][A
Training...:  49% 1288/2609 [1:14:40<52:25,  2.38s/it][A
Training...:  49% 1289/2609 [1:14:42<50:15,  2.28s/it][A
Training...:  49% 1290/2609 [1:14:44<48:05,  2.19s/it][A
Training...:  49% 1291/2609 [1:14:46<46:13,  2.10s/it][A
Training...:  50% 1292/2609 [1:14:47<44:31,  2.03s/it][A
Training...:  50% 1293/2609 [1:14:49<42:24,  1.93s/it][A
Training...:  50% 1294/2609 [1:14:51<39:50,  1.82s/it][A
Training...:  50% 1295/2609 [1:14:52<37:19,  1.70s/it][A
Training...:  50% 1296/2609 [1:14:53<34:43,  1.59s/it][A
Training...:  50% 1297/2609 [1:14:55<32:04,  1.47s/it][A
Training...:  50% 1298/2609 [1:14:56<29:11,  1.34s/it][A
Training...:  50% 1299/2609 [1:14:56<25:45,  1.18s/it][A
Training...:  50% 1300/2609 [1:14:57<21:29,  1.02it/s][A
Training...:  50% 1301/2609 [1:15:04<1:03:01,  2.89s/it][A
Training...:  50% 1302/2609 [1:15:12<1:31:39,  4.21s/it][A
Training...:  50% 1303/2609 [1:15:18<1:47:25,  4.94s/it][A
Training...:  50% 1304/2609 [1:15:25<1:56:25,  5.35s/it][A
Training...:  50% 1305/2609 [1:15:31<2:00:52,  5.56s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:17:40<10:17:59, 9269.79s/it]
Training...:  50% 1305/2609 [1:15:37<2:00:52,  5.56s/it][A
Training...:  50% 1306/2609 [1:15:37<2:07:11,  5.86s/it][A
Training...:  50% 1307/2609 [1:15:43<2:05:16,  5.77s/it][A
Training...:  50% 1308/2609 [1:15:48<2:02:07,  5.63s/it][A
Training...:  50% 1309/2609 [1:15:53<1:59:15,  5.50s/it][A
Training...:  50% 1310/2609 [1:15:58<1:55:40,  5.34s/it][A
Training...:  50% 1311/2609 [1:16:03<1:52:25,  5.20s/it][A
Training...:  50% 1312/2609 [1:16:08<1:48:55,  5.04s/it][A
Training...:  50% 1313/2609 [1:16:12<1:45:49,  4.90s/it][A
Training...:  50% 1314/2609 [1:16:17<1:42:17,  4.74s/it][A
Training...:  50% 1315/2609 [1:16:21<1:39:17,  4.60s/it][A
Training...:  50% 1316/2609 [1:16:25<1:36:45,  4.49s/it][A
Training...:  50% 1317/2609 [1:16:29<1:34:26,  4.39s/it][A
Training...:  51% 1318/2609 [1:16:33<1:31:30,  4.25s/it][A
Training...:  51% 1319/2609 [1:16:37<1:28:53,  4.13s/it][A
Training...:  51% 1320/2609 [1:16:41<1:26:12,  4.01s/it][A
Training...:  51% 1321/2609 [1:16:45<1:23:56,  3.91s/it][A
Training...:  51% 1322/2609 [1:16:48<1:21:24,  3.80s/it][A
Training...:  51% 1323/2609 [1:16:52<1:19:08,  3.69s/it][A
Training...:  51% 1324/2609 [1:16:55<1:17:10,  3.60s/it][A
Training...:  51% 1325/2609 [1:16:58<1:15:09,  3.51s/it][A
Training...:  51% 1326/2609 [1:17:01<1:13:27,  3.44s/it][A
Training...:  51% 1327/2609 [1:17:05<1:11:09,  3.33s/it][A
Training...:  51% 1328/2609 [1:17:08<1:09:03,  3.23s/it][A
Training...:  51% 1329/2609 [1:17:11<1:07:06,  3.15s/it][A
Training...:  51% 1330/2609 [1:17:13<1:05:11,  3.06s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:19:19<10:17:59, 9269.79s/it]
Training...:  51% 1330/2609 [1:17:17<1:05:11,  3.06s/it][A
Training...:  51% 1331/2609 [1:17:17<1:06:12,  3.11s/it][A
Training...:  51% 1332/2609 [1:17:19<1:03:28,  2.98s/it][A
Training...:  51% 1333/2609 [1:17:22<1:00:44,  2.86s/it][A
Training...:  51% 1334/2609 [1:17:24<58:24,  2.75s/it]  [A
Training...:  51% 1335/2609 [1:17:27<56:42,  2.67s/it][A
Training...:  51% 1336/2609 [1:17:29<54:14,  2.56s/it][A
Training...:  51% 1337/2609 [1:17:31<51:53,  2.45s/it][A
Training...:  51% 1338/2609 [1:17:33<49:32,  2.34s/it][A
Training...:  51% 1339/2609 [1:17:35<47:26,  2.24s/it][A
Training...:  51% 1340/2609 [1:17:37<45:22,  2.15s/it][A
Training...:  51% 1341/2609 [1:17:39<43:31,  2.06s/it][A
Training...:  51% 1342/2609 [1:17:41<41:29,  1.96s/it][A
Training...:  51% 1343/2609 [1:17:43<39:39,  1.88s/it][A
Training...:  52% 1344/2609 [1:17:44<37:18,  1.77s/it][A
Training...:  52% 1345/2609 [1:17:46<35:01,  1.66s/it][A
Training...:  52% 1346/2609 [1:17:47<32:31,  1.55s/it][A
Training...:  52% 1347/2609 [1:17:48<30:04,  1.43s/it][A
Training...:  52% 1348/2609 [1:17:49<27:08,  1.29s/it][A
Training...:  52% 1349/2609 [1:17:50<24:05,  1.15s/it][A
Training...:  52% 1350/2609 [1:17:50<20:24,  1.03it/s][A
Training...:  52% 1351/2609 [1:17:57<58:53,  2.81s/it][A
Training...:  52% 1352/2609 [1:18:05<1:25:54,  4.10s/it][A
Training...:  52% 1353/2609 [1:18:11<1:41:08,  4.83s/it][A
Training...:  52% 1354/2609 [1:18:17<1:50:00,  5.26s/it][A
Training...:  52% 1355/2609 [1:18:23<1:55:13,  5.51s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:20:32<10:17:59, 9269.79s/it]
Training...:  52% 1355/2609 [1:18:30<1:55:13,  5.51s/it][A
Training...:  52% 1356/2609 [1:18:30<2:02:03,  5.84s/it][A
Training...:  52% 1357/2609 [1:18:36<2:00:08,  5.76s/it][A
Training...:  52% 1358/2609 [1:18:41<1:56:54,  5.61s/it][A
Training...:  52% 1359/2609 [1:18:46<1:54:21,  5.49s/it][A
Training...:  52% 1360/2609 [1:18:51<1:51:05,  5.34s/it][A
Training...:  52% 1361/2609 [1:18:56<1:48:03,  5.19s/it][A
Training...:  52% 1362/2609 [1:19:01<1:44:12,  5.01s/it][A
Training...:  52% 1363/2609 [1:19:05<1:41:07,  4.87s/it][A
Training...:  52% 1364/2609 [1:19:09<1:38:06,  4.73s/it][A
Training...:  52% 1365/2609 [1:19:14<1:35:26,  4.60s/it][A
Training...:  52% 1366/2609 [1:19:18<1:32:31,  4.47s/it][A
Training...:  52% 1367/2609 [1:19:22<1:30:41,  4.38s/it][A
Training...:  52% 1368/2609 [1:19:26<1:28:28,  4.28s/it][A
Training...:  52% 1369/2609 [1:19:30<1:26:12,  4.17s/it][A
Training...:  53% 1370/2609 [1:19:34<1:23:19,  4.04s/it][A
Training...:  53% 1371/2609 [1:19:37<1:21:15,  3.94s/it][A
Training...:  53% 1372/2609 [1:19:41<1:18:45,  3.82s/it][A
Training...:  53% 1373/2609 [1:19:45<1:16:41,  3.72s/it][A
Training...:  53% 1374/2609 [1:19:48<1:14:28,  3.62s/it][A
Training...:  53% 1375/2609 [1:19:51<1:12:52,  3.54s/it][A
Training...:  53% 1376/2609 [1:19:54<1:10:41,  3.44s/it][A
Training...:  53% 1377/2609 [1:19:58<1:08:43,  3.35s/it][A
Training...:  53% 1378/2609 [1:20:01<1:06:38,  3.25s/it][A
Training...:  53% 1379/2609 [1:20:04<1:04:43,  3.16s/it][A
Training...:  53% 1380/2609 [1:20:06<1:02:32,  3.05s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:22:12<10:17:59, 9269.79s/it]
Training...:  53% 1380/2609 [1:20:10<1:02:32,  3.05s/it][A
Training...:  53% 1381/2609 [1:20:10<1:03:12,  3.09s/it][A
Training...:  53% 1382/2609 [1:20:12<1:00:28,  2.96s/it][A
Training...:  53% 1383/2609 [1:20:15<57:43,  2.82s/it]  [A
Training...:  53% 1384/2609 [1:20:17<55:34,  2.72s/it][A
Training...:  53% 1385/2609 [1:20:20<53:26,  2.62s/it][A
Training...:  53% 1386/2609 [1:20:22<51:58,  2.55s/it][A
Training...:  53% 1387/2609 [1:20:24<49:42,  2.44s/it][A
Training...:  53% 1388/2609 [1:20:26<47:30,  2.33s/it][A
Training...:  53% 1389/2609 [1:20:28<45:29,  2.24s/it][A
Training...:  53% 1390/2609 [1:20:30<43:36,  2.15s/it][A
Training...:  53% 1391/2609 [1:20:32<41:33,  2.05s/it][A
Training...:  53% 1392/2609 [1:20:34<39:37,  1.95s/it][A
Training...:  53% 1393/2609 [1:20:35<37:42,  1.86s/it][A
Training...:  53% 1394/2609 [1:20:37<35:48,  1.77s/it][A
Training...:  53% 1395/2609 [1:20:38<33:52,  1.67s/it][A
Training...:  54% 1396/2609 [1:20:40<31:39,  1.57s/it][A
Training...:  54% 1397/2609 [1:20:41<29:18,  1.45s/it][A
Training...:  54% 1398/2609 [1:20:42<26:31,  1.31s/it][A
Training...:  54% 1399/2609 [1:20:43<23:28,  1.16s/it][A
Training...:  54% 1400/2609 [1:20:43<19:52,  1.01it/s][A
Training...:  54% 1401/2609 [1:20:50<56:40,  2.81s/it][A
Training...:  54% 1402/2609 [1:20:57<1:22:07,  4.08s/it][A
Training...:  54% 1403/2609 [1:21:04<1:37:17,  4.84s/it][A
Training...:  54% 1404/2609 [1:21:10<1:45:51,  5.27s/it][A
Training...:  54% 1405/2609 [1:21:16<1:49:58,  5.48s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:23:25<10:17:59, 9269.79s/it]
Training...:  54% 1405/2609 [1:21:23<1:49:58,  5.48s/it][A
Training...:  54% 1406/2609 [1:21:23<1:56:39,  5.82s/it][A
Training...:  54% 1407/2609 [1:21:28<1:54:16,  5.70s/it][A
Training...:  54% 1408/2609 [1:21:34<1:51:46,  5.58s/it][A
Training...:  54% 1409/2609 [1:21:39<1:48:50,  5.44s/it][A
Training...:  54% 1410/2609 [1:21:44<1:45:44,  5.29s/it][A
Training...:  54% 1411/2609 [1:21:49<1:43:33,  5.19s/it][A
Training...:  54% 1412/2609 [1:21:53<1:41:05,  5.07s/it][A
Training...:  54% 1413/2609 [1:21:58<1:37:46,  4.90s/it][A
Training...:  54% 1414/2609 [1:22:02<1:34:40,  4.75s/it][A
Training...:  54% 1415/2609 [1:22:07<1:32:09,  4.63s/it][A
Training...:  54% 1416/2609 [1:22:11<1:29:03,  4.48s/it][A
Training...:  54% 1417/2609 [1:22:15<1:26:50,  4.37s/it][A
Training...:  54% 1418/2609 [1:22:19<1:24:10,  4.24s/it][A
Training...:  54% 1419/2609 [1:22:23<1:22:07,  4.14s/it][A
Training...:  54% 1420/2609 [1:22:26<1:19:32,  4.01s/it][A
Training...:  54% 1421/2609 [1:22:30<1:17:34,  3.92s/it][A
Training...:  55% 1422/2609 [1:22:34<1:15:28,  3.81s/it][A
Training...:  55% 1423/2609 [1:22:37<1:13:37,  3.73s/it][A
Training...:  55% 1424/2609 [1:22:41<1:11:36,  3.63s/it][A
Training...:  55% 1425/2609 [1:22:44<1:09:21,  3.51s/it][A
Training...:  55% 1426/2609 [1:22:47<1:06:57,  3.40s/it][A
Training...:  55% 1427/2609 [1:22:50<1:04:56,  3.30s/it][A
Training...:  55% 1428/2609 [1:22:53<1:02:42,  3.19s/it][A
Training...:  55% 1429/2609 [1:22:56<1:00:52,  3.10s/it][A
Training...:  55% 1430/2609 [1:22:59<59:06,  3.01s/it]  [A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:25:04<10:17:59, 9269.79s/it]
Training...:  55% 1430/2609 [1:23:02<59:06,  3.01s/it][A
Training...:  55% 1431/2609 [1:23:02<59:52,  3.05s/it][A
Training...:  55% 1432/2609 [1:23:04<57:25,  2.93s/it][A
Training...:  55% 1433/2609 [1:23:07<54:56,  2.80s/it][A
Training...:  55% 1434/2609 [1:23:09<52:43,  2.69s/it][A
Training...:  55% 1435/2609 [1:23:12<50:42,  2.59s/it][A
Training...:  55% 1436/2609 [1:23:14<49:10,  2.52s/it][A
Training...:  55% 1437/2609 [1:23:16<47:27,  2.43s/it][A
Training...:  55% 1438/2609 [1:23:18<45:15,  2.32s/it][A
Training...:  55% 1439/2609 [1:23:20<43:18,  2.22s/it][A
Training...:  55% 1440/2609 [1:23:22<41:20,  2.12s/it][A
Training...:  55% 1441/2609 [1:23:24<39:28,  2.03s/it][A
Training...:  55% 1442/2609 [1:23:26<37:51,  1.95s/it][A
Training...:  55% 1443/2609 [1:23:27<36:02,  1.85s/it][A
Training...:  55% 1444/2609 [1:23:29<34:05,  1.76s/it][A
Training...:  55% 1445/2609 [1:23:30<31:51,  1.64s/it][A
Training...:  55% 1446/2609 [1:23:32<29:39,  1.53s/it][A
Training...:  55% 1447/2609 [1:23:33<27:21,  1.41s/it][A
Training...:  56% 1448/2609 [1:23:34<24:37,  1.27s/it][A
Training...:  56% 1449/2609 [1:23:34<21:39,  1.12s/it][A
Training...:  56% 1450/2609 [1:23:35<18:10,  1.06it/s][A
Training...:  56% 1451/2609 [1:23:42<54:09,  2.81s/it][A
Training...:  56% 1452/2609 [1:23:49<1:18:35,  4.08s/it][A
Training...:  56% 1453/2609 [1:23:56<1:34:22,  4.90s/it][A
Training...:  56% 1454/2609 [1:24:03<1:44:05,  5.41s/it][A
Training...:  56% 1455/2609 [1:24:09<1:47:06,  5.57s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:26:17<10:17:59, 9269.79s/it]
Training...:  56% 1455/2609 [1:24:15<1:47:06,  5.57s/it][A
Training...:  56% 1456/2609 [1:24:15<1:51:57,  5.83s/it][A
Training...:  56% 1457/2609 [1:24:20<1:49:35,  5.71s/it][A
Training...:  56% 1458/2609 [1:24:26<1:46:35,  5.56s/it][A
Training...:  56% 1459/2609 [1:24:31<1:43:58,  5.42s/it][A
Training...:  56% 1460/2609 [1:24:36<1:40:44,  5.26s/it][A
Training...:  56% 1461/2609 [1:24:40<1:38:18,  5.14s/it][A
Training...:  56% 1462/2609 [1:24:45<1:34:47,  4.96s/it][A
Training...:  56% 1463/2609 [1:24:49<1:31:57,  4.81s/it][A
Training...:  56% 1464/2609 [1:24:54<1:28:55,  4.66s/it][A
Training...:  56% 1465/2609 [1:24:58<1:26:23,  4.53s/it][A
Training...:  56% 1466/2609 [1:25:02<1:23:40,  4.39s/it][A
Training...:  56% 1467/2609 [1:25:06<1:21:27,  4.28s/it][A
Training...:  56% 1468/2609 [1:25:10<1:18:36,  4.13s/it][A
Training...:  56% 1469/2609 [1:25:14<1:16:28,  4.02s/it][A
Training...:  56% 1470/2609 [1:25:17<1:14:17,  3.91s/it][A
Training...:  56% 1471/2609 [1:25:21<1:12:50,  3.84s/it][A
Training...:  56% 1472/2609 [1:25:25<1:10:57,  3.74s/it][A
Training...:  56% 1473/2609 [1:25:28<1:08:53,  3.64s/it][A
Training...:  56% 1474/2609 [1:25:31<1:07:03,  3.54s/it][A
Training...:  57% 1475/2609 [1:25:34<1:05:00,  3.44s/it][A
Training...:  57% 1476/2609 [1:25:38<1:03:13,  3.35s/it][A
Training...:  57% 1477/2609 [1:25:41<1:01:31,  3.26s/it][A
Training...:  57% 1478/2609 [1:25:44<59:41,  3.17s/it]  [A
Training...:  57% 1479/2609 [1:25:47<58:22,  3.10s/it][A
Training...:  57% 1480/2609 [1:25:49<56:50,  3.02s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:27:55<10:17:59, 9269.79s/it]
Training...:  57% 1480/2609 [1:25:53<56:50,  3.02s/it][A
Training...:  57% 1481/2609 [1:25:53<57:59,  3.08s/it][A
Training...:  57% 1482/2609 [1:25:55<55:32,  2.96s/it][A
Training...:  57% 1483/2609 [1:25:58<52:56,  2.82s/it][A
Training...:  57% 1484/2609 [1:26:00<50:37,  2.70s/it][A
Training...:  57% 1485/2609 [1:26:03<48:50,  2.61s/it][A
Training...:  57% 1486/2609 [1:26:05<47:09,  2.52s/it][A
Training...:  57% 1487/2609 [1:26:07<45:38,  2.44s/it][A
Training...:  57% 1488/2609 [1:26:09<43:33,  2.33s/it][A
Training...:  57% 1489/2609 [1:26:11<41:41,  2.23s/it][A
Training...:  57% 1490/2609 [1:26:13<39:53,  2.14s/it][A
Training...:  57% 1491/2609 [1:26:15<38:10,  2.05s/it][A
Training...:  57% 1492/2609 [1:26:17<36:22,  1.95s/it][A
Training...:  57% 1493/2609 [1:26:18<34:39,  1.86s/it][A
Training...:  57% 1494/2609 [1:26:20<32:42,  1.76s/it][A
Training...:  57% 1495/2609 [1:26:21<30:41,  1.65s/it][A
Training...:  57% 1496/2609 [1:26:23<28:33,  1.54s/it][A
Training...:  57% 1497/2609 [1:26:24<26:27,  1.43s/it][A
Training...:  57% 1498/2609 [1:26:25<24:10,  1.31s/it][A
Training...:  57% 1499/2609 [1:26:26<21:29,  1.16s/it][A
Training...:  57% 1500/2609 [1:26:26<18:16,  1.01it/s][A
Training...:  58% 1501/2609 [1:26:33<52:42,  2.85s/it][A
Training...:  58% 1502/2609 [1:26:41<1:16:57,  4.17s/it][A
Training...:  58% 1503/2609 [1:26:47<1:30:50,  4.93s/it][A
Training...:  58% 1504/2609 [1:26:54<1:38:39,  5.36s/it][A
Training...:  58% 1505/2609 [1:27:00<1:42:41,  5.58s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:29:09<10:17:59, 9269.79s/it]
Training...:  58% 1505/2609 [1:27:06<1:42:41,  5.58s/it][A
Training...:  58% 1506/2609 [1:27:06<1:47:55,  5.87s/it][A
Training...:  58% 1507/2609 [1:27:12<1:46:04,  5.78s/it][A
Training...:  58% 1508/2609 [1:27:17<1:43:20,  5.63s/it][A
Training...:  58% 1509/2609 [1:27:22<1:40:48,  5.50s/it][A
Training...:  58% 1510/2609 [1:27:27<1:38:29,  5.38s/it][A
Training...:  58% 1511/2609 [1:27:32<1:35:31,  5.22s/it][A
Training...:  58% 1512/2609 [1:27:37<1:32:43,  5.07s/it][A
Training...:  58% 1513/2609 [1:27:42<1:29:57,  4.92s/it][A
Training...:  58% 1514/2609 [1:27:46<1:28:32,  4.85s/it][A
Training...:  58% 1515/2609 [1:27:51<1:26:00,  4.72s/it][A
Training...:  58% 1516/2609 [1:27:55<1:23:16,  4.57s/it][A
Training...:  58% 1517/2609 [1:27:59<1:20:49,  4.44s/it][A
Training...:  58% 1518/2609 [1:28:03<1:18:03,  4.29s/it][A
Training...:  58% 1519/2609 [1:28:07<1:15:52,  4.18s/it][A
Training...:  58% 1520/2609 [1:28:11<1:13:52,  4.07s/it][A
Training...:  58% 1521/2609 [1:28:14<1:11:48,  3.96s/it][A
Training...:  58% 1522/2609 [1:28:18<1:09:26,  3.83s/it][A
Training...:  58% 1523/2609 [1:28:21<1:07:42,  3.74s/it][A
Training...:  58% 1524/2609 [1:28:25<1:05:49,  3.64s/it][A
Training...:  58% 1525/2609 [1:28:28<1:04:00,  3.54s/it][A
Training...:  58% 1526/2609 [1:28:31<1:02:17,  3.45s/it][A
Training...:  59% 1527/2609 [1:28:35<1:00:42,  3.37s/it][A
Training...:  59% 1528/2609 [1:28:38<58:55,  3.27s/it]  [A
Training...:  59% 1529/2609 [1:28:41<57:14,  3.18s/it][A
Training...:  59% 1530/2609 [1:28:43<55:30,  3.09s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:30:49<10:17:59, 9269.79s/it]
Training...:  59% 1530/2609 [1:28:47<55:30,  3.09s/it][A
Training...:  59% 1531/2609 [1:28:47<56:20,  3.14s/it][A
Training...:  59% 1532/2609 [1:28:49<53:34,  2.99s/it][A
Training...:  59% 1533/2609 [1:28:52<51:20,  2.86s/it][A
Training...:  59% 1534/2609 [1:28:54<49:24,  2.76s/it][A
Training...:  59% 1535/2609 [1:28:57<47:25,  2.65s/it][A
Training...:  59% 1536/2609 [1:28:59<45:34,  2.55s/it][A
Training...:  59% 1537/2609 [1:29:01<44:01,  2.46s/it][A
Training...:  59% 1538/2609 [1:29:04<42:19,  2.37s/it][A
Training...:  59% 1539/2609 [1:29:06<40:47,  2.29s/it][A
Training...:  59% 1540/2609 [1:29:08<39:06,  2.20s/it][A
Training...:  59% 1541/2609 [1:29:10<37:16,  2.09s/it][A
Training...:  59% 1542/2609 [1:29:11<35:30,  2.00s/it][A
Training...:  59% 1543/2609 [1:29:13<33:40,  1.89s/it][A
Training...:  59% 1544/2609 [1:29:14<31:38,  1.78s/it][A
Training...:  59% 1545/2609 [1:29:16<29:39,  1.67s/it][A
Training...:  59% 1546/2609 [1:29:17<27:43,  1.56s/it][A
Training...:  59% 1547/2609 [1:29:18<25:37,  1.45s/it][A
Training...:  59% 1548/2609 [1:29:19<23:06,  1.31s/it][A
Training...:  59% 1549/2609 [1:29:20<20:23,  1.15s/it][A
Training...:  59% 1550/2609 [1:29:21<17:13,  1.02it/s][A
Training...:  59% 1551/2609 [1:29:28<50:02,  2.84s/it][A
Training...:  59% 1552/2609 [1:29:35<1:12:07,  4.09s/it][A
Training...:  60% 1553/2609 [1:29:42<1:25:37,  4.87s/it][A
Training...:  60% 1554/2609 [1:29:48<1:32:32,  5.26s/it][A
Training...:  60% 1555/2609 [1:29:54<1:36:16,  5.48s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:32:03<10:17:59, 9269.79s/it]
Training...:  60% 1555/2609 [1:30:00<1:36:16,  5.48s/it][A
Training...:  60% 1556/2609 [1:30:00<1:41:20,  5.77s/it][A
Training...:  60% 1557/2609 [1:30:06<1:39:20,  5.67s/it][A
Training...:  60% 1558/2609 [1:30:11<1:38:23,  5.62s/it][A
Training...:  60% 1559/2609 [1:30:16<1:36:11,  5.50s/it][A
Training...:  60% 1560/2609 [1:30:21<1:33:12,  5.33s/it][A
Training...:  60% 1561/2609 [1:30:26<1:31:16,  5.23s/it][A
Training...:  60% 1562/2609 [1:30:31<1:28:14,  5.06s/it][A
Training...:  60% 1563/2609 [1:30:35<1:25:28,  4.90s/it][A
Training...:  60% 1564/2609 [1:30:40<1:23:13,  4.78s/it][A
Training...:  60% 1565/2609 [1:30:44<1:20:39,  4.64s/it][A
Training...:  60% 1566/2609 [1:30:48<1:18:06,  4.49s/it][A
Training...:  60% 1567/2609 [1:30:52<1:15:47,  4.36s/it][A
Training...:  60% 1568/2609 [1:30:56<1:13:14,  4.22s/it][A
Training...:  60% 1569/2609 [1:31:00<1:11:12,  4.11s/it][A
Training...:  60% 1570/2609 [1:31:04<1:08:46,  3.97s/it][A
Training...:  60% 1571/2609 [1:31:08<1:07:05,  3.88s/it][A
Training...:  60% 1572/2609 [1:31:11<1:05:11,  3.77s/it][A
Training...:  60% 1573/2609 [1:31:15<1:03:31,  3.68s/it][A
Training...:  60% 1574/2609 [1:31:18<1:01:22,  3.56s/it][A
Training...:  60% 1575/2609 [1:31:21<59:40,  3.46s/it]  [A
Training...:  60% 1576/2609 [1:31:24<57:47,  3.36s/it][A
Training...:  60% 1577/2609 [1:31:27<56:15,  3.27s/it][A
Training...:  60% 1578/2609 [1:31:30<54:23,  3.17s/it][A
Training...:  61% 1579/2609 [1:31:33<52:57,  3.08s/it][A
Training...:  61% 1580/2609 [1:31:36<51:14,  2.99s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:33:41<10:17:59, 9269.79s/it]
Training...:  61% 1580/2609 [1:31:39<51:14,  2.99s/it][A
Training...:  61% 1581/2609 [1:31:39<52:08,  3.04s/it][A
Training...:  61% 1582/2609 [1:31:42<49:39,  2.90s/it][A
Training...:  61% 1583/2609 [1:31:44<47:47,  2.79s/it][A
Training...:  61% 1584/2609 [1:31:46<45:44,  2.68s/it][A
Training...:  61% 1585/2609 [1:31:49<43:57,  2.58s/it][A
Training...:  61% 1586/2609 [1:31:51<42:10,  2.47s/it][A
Training...:  61% 1587/2609 [1:31:53<40:28,  2.38s/it][A
Training...:  61% 1588/2609 [1:31:55<38:47,  2.28s/it][A
Training...:  61% 1589/2609 [1:31:57<37:10,  2.19s/it][A
Training...:  61% 1590/2609 [1:31:59<35:22,  2.08s/it][A
Training...:  61% 1591/2609 [1:32:01<33:44,  1.99s/it][A
Training...:  61% 1592/2609 [1:32:03<32:16,  1.90s/it][A
Training...:  61% 1593/2609 [1:32:04<30:36,  1.81s/it][A
Training...:  61% 1594/2609 [1:32:06<28:51,  1.71s/it][A
Training...:  61% 1595/2609 [1:32:07<27:05,  1.60s/it][A
Training...:  61% 1596/2609 [1:32:08<25:19,  1.50s/it][A
Training...:  61% 1597/2609 [1:32:09<23:27,  1.39s/it][A
Training...:  61% 1598/2609 [1:32:10<21:16,  1.26s/it][A
Training...:  61% 1599/2609 [1:32:11<18:58,  1.13s/it][A
Training...:  61% 1600/2609 [1:32:12<16:05,  1.05it/s][A
Training...:  61% 1601/2609 [1:32:19<47:05,  2.80s/it][A
Training...:  61% 1602/2609 [1:32:26<1:08:04,  4.06s/it][A
Training...:  61% 1603/2609 [1:32:32<1:20:12,  4.78s/it][A
Training...:  61% 1604/2609 [1:32:38<1:27:09,  5.20s/it][A
Training...:  62% 1605/2609 [1:32:44<1:30:41,  5.42s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:34:53<10:17:59, 9269.79s/it]
Training...:  62% 1605/2609 [1:32:51<1:30:41,  5.42s/it][A
Training...:  62% 1606/2609 [1:32:51<1:35:31,  5.71s/it][A
Training...:  62% 1607/2609 [1:32:56<1:34:52,  5.68s/it][A
Training...:  62% 1608/2609 [1:33:02<1:33:02,  5.58s/it][A
Training...:  62% 1609/2609 [1:33:07<1:30:28,  5.43s/it][A
Training...:  62% 1610/2609 [1:33:12<1:27:20,  5.25s/it][A
Training...:  62% 1611/2609 [1:33:16<1:24:42,  5.09s/it][A
Training...:  62% 1612/2609 [1:33:21<1:21:54,  4.93s/it][A
Training...:  62% 1613/2609 [1:33:25<1:19:48,  4.81s/it][A
Training...:  62% 1614/2609 [1:33:30<1:17:21,  4.66s/it][A
Training...:  62% 1615/2609 [1:33:34<1:15:03,  4.53s/it][A
Training...:  62% 1616/2609 [1:33:38<1:13:11,  4.42s/it][A
Training...:  62% 1617/2609 [1:33:42<1:10:52,  4.29s/it][A
Training...:  62% 1618/2609 [1:33:46<1:08:48,  4.17s/it][A
Training...:  62% 1619/2609 [1:33:50<1:06:33,  4.03s/it][A
Training...:  62% 1620/2609 [1:33:53<1:04:40,  3.92s/it][A
Training...:  62% 1621/2609 [1:33:57<1:03:02,  3.83s/it][A
Training...:  62% 1622/2609 [1:34:00<1:00:56,  3.70s/it][A
Training...:  62% 1623/2609 [1:34:04<59:16,  3.61s/it]  [A
Training...:  62% 1624/2609 [1:34:07<57:29,  3.50s/it][A
Training...:  62% 1625/2609 [1:34:10<55:50,  3.40s/it][A
Training...:  62% 1626/2609 [1:34:13<54:10,  3.31s/it][A
Training...:  62% 1627/2609 [1:34:16<52:55,  3.23s/it][A
Training...:  62% 1628/2609 [1:34:19<51:26,  3.15s/it][A
Training...:  62% 1629/2609 [1:34:22<50:24,  3.09s/it][A
Training...:  62% 1630/2609 [1:34:25<49:05,  3.01s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:36:31<10:17:59, 9269.79s/it]
Training...:  62% 1630/2609 [1:34:28<49:05,  3.01s/it][A
Training...:  63% 1631/2609 [1:34:28<49:53,  3.06s/it][A
Training...:  63% 1632/2609 [1:34:31<47:50,  2.94s/it][A
Training...:  63% 1633/2609 [1:34:34<46:04,  2.83s/it][A
Training...:  63% 1634/2609 [1:34:36<44:13,  2.72s/it][A
Training...:  63% 1635/2609 [1:34:38<42:33,  2.62s/it][A
Training...:  63% 1636/2609 [1:34:41<40:55,  2.52s/it][A
Training...:  63% 1637/2609 [1:34:43<39:37,  2.45s/it][A
Training...:  63% 1638/2609 [1:34:45<38:09,  2.36s/it][A
Training...:  63% 1639/2609 [1:34:47<36:45,  2.27s/it][A
Training...:  63% 1640/2609 [1:34:49<35:23,  2.19s/it][A
Training...:  63% 1641/2609 [1:34:51<33:56,  2.10s/it][A
Training...:  63% 1642/2609 [1:34:53<32:25,  2.01s/it][A
Training...:  63% 1643/2609 [1:34:55<30:49,  1.91s/it][A
Training...:  63% 1644/2609 [1:34:56<29:04,  1.81s/it][A
Training...:  63% 1645/2609 [1:34:58<27:21,  1.70s/it][A
Training...:  63% 1646/2609 [1:34:59<25:25,  1.58s/it][A
Training...:  63% 1647/2609 [1:35:00<23:22,  1.46s/it][A
Training...:  63% 1648/2609 [1:35:01<21:08,  1.32s/it][A
Training...:  63% 1649/2609 [1:35:02<18:42,  1.17s/it][A
Training...:  63% 1650/2609 [1:35:02<15:45,  1.01it/s][A
Training...:  63% 1651/2609 [1:35:10<45:44,  2.86s/it][A
Training...:  63% 1652/2609 [1:35:17<1:05:38,  4.12s/it][A
Training...:  63% 1653/2609 [1:35:23<1:17:17,  4.85s/it][A
Training...:  63% 1654/2609 [1:35:29<1:23:29,  5.25s/it][A
Training...:  63% 1655/2609 [1:35:35<1:27:11,  5.48s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:37:44<10:17:59, 9269.79s/it]
Training...:  63% 1655/2609 [1:35:42<1:27:11,  5.48s/it][A
Training...:  63% 1656/2609 [1:35:42<1:31:48,  5.78s/it][A
Training...:  64% 1657/2609 [1:35:47<1:30:26,  5.70s/it][A
Training...:  64% 1658/2609 [1:35:53<1:28:28,  5.58s/it][A
Training...:  64% 1659/2609 [1:35:58<1:26:19,  5.45s/it][A
Training...:  64% 1660/2609 [1:36:03<1:23:52,  5.30s/it][A
Training...:  64% 1661/2609 [1:36:08<1:21:41,  5.17s/it][A
Training...:  64% 1662/2609 [1:36:12<1:18:59,  5.01s/it][A
Training...:  64% 1663/2609 [1:36:17<1:17:00,  4.88s/it][A
Training...:  64% 1664/2609 [1:36:21<1:14:47,  4.75s/it][A
Training...:  64% 1665/2609 [1:36:26<1:12:49,  4.63s/it][A
Training...:  64% 1666/2609 [1:36:30<1:11:02,  4.52s/it][A
Training...:  64% 1667/2609 [1:36:34<1:08:53,  4.39s/it][A
Training...:  64% 1668/2609 [1:36:38<1:06:40,  4.25s/it][A
Training...:  64% 1669/2609 [1:36:42<1:04:48,  4.14s/it][A
Training...:  64% 1670/2609 [1:36:46<1:02:59,  4.03s/it][A
Training...:  64% 1671/2609 [1:36:49<1:01:20,  3.92s/it][A
Training...:  64% 1672/2609 [1:36:53<59:28,  3.81s/it]  [A
Training...:  64% 1673/2609 [1:36:56<57:55,  3.71s/it][A
Training...:  64% 1674/2609 [1:37:00<56:24,  3.62s/it][A
Training...:  64% 1675/2609 [1:37:03<55:26,  3.56s/it][A
Training...:  64% 1676/2609 [1:37:06<53:51,  3.46s/it][A
Training...:  64% 1677/2609 [1:37:10<52:42,  3.39s/it][A
Training...:  64% 1678/2609 [1:37:13<50:58,  3.29s/it][A
Training...:  64% 1679/2609 [1:37:16<49:25,  3.19s/it][A
Training...:  64% 1680/2609 [1:37:19<47:52,  3.09s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:39:24<10:17:59, 9269.79s/it]
Training...:  64% 1680/2609 [1:37:22<47:52,  3.09s/it][A
Training...:  64% 1681/2609 [1:37:22<48:42,  3.15s/it][A
Training...:  64% 1682/2609 [1:37:24<46:38,  3.02s/it][A
Training...:  65% 1683/2609 [1:37:27<44:59,  2.92s/it][A
Training...:  65% 1684/2609 [1:37:30<43:17,  2.81s/it][A
Training...:  65% 1685/2609 [1:37:32<41:49,  2.72s/it][A
Training...:  65% 1686/2609 [1:37:35<40:20,  2.62s/it][A
Training...:  65% 1687/2609 [1:37:37<38:50,  2.53s/it][A
Training...:  65% 1688/2609 [1:37:39<37:10,  2.42s/it][A
Training...:  65% 1689/2609 [1:37:41<35:43,  2.33s/it][A
Training...:  65% 1690/2609 [1:37:43<34:18,  2.24s/it][A
Training...:  65% 1691/2609 [1:37:45<32:56,  2.15s/it][A
Training...:  65% 1692/2609 [1:37:47<31:14,  2.04s/it][A
Training...:  65% 1693/2609 [1:37:49<29:39,  1.94s/it][A
Training...:  65% 1694/2609 [1:37:50<28:06,  1.84s/it][A
Training...:  65% 1695/2609 [1:37:52<26:15,  1.72s/it][A
Training...:  65% 1696/2609 [1:37:53<24:21,  1.60s/it][A
Training...:  65% 1697/2609 [1:37:54<22:27,  1.48s/it][A
Training...:  65% 1698/2609 [1:37:55<20:23,  1.34s/it][A
Training...:  65% 1699/2609 [1:37:56<18:09,  1.20s/it][A
Training...:  65% 1700/2609 [1:37:57<15:25,  1.02s/it][A
Training...:  65% 1701/2609 [1:38:04<43:10,  2.85s/it][A
Training...:  65% 1702/2609 [1:38:11<1:02:00,  4.10s/it][A
Training...:  65% 1703/2609 [1:38:17<1:13:03,  4.84s/it][A
Training...:  65% 1704/2609 [1:38:24<1:19:10,  5.25s/it][A
Training...:  65% 1705/2609 [1:38:30<1:22:06,  5.45s/it][A                                                                                                                                                                    
                                                        [AStep... (41750 | Loss: 0.011085376143455505, Learning Rate: 1.6668689568177797e-05, Gradient Norm: 0.3287295401096344)
Step... (41775 | Loss: 0.0023337143938988447, Learning Rate: 1.6618179870420136e-05, Gradient Norm: 0.16852515935897827)
Step... (41800 | Loss: 0.006850486621260643, Learning Rate: 1.656767744862009e-05, Gradient Norm: 0.3393358290195465)
Step... (41825 | Loss: 0.0025301179848611355, Learning Rate: 1.6517173207830638e-05, Gradient Norm: 0.20875537395477295)
Step... (41850 | Loss: 0.00880748126655817, Learning Rate: 1.646666532906238e-05, Gradient Norm: 0.3477160334587097)
Step... (41875 | Loss: 0.0053204260766506195, Learning Rate: 1.641616108827293e-05, Gradient Norm: 0.403946191072464)
Step... (41900 | Loss: 0.006221887189894915, Learning Rate: 1.6365658666472882e-05, Gradient Norm: 0.27225005626678467)
Step... (41925 | Loss: 0.0026911033783107996, Learning Rate: 1.631514896871522e-05, Gradient Norm: 0.19391123950481415)
Step... (41950 | Loss: 0.024836594238877296, Learning Rate: 1.6264646546915174e-05, Gradient Norm: 0.745353102684021)
Step... (41975 | Loss: 0.0011718356981873512, Learning Rate: 1.6214144125115126e-05, Gradient Norm: 0.14589376747608185)
Step... (42000 | Loss: 0.01827598549425602, Learning Rate: 1.6163634427357465e-05, Gradient Norm: 0.43721669912338257)
Step... (42025 | Loss: 0.0011272025294601917, Learning Rate: 1.6113132005557418e-05, Gradient Norm: 0.06656287610530853)
Step... (42050 | Loss: 0.013128358870744705, Learning Rate: 1.606262958375737e-05, Gradient Norm: 0.3195866644382477)
Step... (42075 | Loss: 0.002328916685655713, Learning Rate: 1.601211988599971e-05, Gradient Norm: 0.259838342666626)
Step... (42100 | Loss: 0.005904368590563536, Learning Rate: 1.5961617464199662e-05, Gradient Norm: 0.3258819878101349)
Step... (42125 | Loss: 0.0030418182723224163, Learning Rate: 1.591111322341021e-05, Gradient Norm: 0.2656126022338867)
Step... (42150 | Loss: 0.008718068711459637, Learning Rate: 1.5860605344641954e-05, Gradient Norm: 0.7849003076553345)
Step... (42175 | Loss: 0.002224302850663662, Learning Rate: 1.5810101103852503e-05, Gradient Norm: 0.15318290889263153)
Step... (42200 | Loss: 0.00807808618992567, Learning Rate: 1.5759598682052456e-05, Gradient Norm: 0.3220064342021942)
Step... (42225 | Loss: 0.005958727560937405, Learning Rate: 1.5709088984294794e-05, Gradient Norm: 0.4047853946685791)
Step... (42250 | Loss: 0.010656433179974556, Learning Rate: 1.5658586562494747e-05, Gradient Norm: 0.35284313559532166)
Step... (42275 | Loss: 0.0014304905198514462, Learning Rate: 1.56080841406947e-05, Gradient Norm: 0.14814810454845428)
Step... (42300 | Loss: 0.011272807605564594, Learning Rate: 1.555757444293704e-05, Gradient Norm: 0.38096413016319275)
Step... (42325 | Loss: 0.002961228135973215, Learning Rate: 1.550707202113699e-05, Gradient Norm: 0.2296774536371231)
Step... (42350 | Loss: 0.016640163958072662, Learning Rate: 1.545656232337933e-05, Gradient Norm: 0.7553788423538208)
Step... (42375 | Loss: 0.00172911467961967, Learning Rate: 1.5406059901579283e-05, Gradient Norm: 0.125436931848526)
Step... (42400 | Loss: 0.01192380115389824, Learning Rate: 1.5355557479779236e-05, Gradient Norm: 0.3666525185108185)
Step... (42425 | Loss: 0.0038295723497867584, Learning Rate: 1.5305047782021575e-05, Gradient Norm: 0.3789861798286438)
Step... (42450 | Loss: 0.007070977706462145, Learning Rate: 1.5254544450726826e-05, Gradient Norm: 0.26438719034194946)
Step... (42475 | Loss: 0.0030620896723121405, Learning Rate: 1.5204042028926779e-05, Gradient Norm: 0.24980618059635162)
Step... (42500 | Loss: 0.010846319608390331, Learning Rate: 1.5153533240663819e-05, Gradient Norm: 0.28483250737190247)
Step... (42525 | Loss: 0.001129796844907105, Learning Rate: 1.510302990936907e-05, Gradient Norm: 0.10149383544921875)
Step... (42550 | Loss: 0.013131697662174702, Learning Rate: 1.5052526578074321e-05, Gradient Norm: 0.3353472948074341)
Step... (42575 | Loss: 0.0014304275391623378, Learning Rate: 1.5002017789811362e-05, Gradient Norm: 0.10525385290384293)
Step... (4Step... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:40:38<10:17:59, 9269.79s/it]
2600 | Loss: 0.006359834689646959, Learning Rate: 1.4951514458516613e-05, Gradient Norm: 0.22798335552215576)
Step... (42625 | Loss: 0.00132264057174325, Learning Rate: 1.4901012036716565e-05, Gradient Norm: 0.12735410034656525)
Step... (42650 | Loss: 0.009358977898955345, Learning Rate: 1.4850503248453606e-05, Gradient Norm: 0.35869577527046204)
Step... (42675 | Loss: 0.0013461433118209243, Learning Rate: 1.4799999917158857e-05, Gradient Norm: 0.12540303170681)
Step... (42700 | Loss: 0.0059962146915495396, Learning Rate: 1.4749496585864108e-05, Gradient Norm: 0.18321596086025238)
Step... (42725 | Loss: 0.0012824874138459563, Learning Rate: 1.4698987797601148e-05, Gradient Norm: 0.1400812566280365)
Step... (42750 | Loss: 0.005002839956432581, Learning Rate: 1.46484844663064e-05, Gradient Norm: 0.2610306441783905)
Step... (42775 | Loss: 0.005001753568649292, Learning Rate: 1.4597982044506352e-05, Gradient Norm: 0.40315327048301697)
Step... (42800 | Loss: 0.012166586704552174, Learning Rate: 1.4547473256243393e-05, Gradient Norm: 0.4250847399234772)
Step... (42825 | Loss: 0.0031106406822800636, Learning Rate: 1.4496969924948644e-05, Gradient Norm: 0.2057093381881714)
Step... (42850 | Loss: 0.004624874331057072, Learning Rate: 1.4446466593653895e-05, Gradient Norm: 0.1841263324022293)
Step... (42875 | Loss: 0.0008015817147679627, Learning Rate: 1.4395957805390935e-05, Gradient Norm: 0.06203605234622955)
Step... (42900 | Loss: 0.010586408898234367, Learning Rate: 1.4345454474096186e-05, Gradient Norm: 0.30093914270401)
Step... (42925 | Loss: 0.002165629295632243, Learning Rate: 1.429495205229614e-05, Gradient Norm: 0.20450487732887268)
Step... (42950 | Loss: 0.00990107748657465, Learning Rate: 1.424444326403318e-05, Gradient Norm: 0.33059218525886536)
Step... (42975 | Loss: 0.0005892016924917698, Learning Rate: 1.419393993273843e-05, Gradient Norm: 0.05123559385538101)
Step... (43000 | Loss: 0.020977847278118134, Learning Rate: 1.4143436601443682e-05, Gradient Norm: 0.5862843990325928)
Step... (43025 | Loss: 0.001106131705455482, Learning Rate: 1.4092927813180722e-05, Gradient Norm: 0.10339543223381042)
Step... (43050 | Loss: 0.006317089311778545, Learning Rate: 1.4042424481885973e-05, Gradient Norm: 0.22887086868286133)
Step... (43075 | Loss: 0.0005329413688741624, Learning Rate: 1.3991922060085926e-05, Gradient Norm: 0.0353836826980114)
Step... (43100 | Loss: 0.005677015986293554, Learning Rate: 1.3941412362328265e-05, Gradient Norm: 0.2248280793428421)
Step... (43125 | Loss: 0.0042039621621370316, Learning Rate: 1.3890909940528218e-05, Gradient Norm: 0.2567582428455353)
Step... (43150 | Loss: 0.007598137948662043, Learning Rate: 1.3840406609233469e-05, Gradient Norm: 0.29180341958999634)
Step... (43175 | Loss: 0.0008444036357104778, Learning Rate: 1.378989782097051e-05, Gradient Norm: 0.06344153732061386)
Step... (43200 | Loss: 0.007328960578888655, Learning Rate: 1.373939448967576e-05, Gradient Norm: 0.2992991507053375)
Step... (43225 | Loss: 0.003770813113078475, Learning Rate: 1.3688892067875713e-05, Gradient Norm: 0.3311856985092163)
Step... (43250 | Loss: 0.01760178618133068, Learning Rate: 1.3638382370118052e-05, Gradient Norm: 0.3994958698749542)
Step... (43275 | Loss: 0.002213098807260394, Learning Rate: 1.3587879948318005e-05, Gradient Norm: 0.17014332115650177)
Step... (43300 | Loss: 0.005146106239408255, Learning Rate: 1.3537376617023256e-05, Gradient Norm: 0.2132069170475006)
Step... (43325 | Loss: 0.004650704097002745, Learning Rate: 1.3486867828760296e-05, Gradient Norm: 0.3771972358226776)
Step... (43350 | Loss: 0.007156554609537125, Learning Rate: 1.3436364497465547e-05, Gradient Norm: 0.26570799946784973)
Step... (43375 | Loss: 0.001976442290470004, Learning Rate: 1.3385855709202588e-05, Gradient Norm: 0.16399820148944855)
Step... (43400 | Loss: 0.005376012530177832, Learning Rate: 1.3335352377907839e-05, Gradient Norm: 0.3223153054714203)
Step... (43425 | Loss: 0.000564086833037436, Learning Rate: 1.3284849956107792e-05, Gradient Norm: 0.04119347408413887)
Training...:  65% 1705/2609 [1:38:36<1:22:06,  5.45s/it][A
Training...:  65% 1706/2609 [1:38:36<1:26:37,  5.76s/it][A
Training...:  65% 1707/2609 [1:38:42<1:26:27,  5.75s/it][A
Training...:  65% 1708/2609 [1:38:47<1:24:09,  5.60s/it][A
Training...:  66% 1709/2609 [1:38:52<1:22:23,  5.49s/it][A
Training...:  66% 1710/2609 [1:38:57<1:19:47,  5.33s/it][A
Training...:  66% 1711/2609 [1:39:02<1:17:43,  5.19s/it][A
Training...:  66% 1712/2609 [1:39:07<1:15:01,  5.02s/it][A
Training...:  66% 1713/2609 [1:39:11<1:12:50,  4.88s/it][A
Training...:  66% 1714/2609 [1:39:16<1:10:33,  4.73s/it][A
Training...:  66% 1715/2609 [1:39:20<1:08:25,  4.59s/it][A
Training...:  66% 1716/2609 [1:39:24<1:06:08,  4.44s/it][A
Training...:  66% 1717/2609 [1:39:28<1:04:04,  4.31s/it][A
Training...:  66% 1718/2609 [1:39:32<1:02:23,  4.20s/it][A
Training...:  66% 1719/2609 [1:39:36<1:00:40,  4.09s/it][A
Training...:  66% 1720/2609 [1:39:40<58:52,  3.97s/it]  [A
Training...:  66% 1721/2609 [1:39:43<57:22,  3.88s/it][A
Training...:  66% 1722/2609 [1:39:47<55:38,  3.76s/it][A
Training...:  66% 1723/2609 [1:39:50<54:17,  3.68s/it][A
Training...:  66% 1724/2609 [1:39:53<52:50,  3.58s/it][A
Training...:  66% 1725/2609 [1:39:57<51:33,  3.50s/it][A
Training...:  66% 1726/2609 [1:40:00<50:04,  3.40s/it][A
Training...:  66% 1727/2609 [1:40:03<48:57,  3.33s/it][A
Training...:  66% 1728/2609 [1:40:06<47:14,  3.22s/it][A
Training...:  66% 1729/2609 [1:40:09<46:03,  3.14s/it][A
Training...:  66% 1730/2609 [1:40:12<44:45,  3.05s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:42:17<10:17:59, 9269.79s/it]
Training...:  66% 1730/2609 [1:40:15<44:45,  3.05s/it][A
Training...:  66% 1731/2609 [1:40:15<45:19,  3.10s/it][A
Training...:  66% 1732/2609 [1:40:18<43:09,  2.95s/it][A
Training...:  66% 1733/2609 [1:40:20<41:19,  2.83s/it][A
Training...:  66% 1734/2609 [1:40:23<39:32,  2.71s/it][A
Training...:  67% 1735/2609 [1:40:25<37:57,  2.61s/it][A
Training...:  67% 1736/2609 [1:40:27<36:25,  2.50s/it][A
Training...:  67% 1737/2609 [1:40:29<34:57,  2.40s/it][A
Training...:  67% 1738/2609 [1:40:32<33:36,  2.31s/it][A
Training...:  67% 1739/2609 [1:40:34<32:16,  2.23s/it][A
Training...:  67% 1740/2609 [1:40:36<30:51,  2.13s/it][A
Training...:  67% 1741/2609 [1:40:37<29:28,  2.04s/it][A
Training...:  67% 1742/2609 [1:40:39<28:06,  1.95s/it][A
Training...:  67% 1743/2609 [1:40:41<26:43,  1.85s/it][A
Training...:  67% 1744/2609 [1:40:42<25:12,  1.75s/it][A
Training...:  67% 1745/2609 [1:40:44<23:45,  1.65s/it][A
Training...:  67% 1746/2609 [1:40:45<22:15,  1.55s/it][A
Training...:  67% 1747/2609 [1:40:46<20:33,  1.43s/it][A
Training...:  67% 1748/2609 [1:40:47<18:46,  1.31s/it][A
Training...:  67% 1749/2609 [1:40:48<16:46,  1.17s/it][A
Training...:  67% 1750/2609 [1:40:49<14:22,  1.00s/it][A
Training...:  67% 1751/2609 [1:40:56<40:01,  2.80s/it][A
Training...:  67% 1752/2609 [1:41:02<57:25,  4.02s/it][A
Training...:  67% 1753/2609 [1:41:09<1:07:22,  4.72s/it][A
Training...:  67% 1754/2609 [1:41:15<1:13:05,  5.13s/it][A
Training...:  67% 1755/2609 [1:41:21<1:16:16,  5.36s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:43:30<10:17:59, 9269.79s/it]
Training...:  67% 1755/2609 [1:41:27<1:16:16,  5.36s/it][A
Training...:  67% 1756/2609 [1:41:27<1:20:38,  5.67s/it][A
Training...:  67% 1757/2609 [1:41:33<1:19:58,  5.63s/it][A
Training...:  67% 1758/2609 [1:41:38<1:18:45,  5.55s/it][A
Training...:  67% 1759/2609 [1:41:43<1:16:44,  5.42s/it][A
Training...:  67% 1760/2609 [1:41:48<1:14:19,  5.25s/it][A
Training...:  67% 1761/2609 [1:41:53<1:12:02,  5.10s/it][A
Training...:  68% 1762/2609 [1:41:57<1:09:50,  4.95s/it][A
Training...:  68% 1763/2609 [1:42:02<1:07:52,  4.81s/it][A
Training...:  68% 1764/2609 [1:42:06<1:05:33,  4.65s/it][A
Training...:  68% 1765/2609 [1:42:10<1:03:28,  4.51s/it][A
Training...:  68% 1766/2609 [1:42:14<1:01:25,  4.37s/it][A
Training...:  68% 1767/2609 [1:42:18<59:49,  4.26s/it]  [A
Training...:  68% 1768/2609 [1:42:22<58:25,  4.17s/it][A
Training...:  68% 1769/2609 [1:42:26<57:01,  4.07s/it][A
Training...:  68% 1770/2609 [1:42:30<55:46,  3.99s/it][A
Training...:  68% 1771/2609 [1:42:34<54:40,  3.92s/it][A
Training...:  68% 1772/2609 [1:42:37<53:16,  3.82s/it][A
Training...:  68% 1773/2609 [1:42:41<51:45,  3.71s/it][A
Training...:  68% 1774/2609 [1:42:44<50:08,  3.60s/it][A
Training...:  68% 1775/2609 [1:42:47<48:55,  3.52s/it][A
Training...:  68% 1776/2609 [1:42:51<47:15,  3.40s/it][A
Training...:  68% 1777/2609 [1:42:54<45:58,  3.32s/it][A
Training...:  68% 1778/2609 [1:42:57<44:45,  3.23s/it][A
Training...:  68% 1779/2609 [1:43:00<43:41,  3.16s/it][A
Training...:  68% 1780/2609 [1:43:03<42:02,  3.04s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:45:08<10:17:59, 9269.79s/it]
Training...:  68% 1780/2609 [1:43:06<42:02,  3.04s/it][A
Training...:  68% 1781/2609 [1:43:06<42:28,  3.08s/it][A
Training...:  68% 1782/2609 [1:43:08<40:34,  2.94s/it][A
Training...:  68% 1783/2609 [1:43:11<38:56,  2.83s/it][A
Training...:  68% 1784/2609 [1:43:13<37:13,  2.71s/it][A
Training...:  68% 1785/2609 [1:43:16<35:39,  2.60s/it][A
Training...:  68% 1786/2609 [1:43:18<34:09,  2.49s/it][A
Training...:  68% 1787/2609 [1:43:20<32:43,  2.39s/it][A
Training...:  69% 1788/2609 [1:43:22<31:18,  2.29s/it][A
Training...:  69% 1789/2609 [1:43:24<30:01,  2.20s/it][A
Training...:  69% 1790/2609 [1:43:26<28:43,  2.10s/it][A
Training...:  69% 1791/2609 [1:43:28<27:22,  2.01s/it][A
Training...:  69% 1792/2609 [1:43:29<26:00,  1.91s/it][A
Training...:  69% 1793/2609 [1:43:31<24:39,  1.81s/it][A
Training...:  69% 1794/2609 [1:43:32<23:13,  1.71s/it][A
Training...:  69% 1795/2609 [1:43:34<21:43,  1.60s/it][A
Training...:  69% 1796/2609 [1:43:35<20:16,  1.50s/it][A
Training...:  69% 1797/2609 [1:43:36<18:41,  1.38s/it][A
Training...:  69% 1798/2609 [1:43:37<16:50,  1.25s/it][A
Training...:  69% 1799/2609 [1:43:38<14:50,  1.10s/it][A
Training...:  69% 1800/2609 [1:43:38<12:26,  1.08it/s][A
Training...:  69% 1801/2609 [1:43:45<37:19,  2.77s/it][A
Training...:  69% 1802/2609 [1:43:52<54:16,  4.04s/it][A
Training...:  69% 1803/2609 [1:43:59<1:04:33,  4.81s/it][A
Training...:  69% 1804/2609 [1:44:05<1:10:32,  5.26s/it][A
Training...:  69% 1805/2609 [1:44:11<1:13:29,  5.48s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:46:20<10:17:59, 9269.79s/it]
Training...:  69% 1805/2609 [1:44:18<1:13:29,  5.48s/it][A
Training...:  69% 1806/2609 [1:44:18<1:17:51,  5.82s/it][A
Training...:  69% 1807/2609 [1:44:24<1:16:52,  5.75s/it][A
Training...:  69% 1808/2609 [1:44:29<1:15:22,  5.65s/it][A
Training...:  69% 1809/2609 [1:44:34<1:13:46,  5.53s/it][A
Training...:  69% 1810/2609 [1:44:39<1:12:00,  5.41s/it][A
Training...:  69% 1811/2609 [1:44:44<1:10:25,  5.29s/it][A
Training...:  69% 1812/2609 [1:44:49<1:08:03,  5.12s/it][A
Training...:  69% 1813/2609 [1:44:54<1:06:04,  4.98s/it][A
Training...:  70% 1814/2609 [1:44:58<1:03:39,  4.80s/it][A
Training...:  70% 1815/2609 [1:45:03<1:01:48,  4.67s/it][A
Training...:  70% 1816/2609 [1:45:07<59:39,  4.51s/it]  [A
Training...:  70% 1817/2609 [1:45:11<57:52,  4.39s/it][A
Training...:  70% 1818/2609 [1:45:15<55:57,  4.24s/it][A
Training...:  70% 1819/2609 [1:45:19<54:18,  4.12s/it][A
Training...:  70% 1820/2609 [1:45:22<52:46,  4.01s/it][A
Training...:  70% 1821/2609 [1:45:26<51:08,  3.89s/it][A
Training...:  70% 1822/2609 [1:45:29<49:35,  3.78s/it][A
Training...:  70% 1823/2609 [1:45:33<48:05,  3.67s/it][A
Training...:  70% 1824/2609 [1:45:36<46:43,  3.57s/it][A
Training...:  70% 1825/2609 [1:45:39<45:21,  3.47s/it][A
Training...:  70% 1826/2609 [1:45:42<43:42,  3.35s/it][A
Training...:  70% 1827/2609 [1:45:46<42:30,  3.26s/it][A
Training...:  70% 1828/2609 [1:45:48<41:21,  3.18s/it][A
Training...:  70% 1829/2609 [1:45:51<40:02,  3.08s/it][A
Training...:  70% 1830/2609 [1:45:54<38:47,  2.99s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:48:00<10:17:59, 9269.79s/it]
Training...:  70% 1830/2609 [1:45:57<38:47,  2.99s/it][A
Training...:  70% 1831/2609 [1:45:57<39:19,  3.03s/it][A
Training...:  70% 1832/2609 [1:46:00<37:40,  2.91s/it][A
Training...:  70% 1833/2609 [1:46:02<36:05,  2.79s/it][A
Training...:  70% 1834/2609 [1:46:05<34:41,  2.69s/it][A
Training...:  70% 1835/2609 [1:46:07<33:15,  2.58s/it][A
Training...:  70% 1836/2609 [1:46:09<31:58,  2.48s/it][A
Training...:  70% 1837/2609 [1:46:12<30:50,  2.40s/it][A
Training...:  70% 1838/2609 [1:46:14<29:35,  2.30s/it][A
Training...:  70% 1839/2609 [1:46:16<28:22,  2.21s/it][A
Training...:  71% 1840/2609 [1:46:18<27:09,  2.12s/it][A
Training...:  71% 1841/2609 [1:46:19<25:52,  2.02s/it][A
Training...:  71% 1842/2609 [1:46:21<24:58,  1.95s/it][A
Training...:  71% 1843/2609 [1:46:23<23:51,  1.87s/it][A
Training...:  71% 1844/2609 [1:46:24<22:35,  1.77s/it][A
Training...:  71% 1845/2609 [1:46:26<21:25,  1.68s/it][A
Training...:  71% 1846/2609 [1:46:27<19:58,  1.57s/it][A
Training...:  71% 1847/2609 [1:46:28<18:33,  1.46s/it][A
Training...:  71% 1848/2609 [1:46:29<16:58,  1.34s/it][A
Training...:  71% 1849/2609 [1:46:30<15:10,  1.20s/it][A
Training...:  71% 1850/2609 [1:46:31<12:49,  1.01s/it][A
Training...:  71% 1851/2609 [1:46:38<36:10,  2.86s/it][A
Training...:  71% 1852/2609 [1:46:45<52:08,  4.13s/it][A
Training...:  71% 1853/2609 [1:46:52<1:03:14,  5.02s/it][A
Training...:  71% 1854/2609 [1:46:59<1:08:51,  5.47s/it][A
Training...:  71% 1855/2609 [1:47:05<1:11:20,  5.68s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:49:14<10:17:59, 9269.79s/it]
Training...:  71% 1855/2609 [1:47:12<1:11:20,  5.68s/it][A
Training...:  71% 1856/2609 [1:47:12<1:14:34,  5.94s/it][A
Training...:  71% 1857/2609 [1:47:17<1:13:17,  5.85s/it][A
Training...:  71% 1858/2609 [1:47:22<1:10:56,  5.67s/it][A
Training...:  71% 1859/2609 [1:47:28<1:09:10,  5.53s/it][A
Training...:  71% 1860/2609 [1:47:33<1:06:52,  5.36s/it][A
Training...:  71% 1861/2609 [1:47:37<1:04:59,  5.21s/it][A
Training...:  71% 1862/2609 [1:47:42<1:02:52,  5.05s/it][A
Training...:  71% 1863/2609 [1:47:47<1:00:48,  4.89s/it][A
Training...:  71% 1864/2609 [1:47:51<58:48,  4.74s/it]  [A
Training...:  71% 1865/2609 [1:47:55<57:08,  4.61s/it][A
Training...:  72% 1866/2609 [1:47:59<55:21,  4.47s/it][A
Training...:  72% 1867/2609 [1:48:04<53:49,  4.35s/it][A
Training...:  72% 1868/2609 [1:48:07<52:07,  4.22s/it][A
Training...:  72% 1869/2609 [1:48:11<51:09,  4.15s/it][A
Training...:  72% 1870/2609 [1:48:15<49:26,  4.01s/it][A
Training...:  72% 1871/2609 [1:48:19<48:02,  3.91s/it][A
Training...:  72% 1872/2609 [1:48:22<46:32,  3.79s/it][A
Training...:  72% 1873/2609 [1:48:26<45:16,  3.69s/it][A
Training...:  72% 1874/2609 [1:48:29<43:57,  3.59s/it][A
Training...:  72% 1875/2609 [1:48:32<42:55,  3.51s/it][A
Training...:  72% 1876/2609 [1:48:36<41:41,  3.41s/it][A
Training...:  72% 1877/2609 [1:48:39<40:32,  3.32s/it][A
Training...:  72% 1878/2609 [1:48:42<39:20,  3.23s/it][A
Training...:  72% 1879/2609 [1:48:45<38:17,  3.15s/it][A
Training...:  72% 1880/2609 [1:48:48<37:13,  3.06s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:50:53<10:17:59, 9269.79s/it]
Training...:  72% 1880/2609 [1:48:51<37:13,  3.06s/it][A
Training...:  72% 1881/2609 [1:48:51<37:47,  3.11s/it][A
Training...:  72% 1882/2609 [1:48:53<36:11,  2.99s/it][A
Training...:  72% 1883/2609 [1:48:56<34:51,  2.88s/it][A
Training...:  72% 1884/2609 [1:48:59<33:20,  2.76s/it][A
Training...:  72% 1885/2609 [1:49:01<32:08,  2.66s/it][A
Training...:  72% 1886/2609 [1:49:03<30:50,  2.56s/it][A
Training...:  72% 1887/2609 [1:49:06<29:36,  2.46s/it][A
Training...:  72% 1888/2609 [1:49:08<28:20,  2.36s/it][A
Training...:  72% 1889/2609 [1:49:10<27:19,  2.28s/it][A
Training...:  72% 1890/2609 [1:49:12<26:15,  2.19s/it][A
Training...:  72% 1891/2609 [1:49:14<25:08,  2.10s/it][A
Training...:  73% 1892/2609 [1:49:15<23:59,  2.01s/it][A
Training...:  73% 1893/2609 [1:49:17<22:46,  1.91s/it][A
Training...:  73% 1894/2609 [1:49:19<21:25,  1.80s/it][A
Training...:  73% 1895/2609 [1:49:20<20:09,  1.69s/it][A
Training...:  73% 1896/2609 [1:49:21<18:47,  1.58s/it][A
Training...:  73% 1897/2609 [1:49:23<17:19,  1.46s/it][A
Training...:  73% 1898/2609 [1:49:24<15:40,  1.32s/it][A
Training...:  73% 1899/2609 [1:49:24<13:47,  1.16s/it][A
Training...:  73% 1900/2609 [1:49:25<11:40,  1.01it/s][A
Training...:  73% 1901/2609 [1:49:32<33:30,  2.84s/it][A
Training...:  73% 1902/2609 [1:49:39<48:37,  4.13s/it][A
Training...:  73% 1903/2609 [1:49:46<56:59,  4.84s/it][A
Training...:  73% 1904/2609 [1:49:52<1:01:47,  5.26s/it][A
Training...:  73% 1905/2609 [1:49:58<1:04:18,  5.48s/it][A                                                                                                                                                                    
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:52:07<10:17:59, 9269.79s/it]
Training...:  73% 1905/2609 [1:50:05<1:04:18,  5.48s/it][A
Training...:  73% 1906/2609 [1:50:05<1:08:09,  5.82s/it][A
Training...:  73% 1907/2609 [1:50:10<1:07:13,  5.75s/it][A
Training...:  73% 1908/2609 [1:50:15<1:05:15,  5.59s/it][A
Training...:  73% 1909/2609 [1:50:20<1:03:04,  5.41s/it][A
Training...:  73% 1910/2609 [1:50:25<1:01:10,  5.25s/it][A
Training...:  73% 1911/2609 [1:50:30<59:20,  5.10s/it]  [A
Training...:  73% 1912/2609 [1:50:35<57:32,  4.95s/it][A
Training...:  73% 1913/2609 [1:50:39<55:55,  4.82s/it][A
Training...:  73% 1914/2609 [1:50:44<54:11,  4.68s/it][A
Training...:  73% 1915/2609 [1:50:48<52:33,  4.54s/it][A
Training...:  73% 1916/2609 [1:50:52<51:03,  4.42s/it][A
Training...:  73% 1917/2609 [1:50:56<50:06,  4.34s/it][A
Training...:  74% 1918/2609 [1:51:00<48:38,  4.22s/it][A
Training...:  74% 1919/2609 [1:51:04<47:17,  4.11s/it][A
Training...:  74% 1920/2609 [1:51:08<45:52,  3.99s/it][A
Training...:  74% 1921/2609 [1:51:11<44:45,  3.90s/it][A
Training...:  74% 1922/2609 [1:51:15<43:23,  3.79s/it][A
Training...:  74% 1923/2609 [1:51:18<42:08,  3.69s/it][A
Training...:  74% 1924/2609 [1:51:22<40:51,  3.58s/it][A
Training...:  74% 1925/2609 [1:51:25<39:47,  3.49s/it][A
Training...:  74% 1926/2609 [1:51:28<38:32,  3.39s/it][A
Training...:  74% 1927/2609 [1:51:31<37:34,  3.31s/it][A
Training...:  74% 1928/2609 [1:51:34<36:50,  3.25s/it][A
Training...:  74% 1929/2609 [1:51:37<35:57,  3.17s/it][A
Training...:  74% 1930/2609 [1:51:40<34:59,  3.09s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:53:46<10:17:59, 9269.79s/it]
Training...:  74% 1930/2609 [1:51:43<34:59,  3.09s/it][A
Training...:  74% 1931/2609 [1:51:43<35:27,  3.14s/it][A
Training...:  74% 1932/2609 [1:51:46<33:47,  2.99s/it][A
Training...:  74% 1933/2609 [1:51:49<32:17,  2.87s/it][A
Training...:  74% 1934/2609 [1:51:51<30:53,  2.75s/it][A
Training...:  74% 1935/2609 [1:51:53<29:45,  2.65s/it][A
Training...:  74% 1936/2609 [1:51:56<28:40,  2.56s/it][A
Training...:  74% 1937/2609 [1:51:58<27:36,  2.46s/it][A
Training...:  74% 1938/2609 [1:52:00<26:26,  2.36s/it][A
Training...:  74% 1939/2609 [1:52:02<25:16,  2.26s/it][A
Training...:  74% 1940/2609 [1:52:04<24:05,  2.16s/it][A
Training...:  74% 1941/2609 [1:52:06<22:55,  2.06s/it][A
Training...:  74% 1942/2609 [1:52:08<21:46,  1.96s/it][A
Training...:  74% 1943/2609 [1:52:09<20:43,  1.87s/it][A
Training...:  75% 1944/2609 [1:52:11<19:32,  1.76s/it][A
Training...:  75% 1945/2609 [1:52:12<18:23,  1.66s/it][A
Training...:  75% 1946/2609 [1:52:14<17:08,  1.55s/it][A
Training...:  75% 1947/2609 [1:52:15<15:53,  1.44s/it][A
Training...:  75% 1948/2609 [1:52:16<14:22,  1.30s/it][A
Training...:  75% 1949/2609 [1:52:17<12:46,  1.16s/it][A
Training...:  75% 1950/2609 [1:52:17<10:52,  1.01it/s][A
Training...:  75% 1951/2609 [1:52:24<31:25,  2.87s/it][A
Training...:  75% 1952/2609 [1:52:31<45:03,  4.12s/it][A
Training...:  75% 1953/2609 [1:52:38<52:49,  4.83s/it][A
Training...:  75% 1954/2609 [1:52:44<57:21,  5.25s/it][A
Training...:  75% 1955/2609 [1:52:50<59:54,  5.50s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:54:59<10:17:59, 9269.79s/it]
Training...:  75% 1955/2609 [1:52:57<59:54,  5.50s/it][A
Training...:  75% 1956/2609 [1:52:57<1:03:02,  5.79s/it][A
Training...:  75% 1957/2609 [1:53:02<1:01:57,  5.70s/it][A
Training...:  75% 1958/2609 [1:53:07<1:00:21,  5.56s/it][A
Training...:  75% 1959/2609 [1:53:13<58:51,  5.43s/it]  [A
Training...:  75% 1960/2609 [1:53:17<56:59,  5.27s/it][A
Training...:  75% 1961/2609 [1:53:22<55:19,  5.12s/it][A
Training...:  75% 1962/2609 [1:53:27<53:30,  4.96s/it][A
Training...:  75% 1963/2609 [1:53:31<51:52,  4.82s/it][A
Training...:  75% 1964/2609 [1:53:36<50:09,  4.67s/it][A
Training...:  75% 1965/2609 [1:53:40<48:33,  4.52s/it][A
Training...:  75% 1966/2609 [1:53:44<46:59,  4.38s/it][A
Training...:  75% 1967/2609 [1:53:48<45:54,  4.29s/it][A
Training...:  75% 1968/2609 [1:53:52<44:33,  4.17s/it][A
Training...:  75% 1969/2609 [1:53:56<43:28,  4.08s/it][A
Training...:  76% 1970/2609 [1:53:59<42:13,  3.97s/it][A
Training...:  76% 1971/2609 [1:54:03<41:07,  3.87s/it][A
Training...:  76% 1972/2609 [1:54:07<39:59,  3.77s/it][A
Training...:  76% 1973/2609 [1:54:10<38:42,  3.65s/it][A
Training...:  76% 1974/2609 [1:54:13<37:42,  3.56s/it][A
Training...:  76% 1975/2609 [1:54:17<36:33,  3.46s/it][A
Training...:  76% 1976/2609 [1:54:20<35:27,  3.36s/it][A
Training...:  76% 1977/2609 [1:54:23<34:32,  3.28s/it][A
Training...:  76% 1978/2609 [1:54:26<33:43,  3.21s/it][A
Training...:  76% 1979/2609 [1:54:29<32:52,  3.13s/it][A
Training...:  76% 1980/2609 [1:54:32<31:48,  3.03s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:56:37<10:17:59, 9269.79s/it]
Training...:  76% 1980/2609 [1:54:35<31:48,  3.03s/it][A
Training...:  76% 1981/2609 [1:54:35<32:11,  3.08s/it][A
Training...:  76% 1982/2609 [1:54:37<30:47,  2.95s/it][A
Training...:  76% 1983/2609 [1:54:40<29:26,  2.82s/it][A
Training...:  76% 1984/2609 [1:54:42<28:12,  2.71s/it][A
Training...:  76% 1985/2609 [1:54:45<27:06,  2.61s/it][A
Training...:  76% 1986/2609 [1:54:47<25:56,  2.50s/it][A
Training...:  76% 1987/2609 [1:54:49<24:59,  2.41s/it][A
Training...:  76% 1988/2609 [1:54:51<23:52,  2.31s/it][A
Training...:  76% 1989/2609 [1:54:53<22:49,  2.21s/it][A
Training...:  76% 1990/2609 [1:54:55<21:47,  2.11s/it][A
Training...:  76% 1991/2609 [1:54:57<20:49,  2.02s/it][A
Training...:  76% 1992/2609 [1:54:59<19:51,  1.93s/it][A
Training...:  76% 1993/2609 [1:55:00<18:51,  1.84s/it][A
Training...:  76% 1994/2609 [1:55:02<17:52,  1.74s/it][A
Training...:  76% 1995/2609 [1:55:03<16:49,  1.64s/it][A
Training...:  77% 1996/2609 [1:55:04<15:43,  1.54s/it][A
Training...:  77% 1997/2609 [1:55:06<14:28,  1.42s/it][A
Training...:  77% 1998/2609 [1:55:07<12:59,  1.28s/it][A
Training...:  77% 1999/2609 [1:55:07<11:26,  1.13s/it][A
Training...:  77% 2000/2609 [1:55:08<09:35,  1.06it/s][A
Training...:  77% 2001/2609 [1:55:15<28:25,  2.81s/it][A
Training...:  77% 2002/2609 [1:55:22<40:39,  4.02s/it][A
Training...:  77% 2003/2609 [1:55:28<47:51,  4.74s/it][A
Training...:  77% 2004/2609 [1:55:34<52:03,  5.16s/it][A
Training...:  77% 2005/2609 [1:55:40<54:03,  5.37s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:57:49<10:17:59, 9269.79s/it]
Training...:  77% 2005/2609 [1:55:47<54:03,  5.37s/it][A
Training...:  77% 2006/2609 [1:55:47<57:06,  5.68s/it][A
Training...:  77% 2007/2609 [1:55:52<56:07,  5.59s/it][A
Training...:  77% 2008/2609 [1:55:57<54:29,  5.44s/it][A
Training...:  77% 2009/2609 [1:56:02<53:21,  5.34s/it][A
Training...:  77% 2010/2609 [1:56:07<51:38,  5.17s/it][A
Training...:  77% 2011/2609 [1:56:12<50:30,  5.07s/it][A
Training...:  77% 2012/2609 [1:56:16<48:52,  4.91s/it][A
Training...:  77% 2013/2609 [1:56:21<47:36,  4.79s/it][A
Training...:  77% 2014/2609 [1:56:25<46:19,  4.67s/it][A
Training...:  77% 2015/2609 [1:56:30<44:54,  4.54s/it][A
Training...:  77% 2016/2609 [1:56:34<43:27,  4.40s/it][A
Training...:  77% 2017/2609 [1:56:38<42:14,  4.28s/it][A
Training...:  77% 2018/2609 [1:56:42<40:58,  4.16s/it][A
Training...:  77% 2019/2609 [1:56:45<39:59,  4.07s/it][A
Training...:  77% 2020/2609 [1:56:49<38:39,  3.94s/it][A
Training...:  77% 2021/2609 [1:56:53<37:31,  3.83s/it][A
Training...:  78% 2022/2609 [1:56:56<36:17,  3.71s/it][A
Training...:  78% 2023/2609 [1:56:59<35:16,  3.61s/it][A
Training...:  78% 2024/2609 [1:57:03<34:10,  3.50s/it][A
Training...:  78% 2025/2609 [1:57:06<33:15,  3.42s/it][A
Training...:  78% 2026/2609 [1:57:09<32:11,  3.31s/it][A
Training...:  78% 2027/2609 [1:57:12<31:21,  3.23s/it][A
Training...:  78% 2028/2609 [1:57:15<30:38,  3.16s/it][A
Training...:  78% 2029/2609 [1:57:18<30:01,  3.11s/it][A
Training...:  78% 2030/2609 [1:57:21<29:11,  3.03s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [42:59:26<10:17:59, 9269.79s/it]
Training...:  78% 2030/2609 [1:57:24<29:11,  3.03s/it][A
Training...:  78% 2031/2609 [1:57:24<29:26,  3.06s/it][A
Training...:  78% 2032/2609 [1:57:27<28:05,  2.92s/it][A
Training...:  78% 2033/2609 [1:57:29<26:51,  2.80s/it][A
Training...:  78% 2034/2609 [1:57:31<25:44,  2.69s/it][A
Training...:  78% 2035/2609 [1:57:34<24:44,  2.59s/it][A
Training...:  78% 2036/2609 [1:57:36<23:48,  2.49s/it][A
Training...:  78% 2037/2609 [1:57:38<23:00,  2.41s/it][A
Training...:  78% 2038/2609 [1:57:40<22:08,  2.33s/it][A
Training...:  78% 2039/2609 [1:57:42<21:12,  2.23s/it][A
Training...:  78% 2040/2609 [1:57:44<20:15,  2.14s/it][A
Training...:  78% 2041/2609 [1:57:46<19:18,  2.04s/it][A
Training...:  78% 2042/2609 [1:57:48<18:20,  1.94s/it][A
Training...:  78% 2043/2609 [1:57:50<17:25,  1.85s/it][A
Training...:  78% 2044/2609 [1:57:51<16:24,  1.74s/it][A
Training...:  78% 2045/2609 [1:57:52<15:24,  1.64s/it][A
Training...:  78% 2046/2609 [1:57:54<14:27,  1.54s/it][A
Training...:  78% 2047/2609 [1:57:55<13:20,  1.42s/it][A
Training...:  78% 2048/2609 [1:57:56<12:07,  1.30s/it][A
Training...:  79% 2049/2609 [1:57:57<10:44,  1.15s/it][A
Training...:  79% 2050/2609 [1:57:57<09:02,  1.03it/s][A
Training...:  79% 2051/2609 [1:58:04<26:08,  2.81s/it][A
Training...:  79% 2052/2609 [1:58:11<37:53,  4.08s/it][A
Training...:  79% 2053/2609 [1:58:18<44:39,  4.82s/it][A
Training...:  79% 2054/2609 [1:58:24<48:26,  5.24s/it][A
Training...:  79% 2055/2609 [1:58:30<50:36,  5.48s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:00:39<10:17:59, 9269.79s/it]
Training...:  79% 2055/2609 [1:58:37<50:36,  5.48s/it][A
Training...:  79% 2056/2609 [1:58:37<53:11,  5.77s/it][A
Training...:  79% 2057/2609 [1:58:42<52:21,  5.69s/it][A
Training...:  79% 2058/2609 [1:58:47<50:53,  5.54s/it][A
Training...:  79% 2059/2609 [1:58:52<49:36,  5.41s/it][A
Training...:  79% 2060/2609 [1:58:57<48:09,  5.26s/it][A
Training...:  79% 2061/2609 [1:59:02<46:56,  5.14s/it][A
Training...:  79% 2062/2609 [1:59:07<45:23,  4.98s/it][A
Training...:  79% 2063/2609 [1:59:11<44:12,  4.86s/it][A
Training...:  79% 2064/2609 [1:59:16<42:46,  4.71s/it][A
Training...:  79% 2065/2609 [1:59:20<41:35,  4.59s/it][A
Training...:  79% 2066/2609 [1:59:24<40:07,  4.43s/it][A
Training...:  79% 2067/2609 [1:59:28<39:07,  4.33s/it][A
Training...:  79% 2068/2609 [1:59:32<38:05,  4.22s/it][A
Training...:  79% 2069/2609 [1:59:36<37:23,  4.16s/it][A
Training...:  79% 2070/2609 [1:59:40<36:03,  4.01s/it][A
Training...:  79% 2071/2609 [1:59:43<34:52,  3.89s/it][A
Training...:  79% 2072/2609 [1:59:47<33:48,  3.78s/it][A
Training...:  79% 2073/2609 [1:59:50<32:59,  3.69s/it][A
Training...:  79% 2074/2609 [1:59:54<31:58,  3.59s/it][A
Training...:  80% 2075/2609 [1:59:57<31:04,  3.49s/it][A
Training...:  80% 2076/2609 [2:00:00<30:03,  3.38s/it][A
Training...:  80% 2077/2609 [2:00:03<29:13,  3.30s/it][A
Training...:  80% 2078/2609 [2:00:06<28:22,  3.21s/it][A
Training...:  80% 2079/2609 [2:00:09<27:28,  3.11s/it][A
Training...:  80% 2080/2609 [2:00:12<26:34,  3.01s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:02:18<10:17:59, 9269.79s/it]
Training...:  80% 2080/2609 [2:00:15<26:34,  3.01s/it][A
Training...:  80% 2081/2609 [2:00:15<26:54,  3.06s/it][A
Training...:  80% 2082/2609 [2:00:18<25:48,  2.94s/it][A
Training...:  80% 2083/2609 [2:00:20<24:43,  2.82s/it][A
Training...:  80% 2084/2609 [2:00:23<23:43,  2.71s/it][A
Training...:  80% 2085/2609 [2:00:25<22:45,  2.61s/it][A
Training...:  80% 2086/2609 [2:00:27<21:49,  2.50s/it][A
Training...:  80% 2087/2609 [2:00:30<20:55,  2.40s/it][A
Training...:  80% 2088/2609 [2:00:32<20:00,  2.30s/it][A
Training...:  80% 2089/2609 [2:00:34<19:13,  2.22s/it][A
Training...:  80% 2090/2609 [2:00:36<18:24,  2.13s/it][A
Training...:  80% 2091/2609 [2:00:37<17:32,  2.03s/it][A
Training...:  80% 2092/2609 [2:00:39<16:36,  1.93s/it][A
Training...:  80% 2093/2609 [2:00:41<15:41,  1.82s/it][A
Training...:  80% 2094/2609 [2:00:42<14:42,  1.71s/it][A
Training...:  80% 2095/2609 [2:00:43<13:44,  1.60s/it][A
Training...:  80% 2096/2609 [2:00:45<12:46,  1.49s/it][A
Training...:  80% 2097/2609 [2:00:46<11:51,  1.39s/it][A
Training...:  80% 2098/2609 [2:00:47<10:46,  1.27s/it][A
Training...:  80% 2099/2609 [2:00:48<09:35,  1.13s/it][A
Training...:  80% 2100/2609 [2:00:48<08:08,  1.04it/s][A
Training...:  81% 2101/2609 [2:00:55<23:42,  2.80s/it][A
Training...:  81% 2102/2609 [2:01:02<34:41,  4.11s/it][A
Training...:  81% 2103/2609 [2:01:09<41:11,  4.89s/it][A
Training...:  81% 2104/2609 [2:01:16<44:49,  5.33s/it][A
Training...:  81% 2105/2609 [2:01:22<46:39,  5.55s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:03:31<10:17:59, 9269.79s/it]
Training...:  81% 2105/2609 [2:01:28<46:39,  5.55s/it][A
Training...:  81% 2106/2609 [2:01:28<49:09,  5.86s/it][A
Training...:  81% 2107/2609 [2:01:34<48:18,  5.77s/it][A
Training...:  81% 2108/2609 [2:01:39<46:53,  5.62s/it][A
Training...:  81% 2109/2609 [2:01:44<45:37,  5.47s/it][A
Training...:  81% 2110/2609 [2:01:49<44:44,  5.38s/it][A
Training...:  81% 2111/2609 [2:01:54<43:33,  5.25s/it][A
Training...:  81% 2112/2609 [2:01:59<41:50,  5.05s/it][A
Training...:  81% 2113/2609 [2:02:03<40:28,  4.90s/it][A
Training...:  81% 2114/2609 [2:02:08<39:14,  4.76s/it][A
Training...:  81% 2115/2609 [2:02:12<38:00,  4.62s/it][A
Training...:  81% 2116/2609 [2:02:16<36:46,  4.48s/it][A
Training...:  81% 2117/2609 [2:02:20<35:50,  4.37s/it][A
Training...:  81% 2118/2609 [2:02:24<34:49,  4.26s/it][A
Training...:  81% 2119/2609 [2:02:28<33:42,  4.13s/it][A
Training...:  81% 2120/2609 [2:02:32<32:34,  4.00s/it][A
Training...:  81% 2121/2609 [2:02:36<31:44,  3.90s/it][A
Training...:  81% 2122/2609 [2:02:39<30:45,  3.79s/it][A
Training...:  81% 2123/2609 [2:02:43<29:59,  3.70s/it][A
Training...:  81% 2124/2609 [2:02:46<29:03,  3.59s/it][A
Training...:  81% 2125/2609 [2:02:49<28:22,  3.52s/it][A
Training...:  81% 2126/2609 [2:02:52<27:27,  3.41s/it][A
Training...:  82% 2127/2609 [2:02:56<26:37,  3.31s/it][A
Training...:  82% 2128/2609 [2:02:59<25:51,  3.22s/it][A
Training...:  82% 2129/2609 [2:03:02<25:11,  3.15s/it][A
Training...:  82% 2130/2609 [2:03:04<24:27,  3.06s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:05:10<10:17:59, 9269.79s/it]
Training...:  82% 2130/2609 [2:03:08<24:27,  3.06s/it][A
Training...:  82% 2131/2609 [2:03:08<24:46,  3.11s/it][A
Training...:  82% 2132/2609 [2:03:10<23:37,  2.97s/it][A
Training...:  82% 2133/2609 [2:03:13<22:41,  2.86s/it][A
Training...:  82% 2134/2609 [2:03:15<21:46,  2.75s/it][A
Training...:  82% 2135/2609 [2:03:18<20:56,  2.65s/it][A
Training...:  82% 2136/2609 [2:03:20<20:04,  2.55s/it][A
Training...:  82% 2137/2609 [2:03:22<19:24,  2.47s/it][A
Training...:  82% 2138/2609 [2:03:25<18:37,  2.37s/it][A
Training...:  82% 2139/2609 [2:03:27<17:52,  2.28s/it][A
Training...:  82% 2140/2609 [2:03:29<17:06,  2.19s/it][A
Training...:  82% 2141/2609 [2:03:30<16:18,  2.09s/it][A
Training...:  82% 2142/2609 [2:03:32<15:34,  2.00s/it][A
Training...:  82% 2143/2609 [2:03:34<14:48,  1.91s/it][A
Training...:  82% 2144/2609 [2:03:35<13:57,  1.80s/it][A
Training...:  82% 2145/2609 [2:03:37<13:04,  1.69s/it][A
Training...:  82% 2146/2609 [2:03:38<12:07,  1.57s/it][A
Training...:  82% 2147/2609 [2:03:39<11:09,  1.45s/it][A
Training...:  82% 2148/2609 [2:03:40<10:09,  1.32s/it][A
Training...:  82% 2149/2609 [2:03:41<08:54,  1.16s/it][A
Training...:  82% 2150/2609 [2:03:42<07:27,  1.03it/s][A
Training...:  82% 2151/2609 [2:03:49<21:33,  2.83s/it][A
Training...:  82% 2152/2609 [2:03:56<31:07,  4.09s/it][A
Training...:  83% 2153/2609 [2:04:03<36:56,  4.86s/it][A
Training...:  83% 2154/2609 [2:04:09<40:45,  5.37s/it][A
Training...:  83% 2155/2609 [2:04:15<42:46,  5.65s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:06:24<10:17:59, 9269.79s/it]
Training...:  83% 2155/2609 [2:04:22<42:46,  5.65s/it][A
Training...:  83% 2156/2609 [2:04:22<44:52,  5.94s/it][A
Training...:  83% 2157/2609 [2:04:28<44:18,  5.88s/it][A
Training...:  83% 2158/2609 [2:04:33<43:01,  5.72s/it][A
Training...:  83% 2159/2609 [2:04:38<41:46,  5.57s/it][A
Training...:  83% 2160/2609 [2:04:43<40:20,  5.39s/it][A
Training...:  83% 2161/2609 [2:04:48<39:03,  5.23s/it][A
Training...:  83% 2162/2609 [2:04:53<37:54,  5.09s/it][A
Training...:  83% 2163/2609 [2:04:58<36:48,  4.95s/it][A
Training...:  83% 2164/2609 [2:05:02<35:29,  4.79s/it][A
Training...:  83% 2165/2609 [2:05:06<34:27,  4.66s/it][A
Training...:  83% 2166/2609 [2:05:10<33:09,  4.49s/it][A
Training...:  83% 2167/2609 [2:05:15<32:18,  4.39s/it][A
Training...:  83% 2168/2609 [2:05:18<31:15,  4.25s/it][A
Training...:  83% 2169/2609 [2:05:22<30:09,  4.11s/it][A
Training...:  83% 2170/2609 [2:05:26<29:15,  4.00s/it][A
Training...:  83% 2171/2609 [2:05:30<28:24,  3.89s/it][A
Training...:  83% 2172/2609 [2:05:33<27:33,  3.78s/it][A
Training...:  83% 2173/2609 [2:05:37<26:43,  3.68s/it][A
Training...:  83% 2174/2609 [2:05:40<26:03,  3.59s/it][A
Training...:  83% 2175/2609 [2:05:43<25:24,  3.51s/it][A
Training...:  83% 2176/2609 [2:05:46<24:35,  3.41s/it][A
Training...:  83% 2177/2609 [2:05:50<23:52,  3.32s/it][A
Training...:  83% 2178/2609 [2:05:53<23:11,  3.23s/it][A
Training...:  84% 2179/2609 [2:05:56<22:44,  3.17s/it][A
Training...:  84% 2180/2609 [2:05:59<22:05,  3.09s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:08:04<10:17:59, 9269.79s/it]
Training...:  84% 2180/2609 [2:06:02<22:05,  3.09s/it][A
Training...:  84% 2181/2609 [2:06:02<22:17,  3.13s/it][A
Training...:  84% 2182/2609 [2:06:04<21:21,  3.00s/it][A
Training...:  84% 2183/2609 [2:06:07<20:22,  2.87s/it][A
Training...:  84% 2184/2609 [2:06:10<19:29,  2.75s/it][A
Training...:  84% 2185/2609 [2:06:12<18:43,  2.65s/it][A
Training...:  84% 2186/2609 [2:06:14<17:56,  2.55s/it][A
Training...:  84% 2187/2609 [2:06:16<17:13,  2.45s/it][A
Training...:  84% 2188/2609 [2:06:19<16:31,  2.36s/it][A
Training...:  84% 2189/2609 [2:06:21<15:51,  2.26s/it][A
Training...:  84% 2190/2609 [2:06:23<15:07,  2.17s/it][A
Training...:  84% 2191/2609 [2:06:24<14:26,  2.07s/it][A
Training...:  84% 2192/2609 [2:06:26<13:46,  1.98s/it][A
Training...:  84% 2193/2609 [2:06:28<13:06,  1.89s/it][A
Training...:  84% 2194/2609 [2:06:29<12:22,  1.79s/it][A
Training...:  84% 2195/2609 [2:06:31<11:42,  1.70s/it][A
Training...:  84% 2196/2609 [2:06:32<10:51,  1.58s/it][A
Training...:  84% 2197/2609 [2:06:33<10:02,  1.46s/it][A
Training...:  84% 2198/2609 [2:06:34<09:06,  1.33s/it][A
Training...:  84% 2199/2609 [2:06:35<08:04,  1.18s/it][A
Training...:  84% 2200/2609 [2:06:36<06:49,  1.00s/it][A
Training...:  84% 2201/2609 [2:06:43<19:21,  2.85s/it][A
Training...:  84% 2202/2609 [2:06:50<28:03,  4.14s/it][A
Training...:  84% 2203/2609 [2:06:57<32:52,  4.86s/it][A
Training...:  84% 2204/2609 [2:07:03<35:27,  5.25s/it][A
Training...:  85% 2205/2609 [2:07:09<36:48,  5.47s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:09:18<10:17:59, 9269.79s/it]
Training...:  85% 2205/2609 [2:07:15<36:48,  5.47s/it][A
Training...:  85% 2206/2609 [2:07:15<38:49,  5.78s/it][A
Training...:  85% 2207/2609 [2:07:21<38:12,  5.70s/it][A
Training...:  85% 2208/2609 [2:07:26<37:08,  5.56s/it][A
Training...:  85% 2209/2609 [2:07:31<36:16,  5.44s/it][A
Training...:  85% 2210/2609 [2:07:36<35:09,  5.29s/it][A
Training...:  85% 2211/2609 [2:07:41<34:32,  5.21s/it][A
Training...:  85% 2212/2609 [2:07:46<33:43,  5.10s/it][A
Training...:  85% 2213/2609 [2:07:51<32:37,  4.94s/it][A
Training...:  85% 2214/2609 [2:07:55<31:34,  4.80s/it][A
Training...:  85% 2215/2609 [2:07:59<30:36,  4.66s/it][A
Training...:  85% 2216/2609 [2:08:04<29:33,  4.51s/it][A
Training...:  85% 2217/2609 [2:08:08<28:37,  4.38s/it][A
Training...:  85% 2218/2609 [2:08:12<27:44,  4.26s/it][A
Training...:  85% 2219/2609 [2:08:16<26:56,  4.14s/it][A
Training...:  85% 2220/2609 [2:08:19<26:06,  4.03s/it][A
Training...:  85% 2221/2609 [2:08:23<25:21,  3.92s/it][A
Training...:  85% 2222/2609 [2:08:27<24:41,  3.83s/it][A
Training...:  85% 2223/2609 [2:08:30<24:03,  3.74s/it][A
Training...:  85% 2224/2609 [2:08:33<23:18,  3.63s/it][A
Training...:  85% 2225/2609 [2:08:37<22:39,  3.54s/it][A
Training...:  85% 2226/2609 [2:08:40<21:56,  3.44s/it][A
Training...:  85% 2227/2609 [2:08:43<21:15,  3.34s/it][A
Training...:  85% 2228/2609 [2:08:46<20:35,  3.24s/it][A
Training...:  85% 2229/2609 [2:08:49<19:54,  3.14s/it][A
Training...:  85% 2230/2609 [2:08:52<19:16,  3.05s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:10:57<10:17:59, 9269.79s/it]
Training...:  85% 2230/2609 [2:08:55<19:16,  3.05s/it][A
Training...:  86% 2231/2609 [2:08:55<19:30,  3.10s/it][A
Training...:  86% 2232/2609 [2:08:58<18:38,  2.97s/it][A
Training...:  86% 2233/2609 [2:09:00<17:47,  2.84s/it][A
Training...:  86% 2234/2609 [2:09:03<17:00,  2.72s/it][A
Training...:  86% 2235/2609 [2:09:05<16:17,  2.61s/it][A
Training...:  86% 2236/2609 [2:09:07<15:34,  2.51s/it][A
Training...:  86% 2237/2609 [2:09:10<14:57,  2.41s/it][A
Training...:  86% 2238/2609 [2:09:12<14:20,  2.32s/it][A
Training...:  86% 2239/2609 [2:09:14<13:45,  2.23s/it][A
Training...:  86% 2240/2609 [2:09:16<13:07,  2.13s/it][A
Training...:  86% 2241/2609 [2:09:17<12:31,  2.04s/it][A
Training...:  86% 2242/2609 [2:09:19<11:57,  1.95s/it][A
Training...:  86% 2243/2609 [2:09:21<11:20,  1.86s/it][A
Training...:  86% 2244/2609 [2:09:22<10:40,  1.75s/it][A
Training...:  86% 2245/2609 [2:09:24<09:59,  1.65s/it][A
Training...:  86% 2246/2609 [2:09:25<09:16,  1.53s/it][A
Training...:  86% 2247/2609 [2:09:26<08:30,  1.41s/it][A
Training...:  86% 2248/2609 [2:09:27<07:38,  1.27s/it][A
Training...:  86% 2249/2609 [2:09:28<06:47,  1.13s/it][A
Training...:  86% 2250/2609 [2:09:28<05:47,  1.03it/s][A
Training...:  86% 2251/2609 [2:09:36<16:47,  2.81s/it][A
Training...:  86% 2252/2609 [2:09:43<24:17,  4.08s/it][A
Training...:  86% 2253/2609 [2:09:49<28:44,  4.84s/it][A
Training...:  86% 2254/2609 [2:09:56<31:25,  5.31s/it][A
Training...:  86% 2255/2609 [2:10:02<32:48,  5.56s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:12:11<10:17:59, 9269.79s/it]
Training...:  86% 2255/2609 [2:10:08<32:48,  5.56s/it][A
Training...:  86% 2256/2609 [2:10:08<34:23,  5.85s/it][A
Training...:  87% 2257/2609 [2:10:14<33:48,  5.76s/it][A
Training...:  87% 2258/2609 [2:10:19<32:56,  5.63s/it][A
Training...:  87% 2259/2609 [2:10:24<31:55,  5.47s/it][A
Training...:  87% 2260/2609 [2:10:29<31:00,  5.33s/it][A
Training...:  87% 2261/2609 [2:10:34<30:00,  5.17s/it][A
Training...:  87% 2262/2609 [2:10:39<29:00,  5.02s/it][A
Training...:  87% 2263/2609 [2:10:43<28:11,  4.89s/it][A
Training...:  87% 2264/2609 [2:10:48<27:14,  4.74s/it][A
Training...:  87% 2265/2609 [2:10:52<26:20,  4.59s/it][A
Training...:  87% 2266/2609 [2:10:56<25:23,  4.44s/it][A
Training...:  87% 2267/2609 [2:11:00<24:43,  4.34s/it][A
Training...:  87% 2268/2609 [2:11:04<24:00,  4.22s/it][A
Training...:  87% 2269/2609 [2:11:08<23:24,  4.13s/it][A
Training...:  87% 2270/2609 [2:11:12<22:43,  4.02s/it][A
Training...:  87% 2271/2609 [2:11:15<22:01,  3.91s/it][A
Training...:  87% 2272/2609 [2:11:19<21:17,  3.79s/it][A
Training...:  87% 2273/2609 [2:11:22<20:44,  3.70s/it][A
Training...:  87% 2274/2609 [2:11:26<20:03,  3.59s/it][A
Training...:  87% 2275/2609 [2:11:29<19:25,  3.49s/it][A
Training...:  87% 2276/2609 [2:11:32<18:57,  3.42s/it][A
Training...:  87% 2277/2609 [2:11:35<18:30,  3.34s/it][A
Training...:  87% 2278/2609 [2:11:38<17:53,  3.24s/it][A
Training...:  87% 2279/2609 [2:11:41<17:17,  3.14s/it][A
Training...:  87% 2280/2609 [2:11:44<16:41,  3.04s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:13:50<10:17:59, 9269.79s/it]
Training...:  87% 2280/2609 [2:11:47<16:41,  3.04s/it][A
Training...:  87% 2281/2609 [2:11:47<16:48,  3.08s/it][A
Training...:  87% 2282/2609 [2:11:50<16:04,  2.95s/it][A
Training...:  88% 2283/2609 [2:11:53<15:20,  2.82s/it][A
Training...:  88% 2284/2609 [2:11:55<14:40,  2.71s/it][A
Training...:  88% 2285/2609 [2:11:57<14:05,  2.61s/it][A
Training...:  88% 2286/2609 [2:12:00<13:30,  2.51s/it][A
Training...:  88% 2287/2609 [2:12:02<12:57,  2.42s/it][A
Training...:  88% 2288/2609 [2:12:04<12:21,  2.31s/it][A
Training...:  88% 2289/2609 [2:12:06<11:49,  2.22s/it][A
Training...:  88% 2290/2609 [2:12:08<11:15,  2.12s/it][A
Training...:  88% 2291/2609 [2:12:10<10:42,  2.02s/it][A
Training...:  88% 2292/2609 [2:12:11<10:08,  1.92s/it][A
Training...:  88% 2293/2609 [2:12:13<09:37,  1.83s/it][A
Training...:  88% 2294/2609 [2:12:14<09:02,  1.72s/it][A
Training...:  88% 2295/2609 [2:12:16<08:28,  1.62s/it][A
Training...:  88% 2296/2609 [2:12:17<07:52,  1.51s/it][A
Training...:  88% 2297/2609 [2:12:18<07:16,  1.40s/it][A
Training...:  88% 2298/2609 [2:12:19<06:30,  1.26s/it][A
Training...:  88% 2299/2609 [2:12:20<05:42,  1.11s/it][A
Training...:  88% 2300/2609 [2:12:20<04:48,  1.07it/s][A
Training...:  88% 2301/2609 [2:12:27<14:18,  2.79s/it][A
Training...:  88% 2302/2609 [2:12:34<20:51,  4.08s/it][A
Training...:  88% 2303/2609 [2:12:41<24:30,  4.80s/it][A
Training...:  88% 2304/2609 [2:12:47<26:36,  5.23s/it][A
Training...:  88% 2305/2609 [2:12:53<27:32,  5.44s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:15:02<10:17:59, 9269.79s/it]
Training...:  88% 2305/2609 [2:13:00<27:32,  5.44s/it][A
Training...:  88% 2306/2609 [2:13:00<28:56,  5.73s/it][A
Training...:  88% 2307/2609 [2:13:05<28:31,  5.67s/it][A
Training...:  88% 2308/2609 [2:13:10<27:38,  5.51s/it][A
Training...:  89% 2309/2609 [2:13:15<27:03,  5.41s/it][A
Training...:  89% 2310/2609 [2:13:20<26:08,  5.25s/it][A
Training...:  89% 2311/2609 [2:13:25<25:25,  5.12s/it][A
Training...:  89% 2312/2609 [2:13:30<24:37,  4.97s/it][A
Training...:  89% 2313/2609 [2:13:34<23:58,  4.86s/it][A
Training...:  89% 2314/2609 [2:13:39<23:03,  4.69s/it][A
Training...:  89% 2315/2609 [2:13:43<22:26,  4.58s/it][A
Training...:  89% 2316/2609 [2:13:47<21:54,  4.49s/it][A
Training...:  89% 2317/2609 [2:13:51<21:19,  4.38s/it][A
Training...:  89% 2318/2609 [2:13:55<20:31,  4.23s/it][A
Training...:  89% 2319/2609 [2:13:59<19:58,  4.13s/it][A
Training...:  89% 2320/2609 [2:14:03<19:14,  3.99s/it][A
Training...:  89% 2321/2609 [2:14:06<18:43,  3.90s/it][A
Training...:  89% 2322/2609 [2:14:10<17:59,  3.76s/it][A
Training...:  89% 2323/2609 [2:14:13<17:21,  3.64s/it][A
Training...:  89% 2324/2609 [2:14:17<16:46,  3.53s/it][A
Training...:  89% 2325/2609 [2:14:20<16:18,  3.45s/it][A
Training...:  89% 2326/2609 [2:14:23<15:42,  3.33s/it][A
Training...:  89% 2327/2609 [2:14:26<15:13,  3.24s/it][A
Training...:  89% 2328/2609 [2:14:29<14:45,  3.15s/it][A
Training...:  89% 2329/2609 [2:14:32<14:14,  3.05s/it][A
Training...:  89% 2330/2609 [2:14:34<13:46,  2.96s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:16:40<10:17:59, 9269.79s/it]
Training...:  89% 2330/2609 [2:14:38<13:46,  2.96s/it][A
Training...:  89% 2331/2609 [2:14:38<14:05,  3.04s/it][A
Training...:  89% 2332/2609 [2:14:40<13:27,  2.91s/it][A
Training...:  89% 2333/2609 [2:14:43<12:54,  2.80s/it][A
Training...:  89% 2334/2609 [2:14:45<12:25,  2.71s/it][A
Training...:  89% 2335/2609 [2:14:48<11:58,  2.62s/it][A
Training...:  90% 2336/2609 [2:14:50<11:25,  2.51s/it][A
Training...:  90% 2337/2609 [2:14:52<10:54,  2.41s/it][A
Training...:  90% 2338/2609 [2:14:54<10:24,  2.30s/it][A
Training...:  90% 2339/2609 [2:14:56<09:56,  2.21s/it][A
Training...:  90% 2340/2609 [2:14:58<09:29,  2.12s/it][A
Training...:  90% 2341/2609 [2:15:00<09:01,  2.02s/it][A
Training...:  90% 2342/2609 [2:15:02<08:36,  1.94s/it][A
Training...:  90% 2343/2609 [2:15:03<08:08,  1.84s/it][A
Training...:  90% 2344/2609 [2:15:05<07:39,  1.73s/it][A
Training...:  90% 2345/2609 [2:15:06<07:10,  1.63s/it][A
Training...:  90% 2346/2609 [2:15:07<06:40,  1.52s/it][A
Training...:  90% 2347/2609 [2:15:08<06:08,  1.41s/it][A
Training...:  90% 2348/2609 [2:15:09<05:33,  1.28s/it][A
Training...:  90% 2349/2609 [2:15:10<04:54,  1.13s/it][A
Training...:  90% 2350/2609 [2:15:11<04:09,  1.04it/s][A
Training...:  90% 2351/2609 [2:15:18<12:05,  2.81s/it][A
Training...:  90% 2352/2609 [2:15:25<17:34,  4.10s/it][A
Training...:  90% 2353/2609 [2:15:32<20:37,  4.83s/it][A
Training...:  90% 2354/2609 [2:15:38<22:23,  5.27s/it][A
Training...:  90% 2355/2609 [2:15:44<23:14,  5.49s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:17:53<10:17:59, 9269.79s/it]
Training...:  90% 2355/2609 [2:15:50<23:14,  5.49s/it][A
Training...:  90% 2356/2609 [2:15:50<24:24,  5.79s/it][A
Training...:  90% 2357/2609 [2:15:56<23:57,  5.70s/it][A
Training...:  90% 2358/2609 [2:16:01<23:15,  5.56s/it][A
Training...:  90% 2359/2609 [2:16:06<22:35,  5.42s/it][A
Training...:  90% 2360/2609 [2:16:11<21:59,  5.30s/it][A
Training...:  90% 2361/2609 [2:16:16<21:16,  5.15s/it][A
Training...:  91% 2362/2609 [2:16:21<20:30,  4.98s/it][A
Training...:  91% 2363/2609 [2:16:25<19:55,  4.86s/it][A
Training...:  91% 2364/2609 [2:16:30<19:21,  4.74s/it][A
Training...:  91% 2365/2609 [2:16:34<18:49,  4.63s/it][A
Training...:  91% 2366/2609 [2:16:38<18:13,  4.50s/it][A
Training...:  91% 2367/2609 [2:16:42<17:36,  4.36s/it][A
Training...:  91% 2368/2609 [2:16:46<16:59,  4.23s/it][A
Training...:  91% 2369/2609 [2:16:50<16:27,  4.12s/it][A
Training...:  91% 2370/2609 [2:16:54<15:53,  3.99s/it][A
Training...:  91% 2371/2609 [2:16:57<15:28,  3.90s/it][A
Training...:  91% 2372/2609 [2:17:01<14:58,  3.79s/it][A
Training...:  91% 2373/2609 [2:17:04<14:30,  3.69s/it][A
Training...:  91% 2374/2609 [2:17:08<14:06,  3.60s/it][A
Training...:  91% 2375/2609 [2:17:11<13:42,  3.52s/it][A
Training...:  91% 2376/2609 [2:17:14<13:15,  3.42s/it][A
Training...:  91% 2377/2609 [2:17:17<12:46,  3.31s/it][A
Training...:  91% 2378/2609 [2:17:20<12:19,  3.20s/it][A
Training...:  91% 2379/2609 [2:17:23<11:57,  3.12s/it][A
Training...:  91% 2380/2609 [2:17:26<11:30,  3.01s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:19:32<10:17:59, 9269.79s/it]
Training...:  91% 2380/2609 [2:17:29<11:30,  3.01s/it][A
Training...:  91% 2381/2609 [2:17:29<11:36,  3.06s/it][A
Training...:  91% 2382/2609 [2:17:32<11:02,  2.92s/it][A
Training...:  91% 2383/2609 [2:17:34<10:32,  2.80s/it][A
Training...:  91% 2384/2609 [2:17:37<10:03,  2.68s/it][A
Training...:  91% 2385/2609 [2:17:39<09:39,  2.58s/it][A
Training...:  91% 2386/2609 [2:17:41<09:12,  2.48s/it][A
Training...:  91% 2387/2609 [2:17:43<08:52,  2.40s/it][A
Training...:  92% 2388/2609 [2:17:46<08:30,  2.31s/it][A
Training...:  92% 2389/2609 [2:17:48<08:10,  2.23s/it][A
Training...:  92% 2390/2609 [2:17:50<07:49,  2.14s/it][A
Training...:  92% 2391/2609 [2:17:51<07:27,  2.05s/it][A
Training...:  92% 2392/2609 [2:17:53<07:06,  1.97s/it][A
Training...:  92% 2393/2609 [2:17:55<06:41,  1.86s/it][A
Training...:  92% 2394/2609 [2:17:56<06:16,  1.75s/it][A
Training...:  92% 2395/2609 [2:17:58<05:51,  1.64s/it][A
Training...:  92% 2396/2609 [2:17:59<05:24,  1.52s/it][A
Training...:  92% 2397/2609 [2:18:00<04:56,  1.40s/it][A
Training...:  92% 2398/2609 [2:18:01<04:26,  1.26s/it][A
Training...:  92% 2399/2609 [2:18:02<03:56,  1.13s/it][A
Training...:  92% 2400/2609 [2:18:02<03:18,  1.05it/s][A
Training...:  92% 2401/2609 [2:18:09<09:39,  2.79s/it][A
Training...:  92% 2402/2609 [2:18:16<13:59,  4.05s/it][A
Training...:  92% 2403/2609 [2:18:23<16:33,  4.83s/it][A
Training...:  92% 2404/2609 [2:18:29<18:05,  5.30s/it][A
Training...:  92% 2405/2609 [2:18:35<18:46,  5.52s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:20:44<10:17:59, 9269.79s/it]
Training...:  92% 2405/2609 [2:18:42<18:46,  5.52s/it][A
Training...:  92% 2406/2609 [2:18:42<19:48,  5.86s/it][A
Training...:  92% 2407/2609 [2:18:48<19:22,  5.76s/it][A
Training...:  92% 2408/2609 [2:18:53<18:44,  5.60s/it][A
Training...:  92% 2409/2609 [2:18:58<18:13,  5.47s/it][A
Training...:  92% 2410/2609 [2:19:03<17:33,  5.29s/it][A
Training...:  92% 2411/2609 [2:19:08<16:59,  5.15s/it][A
Training...:  92% 2412/2609 [2:19:12<16:23,  4.99s/it][A
Training...:  92% 2413/2609 [2:19:17<15:52,  4.86s/it][A
Training...:  93% 2414/2609 [2:19:21<15:16,  4.70s/it][A
Training...:  93% 2415/2609 [2:19:25<14:46,  4.57s/it][A
Training...:  93% 2416/2609 [2:19:30<14:12,  4.42s/it][A
Training...:  93% 2417/2609 [2:19:34<13:44,  4.29s/it][A
Training...:  93% 2418/2609 [2:19:37<13:14,  4.16s/it][A
Training...:  93% 2419/2609 [2:19:41<12:46,  4.03s/it][A
Training...:  93% 2420/2609 [2:19:45<12:21,  3.92s/it][A
Training...:  93% 2421/2609 [2:19:48<11:58,  3.82s/it][A
Training...:  93% 2422/2609 [2:19:52<11:33,  3.71s/it][A
Training...:  93% 2423/2609 [2:19:55<11:11,  3.61s/it][A
Training...:  93% 2424/2609 [2:19:59<10:54,  3.54s/it][A
Training...:  93% 2425/2609 [2:20:02<10:38,  3.47s/it][A
Training...:  93% 2426/2609 [2:20:05<10:18,  3.38s/it][A
Training...:  93% 2427/2609 [2:20:08<09:58,  3.29s/it][A
Training...:  93% 2428/2609 [2:20:11<09:36,  3.19s/it][A
Training...:  93% 2429/2609 [2:20:14<09:17,  3.10s/it][A
Training...:  93% 2430/2609 [2:20:17<09:02,  3.03s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:22:22<10:17:59, 9269.79s/it]
Training...:  93% 2430/2609 [2:20:20<09:02,  3.03s/it][A
Training...:  93% 2431/2609 [2:20:20<09:07,  3.08s/it][A
Training...:  93% 2432/2609 [2:20:23<08:40,  2.94s/it][A
Training...:  93% 2433/2609 [2:20:25<08:16,  2.82s/it][A
Training...:  93% 2434/2609 [2:20:28<07:53,  2.71s/it][A
Training...:  93% 2435/2609 [2:20:30<07:35,  2.62s/it][A
Training...:  93% 2436/2609 [2:20:32<07:14,  2.51s/it][A
Training...:  93% 2437/2609 [2:20:34<06:54,  2.41s/it][A
Training...:  93% 2438/2609 [2:20:37<06:35,  2.31s/it][A
Training...:  93% 2439/2609 [2:20:39<06:19,  2.23s/it][A
Training...:  94% 2440/2609 [2:20:41<05:59,  2.13s/it][A
Training...:  94% 2441/2609 [2:20:42<05:39,  2.02s/it][A
Training...:  94% 2442/2609 [2:20:44<05:20,  1.92s/it][A
Training...:  94% 2443/2609 [2:20:46<05:02,  1.82s/it][A
Training...:  94% 2444/2609 [2:20:47<04:43,  1.72s/it][A
Training...:  94% 2445/2609 [2:20:48<04:23,  1.61s/it][A
Training...:  94% 2446/2609 [2:20:50<04:04,  1.50s/it][A
Training...:  94% 2447/2609 [2:20:51<03:44,  1.38s/it][A
Training...:  94% 2448/2609 [2:20:52<03:20,  1.25s/it][A
Training...:  94% 2449/2609 [2:20:52<02:57,  1.11s/it][A
Training...:  94% 2450/2609 [2:20:53<02:29,  1.06it/s][A
Training...:  94% 2451/2609 [2:21:00<07:22,  2.80s/it][A
Training...:  94% 2452/2609 [2:21:07<10:37,  4.06s/it][A
Training...:  94% 2453/2609 [2:21:14<12:30,  4.81s/it][A
Training...:  94% 2454/2609 [2:21:20<13:32,  5.24s/it][A
Training...:  94% 2455/2609 [2:21:26<13:55,  5.42s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:23:35<10:17:59, 9269.79s/it]
Training...:  94% 2455/2609 [2:21:32<13:55,  5.42s/it][A
Training...:  94% 2456/2609 [2:21:32<14:38,  5.74s/it][A
Training...:  94% 2457/2609 [2:21:38<14:20,  5.66s/it][A
Training...:  94% 2458/2609 [2:21:43<13:51,  5.51s/it][A
Training...:  94% 2459/2609 [2:21:48<13:30,  5.41s/it][A
Training...:  94% 2460/2609 [2:21:53<13:06,  5.28s/it][A
Training...:  94% 2461/2609 [2:21:58<12:41,  5.14s/it][A
Training...:  94% 2462/2609 [2:22:02<12:10,  4.97s/it][A
Training...:  94% 2463/2609 [2:22:07<11:43,  4.82s/it][A
Training...:  94% 2464/2609 [2:22:11<11:12,  4.64s/it][A
Training...:  94% 2465/2609 [2:22:15<10:53,  4.54s/it][A
Training...:  95% 2466/2609 [2:22:20<10:31,  4.41s/it][A
Training...:  95% 2467/2609 [2:22:24<10:06,  4.27s/it][A
Training...:  95% 2468/2609 [2:22:27<09:43,  4.14s/it][A
Training...:  95% 2469/2609 [2:22:31<09:21,  4.01s/it][A
Training...:  95% 2470/2609 [2:22:35<09:00,  3.89s/it][A
Training...:  95% 2471/2609 [2:22:38<08:40,  3.77s/it][A
Training...:  95% 2472/2609 [2:22:42<08:22,  3.67s/it][A
Training...:  95% 2473/2609 [2:22:45<08:06,  3.58s/it][A
Training...:  95% 2474/2609 [2:22:48<07:48,  3.47s/it][A
Training...:  95% 2475/2609 [2:22:51<07:31,  3.37s/it][A
Training...:  95% 2476/2609 [2:22:54<07:16,  3.28s/it][A
Training...:  95% 2477/2609 [2:22:57<07:01,  3.19s/it][A
Training...:  95% 2478/2609 [2:23:00<06:48,  3.12s/it][A
Training...:  95% 2479/2609 [2:23:03<06:36,  3.05s/it][A
Training...:  95% 2480/2609 [2:23:06<06:22,  2.96s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:25:11<10:17:59, 9269.79s/it]
Training...:  95% 2480/2609 [2:23:09<06:22,  2.96s/it][A
Training...:  95% 2481/2609 [2:23:09<06:25,  3.01s/it][A
Training...:  95% 2482/2609 [2:23:12<06:05,  2.88s/it][A
Training...:  95% 2483/2609 [2:23:14<05:52,  2.80s/it][A
Training...:  95% 2484/2609 [2:23:17<05:38,  2.71s/it][A
Training...:  95% 2485/2609 [2:23:19<05:23,  2.61s/it][A
Training...:  95% 2486/2609 [2:23:21<05:10,  2.53s/it][A
Training...:  95% 2487/2609 [2:23:24<04:57,  2.44s/it][A
Training...:  95% 2488/2609 [2:23:26<04:42,  2.34s/it][A
Training...:  95% 2489/2609 [2:23:28<04:29,  2.24s/it][A
Training...:  95% 2490/2609 [2:23:30<04:15,  2.15s/it][A
Training...:  95% 2491/2609 [2:23:32<04:01,  2.05s/it][A
Training...:  96% 2492/2609 [2:23:33<03:49,  1.97s/it][A
Training...:  96% 2493/2609 [2:23:35<03:36,  1.87s/it][A
Training...:  96% 2494/2609 [2:23:37<03:22,  1.76s/it][A
Training...:  96% 2495/2609 [2:23:38<03:08,  1.65s/it][A
Training...:  96% 2496/2609 [2:23:39<02:53,  1.54s/it][A
Training...:  96% 2497/2609 [2:23:40<02:39,  1.42s/it][A
Training...:  96% 2498/2609 [2:23:41<02:24,  1.30s/it][A
Training...:  96% 2499/2609 [2:23:42<02:07,  1.16s/it][A
Training...:  96% 2500/2609 [2:23:43<01:45,  1.03it/s][A
Training...:  96% 2501/2609 [2:23:50<05:04,  2.82s/it][A
Training...:  96% 2502/2609 [2:23:57<07:19,  4.11s/it][A
Training...:  96% 2503/2609 [2:24:03<08:31,  4.83s/it][A
Training...:  96% 2504/2609 [2:24:10<09:09,  5.24s/it][A
Training...:  96% 2505/2609 [2:24:16<09:28,  5.47s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:26:25<10:17:59, 9269.79s/it]
Training...:  96% 2505/2609 [2:24:22<09:28,  5.47s/it][A
Training...:  96% 2506/2609 [2:24:22<10:01,  5.84s/it][A
Training...:  96% 2507/2609 [2:24:28<09:47,  5.76s/it][A
Training...:  96% 2508/2609 [2:24:33<09:26,  5.61s/it][A
Training...:  96% 2509/2609 [2:24:38<09:07,  5.47s/it][A
Training...:  96% 2510/2609 [2:24:43<08:44,  5.29s/it][A
Training...:  96% 2511/2609 [2:24:48<08:22,  5.13s/it][A
Training...:  96% 2512/2609 [2:24:53<08:02,  4.97s/it][A
Training...:  96% 2513/2609 [2:24:57<07:45,  4.85s/it][A
Training...:  96% 2514/2609 [2:25:01<07:26,  4.70s/it][A
Training...:  96% 2515/2609 [2:25:06<07:08,  4.56s/it][A
Training...:  96% 2516/2609 [2:25:10<06:51,  4.42s/it][A
Training...:  96% 2517/2609 [2:25:14<06:34,  4.29s/it][A
Training...:  97% 2518/2609 [2:25:18<06:20,  4.18s/it][A
Training...:  97% 2519/2609 [2:25:22<06:08,  4.09s/it][A
Training...:  97% 2520/2609 [2:25:25<05:53,  3.98s/it][A
Training...:  97% 2521/2609 [2:25:29<05:41,  3.88s/it][A
Training...:  97% 2522/2609 [2:25:32<05:27,  3.77s/it][A
Training...:  97% 2523/2609 [2:25:36<05:16,  3.67s/it][A
Training...:  97% 2524/2609 [2:25:39<05:05,  3.59s/it][A
Training...:  97% 2525/2609 [2:25:43<04:55,  3.52s/it][A
Training...:  97% 2526/2609 [2:25:46<04:44,  3.43s/it][A
Training...:  97% 2527/2609 [2:25:49<04:33,  3.34s/it][A
Training...:  97% 2528/2609 [2:25:52<04:23,  3.25s/it][A
Training...:  97% 2529/2609 [2:25:55<04:13,  3.17s/it][A
Training...:  97% 2530/2609 [2:25:58<04:03,  3.08s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:28:04<10:17:59, 9269.79s/it]
Training...:  97% 2530/2609 [2:26:01<04:03,  3.08s/it][A
Training...:  97% 2531/2609 [2:26:01<04:04,  3.13s/it][A
Training...:  97% 2532/2609 [2:26:04<03:51,  3.00s/it][A
Training...:  97% 2533/2609 [2:26:06<03:38,  2.88s/it][A
Training...:  97% 2534/2609 [2:26:09<03:28,  2.77s/it][A
Training...:  97% 2535/2609 [2:26:11<03:18,  2.68s/it][A
Training...:  97% 2536/2609 [2:26:14<03:09,  2.59s/it][A
Training...:  97% 2537/2609 [2:26:16<03:00,  2.51s/it][A
Training...:  97% 2538/2609 [2:26:18<02:52,  2.43s/it][A
Training...:  97% 2539/2609 [2:26:21<02:43,  2.33s/it][A
Training...:  97% 2540/2609 [2:26:23<02:33,  2.23s/it][A
Training...:  97% 2541/2609 [2:26:24<02:24,  2.12s/it][A
Training...:  97% 2542/2609 [2:26:26<02:14,  2.01s/it][A
Training...:  97% 2543/2609 [2:26:28<02:06,  1.92s/it][A
Training...:  98% 2544/2609 [2:26:29<01:57,  1.81s/it][A
Training...:  98% 2545/2609 [2:26:31<01:49,  1.71s/it][A
Training...:  98% 2546/2609 [2:26:32<01:40,  1.59s/it][A
Training...:  98% 2547/2609 [2:26:33<01:31,  1.47s/it][A
Training...:  98% 2548/2609 [2:26:34<01:21,  1.34s/it][A
Training...:  98% 2549/2609 [2:26:35<01:11,  1.19s/it][A
Training...:  98% 2550/2609 [2:26:36<00:59,  1.01s/it][A
Training...:  98% 2551/2609 [2:26:43<02:44,  2.84s/it][A
Training...:  98% 2552/2609 [2:26:50<03:52,  4.08s/it][A
Training...:  98% 2553/2609 [2:26:57<04:30,  4.83s/it][A
Training...:  98% 2554/2609 [2:27:03<04:50,  5.28s/it][A
Training...:  98% 2555/2609 [2:27:09<04:57,  5.50s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:29:18<10:17:59, 9269.79s/it]
Training...:  98% 2555/2609 [2:27:16<04:57,  5.50s/it][A
Training...:  98% 2556/2609 [2:27:16<05:10,  5.86s/it][A
Training...:  98% 2557/2609 [2:27:21<05:02,  5.82s/it][A
Training...:  98% 2558/2609 [2:27:27<04:49,  5.67s/it][A
Training...:  98% 2559/2609 [2:27:32<04:37,  5.54s/it][A
Training...:  98% 2560/2609 [2:27:37<04:22,  5.36s/it][A
Training...:  98% 2561/2609 [2:27:42<04:11,  5.24s/it][A
Training...:  98% 2562/2609 [2:27:46<03:58,  5.07s/it][A
Training...:  98% 2563/2609 [2:27:51<03:47,  4.94s/it][A
Training...:  98% 2564/2609 [2:27:55<03:34,  4.78s/it][A
Training...:  98% 2565/2609 [2:28:00<03:25,  4.67s/it][A
Training...:  98% 2566/2609 [2:28:04<03:14,  4.52s/it][A
Training...:  98% 2567/2609 [2:28:08<03:06,  4.43s/it][A
Training...:  98% 2568/2609 [2:28:12<02:55,  4.29s/it][A
Training...:  98% 2569/2609 [2:28:16<02:47,  4.18s/it][A
Training...:  99% 2570/2609 [2:28:20<02:38,  4.07s/it][A
Training...:  99% 2571/2609 [2:28:24<02:32,  4.00s/it][A
Training...:  99% 2572/2609 [2:28:27<02:24,  3.90s/it][A
Training...:  99% 2573/2609 [2:28:31<02:15,  3.76s/it][A
Training...:  99% 2574/2609 [2:28:34<02:07,  3.65s/it][A
Training...:  99% 2575/2609 [2:28:38<02:00,  3.55s/it][A
Training...:  99% 2576/2609 [2:28:41<01:53,  3.44s/it][A
Training...:  99% 2577/2609 [2:28:44<01:46,  3.34s/it][A
Training...:  99% 2578/2609 [2:28:47<01:40,  3.25s/it][A
Training...:  99% 2579/2609 [2:28:50<01:34,  3.15s/it][A
Training...:  99% 2580/2609 [2:28:53<01:28,  3.05s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:30:58<10:17:59, 9269.79s/it]
Training...:  99% 2580/2609 [2:28:56<01:28,  3.05s/it][A
Training...:  99% 2581/2609 [2:28:56<01:26,  3.11s/it][A
Training...:  99% 2582/2609 [2:28:59<01:20,  2.97s/it][A
Training...:  99% 2583/2609 [2:29:01<01:14,  2.86s/it][A
Training...:  99% 2584/2609 [2:29:04<01:08,  2.74s/it][A
Training...:  99% 2585/2609 [2:29:06<01:03,  2.64s/it][A
Training...:  99% 2586/2609 [2:29:08<00:58,  2.54s/it][A
Training...:  99% 2587/2609 [2:29:11<00:53,  2.44s/it][A
Training...:  99% 2588/2609 [2:29:13<00:49,  2.35s/it][A
Training...:  99% 2589/2609 [2:29:15<00:45,  2.27s/it][A
Training...:  99% 2590/2609 [2:29:17<00:41,  2.17s/it][A
Training...:  99% 2591/2609 [2:29:19<00:37,  2.08s/it][A
Training...:  99% 2592/2609 [2:29:20<00:33,  1.98s/it][A
Training...:  99% 2593/2609 [2:29:22<00:30,  1.88s/it][A
Training...:  99% 2594/2609 [2:29:23<00:26,  1.77s/it][A
Training...:  99% 2595/2609 [2:29:25<00:23,  1.65s/it][A
Training...: 100% 2596/2609 [2:29:26<00:19,  1.53s/it][A
Training...: 100% 2597/2609 [2:29:27<00:16,  1.41s/it][A
Training...: 100% 2598/2609 [2:29:28<00:14,  1.27s/it][A
Training...: 100% 2599/2609 [2:29:29<00:11,  1.13s/it][A
Training...: 100% 2600/2609 [2:29:30<00:08,  1.05it/s][A
Training...: 100% 2601/2609 [2:29:36<00:20,  2.61s/it][A
Training...: 100% 2602/2609 [2:29:41<00:24,  3.47s/it][A
Training...: 100% 2603/2609 [2:29:46<00:22,  3.80s/it][A
Training...: 100% 2604/2609 [2:29:50<00:18,  3.80s/it][A
Training...: 100% 2605/2609 [2:29:53<00:14,  3.65s/it][A                                                                                                                                                                    
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  80% 16/20 [43:31:59<10:17:59, 9269.79s/it]
Training...: 100% 2605/2609 [2:29:57<00:14,  3.65s/it][A
Training...: 100% 2606/2609 [2:29:57<00:10,  3.57s/it][A
Training...: 100% 2607/2609 [2:29:59<00:06,  3.22s/it][A
Training...: 100% 2608/2609 [2:30:01<00:02,  2.84s/it][A
Training...: 100% 2609/2609 [2:30:02<00:00,  2.44s/it][ATraining...: 100% 2609/2609 [2:30:02<00:00,  3.45s/it]
Step... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [43:32:05<7:39:29, 9189.94s/it] 
Training...:   0% 0/2609 [00:00<?, ?it/s][AStep... (43450 | Loss: 0.01362206507474184, Learning Rate: 1.3234341167844832e-05, Gradient Norm: 0.3588317334651947)
Step... (43475 | Loss: 0.003176146885380149, Learning Rate: 1.3183837836550083e-05, Gradient Norm: 0.3030080497264862)
Step... (43500 | Loss: 0.026952242478728294, Learning Rate: 1.3133334505255334e-05, Gradient Norm: 0.5478110313415527)
Step... (43525 | Loss: 0.0017093413043767214, Learning Rate: 1.3082825716992375e-05, Gradient Norm: 0.1905505210161209)
Step... (43550 | Loss: 0.008905862458050251, Learning Rate: 1.3032322385697626e-05, Gradient Norm: 0.24898220598697662)
Step... (43575 | Loss: 0.007554093841463327, Learning Rate: 1.2981819963897578e-05, Gradient Norm: 0.5303098559379578)
Step... (43600 | Loss: 0.006248839199542999, Learning Rate: 1.2931311175634619e-05, Gradient Norm: 0.23433299362659454)
Step... (43625 | Loss: 0.0011349624255672097, Learning Rate: 1.288080784433987e-05, Gradient Norm: 0.10065178573131561)
Step... (43650 | Loss: 0.01191705372184515, Learning Rate: 1.2830304513045121e-05, Gradient Norm: 0.3608570396900177)
Step... (43675 | Loss: 0.00581780169159174, Learning Rate: 1.2779795724782161e-05, Gradient Norm: 0.376973420381546)
Step... (43700 | Loss: 0.011004297994077206, Learning Rate: 1.2729292393487412e-05, Gradient Norm: 0.3331318497657776)
Step... (43725 | Loss: 0.005560621619224548, Learning Rate: 1.2678789971687365e-05, Gradient Norm: 0.3740106523036957)
Step... (43750 | Loss: 0.006692057009786367, Learning Rate: 1.2628281183424406e-05, Gradient Norm: 0.3772777318954468)
Step... (43775 | Loss: 0.0010545768309384584, Learning Rate: 1.2577777852129657e-05, Gradient Norm: 0.07838965952396393)
Step... (43800 | Loss: 0.010767966508865356, Learning Rate: 1.2527274520834908e-05, Gradient Norm: 0.38917455077171326)
Step... (43825 | Loss: 0.002892114920541644, Learning Rate: 1.2476765732571948e-05, Gradient Norm: 0.2200675755739212)
Step... (43850 | Loss: 0.011472624726593494, Learning Rate: 1.24262624012772e-05, Gradient Norm: 0.26872727274894714)
Step... (43875 | Loss: 0.002430963097140193, Learning Rate: 1.2375759979477152e-05, Gradient Norm: 0.22998496890068054)
Step... (43900 | Loss: 0.00686120567843318, Learning Rate: 1.2325251191214193e-05, Gradient Norm: 0.18564720451831818)
Step... (43925 | Loss: 0.0009910572553053498, Learning Rate: 1.2274747859919444e-05, Gradient Norm: 0.09342407435178757)
Step... (43950 | Loss: 0.010913528501987457, Learning Rate: 1.2224244528624695e-05, Gradient Norm: 0.34349381923675537)
Step... (43975 | Loss: 0.0013012986164540052, Learning Rate: 1.2173735740361735e-05, Gradient Norm: 0.1161225289106369)
Step... (44000 | Loss: 0.011144369840621948, Learning Rate: 1.2123232409066986e-05, Gradient Norm: 0.3354262113571167)
Step... (44025 | Loss: 0.0025861000176519156, Learning Rate: 1.2072729987266939e-05, Gradient Norm: 0.18179765343666077)
Step... (44050 | Loss: 0.012873603962361813, Learning Rate: 1.202222119900398e-05, Gradient Norm: 0.24135515093803406)
Step... (44075 | Loss: 0.0021269936114549637, Learning Rate: 1.197171786770923e-05, Gradient Norm: 0.1711723953485489)
Step... (44100 | Loss: 0.0051931110210716724, Learning Rate: 1.1921214536414482e-05, Gradient Norm: 0.236891970038414)
Step... (44125 | Loss: 0.0014122884022071958, Learning Rate: 1.1870705748151522e-05, Gradient Norm: 0.14388667047023773)
Step... (44150 | Loss: 0.01766723394393921, Learning Rate: 1.1820202416856773e-05, Gradient Norm: 0.44204777479171753)
Step... (44175 | Loss: 0.004816365893930197, Learning Rate: 1.1769699995056726e-05, Gradient Norm: 0.30513259768486023)
Step... (44200 | Loss: 0.010542890056967735, Learning Rate: 1.1719191206793766e-05, Gradient Norm: 0.4505942165851593)
Step... (44225 | Loss: 0.0017255765851587057, Learning Rate: 1.1668687875499018e-05, Gradient Norm: 0.1411169469356537)
Step... (44250 | Loss: 0.012113429605960846, Learning Rate: 1.1618184544204269e-05, Gradient Norm: 0.7646556496620178)
Step... (44275 | Loss: 0.002041829051449895, Learning Rate: 1.1567675755941309e-05, Gradient Norm: 0.31450408697128296)
Step... (44300 | Loss: 0.008531898260116577, Learning Rate: 1.151717242464656e-05, Gradient Norm: 0.29946476221084595)
Step... (44325 | Loss: 0.0028305239975452423, Learning Rate: 1.1466670002846513e-05, Gradient Norm: 0.38008975982666016)
Step... (44350 | Loss: 0.00758607080206275, Learning Rate: 1.1416161214583553e-05, Gradient Norm: 0.3596833646297455)

Training...:   0% 1/2609 [00:07<5:08:23,  7.09s/it][A
Training...:   0% 2/2609 [00:14<5:04:35,  7.01s/it][A
Training...:   0% 3/2609 [00:20<4:54:56,  6.79s/it][A
Training...:   0% 4/2609 [00:26<4:45:45,  6.58s/it][A
Training...:   0% 5/2609 [00:32<4:35:39,  6.35s/it][A
Training...:   0% 6/2609 [00:38<4:26:11,  6.14s/it][A
Training...:   0% 7/2609 [00:43<4:16:33,  5.92s/it][A
Training...:   0% 8/2609 [00:49<4:07:09,  5.70s/it][A
Training...:   0% 9/2609 [00:54<3:59:13,  5.52s/it][A
Training...:   0% 10/2609 [00:59<3:50:07,  5.31s/it][A
Training...:   0% 11/2609 [01:03<3:42:55,  5.15s/it][A
Training...:   0% 12/2609 [01:08<3:34:54,  4.97s/it][A
Training...:   0% 13/2609 [01:13<3:29:24,  4.84s/it][A
Training...:   1% 14/2609 [01:17<3:23:15,  4.70s/it][A
Training...:   1% 15/2609 [01:21<3:17:06,  4.56s/it][A
Training...:   1% 16/2609 [01:25<3:12:33,  4.46s/it][A
Training...:   1% 17/2609 [01:29<3:06:28,  4.32s/it][A
Training...:   1% 18/2609 [01:33<3:01:21,  4.20s/it][A
Training...:   1% 19/2609 [01:37<2:56:38,  4.09s/it][A
Training...:   1% 20/2609 [01:41<2:52:08,  3.99s/it][A
Training...:   1% 21/2609 [01:45<2:47:38,  3.89s/it][A                                                                                                                                                                   
                                                    [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [43:33:55<7:39:29, 9189.94s/it]
Training...:   1% 21/2609 [01:49<2:47:38,  3.89s/it][A
Training...:   1% 22/2609 [01:49<2:49:58,  3.94s/it][A
Training...:   1% 23/2609 [01:52<2:43:01,  3.78s/it][A
Training...:   1% 24/2609 [01:55<2:38:02,  3.67s/it][A
Training...:   1% 25/2609 [01:59<2:32:25,  3.54s/it][A
Training...:   1% 26/2609 [02:02<2:27:17,  3.42s/it][A
Training...:   1% 27/2609 [02:05<2:23:01,  3.32s/it][A
Training...:   1% 28/2609 [02:08<2:18:37,  3.22s/it][A
Training...:   1% 29/2609 [02:11<2:14:07,  3.12s/it][A
Training...:   1% 30/2609 [02:14<2:09:33,  3.01s/it][A
Training...:   1% 31/2609 [02:16<2:04:37,  2.90s/it][A
Training...:   1% 32/2609 [02:19<2:00:24,  2.80s/it][A
Training...:   1% 33/2609 [02:21<1:56:24,  2.71s/it][A
Training...:   1% 34/2609 [02:24<1:52:55,  2.63s/it][A
Training...:   1% 35/2609 [02:26<1:49:12,  2.55s/it][A
Training...:   1% 36/2609 [02:28<1:45:21,  2.46s/it][A
Training...:   1% 37/2609 [02:30<1:41:32,  2.37s/it][A
Training...:   1% 38/2609 [02:33<1:38:10,  2.29s/it][A
Training...:   1% 39/2609 [02:35<1:34:21,  2.20s/it][A
Training...:   2% 40/2609 [02:36<1:30:53,  2.12s/it][A
Training...:   2% 41/2609 [02:38<1:26:37,  2.02s/it][A
Training...:   2% 42/2609 [02:40<1:22:26,  1.93s/it][A
Training...:   2% 43/2609 [02:42<1:17:51,  1.82s/it][A
Training...:   2% 44/2609 [02:43<1:13:26,  1.72s/it][A
Training...:   2% 45/2609 [02:44<1:08:25,  1.60s/it][A
Training...:   2% 46/2609 [02:46<1:03:49,  1.49s/it][A                                                                                                                                                                   
                                                    [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [43:34:54<7:39:29, 9189.94s/it]
Training...:   2% 46/2609 [02:47<1:03:49,  1.49s/it][A
Training...:   2% 47/2609 [02:47<1:03:10,  1.48s/it][A
Training...:   2% 48/2609 [02:48<56:40,  1.33s/it]  [A
Training...:   2% 49/2609 [02:49<50:04,  1.17s/it][A
Training...:   2% 50/2609 [02:49<42:46,  1.00s/it][A
Training...:   2% 51/2609 [02:57<2:01:56,  2.86s/it][A
Training...:   2% 52/2609 [03:04<2:54:55,  4.10s/it][A
Training...:   2% 53/2609 [03:10<3:25:35,  4.83s/it][A
Training...:   2% 54/2609 [03:16<3:42:57,  5.24s/it][A
Training...:   2% 55/2609 [03:22<3:51:58,  5.45s/it][A
Training...:   2% 56/2609 [03:28<3:54:20,  5.51s/it][A
Training...:   2% 57/2609 [03:33<3:54:14,  5.51s/it][A
Training...:   2% 58/2609 [03:39<3:51:10,  5.44s/it][A
Training...:   2% 59/2609 [03:44<3:46:25,  5.33s/it][A
Training...:   2% 60/2609 [03:49<3:40:15,  5.18s/it][A
Training...:   2% 61/2609 [03:53<3:35:28,  5.07s/it][A
Training...:   2% 62/2609 [03:58<3:30:08,  4.95s/it][A
Training...:   2% 63/2609 [04:03<3:25:29,  4.84s/it][A
Training...:   2% 64/2609 [04:07<3:18:28,  4.68s/it][A
Training...:   2% 65/2609 [04:11<3:13:46,  4.57s/it][A
Training...:   3% 66/2609 [04:15<3:08:19,  4.44s/it][A
Training...:   3% 67/2609 [04:20<3:03:52,  4.34s/it][A
Training...:   3% 68/2609 [04:23<2:58:33,  4.22s/it][A
Training...:   3% 69/2609 [04:27<2:53:46,  4.10s/it][A
Training...:   3% 70/2609 [04:31<2:48:29,  3.98s/it][A
Training...:   3% 71/2609 [04:35<2:44:30,  3.89s/it][A                                                                                                                                                                   
                                                    [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [43:36:45<7:39:29, 9189.94s/it]
Training...:   3% 71/2609 [04:39<2:44:30,  3.89s/it][A
Training...:   3% 72/2609 [04:39<2:48:01,  3.97s/it][A
Training...:   3% 73/2609 [04:42<2:41:14,  3.81s/it][A
Training...:   3% 74/2609 [04:46<2:34:50,  3.66s/it][A
Training...:   3% 75/2609 [04:49<2:29:31,  3.54s/it][A
Training...:   3% 76/2609 [04:52<2:24:10,  3.42s/it][A
Training...:   3% 77/2609 [04:55<2:19:31,  3.31s/it][A
Training...:   3% 78/2609 [04:58<2:15:11,  3.20s/it][A
Training...:   3% 79/2609 [05:01<2:11:08,  3.11s/it][A
Training...:   3% 80/2609 [05:04<2:06:59,  3.01s/it][A
Training...:   3% 81/2609 [05:06<2:02:53,  2.92s/it][A
Training...:   3% 82/2609 [05:09<1:58:20,  2.81s/it][A
Training...:   3% 83/2609 [05:11<1:54:32,  2.72s/it][A
Training...:   3% 84/2609 [05:14<1:51:02,  2.64s/it][A
Training...:   3% 85/2609 [05:16<1:48:25,  2.58s/it][A
Training...:   3% 86/2609 [05:19<1:44:47,  2.49s/it][A
Training...:   3% 87/2609 [05:21<1:42:08,  2.43s/it][A
Training...:   3% 88/2609 [05:23<1:38:14,  2.34s/it][A
Training...:   3% 89/2609 [05:25<1:34:06,  2.24s/it][A
Training...:   3% 90/2609 [05:27<1:30:18,  2.15s/it][A
Training...:   3% 91/2609 [05:29<1:26:31,  2.06s/it][A
Training...:   4% 92/2609 [05:31<1:22:24,  1.96s/it][A
Training...:   4% 93/2609 [05:32<1:18:52,  1.88s/it][A
Training...:   4% 94/2609 [05:34<1:14:27,  1.78s/it][A
Training...:   4% 95/2609 [05:35<1:09:45,  1.67s/it][A
Training...:   4% 96/2609 [05:36<1:04:16,  1.53s/it][A                                                                                                                                                                   
                                                    [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [43:37:45<7:39:29, 9189.94s/it]
Training...:   4% 96/2609 [05:38<1:04:16,  1.53s/it][A
Training...:   4% 97/2609 [05:38<1:03:14,  1.51s/it][A
Training...:   4% 98/2609 [05:39<56:05,  1.34s/it]  [A
Training...:   4% 99/2609 [05:40<48:48,  1.17s/it][A
Training...:   4% 100/2609 [05:40<40:38,  1.03it/s][A
Training...:   4% 101/2609 [05:47<1:59:21,  2.86s/it][A
Training...:   4% 102/2609 [05:55<2:53:56,  4.16s/it][A
Training...:   4% 103/2609 [06:01<3:27:05,  4.96s/it][A
Training...:   4% 104/2609 [06:08<3:44:34,  5.38s/it][A
Training...:   4% 105/2609 [06:14<3:53:05,  5.59s/it][A
Training...:   4% 106/2609 [06:20<3:55:28,  5.64s/it][A
Training...:   4% 107/2609 [06:25<3:54:38,  5.63s/it][A
Training...:   4% 108/2609 [06:30<3:49:39,  5.51s/it][A
Training...:   4% 109/2609 [06:36<3:45:13,  5.41s/it][A
Training...:   4% 110/2609 [06:41<3:38:59,  5.26s/it][A
Training...:   4% 111/2609 [06:45<3:33:43,  5.13s/it][A
Training...:   4% 112/2609 [06:50<3:27:41,  4.99s/it][A
Training...:   4% 113/2609 [06:55<3:22:03,  4.86s/it][A
Training...:   4% 114/2609 [06:59<3:15:43,  4.71s/it][A
Training...:   4% 115/2609 [07:03<3:10:48,  4.59s/it][A
Training...:   4% 116/2609 [07:07<3:05:33,  4.47s/it][A
Training...:   4% 117/2609 [07:12<3:01:22,  4.37s/it][A
Training...:   5% 118/2609 [07:16<2:56:34,  4.25s/it][A
Training...:   5% 119/2609 [07:19<2:52:20,  4.15s/it][A
Training...:   5% 120/2609 [07:23<2:46:46,  4.02s/it][A
Training...:   5% 121/2609 [07:27<2:42:45,  3.93s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [43:39:38<7:39:29, 9189.94s/it]
Training...:   5% 121/2609 [07:31<2:42:45,  3.93s/it][A
Training...:   5% 122/2609 [07:31<2:45:11,  3.99s/it][A
Training...:   5% 123/2609 [07:34<2:38:43,  3.83s/it][A
Training...:   5% 124/2609 [07:38<2:32:33,  3.68s/it][A
Training...:   5% 125/2609 [07:41<2:27:40,  3.57s/it][A
Training...:   5% 126/2609 [07:44<2:23:05,  3.46s/it][A
Training...:   5% 127/2609 [07:47<2:18:53,  3.36s/it][A
Training...:   5% 128/2609 [07:50<2:14:08,  3.24s/it][A
Training...:   5% 129/2609 [07:53<2:11:26,  3.18s/it][A
Training...:   5% 130/2609 [07:56<2:07:43,  3.09s/it][A
Training...:   5% 131/2609 [07:59<2:04:55,  3.02s/it][A
Training...:   5% 132/2609 [08:02<2:00:16,  2.91s/it][A
Training...:   5% 133/2609 [08:04<1:56:32,  2.82s/it][A
Training...:   5% 134/2609 [08:07<1:51:53,  2.71s/it][A
Training...:   5% 135/2609 [08:09<1:47:27,  2.61s/it][A
Training...:   5% 136/2609 [08:12<1:43:14,  2.51s/it][A
Training...:   5% 137/2609 [08:14<1:39:25,  2.41s/it][A
Training...:   5% 138/2609 [08:16<1:35:14,  2.31s/it][A
Training...:   5% 139/2609 [08:18<1:31:49,  2.23s/it][A
Training...:   5% 140/2609 [08:20<1:27:43,  2.13s/it][A
Training...:   5% 141/2609 [08:22<1:23:44,  2.04s/it][A
Training...:   5% 142/2609 [08:23<1:19:29,  1.93s/it][A
Training...:   5% 143/2609 [08:25<1:15:30,  1.84s/it][A
Training...:   6% 144/2609 [08:26<1:11:19,  1.74s/it][A
Training...:   6% 145/2609 [08:28<1:06:54,  1.63s/it][A
Training...:   6% 146/2609 [08:29<1:02:33,  1.52s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [43:40:37<7:39:29, 9189.94s/it]
Training...:   6% 146/2609 [08:31<1:02:33,  1.52s/it][A
Training...:   6% 147/2609 [08:31<1:02:10,  1.52s/it][A
Training...:   6% 148/2609 [08:31<55:21,  1.35s/it]  [A
Training...:   6% 149/2609 [08:32<47:50,  1.17s/it][A
Training...:   6% 150/2609 [08:33<39:49,  1.03it/s][A
Training...:   6% 151/2609 [08:40<1:55:12,  2.81s/it][A
Training...:   6% 152/2609 [08:47<2:46:04,  4.06s/it][A
Training...:   6% 153/2609 [08:54<3:18:20,  4.85s/it][A
Training...:   6% 154/2609 [09:00<3:35:35,  5.27s/it][A
Training...:   6% 155/2609 [09:06<3:44:46,  5.50s/it][A
Training...:   6% 156/2609 [09:11<3:47:20,  5.56s/it][A
Training...:   6% 157/2609 [09:17<3:46:26,  5.54s/it][A
Training...:   6% 158/2609 [09:22<3:43:31,  5.47s/it][A
Training...:   6% 159/2609 [09:27<3:39:54,  5.39s/it][A
Training...:   6% 160/2609 [09:32<3:34:06,  5.25s/it][A
Training...:   6% 161/2609 [09:37<3:29:39,  5.14s/it][A
Training...:   6% 162/2609 [09:42<3:23:14,  4.98s/it][A
Training...:   6% 163/2609 [09:46<3:17:46,  4.85s/it][A
Training...:   6% 164/2609 [09:51<3:12:14,  4.72s/it][A
Training...:   6% 165/2609 [09:55<3:06:44,  4.58s/it][A
Training...:   6% 166/2609 [09:59<3:00:38,  4.44s/it][A
Training...:   6% 167/2609 [10:03<2:56:25,  4.33s/it][A
Training...:   6% 168/2609 [10:07<2:51:22,  4.21s/it][A
Training...:   6% 169/2609 [10:11<2:46:39,  4.10s/it][A
Training...:   7% 170/2609 [10:15<2:41:13,  3.97s/it][A
Training...:   7% 171/2609 [10:18<2:37:44,  3.88s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [43:42:29<7:39:29, 9189.94s/it]
Training...:   7% 171/2609 [10:23<2:37:44,  3.88s/it][A
Training...:   7% 172/2609 [10:23<2:42:11,  3.99s/it][A
Training...:   7% 173/2609 [10:26<2:36:48,  3.86s/it][A
Training...:   7% 174/2609 [10:30<2:31:30,  3.73s/it][A
Training...:   7% 175/2609 [10:33<2:26:15,  3.61s/it][A
Training...:   7% 176/2609 [10:36<2:21:02,  3.48s/it][A
Training...:   7% 177/2609 [10:39<2:17:16,  3.39s/it][A
Training...:   7% 178/2609 [10:42<2:12:58,  3.28s/it][A
Training...:   7% 179/2609 [10:45<2:09:35,  3.20s/it][A
Training...:   7% 180/2609 [10:48<2:06:13,  3.12s/it][A
Training...:   7% 181/2609 [10:51<2:02:19,  3.02s/it][A
Training...:   7% 182/2609 [10:54<1:58:21,  2.93s/it][A
Training...:   7% 183/2609 [10:56<1:54:43,  2.84s/it][A
Training...:   7% 184/2609 [10:59<1:50:56,  2.75s/it][A
Training...:   7% 185/2609 [11:01<1:47:16,  2.66s/it][A
Training...:   7% 186/2609 [11:04<1:43:16,  2.56s/it][A
Training...:   7% 187/2609 [11:06<1:40:20,  2.49s/it][A
Training...:   7% 188/2609 [11:08<1:36:17,  2.39s/it][A
Training...:   7% 189/2609 [11:10<1:32:30,  2.29s/it][A
Training...:   7% 190/2609 [11:12<1:28:27,  2.19s/it][A
Training...:   7% 191/2609 [11:14<1:24:29,  2.10s/it][A
Training...:   7% 192/2609 [11:16<1:20:16,  1.99s/it][A
Training...:   7% 193/2609 [11:18<1:16:03,  1.89s/it][A
Training...:   7% 194/2609 [11:19<1:11:42,  1.78s/it][A
Training...:   7% 195/2609 [11:20<1:07:36,  1.68s/it][A
Training...:   8% 196/2609 [11:22<1:03:19,  1.57s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [43:43:30<7:39:29, 9189.94s/it]
Training...:   8% 196/2609 [11:23<1:03:19,  1.57s/it][A
Training...:   8% 197/2609 [11:23<1:02:42,  1.56s/it][A
Training...:   8% 198/2609 [11:24<56:14,  1.40s/it]  [A
Training...:   8% 199/2609 [11:25<49:28,  1.23s/it][A
Training...:   8% 200/2609 [11:26<41:39,  1.04s/it][A
Training...:   8% 201/2609 [11:33<1:55:55,  2.89s/it][A
Training...:   8% 202/2609 [11:40<2:47:47,  4.18s/it][A
Training...:   8% 203/2609 [11:47<3:17:55,  4.94s/it][A
Training...:   8% 204/2609 [11:53<3:33:14,  5.32s/it][A
Training...:   8% 205/2609 [11:59<3:40:59,  5.52s/it][A
Training...:   8% 206/2609 [12:05<3:42:49,  5.56s/it][A
Training...:   8% 207/2609 [12:11<3:44:50,  5.62s/it][A
Training...:   8% 208/2609 [12:16<3:42:37,  5.56s/it][A
Training...:   8% 209/2609 [12:21<3:38:55,  5.47s/it][A
Training...:   8% 210/2609 [12:26<3:32:35,  5.32s/it][A
Training...:   8% 211/2609 [12:31<3:27:13,  5.18s/it][A
Training...:   8% 212/2609 [12:36<3:21:35,  5.05s/it][A
Training...:   8% 213/2609 [12:40<3:17:07,  4.94s/it][A
Training...:   8% 214/2609 [12:45<3:11:24,  4.80s/it][A
Training...:   8% 215/2609 [12:49<3:06:13,  4.67s/it][A
Training...:   8% 216/2609 [12:53<3:00:17,  4.52s/it][A
Training...:   8% 217/2609 [12:58<2:55:18,  4.40s/it][A
Training...:   8% 218/2609 [13:01<2:49:26,  4.25s/it][A
Training...:   8% 219/2609 [13:05<2:44:30,  4.13s/it][A
Training...:   8% 220/2609 [13:09<2:39:48,  4.01s/it][A
Training...:   8% 221/2609 [13:13<2:35:34,  3.91s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [43:45:23<7:39:29, 9189.94s/it]
Training...:   8% 221/2609 [13:17<2:35:34,  3.91s/it][A
Training...:   9% 222/2609 [13:17<2:38:29,  3.98s/it][A
Training...:   9% 223/2609 [13:20<2:32:38,  3.84s/it][A
Training...:   9% 224/2609 [13:24<2:26:38,  3.69s/it][A
Training...:   9% 225/2609 [13:27<2:21:58,  3.57s/it][A
Training...:   9% 226/2609 [13:30<2:17:48,  3.47s/it][A
Training...:   9% 227/2609 [13:33<2:13:09,  3.35s/it][A
Training...:   9% 228/2609 [13:36<2:09:02,  3.25s/it][A
Training...:   9% 229/2609 [13:39<2:05:05,  3.15s/it][A
Training...:   9% 230/2609 [13:42<2:01:12,  3.06s/it][A
Training...:   9% 231/2609 [13:45<1:58:15,  2.98s/it][A
Training...:   9% 232/2609 [13:48<1:54:14,  2.88s/it][A
Training...:   9% 233/2609 [13:50<1:50:57,  2.80s/it][A
Training...:   9% 234/2609 [13:53<1:47:08,  2.71s/it][A
Training...:   9% 235/2609 [13:55<1:43:35,  2.62s/it][A
Training...:   9% 236/2609 [13:57<1:40:26,  2.54s/it][A
Training...:   9% 237/2609 [14:00<1:36:49,  2.45s/it][A
Training...:   9% 238/2609 [14:02<1:33:28,  2.37s/it][A
Training...:   9% 239/2609 [14:04<1:30:09,  2.28s/it][A
Training...:   9% 240/2609 [14:06<1:26:15,  2.18s/it][A
Training...:   9% 241/2609 [14:08<1:22:23,  2.09s/it][A
Training...:   9% 242/2609 [14:10<1:18:47,  2.00s/it][A
Training...:   9% 243/2609 [14:11<1:15:14,  1.91s/it][A
Training...:   9% 244/2609 [14:13<1:11:10,  1.81s/it][A
Training...:   9% 245/2609 [14:14<1:06:49,  1.70s/it][A
Training...:   9% 246/2609 [14:16<1:02:10,  1.58s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [43:46:24<7:39:29, 9189.94s/it]
Training...:   9% 246/2609 [14:17<1:02:10,  1.58s/it][A
Training...:   9% 247/2609 [14:17<1:01:36,  1.56s/it][A
Training...:  10% 248/2609 [14:18<55:13,  1.40s/it]  [A
Training...:  10% 249/2609 [14:19<48:35,  1.24s/it][A
Training...:  10% 250/2609 [14:20<40:44,  1.04s/it][A
Training...:  10% 251/2609 [14:27<1:52:28,  2.86s/it][A
Training...:  10% 252/2609 [14:34<2:44:33,  4.19s/it][A
Training...:  10% 253/2609 [14:40<3:11:06,  4.87s/it][A
Training...:  10% 254/2609 [14:47<3:26:30,  5.26s/it][A
Training...:  10% 255/2609 [14:52<3:33:54,  5.45s/it][A
Training...:  10% 256/2609 [14:58<3:35:54,  5.51s/it][A
Training...:  10% 257/2609 [15:04<3:35:38,  5.50s/it][A
Training...:  10% 258/2609 [15:09<3:32:03,  5.41s/it][A
Training...:  10% 259/2609 [15:14<3:29:04,  5.34s/it][A
Training...:  10% 260/2609 [15:19<3:25:56,  5.26s/it][A
Training...:  10% 261/2609 [15:24<3:21:01,  5.14s/it][A
Training...:  10% 262/2609 [15:29<3:15:15,  4.99s/it][A
Training...:  10% 263/2609 [15:33<3:10:05,  4.86s/it][A
Training...:  10% 264/2609 [15:37<3:04:17,  4.72s/it][A
Training...:  10% 265/2609 [15:42<2:59:42,  4.60s/it][A
Training...:  10% 266/2609 [15:46<2:54:04,  4.46s/it][A
Training...:  10% 267/2609 [15:50<2:49:18,  4.34s/it][A
Training...:  10% 268/2609 [15:54<2:44:20,  4.21s/it][A
Training...:  10% 269/2609 [15:58<2:41:00,  4.13s/it][A
Training...:  10% 270/2609 [16:02<2:35:55,  4.00s/it][A
Training...:  10% 271/2609 [16:05<2:32:22,  3.91s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [43:48:16<7:39:29, 9189.94s/it]
Training...:  10% 271/2609 [16:09<2:32:22,  3.91s/it][A
Training...:  10% 272/2609 [16:09<2:35:22,  3.99s/it][A
Training...:  10% 273/2609 [16:13<2:29:34,  3.84s/it][A
Training...:  11% 274/2609 [16:16<2:24:48,  3.72s/it][A
Training...:  11% 275/2609 [16:20<2:20:21,  3.61s/it][A
Training...:  11% 276/2609 [16:23<2:15:11,  3.48s/it][A
Training...:  11% 277/2609 [16:26<2:10:45,  3.36s/it][A
Training...:  11% 278/2609 [16:29<2:06:40,  3.26s/it][A
Training...:  11% 279/2609 [16:32<2:03:03,  3.17s/it][A
Training...:  11% 280/2609 [16:35<1:59:06,  3.07s/it][A
Training...:  11% 281/2609 [16:38<1:56:09,  2.99s/it][A
Training...:  11% 282/2609 [16:40<1:52:11,  2.89s/it][A
Training...:  11% 283/2609 [16:43<1:48:51,  2.81s/it][A
Training...:  11% 284/2609 [16:45<1:45:12,  2.72s/it][A
Training...:  11% 285/2609 [16:48<1:42:31,  2.65s/it][A
Training...:  11% 286/2609 [16:50<1:38:44,  2.55s/it][A
Training...:  11% 287/2609 [16:52<1:36:05,  2.48s/it][A
Training...:  11% 288/2609 [16:55<1:32:38,  2.39s/it][A
Training...:  11% 289/2609 [16:57<1:29:23,  2.31s/it][A
Training...:  11% 290/2609 [16:59<1:25:50,  2.22s/it][A
Training...:  11% 291/2609 [17:01<1:21:57,  2.12s/it][A
Training...:  11% 292/2609 [17:02<1:17:44,  2.01s/it][A
Training...:  11% 293/2609 [17:04<1:13:57,  1.92s/it][A
Training...:  11% 294/2609 [17:06<1:09:53,  1.81s/it][A
Training...:  11% 295/2609 [17:07<1:05:55,  1.71s/it][A
Training...:  11% 296/2609 [17:08<1:01:20,  1.59s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [43:49:17<7:39:29, 9189.94s/it]
Training...:  11% 296/2609 [17:10<1:01:20,  1.59s/it][A
Training...:  11% 297/2609 [17:10<1:00:49,  1.58s/it][A
Training...:  11% 298/2609 [17:11<54:33,  1.42s/it]  [A
Training...:  11% 299/2609 [17:12<47:52,  1.24s/it][A
Training...:  11% 300/2609 [17:12<39:54,  1.04s/it][A
Training...:  12% 301/2609 [17:20<1:50:40,  2.88s/it][A
Training...:  12% 302/2609 [17:27<2:39:39,  4.15s/it][A
Training...:  12% 303/2609 [17:33<3:07:53,  4.89s/it][A
Training...:  12% 304/2609 [17:40<3:24:00,  5.31s/it][A
Training...:  12% 305/2609 [17:46<3:33:03,  5.55s/it][A
Training...:  12% 306/2609 [17:51<3:34:03,  5.58s/it][A
Training...:  12% 307/2609 [17:57<3:33:22,  5.56s/it][A
Training...:  12% 308/2609 [18:02<3:30:48,  5.50s/it][A
Training...:  12% 309/2609 [18:07<3:26:06,  5.38s/it][A
Training...:  12% 310/2609 [18:12<3:21:19,  5.25s/it][A
Training...:  12% 311/2609 [18:17<3:16:15,  5.12s/it][A
Training...:  12% 312/2609 [18:22<3:10:19,  4.97s/it][A
Training...:  12% 313/2609 [18:26<3:05:05,  4.84s/it][A
Training...:  12% 314/2609 [18:31<2:59:10,  4.68s/it][A
Training...:  12% 315/2609 [18:35<2:54:14,  4.56s/it][A
Training...:  12% 316/2609 [18:39<2:47:56,  4.39s/it][A
Training...:  12% 317/2609 [18:43<2:43:22,  4.28s/it][A
Training...:  12% 318/2609 [18:47<2:38:42,  4.16s/it][A
Training...:  12% 319/2609 [18:51<2:35:08,  4.07s/it][A
Training...:  12% 320/2609 [18:54<2:30:40,  3.95s/it][A
Training...:  12% 321/2609 [18:58<2:27:26,  3.87s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [43:51:09<7:39:29, 9189.94s/it]
Training...:  12% 321/2609 [19:02<2:27:26,  3.87s/it][A
Training...:  12% 322/2609 [19:02<2:29:38,  3.93s/it][A
Training...:  12% 323/2609 [19:06<2:24:15,  3.79s/it][A
Training...:  12% 324/2609 [19:09<2:18:47,  3.64s/it][A
Training...:  12% 325/2609 [19:12<2:14:14,  3.53s/it][A
Training...:  12% 326/2609 [19:15<2:09:28,  3.40s/it][A
Training...:  13% 327/2609 [19:18<2:06:11,  3.32s/it][A
Training...:  13% 328/2609 [19:21<2:02:01,  3.21s/it][A
Training...:  13% 329/2609 [19:24<1:59:04,  3.13s/it][A
Training...:  13% 330/2609 [19:27<1:55:57,  3.05s/it][A
Training...:  13% 331/2609 [19:30<1:52:57,  2.98s/it][A
Training...:  13% 332/2609 [19:33<1:48:50,  2.87s/it][A
Training...:  13% 333/2609 [19:35<1:45:15,  2.77s/it][A
Training...:  13% 334/2609 [19:38<1:42:04,  2.69s/it][A
Training...:  13% 335/2609 [19:40<1:38:53,  2.61s/it][A
Training...:  13% 336/2609 [19:42<1:35:53,  2.53s/it][A
Training...:  13% 337/2609 [19:45<1:32:54,  2.45s/it][A
Training...:  13% 338/2609 [19:47<1:28:51,  2.35s/it][A
Training...:  13% 339/2609 [19:49<1:25:37,  2.26s/it][A
Training...:  13% 340/2609 [19:51<1:21:30,  2.16s/it][A
Training...:  13% 341/2609 [19:53<1:17:54,  2.06s/it][A
Training...:  13% 342/2609 [19:54<1:14:23,  1.97s/it][A
Training...:  13% 343/2609 [19:56<1:10:58,  1.88s/it][A
Training...:  13% 344/2609 [19:57<1:06:50,  1.77s/it][A
Training...:  13% 345/2609 [19:59<1:02:26,  1.65s/it][A
Training...:  13% 346/2609 [20:00<58:09,  1.54s/it]  [A                                                                                                                                                                   
                                                   [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [43:52:08<7:39:29, 9189.94s/it]
Training...:  13% 346/2609 [20:02<58:09,  1.54s/it][A
Training...:  13% 347/2609 [20:02<57:52,  1.53s/it][A
Training...:  13% 348/2609 [20:03<52:01,  1.38s/it][A
Training...:  13% 349/2609 [20:03<45:46,  1.22s/it][A
Training...:  13% 350/2609 [20:04<38:34,  1.02s/it][A
Training...:  13% 351/2609 [20:11<1:47:42,  2.86s/it][A
Training...:  13% 352/2609 [20:18<2:35:08,  4.12s/it][A
Training...:  14% 353/2609 [20:25<3:02:47,  4.86s/it][A
Training...:  14% 354/2609 [20:31<3:19:07,  5.30s/it][A
Training...:  14% 355/2609 [20:37<3:27:07,  5.51s/it][A
Training...:  14% 356/2609 [20:43<3:28:23,  5.55s/it][A
Training...:  14% 357/2609 [20:48<3:27:29,  5.53s/it][A
Training...:  14% 358/2609 [20:54<3:24:03,  5.44s/it][A
Training...:  14% 359/2609 [20:59<3:20:40,  5.35s/it][A
Training...:  14% 360/2609 [21:04<3:15:26,  5.21s/it][A
Training...:  14% 361/2609 [21:08<3:10:35,  5.09s/it][A
Training...:  14% 362/2609 [21:13<3:04:58,  4.94s/it][A
Training...:  14% 363/2609 [21:18<3:00:12,  4.81s/it][A
Training...:  14% 364/2609 [21:22<2:55:26,  4.69s/it][A
Training...:  14% 365/2609 [21:26<2:50:33,  4.56s/it][A
Training...:  14% 366/2609 [21:30<2:46:00,  4.44s/it][A
Training...:  14% 367/2609 [21:34<2:41:59,  4.34s/it][A
Training...:  14% 368/2609 [21:38<2:39:00,  4.26s/it][A
Training...:  14% 369/2609 [21:42<2:34:53,  4.15s/it][A
Training...:  14% 370/2609 [21:46<2:29:44,  4.01s/it][A
Training...:  14% 371/2609 [21:50<2:25:46,  3.91s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [43:54:00<7:39:29, 9189.94s/it]
Training...:  14% 371/2609 [21:54<2:25:46,  3.91s/it][A
Training...:  14% 372/2609 [21:54<2:27:51,  3.97s/it][A
Training...:  14% 373/2609 [21:57<2:21:48,  3.81s/it][A
Training...:  14% 374/2609 [22:01<2:16:05,  3.65s/it][A
Training...:  14% 375/2609 [22:04<2:10:59,  3.52s/it][A
Training...:  14% 376/2609 [22:07<2:06:21,  3.40s/it][A
Training...:  14% 377/2609 [22:10<2:02:08,  3.28s/it][A
Training...:  14% 378/2609 [22:13<1:58:11,  3.18s/it][A
Training...:  15% 379/2609 [22:16<1:54:31,  3.08s/it][A
Training...:  15% 380/2609 [22:19<1:51:46,  3.01s/it][A
Training...:  15% 381/2609 [22:21<1:48:38,  2.93s/it][A
Training...:  15% 382/2609 [22:24<1:45:25,  2.84s/it][A
Training...:  15% 383/2609 [22:26<1:42:19,  2.76s/it][A
Training...:  15% 384/2609 [22:29<1:38:53,  2.67s/it][A
Training...:  15% 385/2609 [22:31<1:35:28,  2.58s/it][A
Training...:  15% 386/2609 [22:34<1:32:01,  2.48s/it][A
Training...:  15% 387/2609 [22:36<1:29:02,  2.40s/it][A
Training...:  15% 388/2609 [22:38<1:25:33,  2.31s/it][A
Training...:  15% 389/2609 [22:40<1:22:26,  2.23s/it][A
Training...:  15% 390/2609 [22:42<1:19:16,  2.14s/it][A
Training...:  15% 391/2609 [22:44<1:15:51,  2.05s/it][A
Training...:  15% 392/2609 [22:45<1:12:27,  1.96s/it][A
Training...:  15% 393/2609 [22:47<1:09:05,  1.87s/it][A
Training...:  15% 394/2609 [22:49<1:04:59,  1.76s/it][A
Training...:  15% 395/2609 [22:50<1:00:50,  1.65s/it][A
Training...:  15% 396/2609 [22:51<56:25,  1.53s/it]  [A                                                                                                                                                                   
                                                   [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [43:54:59<7:39:29, 9189.94s/it]
Training...:  15% 396/2609 [22:53<56:25,  1.53s/it][A
Training...:  15% 397/2609 [22:53<55:21,  1.50s/it][A
Training...:  15% 398/2609 [22:54<49:25,  1.34s/it][A
Training...:  15% 399/2609 [22:54<43:53,  1.19s/it][A
Training...:  15% 400/2609 [22:55<37:28,  1.02s/it][A
Training...:  15% 401/2609 [23:02<1:45:10,  2.86s/it][A
Training...:  15% 402/2609 [23:09<2:32:00,  4.13s/it][A
Training...:  15% 403/2609 [23:16<2:59:30,  4.88s/it][A
Training...:  15% 404/2609 [23:22<3:15:15,  5.31s/it][A
Training...:  16% 405/2609 [23:28<3:22:27,  5.51s/it][A
Training...:  16% 406/2609 [23:34<3:24:22,  5.57s/it][A
Training...:  16% 407/2609 [23:40<3:24:16,  5.57s/it][A
Training...:  16% 408/2609 [23:45<3:23:39,  5.55s/it][A
Training...:  16% 409/2609 [23:50<3:19:26,  5.44s/it][A
Training...:  16% 410/2609 [23:55<3:14:27,  5.31s/it][A
Training...:  16% 411/2609 [24:00<3:09:03,  5.16s/it][A
Training...:  16% 412/2609 [24:05<3:03:13,  5.00s/it][A
Training...:  16% 413/2609 [24:09<2:57:44,  4.86s/it][A
Training...:  16% 414/2609 [24:14<2:52:18,  4.71s/it][A
Training...:  16% 415/2609 [24:18<2:47:35,  4.58s/it][A
Training...:  16% 416/2609 [24:22<2:42:29,  4.45s/it][A
Training...:  16% 417/2609 [24:26<2:38:42,  4.34s/it][A
Training...:  16% 418/2609 [24:30<2:34:17,  4.23s/it][A
Training...:  16% 419/2609 [24:34<2:30:38,  4.13s/it][A
Training...:  16% 420/2609 [24:38<2:25:51,  4.00s/it][A
Training...:  16% 421/2609 [24:41<2:22:00,  3.89s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [43:56:52<7:39:29, 9189.94s/it]
Training...:  16% 421/2609 [24:45<2:22:00,  3.89s/it][A
Training...:  16% 422/2609 [24:45<2:24:48,  3.97s/it][A
Training...:  16% 423/2609 [24:49<2:18:57,  3.81s/it][A
Training...:  16% 424/2609 [24:52<2:13:44,  3.67s/it][A
Training...:  16% 425/2609 [24:56<2:13:01,  3.65s/it][A
Training...:  16% 426/2609 [24:59<2:07:38,  3.51s/it][A
Training...:  16% 427/2609 [25:02<2:02:57,  3.38s/it][A
Training...:  16% 428/2609 [25:05<1:58:55,  3.27s/it][A
Training...:  16% 429/2609 [25:08<1:55:14,  3.17s/it][A
Training...:  16% 430/2609 [25:11<1:51:17,  3.06s/it][A
Training...:  17% 431/2609 [25:14<1:49:25,  3.01s/it][A
Training...:  17% 432/2609 [25:16<1:45:34,  2.91s/it][A
Training...:  17% 433/2609 [25:19<1:41:58,  2.81s/it][A
Training...:  17% 434/2609 [25:21<1:38:19,  2.71s/it][A
Training...:  17% 435/2609 [25:24<1:34:33,  2.61s/it][A
Training...:  17% 436/2609 [25:26<1:30:37,  2.50s/it][A
Training...:  17% 437/2609 [25:28<1:26:50,  2.40s/it][A
Training...:  17% 438/2609 [25:30<1:22:46,  2.29s/it][A
Training...:  17% 439/2609 [25:32<1:19:09,  2.19s/it][A
Training...:  17% 440/2609 [25:34<1:15:32,  2.09s/it][A
Training...:  17% 441/2609 [25:36<1:12:26,  2.00s/it][A
Training...:  17% 442/2609 [25:38<1:08:53,  1.91s/it][A
Training...:  17% 443/2609 [25:39<1:05:20,  1.81s/it][A
Training...:  17% 444/2609 [25:41<1:01:43,  1.71s/it][A
Training...:  17% 445/2609 [25:42<58:19,  1.62s/it]  [A
Training...:  17% 446/2609 [25:43<54:15,  1.51s/it][A                                                                                                                                                                   
                                                   [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [43:57:51<7:39:29, 9189.94s/it]
Training...:  17% 446/2609 [25:45<54:15,  1.51s/it][A
Training...:  17% 447/2609 [25:45<53:37,  1.49s/it][A
Training...:  17% 448/2609 [25:46<47:55,  1.33s/it][A
Training...:  17% 449/2609 [25:46<41:59,  1.17s/it][A
Training...:  17% 450/2609 [25:47<35:08,  1.02it/s][A
Training...:  17% 451/2609 [25:54<1:42:51,  2.86s/it][A
Training...:  17% 452/2609 [26:01<2:28:31,  4.13s/it][A
Training...:  17% 453/2609 [26:08<2:56:17,  4.91s/it][A
Training...:  17% 454/2609 [26:14<3:10:17,  5.30s/it][A
Training...:  17% 455/2609 [26:20<3:17:14,  5.49s/it][A
Training...:  17% 456/2609 [26:26<3:19:35,  5.56s/it][A
Training...:  18% 457/2609 [26:31<3:18:32,  5.54s/it][A
Training...:  18% 458/2609 [26:37<3:16:01,  5.47s/it][A
Training...:  18% 459/2609 [26:42<3:11:57,  5.36s/it][A
Training...:  18% 460/2609 [26:47<3:06:20,  5.20s/it][A
Training...:  18% 461/2609 [26:52<3:03:10,  5.12s/it][A
Training...:  18% 462/2609 [26:56<2:58:21,  4.98s/it][A
Training...:  18% 463/2609 [27:01<2:53:07,  4.84s/it][A
Training...:  18% 464/2609 [27:05<2:47:08,  4.68s/it][A
Training...:  18% 465/2609 [27:09<2:42:11,  4.54s/it][A
Training...:  18% 466/2609 [27:13<2:36:50,  4.39s/it][A
Training...:  18% 467/2609 [27:17<2:32:25,  4.27s/it][A
Training...:  18% 468/2609 [27:21<2:27:40,  4.14s/it][A
Training...:  18% 469/2609 [27:25<2:24:06,  4.04s/it][A
Training...:  18% 470/2609 [27:29<2:19:55,  3.92s/it][A
Training...:  18% 471/2609 [27:32<2:16:33,  3.83s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [43:59:43<7:39:29, 9189.94s/it]
Training...:  18% 471/2609 [27:36<2:16:33,  3.83s/it][A
Training...:  18% 472/2609 [27:36<2:19:01,  3.90s/it][A
Training...:  18% 473/2609 [27:40<2:13:28,  3.75s/it][A
Training...:  18% 474/2609 [27:43<2:08:23,  3.61s/it][A
Training...:  18% 475/2609 [27:46<2:03:40,  3.48s/it][A
Training...:  18% 476/2609 [27:49<1:59:10,  3.35s/it][A
Training...:  18% 477/2609 [27:52<1:55:31,  3.25s/it][A
Training...:  18% 478/2609 [27:55<1:52:15,  3.16s/it][A
Training...:  18% 479/2609 [27:58<1:49:09,  3.07s/it][A
Training...:  18% 480/2609 [28:01<1:45:29,  2.97s/it][A
Training...:  18% 481/2609 [28:03<1:42:09,  2.88s/it][A
Training...:  18% 482/2609 [28:06<1:39:01,  2.79s/it][A
Training...:  19% 483/2609 [28:09<1:35:56,  2.71s/it][A
Training...:  19% 484/2609 [28:11<1:32:46,  2.62s/it][A
Training...:  19% 485/2609 [28:13<1:29:45,  2.54s/it][A
Training...:  19% 486/2609 [28:16<1:26:36,  2.45s/it][A
Training...:  19% 487/2609 [28:18<1:23:25,  2.36s/it][A
Training...:  19% 488/2609 [28:20<1:20:20,  2.27s/it][A
Training...:  19% 489/2609 [28:22<1:17:22,  2.19s/it][A
Training...:  19% 490/2609 [28:24<1:14:08,  2.10s/it][A
Training...:  19% 491/2609 [28:25<1:11:07,  2.01s/it][A
Training...:  19% 492/2609 [28:27<1:07:54,  1.92s/it][A
Training...:  19% 493/2609 [28:29<1:04:21,  1.82s/it][A
Training...:  19% 494/2609 [28:30<1:00:53,  1.73s/it][A
Training...:  19% 495/2609 [28:32<57:15,  1.63s/it]  [A
Training...:  19% 496/2609 [28:33<53:18,  1.51s/it][A                                                                                                                                                                   
                                                   [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:00:41<7:39:29, 9189.94s/it]
Training...:  19% 496/2609 [28:34<53:18,  1.51s/it][A
Training...:  19% 497/2609 [28:34<52:43,  1.50s/it][A
Training...:  19% 498/2609 [28:35<46:34,  1.32s/it][A
Training...:  19% 499/2609 [28:36<40:28,  1.15s/it][A
Training...:  19% 500/2609 [28:37<33:49,  1.04it/s][A
Training...:  19% 501/2609 [28:44<1:39:05,  2.82s/it][A
Training...:  19% 502/2609 [28:51<2:23:38,  4.09s/it][A
Training...:  19% 503/2609 [28:57<2:51:00,  4.87s/it][A
Training...:  19% 504/2609 [29:04<3:04:50,  5.27s/it][A
Training...:  19% 505/2609 [29:10<3:12:57,  5.50s/it][A
Training...:  19% 506/2609 [29:15<3:14:29,  5.55s/it][A
Training...:  19% 507/2609 [29:21<3:14:25,  5.55s/it][A
Training...:  19% 508/2609 [29:26<3:10:49,  5.45s/it][A
Training...:  20% 509/2609 [29:31<3:08:34,  5.39s/it][A
Training...:  20% 510/2609 [29:36<3:04:10,  5.26s/it][A
Training...:  20% 511/2609 [29:41<2:59:53,  5.14s/it][A
Training...:  20% 512/2609 [29:46<2:54:27,  4.99s/it][A
Training...:  20% 513/2609 [29:50<2:49:59,  4.87s/it][A
Training...:  20% 514/2609 [29:55<2:44:43,  4.72s/it][A
Training...:  20% 515/2609 [29:59<2:40:13,  4.59s/it][A
Training...:  20% 516/2609 [30:03<2:35:07,  4.45s/it][A
Training...:  20% 517/2609 [30:07<2:31:35,  4.35s/it][A
Training...:  20% 518/2609 [30:11<2:27:05,  4.22s/it][A
Training...:  20% 519/2609 [30:15<2:23:17,  4.11s/it][A
Training...:  20% 520/2609 [30:19<2:19:14,  4.00s/it][A
Training...:  20% 521/2609 [30:22<2:15:20,  3.89s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:02:33<7:39:29, 9189.94s/it]
Training...:  20% 521/2609 [30:27<2:15:20,  3.89s/it][A
Training...:  20% 522/2609 [30:27<2:18:07,  3.97s/it][A
Training...:  20% 523/2609 [30:30<2:12:48,  3.82s/it][A
Training...:  20% 524/2609 [30:33<2:07:30,  3.67s/it][A
Training...:  20% 525/2609 [30:37<2:02:55,  3.54s/it][A
Training...:  20% 526/2609 [30:40<1:58:53,  3.42s/it][A
Training...:  20% 527/2609 [30:43<1:54:56,  3.31s/it][A
Training...:  20% 528/2609 [30:46<1:51:22,  3.21s/it][A
Training...:  20% 529/2609 [30:49<1:48:06,  3.12s/it][A
Training...:  20% 530/2609 [30:52<1:44:51,  3.03s/it][A
Training...:  20% 531/2609 [30:54<1:41:48,  2.94s/it][A
Training...:  20% 532/2609 [30:57<1:39:12,  2.87s/it][A
Training...:  20% 533/2609 [31:00<1:36:55,  2.80s/it][A
Training...:  20% 534/2609 [31:02<1:33:46,  2.71s/it][A
Training...:  21% 535/2609 [31:05<1:30:27,  2.62s/it][A
Training...:  21% 536/2609 [31:07<1:26:58,  2.52s/it][A
Training...:  21% 537/2609 [31:09<1:24:23,  2.44s/it][A
Training...:  21% 538/2609 [31:11<1:20:55,  2.34s/it][A
Training...:  21% 539/2609 [31:13<1:17:41,  2.25s/it][A
Training...:  21% 540/2609 [31:15<1:14:16,  2.15s/it][A
Training...:  21% 541/2609 [31:17<1:11:20,  2.07s/it][A
Training...:  21% 542/2609 [31:19<1:08:21,  1.98s/it][A
Training...:  21% 543/2609 [31:21<1:04:56,  1.89s/it][A
Training...:  21% 544/2609 [31:22<1:00:55,  1.77s/it][A
Training...:  21% 545/2609 [31:23<57:08,  1.66s/it]  [A
Training...:  21% 546/2609 [31:25<53:07,  1.55s/it][A                                                                                                                                                                   
                                                   [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:03:33<7:39:29, 9189.94s/it]
Training...:  21% 546/2609 [31:26<53:07,  1.55s/it][A
Training...:  21% 547/2609 [31:26<52:53,  1.54s/it][A
Training...:  21% 548/2609 [31:27<47:40,  1.39s/it][A
Training...:  21% 549/2609 [31:28<41:47,  1.22s/it][A
Training...:  21% 550/2609 [31:29<34:59,  1.02s/it][A
Training...:  21% 551/2609 [31:36<1:38:08,  2.86s/it][A
Training...:  21% 552/2609 [31:43<2:21:34,  4.13s/it][A
Training...:  21% 553/2609 [31:50<2:47:15,  4.88s/it][A
Training...:  21% 554/2609 [31:56<3:01:05,  5.29s/it][A
Training...:  21% 555/2609 [32:02<3:08:25,  5.50s/it][A
Training...:  21% 556/2609 [32:08<3:11:10,  5.59s/it][A
Training...:  21% 557/2609 [32:13<3:10:54,  5.58s/it][A
Training...:  21% 558/2609 [32:18<3:07:13,  5.48s/it][A
Training...:  21% 559/2609 [32:24<3:04:28,  5.40s/it][A
Training...:  21% 560/2609 [32:28<2:59:18,  5.25s/it][A
Training...:  22% 561/2609 [32:33<2:56:10,  5.16s/it][A
Training...:  22% 562/2609 [32:38<2:51:04,  5.01s/it][A
Training...:  22% 563/2609 [32:43<2:46:58,  4.90s/it][A
Training...:  22% 564/2609 [32:47<2:41:53,  4.75s/it][A
Training...:  22% 565/2609 [32:51<2:37:32,  4.62s/it][A
Training...:  22% 566/2609 [32:56<2:32:57,  4.49s/it][A
Training...:  22% 567/2609 [33:00<2:29:17,  4.39s/it][A
Training...:  22% 568/2609 [33:04<2:25:09,  4.27s/it][A
Training...:  22% 569/2609 [33:08<2:21:38,  4.17s/it][A
Training...:  22% 570/2609 [33:12<2:18:54,  4.09s/it][A
Training...:  22% 571/2609 [33:15<2:14:52,  3.97s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:05:26<7:39:29, 9189.94s/it]
Training...:  22% 571/2609 [33:19<2:14:52,  3.97s/it][A
Training...:  22% 572/2609 [33:19<2:16:50,  4.03s/it][A
Training...:  22% 573/2609 [33:23<2:11:15,  3.87s/it][A
Training...:  22% 574/2609 [33:26<2:06:00,  3.72s/it][A
Training...:  22% 575/2609 [33:30<2:01:29,  3.58s/it][A
Training...:  22% 576/2609 [33:33<1:57:20,  3.46s/it][A
Training...:  22% 577/2609 [33:36<1:53:48,  3.36s/it][A
Training...:  22% 578/2609 [33:39<1:49:33,  3.24s/it][A
Training...:  22% 579/2609 [33:42<1:46:20,  3.14s/it][A
Training...:  22% 580/2609 [33:45<1:43:06,  3.05s/it][A
Training...:  22% 581/2609 [33:47<1:40:23,  2.97s/it][A
Training...:  22% 582/2609 [33:50<1:37:24,  2.88s/it][A
Training...:  22% 583/2609 [33:53<1:34:41,  2.80s/it][A
Training...:  22% 584/2609 [33:55<1:31:12,  2.70s/it][A
Training...:  22% 585/2609 [33:58<1:28:35,  2.63s/it][A
Training...:  22% 586/2609 [34:00<1:25:12,  2.53s/it][A
Training...:  22% 587/2609 [34:02<1:22:15,  2.44s/it][A
Training...:  23% 588/2609 [34:04<1:19:03,  2.35s/it][A
Training...:  23% 589/2609 [34:06<1:15:44,  2.25s/it][A
Training...:  23% 590/2609 [34:08<1:12:22,  2.15s/it][A
Training...:  23% 591/2609 [34:10<1:09:22,  2.06s/it][A
Training...:  23% 592/2609 [34:12<1:06:15,  1.97s/it][A
Training...:  23% 593/2609 [34:13<1:03:21,  1.89s/it][A
Training...:  23% 594/2609 [34:15<1:00:10,  1.79s/it][A
Training...:  23% 595/2609 [34:17<56:58,  1.70s/it]  [A
Training...:  23% 596/2609 [34:18<53:43,  1.60s/it][A                                                                                                                                                                   
                                                   [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:06:26<7:39:29, 9189.94s/it]
Training...:  23% 596/2609 [34:20<53:43,  1.60s/it][A
Training...:  23% 597/2609 [34:20<53:29,  1.60s/it][A
Training...:  23% 598/2609 [34:21<47:53,  1.43s/it][A
Training...:  23% 599/2609 [34:21<41:48,  1.25s/it][A
Training...:  23% 600/2609 [34:22<34:55,  1.04s/it][A
Training...:  23% 601/2609 [34:29<1:34:39,  2.83s/it][A
Training...:  23% 602/2609 [34:36<2:17:26,  4.11s/it][A
Training...:  23% 603/2609 [34:43<2:41:37,  4.83s/it][A
Training...:  23% 604/2609 [34:49<2:55:57,  5.27s/it][A
Training...:  23% 605/2609 [34:55<3:03:39,  5.50s/it][A
Training...:  23% 606/2609 [35:01<3:07:09,  5.61s/it][A
Training...:  23% 607/2609 [35:06<3:06:37,  5.59s/it][A
Training...:  23% 608/2609 [35:12<3:03:53,  5.51s/it][A
Training...:  23% 609/2609 [35:17<3:00:11,  5.41s/it][A
Training...:  23% 610/2609 [35:22<2:55:20,  5.26s/it][A
Training...:  23% 611/2609 [35:27<2:51:38,  5.15s/it][A
Training...:  23% 612/2609 [35:31<2:46:31,  5.00s/it][A
Training...:  23% 613/2609 [35:36<2:42:14,  4.88s/it][A
Training...:  24% 614/2609 [35:40<2:37:15,  4.73s/it][A
Training...:  24% 615/2609 [35:45<2:34:31,  4.65s/it][A
Training...:  24% 616/2609 [35:49<2:30:51,  4.54s/it][A
Training...:  24% 617/2609 [35:53<2:27:30,  4.44s/it][A
Training...:  24% 618/2609 [35:57<2:22:14,  4.29s/it][A
Training...:  24% 619/2609 [36:01<2:18:10,  4.17s/it][A
Training...:  24% 620/2609 [36:05<2:13:32,  4.03s/it][A
Training...:  24% 621/2609 [36:08<2:09:38,  3.91s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:08:19<7:39:29, 9189.94s/it]
Training...:  24% 621/2609 [36:13<2:09:38,  3.91s/it][A
Training...:  24% 622/2609 [36:13<2:12:06,  3.99s/it][A
Training...:  24% 623/2609 [36:16<2:07:03,  3.84s/it][A
Training...:  24% 624/2609 [36:19<2:02:13,  3.69s/it][A
Training...:  24% 625/2609 [36:23<1:58:34,  3.59s/it][A
Training...:  24% 626/2609 [36:26<1:54:43,  3.47s/it][A
Training...:  24% 627/2609 [36:29<1:51:24,  3.37s/it][A
Training...:  24% 628/2609 [36:32<1:47:38,  3.26s/it][A
Training...:  24% 629/2609 [36:35<1:44:31,  3.17s/it][A
Training...:  24% 630/2609 [36:38<1:41:14,  3.07s/it][A
Training...:  24% 631/2609 [36:41<1:38:29,  2.99s/it][A
Training...:  24% 632/2609 [36:43<1:35:22,  2.89s/it][A
Training...:  24% 633/2609 [36:46<1:33:01,  2.82s/it][A
Training...:  24% 634/2609 [36:48<1:29:53,  2.73s/it][A
Training...:  24% 635/2609 [36:51<1:27:39,  2.66s/it][A
Training...:  24% 636/2609 [36:53<1:24:34,  2.57s/it][A
Training...:  24% 637/2609 [36:56<1:21:22,  2.48s/it][A
Training...:  24% 638/2609 [36:58<1:18:41,  2.40s/it][A
Training...:  24% 639/2609 [37:00<1:15:28,  2.30s/it][A
Training...:  25% 640/2609 [37:02<1:12:09,  2.20s/it][A
Training...:  25% 641/2609 [37:04<1:09:04,  2.11s/it][A
Training...:  25% 642/2609 [37:05<1:05:32,  2.00s/it][A
Training...:  25% 643/2609 [37:07<1:02:39,  1.91s/it][A
Training...:  25% 644/2609 [37:09<59:09,  1.81s/it]  [A
Training...:  25% 645/2609 [37:10<55:37,  1.70s/it][A
Training...:  25% 646/2609 [37:11<51:46,  1.58s/it][A                                                                                                                                                                   
                                                   [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:09:20<7:39:29, 9189.94s/it]
Training...:  25% 646/2609 [37:13<51:46,  1.58s/it][A
Training...:  25% 647/2609 [37:13<51:12,  1.57s/it][A
Training...:  25% 648/2609 [37:14<45:40,  1.40s/it][A
Training...:  25% 649/2609 [37:15<40:01,  1.23s/it][A
Training...:  25% 650/2609 [37:15<33:36,  1.03s/it][A
Training...:  25% 651/2609 [37:23<1:34:19,  2.89s/it][A
Training...:  25% 652/2609 [37:30<2:14:48,  4.13s/it][A
Training...:  25% 653/2609 [37:36<2:39:45,  4.90s/it][A
Training...:  25% 654/2609 [37:43<2:53:39,  5.33s/it][A
Training...:  25% 655/2609 [37:49<3:00:02,  5.53s/it][A
Training...:  25% 656/2609 [37:54<3:01:23,  5.57s/it][A
Training...:  25% 657/2609 [38:00<3:00:42,  5.55s/it][A
Training...:  25% 658/2609 [38:05<2:59:55,  5.53s/it][A
Training...:  25% 659/2609 [38:11<2:56:56,  5.44s/it][A
Training...:  25% 660/2609 [38:16<2:52:57,  5.32s/it][A
Training...:  25% 661/2609 [38:20<2:47:35,  5.16s/it][A
Training...:  25% 662/2609 [38:25<2:42:08,  5.00s/it][A
Training...:  25% 663/2609 [38:30<2:37:44,  4.86s/it][A
Training...:  25% 664/2609 [38:34<2:32:58,  4.72s/it][A
Training...:  25% 665/2609 [38:38<2:29:00,  4.60s/it][A
Training...:  26% 666/2609 [38:42<2:24:23,  4.46s/it][A
Training...:  26% 667/2609 [38:46<2:20:23,  4.34s/it][A
Training...:  26% 668/2609 [38:50<2:16:21,  4.21s/it][A
Training...:  26% 669/2609 [38:54<2:13:24,  4.13s/it][A
Training...:  26% 670/2609 [38:58<2:10:23,  4.03s/it][A
Training...:  26% 671/2609 [39:02<2:06:57,  3.93s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:11:13<7:39:29, 9189.94s/it]
Training...:  26% 671/2609 [39:06<2:06:57,  3.93s/it][A
Training...:  26% 672/2609 [39:06<2:08:54,  3.99s/it][A
Training...:  26% 673/2609 [39:09<2:03:47,  3.84s/it][A
Training...:  26% 674/2609 [39:13<1:59:03,  3.69s/it][A
Training...:  26% 675/2609 [39:16<1:54:30,  3.55s/it][A
Training...:  26% 676/2609 [39:19<1:50:38,  3.43s/it][A
Training...:  26% 677/2609 [39:22<1:47:33,  3.34s/it][A
Training...:  26% 678/2609 [39:25<1:44:38,  3.25s/it][A
Training...:  26% 679/2609 [39:28<1:41:17,  3.15s/it][A
Training...:  26% 680/2609 [39:31<1:38:16,  3.06s/it][A
Training...:  26% 681/2609 [39:34<1:35:14,  2.96s/it][A
Training...:  26% 682/2609 [39:37<1:32:02,  2.87s/it][A
Training...:  26% 683/2609 [39:39<1:29:07,  2.78s/it][A
Training...:  26% 684/2609 [39:42<1:26:22,  2.69s/it][A
Training...:  26% 685/2609 [39:44<1:23:45,  2.61s/it][A
Training...:  26% 686/2609 [39:46<1:21:04,  2.53s/it][A
Training...:  26% 687/2609 [39:49<1:19:01,  2.47s/it][A
Training...:  26% 688/2609 [39:51<1:16:06,  2.38s/it][A
Training...:  26% 689/2609 [39:53<1:12:47,  2.27s/it][A
Training...:  26% 690/2609 [39:55<1:09:37,  2.18s/it][A
Training...:  26% 691/2609 [39:57<1:06:33,  2.08s/it][A
Training...:  27% 692/2609 [39:58<1:03:37,  1.99s/it][A
Training...:  27% 693/2609 [40:00<1:00:40,  1.90s/it][A
Training...:  27% 694/2609 [40:02<57:08,  1.79s/it]  [A
Training...:  27% 695/2609 [40:03<53:32,  1.68s/it][A
Training...:  27% 696/2609 [40:04<49:41,  1.56s/it][A                                                                                                                                                                   
                                                   [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:12:12<7:39:29, 9189.94s/it]
Training...:  27% 696/2609 [40:06<49:41,  1.56s/it][A
Training...:  27% 697/2609 [40:06<48:55,  1.54s/it][A
Training...:  27% 698/2609 [40:07<43:50,  1.38s/it][A
Training...:  27% 699/2609 [40:08<38:27,  1.21s/it][A
Training...:  27% 700/2609 [40:08<32:03,  1.01s/it][A
Training...:  27% 701/2609 [40:15<1:31:56,  2.89s/it][A
Training...:  27% 702/2609 [40:23<2:11:40,  4.14s/it][A
Training...:  27% 703/2609 [40:29<2:34:50,  4.87s/it][A
Training...:  27% 704/2609 [40:35<2:46:28,  5.24s/it][A
Training...:  27% 705/2609 [40:41<2:52:00,  5.42s/it][A
Training...:  27% 706/2609 [40:47<2:54:20,  5.50s/it][A
Training...:  27% 707/2609 [40:52<2:53:37,  5.48s/it][A
Training...:  27% 708/2609 [40:57<2:50:18,  5.38s/it][A
Training...:  27% 709/2609 [41:02<2:46:24,  5.26s/it][A
Training...:  27% 710/2609 [41:07<2:42:14,  5.13s/it][A
Training...:  27% 711/2609 [41:12<2:38:22,  5.01s/it][A
Training...:  27% 712/2609 [41:16<2:34:14,  4.88s/it][A
Training...:  27% 713/2609 [41:21<2:30:32,  4.76s/it][A
Training...:  27% 714/2609 [41:25<2:26:20,  4.63s/it][A
Training...:  27% 715/2609 [41:29<2:22:26,  4.51s/it][A
Training...:  27% 716/2609 [41:34<2:17:59,  4.37s/it][A
Training...:  27% 717/2609 [41:38<2:14:21,  4.26s/it][A
Training...:  28% 718/2609 [41:41<2:11:09,  4.16s/it][A
Training...:  28% 719/2609 [41:45<2:09:20,  4.11s/it][A
Training...:  28% 720/2609 [41:49<2:05:55,  4.00s/it][A
Training...:  28% 721/2609 [41:53<2:02:18,  3.89s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:14:04<7:39:29, 9189.94s/it]
Training...:  28% 721/2609 [41:57<2:02:18,  3.89s/it][A
Training...:  28% 722/2609 [41:57<2:04:46,  3.97s/it][A
Training...:  28% 723/2609 [42:00<1:59:11,  3.79s/it][A
Training...:  28% 724/2609 [42:04<1:54:30,  3.64s/it][A
Training...:  28% 725/2609 [42:07<1:50:08,  3.51s/it][A
Training...:  28% 726/2609 [42:10<1:46:12,  3.38s/it][A
Training...:  28% 727/2609 [42:13<1:42:26,  3.27s/it][A
Training...:  28% 728/2609 [42:16<1:39:07,  3.16s/it][A
Training...:  28% 729/2609 [42:19<1:36:02,  3.06s/it][A
Training...:  28% 730/2609 [42:21<1:33:08,  2.97s/it][A
Training...:  28% 731/2609 [42:24<1:30:02,  2.88s/it][A
Training...:  28% 732/2609 [42:27<1:27:02,  2.78s/it][A
Training...:  28% 733/2609 [42:29<1:24:34,  2.70s/it][A
Training...:  28% 734/2609 [42:32<1:21:58,  2.62s/it][A
Training...:  28% 735/2609 [42:34<1:19:04,  2.53s/it][A
Training...:  28% 736/2609 [42:36<1:16:27,  2.45s/it][A
Training...:  28% 737/2609 [42:38<1:13:55,  2.37s/it][A
Training...:  28% 738/2609 [42:40<1:11:03,  2.28s/it][A
Training...:  28% 739/2609 [42:42<1:08:23,  2.19s/it][A
Training...:  28% 740/2609 [42:44<1:05:49,  2.11s/it][A
Training...:  28% 741/2609 [42:46<1:02:56,  2.02s/it][A
Training...:  28% 742/2609 [42:48<59:57,  1.93s/it]  [A
Training...:  28% 743/2609 [42:50<57:17,  1.84s/it][A
Training...:  29% 744/2609 [42:51<54:04,  1.74s/it][A
Training...:  29% 745/2609 [42:52<50:41,  1.63s/it][A
Training...:  29% 746/2609 [42:54<47:06,  1.52s/it][A                                                                                                                                                                   
                                                   [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:15:02<7:39:29, 9189.94s/it]
Training...:  29% 746/2609 [42:55<47:06,  1.52s/it][A
Training...:  29% 747/2609 [42:55<46:42,  1.51s/it][A
Training...:  29% 748/2609 [42:56<41:44,  1.35s/it][A
Training...:  29% 749/2609 [42:57<36:48,  1.19s/it][A
Training...:  29% 750/2609 [42:57<30:49,  1.01it/s][A
Training...:  29% 751/2609 [43:05<1:28:05,  2.84s/it][A
Training...:  29% 752/2609 [43:12<2:07:33,  4.12s/it][A
Training...:  29% 753/2609 [43:18<2:31:39,  4.90s/it][A
Training...:  29% 754/2609 [43:25<2:44:36,  5.32s/it][A
Training...:  29% 755/2609 [43:31<2:50:45,  5.53s/it][A
Training...:  29% 756/2609 [43:36<2:52:16,  5.58s/it][A
Training...:  29% 757/2609 [43:42<2:52:34,  5.59s/it][A
Training...:  29% 758/2609 [43:48<2:52:27,  5.59s/it][A
Training...:  29% 759/2609 [43:53<2:49:10,  5.49s/it][A
Training...:  29% 760/2609 [43:58<2:44:50,  5.35s/it][A
Training...:  29% 761/2609 [44:03<2:40:04,  5.20s/it][A
Training...:  29% 762/2609 [44:07<2:34:39,  5.02s/it][A
Training...:  29% 763/2609 [44:12<2:30:12,  4.88s/it][A
Training...:  29% 764/2609 [44:16<2:25:32,  4.73s/it][A
Training...:  29% 765/2609 [44:21<2:22:26,  4.63s/it][A
Training...:  29% 766/2609 [44:25<2:18:43,  4.52s/it][A
Training...:  29% 767/2609 [44:29<2:14:16,  4.37s/it][A
Training...:  29% 768/2609 [44:33<2:09:57,  4.24s/it][A
Training...:  29% 769/2609 [44:37<2:05:55,  4.11s/it][A
Training...:  30% 770/2609 [44:40<2:02:02,  3.98s/it][A
Training...:  30% 771/2609 [44:44<1:59:00,  3.88s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:16:55<7:39:29, 9189.94s/it]
Training...:  30% 771/2609 [44:48<1:59:00,  3.88s/it][A
Training...:  30% 772/2609 [44:48<2:01:15,  3.96s/it][A
Training...:  30% 773/2609 [44:52<1:56:10,  3.80s/it][A
Training...:  30% 774/2609 [44:55<1:51:50,  3.66s/it][A
Training...:  30% 775/2609 [44:58<1:48:38,  3.55s/it][A
Training...:  30% 776/2609 [45:01<1:44:32,  3.42s/it][A
Training...:  30% 777/2609 [45:04<1:41:18,  3.32s/it][A
Training...:  30% 778/2609 [45:07<1:37:52,  3.21s/it][A
Training...:  30% 779/2609 [45:10<1:34:49,  3.11s/it][A
Training...:  30% 780/2609 [45:13<1:31:31,  3.00s/it][A
Training...:  30% 781/2609 [45:16<1:28:29,  2.90s/it][A
Training...:  30% 782/2609 [45:18<1:25:57,  2.82s/it][A
Training...:  30% 783/2609 [45:21<1:23:06,  2.73s/it][A
Training...:  30% 784/2609 [45:23<1:20:08,  2.64s/it][A
Training...:  30% 785/2609 [45:26<1:17:31,  2.55s/it][A
Training...:  30% 786/2609 [45:28<1:14:34,  2.45s/it][A
Training...:  30% 787/2609 [45:30<1:11:29,  2.35s/it][A
Training...:  30% 788/2609 [45:32<1:08:45,  2.27s/it][A
Training...:  30% 789/2609 [45:34<1:05:39,  2.16s/it][A
Training...:  30% 790/2609 [45:36<1:02:50,  2.07s/it][A
Training...:  30% 791/2609 [45:38<1:00:18,  1.99s/it][A
Training...:  30% 792/2609 [45:39<57:21,  1.89s/it]  [A
Training...:  30% 793/2609 [45:41<53:56,  1.78s/it][A
Training...:  30% 794/2609 [45:42<50:50,  1.68s/it][A
Training...:  30% 795/2609 [45:44<47:34,  1.57s/it][A
Training...:  31% 796/2609 [45:45<44:50,  1.48s/it][A                                                                                                                                                                   
                                                   [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:17:53<7:39:29, 9189.94s/it]
Training...:  31% 796/2609 [45:46<44:50,  1.48s/it][A
Training...:  31% 797/2609 [45:46<44:46,  1.48s/it][A
Training...:  31% 798/2609 [45:47<39:47,  1.32s/it][A
Training...:  31% 799/2609 [45:48<34:56,  1.16s/it][A
Training...:  31% 800/2609 [45:49<29:18,  1.03it/s][A
Training...:  31% 801/2609 [45:56<1:25:51,  2.85s/it][A
Training...:  31% 802/2609 [46:03<2:03:58,  4.12s/it][A
Training...:  31% 803/2609 [46:09<2:24:49,  4.81s/it][A
Training...:  31% 804/2609 [46:15<2:36:00,  5.19s/it][A
Training...:  31% 805/2609 [46:21<2:42:37,  5.41s/it][A
Training...:  31% 806/2609 [46:27<2:43:56,  5.46s/it][A
Training...:  31% 807/2609 [46:32<2:43:37,  5.45s/it][A
Training...:  31% 808/2609 [46:38<2:41:24,  5.38s/it][A
Training...:  31% 809/2609 [46:43<2:38:47,  5.29s/it][A
Training...:  31% 810/2609 [46:47<2:34:20,  5.15s/it][A
Training...:  31% 811/2609 [46:52<2:31:49,  5.07s/it][A
Training...:  31% 812/2609 [46:57<2:27:28,  4.92s/it][A
Training...:  31% 813/2609 [47:02<2:24:41,  4.83s/it][A
Training...:  31% 814/2609 [47:06<2:20:50,  4.71s/it][A
Training...:  31% 815/2609 [47:10<2:17:53,  4.61s/it][A
Training...:  31% 816/2609 [47:14<2:13:22,  4.46s/it][A
Training...:  31% 817/2609 [47:19<2:10:25,  4.37s/it][A
Training...:  31% 818/2609 [47:23<2:06:16,  4.23s/it][A
Training...:  31% 819/2609 [47:26<2:02:30,  4.11s/it][A
Training...:  31% 820/2609 [47:30<1:59:06,  3.99s/it][A
Training...:  31% 821/2609 [47:34<1:56:58,  3.93s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:19:45<7:39:29, 9189.94s/it]
Training...:  31% 821/2609 [47:38<1:56:58,  3.93s/it][A
Training...:  32% 822/2609 [47:38<1:59:12,  4.00s/it][A
Training...:  32% 823/2609 [47:41<1:53:41,  3.82s/it][A
Training...:  32% 824/2609 [47:45<1:49:14,  3.67s/it][A
Training...:  32% 825/2609 [47:48<1:45:33,  3.55s/it][A
Training...:  32% 826/2609 [47:51<1:42:02,  3.43s/it][A
Training...:  32% 827/2609 [47:54<1:38:56,  3.33s/it][A
Training...:  32% 828/2609 [47:57<1:37:05,  3.27s/it][A
Training...:  32% 829/2609 [48:00<1:35:00,  3.20s/it][A
Training...:  32% 830/2609 [48:03<1:33:06,  3.14s/it][A
Training...:  32% 831/2609 [48:06<1:30:23,  3.05s/it][A
Training...:  32% 832/2609 [48:09<1:27:59,  2.97s/it][A
Training...:  32% 833/2609 [48:12<1:25:31,  2.89s/it][A
Training...:  32% 834/2609 [48:14<1:22:40,  2.79s/it][A
Training...:  32% 835/2609 [48:17<1:20:18,  2.72s/it][A
Training...:  32% 836/2609 [48:19<1:18:02,  2.64s/it][A
Training...:  32% 837/2609 [48:22<1:15:46,  2.57s/it][A
Training...:  32% 838/2609 [48:24<1:13:00,  2.47s/it][A
Training...:  32% 839/2609 [48:26<1:10:46,  2.40s/it][A
Training...:  32% 840/2609 [48:28<1:08:19,  2.32s/it][A
Training...:  32% 841/2609 [48:30<1:05:25,  2.22s/it][A
Training...:  32% 842/2609 [48:32<1:02:24,  2.12s/it][A
Training...:  32% 843/2609 [48:34<59:17,  2.01s/it]  [A
Training...:  32% 844/2609 [48:36<55:55,  1.90s/it][A
Training...:  32% 845/2609 [48:37<52:51,  1.80s/it][A
Training...:  32% 846/2609 [48:39<49:13,  1.68s/it][A                                                                                                                                                                   
                                                   [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:20:47<7:39:29, 9189.94s/it]
Training...:  32% 846/2609 [48:40<49:13,  1.68s/it][A
Training...:  32% 847/2609 [48:40<48:12,  1.64s/it][A
Training...:  33% 848/2609 [48:41<43:13,  1.47s/it][A
Training...:  33% 849/2609 [48:42<37:50,  1.29s/it][A
Training...:  33% 850/2609 [48:43<31:35,  1.08s/it][A
Training...:  33% 851/2609 [48:50<1:26:05,  2.94s/it][A
Training...:  33% 852/2609 [48:57<2:03:42,  4.22s/it][A
Training...:  33% 853/2609 [49:04<2:27:48,  5.05s/it][A
Training...:  33% 854/2609 [49:11<2:39:59,  5.47s/it][A
Training...:  33% 855/2609 [49:17<2:47:35,  5.73s/it][A
Training...:  33% 856/2609 [49:23<2:49:28,  5.80s/it][A
Training...:  33% 857/2609 [49:29<2:51:34,  5.88s/it][A
Training...:  33% 858/2609 [49:35<2:53:26,  5.94s/it][A
Training...:  33% 859/2609 [49:40<2:48:01,  5.76s/it][A
Training...:  33% 860/2609 [49:45<2:41:54,  5.55s/it][A
Training...:  33% 861/2609 [49:50<2:36:11,  5.36s/it][A
Training...:  33% 862/2609 [49:55<2:30:55,  5.18s/it][A
Training...:  33% 863/2609 [50:00<2:26:12,  5.02s/it][A
Training...:  33% 864/2609 [50:04<2:21:14,  4.86s/it][A
Training...:  33% 865/2609 [50:09<2:17:23,  4.73s/it][A
Training...:  33% 866/2609 [50:13<2:12:53,  4.57s/it][A
Training...:  33% 867/2609 [50:17<2:08:46,  4.44s/it][A
Training...:  33% 868/2609 [50:21<2:04:22,  4.29s/it][A
Training...:  33% 869/2609 [50:25<2:00:26,  4.15s/it][A
Training...:  33% 870/2609 [50:28<1:56:41,  4.03s/it][A
Training...:  33% 871/2609 [50:32<1:53:17,  3.91s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:22:43<7:39:29, 9189.94s/it]
Training...:  33% 871/2609 [50:36<1:53:17,  3.91s/it][A
Training...:  33% 872/2609 [50:36<1:55:14,  3.98s/it][A
Training...:  33% 873/2609 [50:40<1:50:36,  3.82s/it][A
Training...:  33% 874/2609 [50:43<1:46:37,  3.69s/it][A
Training...:  34% 875/2609 [50:46<1:42:49,  3.56s/it][A
Training...:  34% 876/2609 [50:50<1:39:12,  3.43s/it][A
Training...:  34% 877/2609 [50:53<1:36:22,  3.34s/it][A
Training...:  34% 878/2609 [50:56<1:33:50,  3.25s/it][A
Training...:  34% 879/2609 [50:59<1:31:24,  3.17s/it][A
Training...:  34% 880/2609 [51:01<1:28:32,  3.07s/it][A
Training...:  34% 881/2609 [51:04<1:26:25,  3.00s/it][A
Training...:  34% 882/2609 [51:07<1:24:12,  2.93s/it][A
Training...:  34% 883/2609 [51:10<1:21:32,  2.83s/it][A
Training...:  34% 884/2609 [51:12<1:18:40,  2.74s/it][A
Training...:  34% 885/2609 [51:15<1:16:22,  2.66s/it][A
Training...:  34% 886/2609 [51:17<1:13:14,  2.55s/it][A
Training...:  34% 887/2609 [51:19<1:10:13,  2.45s/it][A
Training...:  34% 888/2609 [51:21<1:07:29,  2.35s/it][A
Training...:  34% 889/2609 [51:23<1:04:46,  2.26s/it][A
Training...:  34% 890/2609 [51:25<1:02:02,  2.17s/it][A
Training...:  34% 891/2609 [51:27<59:36,  2.08s/it]  [A
Training...:  34% 892/2609 [51:29<56:55,  1.99s/it][A
Training...:  34% 893/2609 [51:31<54:12,  1.90s/it][A
Training...:  34% 894/2609 [51:32<51:09,  1.79s/it][A
Training...:  34% 895/2609 [51:34<48:35,  1.70s/it][A
Training...:  34% 896/2609 [51:35<45:16,  1.59s/it][A                                                                                                                                                                   
                                                   [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:23:43<7:39:29, 9189.94s/it]
Training...:  34% 896/2609 [51:37<45:16,  1.59s/it][A
Training...:  34% 897/2609 [51:37<45:22,  1.59s/it][A
Training...:  34% 898/2609 [51:38<40:43,  1.43s/it][A
Training...:  34% 899/2609 [51:39<35:55,  1.26s/it][A
Training...:  34% 900/2609 [51:39<30:08,  1.06s/it][A
Training...:  35% 901/2609 [51:46<1:23:25,  2.93s/it][A
Training...:  35% 902/2609 [51:53<1:58:42,  4.17s/it][A
Training...:  35% 903/2609 [52:00<2:19:50,  4.92s/it][A
Training...:  35% 904/2609 [52:06<2:31:33,  5.33s/it][A
Training...:  35% 905/2609 [52:13<2:38:20,  5.58s/it][A
Training...:  35% 906/2609 [52:18<2:40:45,  5.66s/it][A
Training...:  35% 907/2609 [52:24<2:40:44,  5.67s/it][A
Training...:  35% 908/2609 [52:30<2:39:30,  5.63s/it][A
Training...:  35% 909/2609 [52:35<2:36:34,  5.53s/it][A
Training...:  35% 910/2609 [52:40<2:32:09,  5.37s/it][A
Training...:  35% 911/2609 [52:45<2:28:12,  5.24s/it][A
Training...:  35% 912/2609 [52:50<2:24:04,  5.09s/it][A
Training...:  35% 913/2609 [52:54<2:19:50,  4.95s/it][A
Training...:  35% 914/2609 [52:59<2:15:50,  4.81s/it][A
Training...:  35% 915/2609 [53:03<2:11:49,  4.67s/it][A
Training...:  35% 916/2609 [53:07<2:07:56,  4.53s/it][A
Training...:  35% 917/2609 [53:11<2:03:56,  4.39s/it][A
Training...:  35% 918/2609 [53:15<2:00:57,  4.29s/it][A
Training...:  35% 919/2609 [53:19<1:57:33,  4.17s/it][A
Training...:  35% 920/2609 [53:23<1:54:27,  4.07s/it][A
Training...:  35% 921/2609 [53:27<1:51:29,  3.96s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:25:38<7:39:29, 9189.94s/it]
Training...:  35% 921/2609 [53:31<1:51:29,  3.96s/it][A
Training...:  35% 922/2609 [53:31<1:53:18,  4.03s/it][A
Training...:  35% 923/2609 [53:35<1:48:43,  3.87s/it][A
Training...:  35% 924/2609 [53:38<1:44:29,  3.72s/it][A
Training...:  35% 925/2609 [53:41<1:40:48,  3.59s/it][A
Training...:  35% 926/2609 [53:44<1:37:16,  3.47s/it][A
Training...:  36% 927/2609 [53:48<1:34:24,  3.37s/it][A
Training...:  36% 928/2609 [53:50<1:31:07,  3.25s/it][A
Training...:  36% 929/2609 [53:53<1:28:48,  3.17s/it][A
Training...:  36% 930/2609 [53:56<1:26:47,  3.10s/it][A
Training...:  36% 931/2609 [53:59<1:24:37,  3.03s/it][A
Training...:  36% 932/2609 [54:02<1:21:37,  2.92s/it][A
Training...:  36% 933/2609 [54:05<1:18:50,  2.82s/it][A
Training...:  36% 934/2609 [54:07<1:15:54,  2.72s/it][A
Training...:  36% 935/2609 [54:09<1:13:25,  2.63s/it][A
Training...:  36% 936/2609 [54:12<1:10:42,  2.54s/it][A
Training...:  36% 937/2609 [54:14<1:08:10,  2.45s/it][A
Training...:  36% 938/2609 [54:16<1:05:14,  2.34s/it][A
Training...:  36% 939/2609 [54:18<1:02:46,  2.26s/it][A
Training...:  36% 940/2609 [54:20<1:00:03,  2.16s/it][A
Training...:  36% 941/2609 [54:22<57:32,  2.07s/it]  [A
Training...:  36% 942/2609 [54:24<54:54,  1.98s/it][A
Training...:  36% 943/2609 [54:25<52:28,  1.89s/it][A
Training...:  36% 944/2609 [54:27<49:48,  1.79s/it][A
Training...:  36% 945/2609 [54:28<46:59,  1.69s/it][A
Training...:  36% 946/2609 [54:30<43:42,  1.58s/it][A                                                                                                                                                                   
                                                   [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:26:38<7:39:29, 9189.94s/it]
Training...:  36% 946/2609 [54:31<43:42,  1.58s/it][A
Training...:  36% 947/2609 [54:31<43:16,  1.56s/it][A
Training...:  36% 948/2609 [54:32<38:49,  1.40s/it][A
Training...:  36% 949/2609 [54:33<34:09,  1.23s/it][A
Training...:  36% 950/2609 [54:34<28:49,  1.04s/it][A
Training...:  36% 951/2609 [54:41<1:19:40,  2.88s/it][A
Training...:  36% 952/2609 [54:48<1:57:11,  4.24s/it][A
Training...:  37% 953/2609 [54:55<2:16:01,  4.93s/it][A
Training...:  37% 954/2609 [55:01<2:26:30,  5.31s/it][A
Training...:  37% 955/2609 [55:07<2:32:11,  5.52s/it][A
Training...:  37% 956/2609 [55:13<2:33:39,  5.58s/it][A
Training...:  37% 957/2609 [55:18<2:31:41,  5.51s/it][A
Training...:  37% 958/2609 [55:23<2:28:07,  5.38s/it][A
Training...:  37% 959/2609 [55:28<2:24:37,  5.26s/it][A
Training...:  37% 960/2609 [55:33<2:21:25,  5.15s/it][A
Training...:  37% 961/2609 [55:38<2:18:21,  5.04s/it][A
Training...:  37% 962/2609 [55:42<2:15:07,  4.92s/it][A
Training...:  37% 963/2609 [55:47<2:11:34,  4.80s/it][A
Training...:  37% 964/2609 [55:51<2:07:21,  4.65s/it][A
Training...:  37% 965/2609 [55:55<2:03:43,  4.52s/it][A
Training...:  37% 966/2609 [56:00<1:59:58,  4.38s/it][A
Training...:  37% 967/2609 [56:04<1:56:21,  4.25s/it][A
Training...:  37% 968/2609 [56:07<1:53:42,  4.16s/it][A
Training...:  37% 969/2609 [56:11<1:50:35,  4.05s/it][A
Training...:  37% 970/2609 [56:15<1:47:37,  3.94s/it][A
Training...:  37% 971/2609 [56:19<1:45:15,  3.86s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:28:29<7:39:29, 9189.94s/it]
Training...:  37% 971/2609 [56:23<1:45:15,  3.86s/it][A
Training...:  37% 972/2609 [56:23<1:47:14,  3.93s/it][A
Training...:  37% 973/2609 [56:26<1:43:29,  3.80s/it][A
Training...:  37% 974/2609 [56:30<1:39:47,  3.66s/it][A
Training...:  37% 975/2609 [56:33<1:36:06,  3.53s/it][A
Training...:  37% 976/2609 [56:36<1:32:33,  3.40s/it][A
Training...:  37% 977/2609 [56:39<1:29:30,  3.29s/it][A
Training...:  37% 978/2609 [56:42<1:26:33,  3.18s/it][A
Training...:  38% 979/2609 [56:45<1:23:56,  3.09s/it][A
Training...:  38% 980/2609 [56:47<1:21:31,  3.00s/it][A
Training...:  38% 981/2609 [56:50<1:19:06,  2.92s/it][A
Training...:  38% 982/2609 [56:53<1:16:34,  2.82s/it][A
Training...:  38% 983/2609 [56:55<1:14:00,  2.73s/it][A
Training...:  38% 984/2609 [56:58<1:11:29,  2.64s/it][A
Training...:  38% 985/2609 [57:00<1:09:23,  2.56s/it][A
Training...:  38% 986/2609 [57:02<1:06:52,  2.47s/it][A
Training...:  38% 987/2609 [57:05<1:04:28,  2.39s/it][A
Training...:  38% 988/2609 [57:07<1:02:24,  2.31s/it][A
Training...:  38% 989/2609 [57:09<59:58,  2.22s/it]  [A
Training...:  38% 990/2609 [57:11<57:46,  2.14s/it][A
Training...:  38% 991/2609 [57:13<55:33,  2.06s/it][A
Training...:  38% 992/2609 [57:14<52:35,  1.95s/it][A
Training...:  38% 993/2609 [57:16<49:33,  1.84s/it][A
Training...:  38% 994/2609 [57:17<46:35,  1.73s/it][A
Training...:  38% 995/2609 [57:19<43:56,  1.63s/it][A
Training...:  38% 996/2609 [57:20<40:49,  1.52s/it][A                                                                                                                                                                   
                                                   [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:29:28<7:39:29, 9189.94s/it]
Training...:  38% 996/2609 [57:21<40:49,  1.52s/it][A
Training...:  38% 997/2609 [57:21<40:25,  1.50s/it][A
Training...:  38% 998/2609 [57:22<36:12,  1.35s/it][A
Training...:  38% 999/2609 [57:23<31:52,  1.19s/it][A
Training...:  38% 1000/2609 [57:24<26:55,  1.00s/it][A
Training...:  38% 1001/2609 [57:31<1:16:43,  2.86s/it][A
Training...:  38% 1002/2609 [57:38<1:49:15,  4.08s/it][A
Training...:  38% 1003/2609 [57:44<2:08:57,  4.82s/it][A
Training...:  38% 1004/2609 [57:51<2:19:49,  5.23s/it][A
Training...:  39% 1005/2609 [57:57<2:25:46,  5.45s/it][A
Training...:  39% 1006/2609 [58:02<2:27:27,  5.52s/it][A
Training...:  39% 1007/2609 [58:08<2:27:41,  5.53s/it][A
Training...:  39% 1008/2609 [58:13<2:25:19,  5.45s/it][A
Training...:  39% 1009/2609 [58:18<2:22:26,  5.34s/it][A
Training...:  39% 1010/2609 [58:23<2:19:02,  5.22s/it][A
Training...:  39% 1011/2609 [58:28<2:15:29,  5.09s/it][A
Training...:  39% 1012/2609 [58:33<2:11:35,  4.94s/it][A
Training...:  39% 1013/2609 [58:37<2:07:57,  4.81s/it][A
Training...:  39% 1014/2609 [58:41<2:04:20,  4.68s/it][A
Training...:  39% 1015/2609 [58:46<2:01:27,  4.57s/it][A
Training...:  39% 1016/2609 [58:50<1:57:47,  4.44s/it][A
Training...:  39% 1017/2609 [58:54<1:55:20,  4.35s/it][A
Training...:  39% 1018/2609 [58:58<1:52:16,  4.23s/it][A
Training...:  39% 1019/2609 [59:02<1:49:16,  4.12s/it][A
Training...:  39% 1020/2609 [59:06<1:46:15,  4.01s/it][A
Training...:  39% 1021/2609 [59:09<1:43:20,  3.90s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:31:20<7:39:29, 9189.94s/it]
Training...:  39% 1021/2609 [59:13<1:43:20,  3.90s/it][A
Training...:  39% 1022/2609 [59:13<1:44:58,  3.97s/it][A
Training...:  39% 1023/2609 [59:17<1:40:47,  3.81s/it][A
Training...:  39% 1024/2609 [59:20<1:36:41,  3.66s/it][A
Training...:  39% 1025/2609 [59:23<1:33:07,  3.53s/it][A
Training...:  39% 1026/2609 [59:26<1:29:36,  3.40s/it][A
Training...:  39% 1027/2609 [59:30<1:27:19,  3.31s/it][A
Training...:  39% 1028/2609 [59:32<1:24:14,  3.20s/it][A
Training...:  39% 1029/2609 [59:35<1:21:50,  3.11s/it][A
Training...:  39% 1030/2609 [59:38<1:19:17,  3.01s/it][A
Training...:  40% 1031/2609 [59:41<1:16:49,  2.92s/it][A
Training...:  40% 1032/2609 [59:43<1:14:39,  2.84s/it][A
Training...:  40% 1033/2609 [59:46<1:12:39,  2.77s/it][A
Training...:  40% 1034/2609 [59:49<1:10:22,  2.68s/it][A
Training...:  40% 1035/2609 [59:51<1:07:52,  2.59s/it][A
Training...:  40% 1036/2609 [59:53<1:05:10,  2.49s/it][A
Training...:  40% 1037/2609 [59:55<1:03:03,  2.41s/it][A
Training...:  40% 1038/2609 [59:57<1:00:27,  2.31s/it][A
Training...:  40% 1039/2609 [59:59<57:59,  2.22s/it]  [A
Training...:  40% 1040/2609 [1:00:01<55:24,  2.12s/it][A
Training...:  40% 1041/2609 [1:00:03<52:58,  2.03s/it][A
Training...:  40% 1042/2609 [1:00:05<50:35,  1.94s/it][A
Training...:  40% 1043/2609 [1:00:07<48:24,  1.85s/it][A
Training...:  40% 1044/2609 [1:00:08<45:57,  1.76s/it][A
Training...:  40% 1045/2609 [1:00:10<43:14,  1.66s/it][A
Training...:  40% 1046/2609 [1:00:11<40:22,  1.55s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:32:19<7:39:29, 9189.94s/it]
Training...:  40% 1046/2609 [1:00:12<40:22,  1.55s/it][A
Training...:  40% 1047/2609 [1:00:12<40:14,  1.55s/it][A
Training...:  40% 1048/2609 [1:00:13<36:05,  1.39s/it][A
Training...:  40% 1049/2609 [1:00:14<31:37,  1.22s/it][A
Training...:  40% 1050/2609 [1:00:15<26:37,  1.02s/it][A
Training...:  40% 1051/2609 [1:00:22<1:14:18,  2.86s/it][A
Training...:  40% 1052/2609 [1:00:29<1:47:51,  4.16s/it][A
Training...:  40% 1053/2609 [1:00:36<2:07:41,  4.92s/it][A
Training...:  40% 1054/2609 [1:00:42<2:18:22,  5.34s/it][A
Training...:  40% 1055/2609 [1:00:48<2:23:44,  5.55s/it][A
Training...:  40% 1056/2609 [1:00:54<2:24:45,  5.59s/it][A
Training...:  41% 1057/2609 [1:00:59<2:24:14,  5.58s/it][A
Training...:  41% 1058/2609 [1:01:05<2:21:45,  5.48s/it][A
Training...:  41% 1059/2609 [1:01:10<2:19:01,  5.38s/it][A
Training...:  41% 1060/2609 [1:01:15<2:15:40,  5.26s/it][A
Training...:  41% 1061/2609 [1:01:20<2:12:32,  5.14s/it][A
Training...:  41% 1062/2609 [1:01:24<2:08:49,  5.00s/it][A
Training...:  41% 1063/2609 [1:01:29<2:05:48,  4.88s/it][A
Training...:  41% 1064/2609 [1:01:33<2:01:29,  4.72s/it][A
Training...:  41% 1065/2609 [1:01:38<1:57:58,  4.58s/it][A
Training...:  41% 1066/2609 [1:01:42<1:54:29,  4.45s/it][A
Training...:  41% 1067/2609 [1:01:46<1:51:48,  4.35s/it][A
Training...:  41% 1068/2609 [1:01:50<1:49:18,  4.26s/it][A
Training...:  41% 1069/2609 [1:01:54<1:46:43,  4.16s/it][A
Training...:  41% 1070/2609 [1:01:58<1:43:32,  4.04s/it][A
Training...:  41% 1071/2609 [1:02:01<1:40:49,  3.93s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:34:12<7:39:29, 9189.94s/it]
Training...:  41% 1071/2609 [1:02:05<1:40:49,  3.93s/it][A
Training...:  41% 1072/2609 [1:02:05<1:42:12,  3.99s/it][A
Training...:  41% 1073/2609 [1:02:09<1:38:20,  3.84s/it][A
Training...:  41% 1074/2609 [1:02:12<1:34:32,  3.70s/it][A
Training...:  41% 1075/2609 [1:02:16<1:31:58,  3.60s/it][A
Training...:  41% 1076/2609 [1:02:19<1:29:01,  3.48s/it][A
Training...:  41% 1077/2609 [1:02:22<1:26:10,  3.37s/it][A
Training...:  41% 1078/2609 [1:02:25<1:23:27,  3.27s/it][A
Training...:  41% 1079/2609 [1:02:28<1:20:59,  3.18s/it][A
Training...:  41% 1080/2609 [1:02:31<1:18:44,  3.09s/it][A
Training...:  41% 1081/2609 [1:02:33<1:16:02,  2.99s/it][A
Training...:  41% 1082/2609 [1:02:36<1:13:22,  2.88s/it][A
Training...:  42% 1083/2609 [1:02:39<1:10:54,  2.79s/it][A
Training...:  42% 1084/2609 [1:02:41<1:08:47,  2.71s/it][A
Training...:  42% 1085/2609 [1:02:44<1:06:24,  2.61s/it][A
Training...:  42% 1086/2609 [1:02:46<1:04:08,  2.53s/it][A
Training...:  42% 1087/2609 [1:02:48<1:01:59,  2.44s/it][A
Training...:  42% 1088/2609 [1:02:50<59:28,  2.35s/it]  [A
Training...:  42% 1089/2609 [1:02:52<57:23,  2.27s/it][A
Training...:  42% 1090/2609 [1:02:54<54:39,  2.16s/it][A
Training...:  42% 1091/2609 [1:02:56<52:13,  2.06s/it][A
Training...:  42% 1092/2609 [1:02:58<49:47,  1.97s/it][A
Training...:  42% 1093/2609 [1:03:00<47:16,  1.87s/it][A
Training...:  42% 1094/2609 [1:03:01<44:31,  1.76s/it][A
Training...:  42% 1095/2609 [1:03:02<41:44,  1.65s/it][A
Training...:  42% 1096/2609 [1:03:04<38:37,  1.53s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:35:12<7:39:29, 9189.94s/it]
Training...:  42% 1096/2609 [1:03:05<38:37,  1.53s/it][A
Training...:  42% 1097/2609 [1:03:05<38:11,  1.52s/it][A
Training...:  42% 1098/2609 [1:03:06<33:55,  1.35s/it][A
Training...:  42% 1099/2609 [1:03:07<29:51,  1.19s/it][A
Training...:  42% 1100/2609 [1:03:07<25:00,  1.01it/s][A
Training...:  42% 1101/2609 [1:03:15<1:12:45,  2.89s/it][A
Training...:  42% 1102/2609 [1:03:22<1:44:37,  4.17s/it][A
Training...:  42% 1103/2609 [1:03:28<2:02:03,  4.86s/it][A
Training...:  42% 1104/2609 [1:03:35<2:11:56,  5.26s/it][A
Training...:  42% 1105/2609 [1:03:41<2:17:31,  5.49s/it][A
Training...:  42% 1106/2609 [1:03:46<2:19:02,  5.55s/it][A
Training...:  42% 1107/2609 [1:03:52<2:18:47,  5.54s/it][A
Training...:  42% 1108/2609 [1:03:57<2:16:48,  5.47s/it][A
Training...:  43% 1109/2609 [1:04:02<2:14:41,  5.39s/it][A
Training...:  43% 1110/2609 [1:04:07<2:11:27,  5.26s/it][A
Training...:  43% 1111/2609 [1:04:12<2:08:17,  5.14s/it][A
Training...:  43% 1112/2609 [1:04:17<2:04:39,  5.00s/it][A
Training...:  43% 1113/2609 [1:04:21<2:01:41,  4.88s/it][A
Training...:  43% 1114/2609 [1:04:26<1:58:02,  4.74s/it][A
Training...:  43% 1115/2609 [1:04:30<1:54:36,  4.60s/it][A
Training...:  43% 1116/2609 [1:04:34<1:51:02,  4.46s/it][A
Training...:  43% 1117/2609 [1:04:38<1:48:04,  4.35s/it][A
Training...:  43% 1118/2609 [1:04:42<1:44:37,  4.21s/it][A
Training...:  43% 1119/2609 [1:04:46<1:41:37,  4.09s/it][A
Training...:  43% 1120/2609 [1:04:50<1:38:12,  3.96s/it][A
Training...:  43% 1121/2609 [1:04:53<1:35:38,  3.86s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:37:04<7:39:29, 9189.94s/it]
Training...:  43% 1121/2609 [1:04:57<1:35:38,  3.86s/it][A
Training...:  43% 1122/2609 [1:04:57<1:37:52,  3.95s/it][A
Training...:  43% 1123/2609 [1:05:01<1:34:10,  3.80s/it][A
Training...:  43% 1124/2609 [1:05:04<1:30:31,  3.66s/it][A
Training...:  43% 1125/2609 [1:05:07<1:27:06,  3.52s/it][A
Training...:  43% 1126/2609 [1:05:11<1:23:57,  3.40s/it][A
Training...:  43% 1127/2609 [1:05:14<1:21:25,  3.30s/it][A
Training...:  43% 1128/2609 [1:05:17<1:19:03,  3.20s/it][A
Training...:  43% 1129/2609 [1:05:20<1:16:40,  3.11s/it][A
Training...:  43% 1130/2609 [1:05:22<1:14:10,  3.01s/it][A
Training...:  43% 1131/2609 [1:05:25<1:11:59,  2.92s/it][A
Training...:  43% 1132/2609 [1:05:28<1:09:26,  2.82s/it][A
Training...:  43% 1133/2609 [1:05:30<1:07:13,  2.73s/it][A
Training...:  43% 1134/2609 [1:05:33<1:05:01,  2.65s/it][A
Training...:  44% 1135/2609 [1:05:35<1:02:50,  2.56s/it][A
Training...:  44% 1136/2609 [1:05:37<1:00:37,  2.47s/it][A
Training...:  44% 1137/2609 [1:05:39<58:36,  2.39s/it]  [A
Training...:  44% 1138/2609 [1:05:41<56:22,  2.30s/it][A
Training...:  44% 1139/2609 [1:05:44<54:24,  2.22s/it][A
Training...:  44% 1140/2609 [1:05:45<52:09,  2.13s/it][A
Training...:  44% 1141/2609 [1:05:47<49:42,  2.03s/it][A
Training...:  44% 1142/2609 [1:05:49<47:16,  1.93s/it][A
Training...:  44% 1143/2609 [1:05:51<44:50,  1.84s/it][A
Training...:  44% 1144/2609 [1:05:52<42:10,  1.73s/it][A
Training...:  44% 1145/2609 [1:05:53<39:35,  1.62s/it][A
Training...:  44% 1146/2609 [1:05:55<36:55,  1.51s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:38:03<7:39:29, 9189.94s/it]
Training...:  44% 1146/2609 [1:05:56<36:55,  1.51s/it][A
Training...:  44% 1147/2609 [1:05:56<36:23,  1.49s/it][A
Training...:  44% 1148/2609 [1:05:57<32:29,  1.33s/it][A
Training...:  44% 1149/2609 [1:05:58<28:34,  1.17s/it][A
Training...:  44% 1150/2609 [1:05:58<23:53,  1.02it/s][A
Training...:  44% 1151/2609 [1:06:06<1:09:18,  2.85s/it][A
Training...:  44% 1152/2609 [1:06:13<1:40:14,  4.13s/it][A
Training...:  44% 1153/2609 [1:06:19<1:58:18,  4.88s/it][A
Training...:  44% 1154/2609 [1:06:26<2:07:48,  5.27s/it][A
Training...:  44% 1155/2609 [1:06:32<2:13:20,  5.50s/it][A
Training...:  44% 1156/2609 [1:06:37<2:14:32,  5.56s/it][A
Training...:  44% 1157/2609 [1:06:43<2:14:50,  5.57s/it][A
Training...:  44% 1158/2609 [1:06:48<2:12:22,  5.47s/it][A
Training...:  44% 1159/2609 [1:06:53<2:11:05,  5.42s/it][A
Training...:  44% 1160/2609 [1:06:58<2:08:24,  5.32s/it][A
Training...:  44% 1161/2609 [1:07:03<2:05:37,  5.21s/it][A
Training...:  45% 1162/2609 [1:07:08<2:01:32,  5.04s/it][A
Training...:  45% 1163/2609 [1:07:13<1:58:28,  4.92s/it][A
Training...:  45% 1164/2609 [1:07:17<1:54:31,  4.76s/it][A
Training...:  45% 1165/2609 [1:07:21<1:50:55,  4.61s/it][A
Training...:  45% 1166/2609 [1:07:25<1:47:17,  4.46s/it][A
Training...:  45% 1167/2609 [1:07:30<1:44:12,  4.34s/it][A
Training...:  45% 1168/2609 [1:07:33<1:41:21,  4.22s/it][A
Training...:  45% 1169/2609 [1:07:37<1:38:45,  4.12s/it][A
Training...:  45% 1170/2609 [1:07:41<1:35:57,  4.00s/it][A
Training...:  45% 1171/2609 [1:07:45<1:33:20,  3.89s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:39:55<7:39:29, 9189.94s/it]
Training...:  45% 1171/2609 [1:07:49<1:33:20,  3.89s/it][A
Training...:  45% 1172/2609 [1:07:49<1:34:58,  3.97s/it][A
Training...:  45% 1173/2609 [1:07:52<1:31:08,  3.81s/it][A
Training...:  45% 1174/2609 [1:07:56<1:27:29,  3.66s/it][A
Training...:  45% 1175/2609 [1:07:59<1:24:30,  3.54s/it][A
Training...:  45% 1176/2609 [1:08:02<1:21:47,  3.42s/it][A
Training...:  45% 1177/2609 [1:08:05<1:19:11,  3.32s/it][A
Training...:  45% 1178/2609 [1:08:08<1:16:50,  3.22s/it][A
Training...:  45% 1179/2609 [1:08:11<1:14:43,  3.14s/it][A
Training...:  45% 1180/2609 [1:08:14<1:12:47,  3.06s/it][A
Training...:  45% 1181/2609 [1:08:17<1:10:45,  2.97s/it][A
Training...:  45% 1182/2609 [1:08:19<1:08:30,  2.88s/it][A
Training...:  45% 1183/2609 [1:08:22<1:06:25,  2.79s/it][A
Training...:  45% 1184/2609 [1:08:24<1:04:24,  2.71s/it][A
Training...:  45% 1185/2609 [1:08:27<1:02:24,  2.63s/it][A
Training...:  45% 1186/2609 [1:08:29<1:00:10,  2.54s/it][A
Training...:  45% 1187/2609 [1:08:31<58:07,  2.45s/it]  [A
Training...:  46% 1188/2609 [1:08:34<55:50,  2.36s/it][A
Training...:  46% 1189/2609 [1:08:36<53:43,  2.27s/it][A
Training...:  46% 1190/2609 [1:08:38<51:30,  2.18s/it][A
Training...:  46% 1191/2609 [1:08:40<49:22,  2.09s/it][A
Training...:  46% 1192/2609 [1:08:41<46:54,  1.99s/it][A
Training...:  46% 1193/2609 [1:08:43<44:32,  1.89s/it][A
Training...:  46% 1194/2609 [1:08:44<41:54,  1.78s/it][A
Training...:  46% 1195/2609 [1:08:46<39:24,  1.67s/it][A
Training...:  46% 1196/2609 [1:08:47<36:45,  1.56s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:40:55<7:39:29, 9189.94s/it]
Training...:  46% 1196/2609 [1:08:49<36:45,  1.56s/it][A
Training...:  46% 1197/2609 [1:08:49<36:18,  1.54s/it][A
Training...:  46% 1198/2609 [1:08:50<32:33,  1.38s/it][A
Training...:  46% 1199/2609 [1:08:51<28:43,  1.22s/it][A
Training...:  46% 1200/2609 [1:08:51<24:14,  1.03s/it][A
Training...:  46% 1201/2609 [1:08:58<1:07:37,  2.88s/it][A
Training...:  46% 1202/2609 [1:09:05<1:37:41,  4.17s/it][A
Training...:  46% 1203/2609 [1:09:12<1:55:22,  4.92s/it][A
Training...:  46% 1204/2609 [1:09:18<2:04:52,  5.33s/it][A
Training...:  46% 1205/2609 [1:09:24<2:09:13,  5.52s/it][A
Training...:  46% 1206/2609 [1:09:30<2:10:33,  5.58s/it][A
Training...:  46% 1207/2609 [1:09:36<2:09:52,  5.56s/it][A
Training...:  46% 1208/2609 [1:09:41<2:07:41,  5.47s/it][A
Training...:  46% 1209/2609 [1:09:46<2:05:21,  5.37s/it][A
Training...:  46% 1210/2609 [1:09:51<2:02:16,  5.24s/it][A
Training...:  46% 1211/2609 [1:09:56<1:59:14,  5.12s/it][A
Training...:  46% 1212/2609 [1:10:00<1:56:07,  4.99s/it][A
Training...:  46% 1213/2609 [1:10:05<1:53:34,  4.88s/it][A
Training...:  47% 1214/2609 [1:10:10<1:49:59,  4.73s/it][A
Training...:  47% 1215/2609 [1:10:14<1:46:45,  4.59s/it][A
Training...:  47% 1216/2609 [1:10:18<1:43:10,  4.44s/it][A
Training...:  47% 1217/2609 [1:10:22<1:40:37,  4.34s/it][A
Training...:  47% 1218/2609 [1:10:26<1:38:49,  4.26s/it][A
Training...:  47% 1219/2609 [1:10:30<1:36:24,  4.16s/it][A
Training...:  47% 1220/2609 [1:10:34<1:33:07,  4.02s/it][A
Training...:  47% 1221/2609 [1:10:37<1:30:53,  3.93s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:42:48<7:39:29, 9189.94s/it]
Training...:  47% 1221/2609 [1:10:42<1:30:53,  3.93s/it][A
Training...:  47% 1222/2609 [1:10:42<1:32:12,  3.99s/it][A
Training...:  47% 1223/2609 [1:10:45<1:28:39,  3.84s/it][A
Training...:  47% 1224/2609 [1:10:48<1:25:02,  3.68s/it][A
Training...:  47% 1225/2609 [1:10:52<1:22:23,  3.57s/it][A
Training...:  47% 1226/2609 [1:10:55<1:19:34,  3.45s/it][A
Training...:  47% 1227/2609 [1:10:58<1:16:54,  3.34s/it][A
Training...:  47% 1228/2609 [1:11:01<1:14:20,  3.23s/it][A
Training...:  47% 1229/2609 [1:11:04<1:11:57,  3.13s/it][A
Training...:  47% 1230/2609 [1:11:07<1:09:32,  3.03s/it][A
Training...:  47% 1231/2609 [1:11:09<1:07:09,  2.92s/it][A
Training...:  47% 1232/2609 [1:11:12<1:05:09,  2.84s/it][A
Training...:  47% 1233/2609 [1:11:14<1:02:56,  2.74s/it][A
Training...:  47% 1234/2609 [1:11:17<1:00:41,  2.65s/it][A
Training...:  47% 1235/2609 [1:11:19<58:55,  2.57s/it]  [A
Training...:  47% 1236/2609 [1:11:22<57:02,  2.49s/it][A
Training...:  47% 1237/2609 [1:11:24<55:06,  2.41s/it][A
Training...:  47% 1238/2609 [1:11:26<52:57,  2.32s/it][A
Training...:  47% 1239/2609 [1:11:28<50:46,  2.22s/it][A
Training...:  48% 1240/2609 [1:11:30<48:19,  2.12s/it][A
Training...:  48% 1241/2609 [1:11:32<46:16,  2.03s/it][A
Training...:  48% 1242/2609 [1:11:33<44:08,  1.94s/it][A
Training...:  48% 1243/2609 [1:11:35<41:49,  1.84s/it][A
Training...:  48% 1244/2609 [1:11:36<39:13,  1.72s/it][A
Training...:  48% 1245/2609 [1:11:38<36:54,  1.62s/it][A
Training...:  48% 1246/2609 [1:11:39<34:21,  1.51s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:43:47<7:39:29, 9189.94s/it]
Training...:  48% 1246/2609 [1:11:40<34:21,  1.51s/it][A
Training...:  48% 1247/2609 [1:11:40<33:47,  1.49s/it][A
Training...:  48% 1248/2609 [1:11:41<29:52,  1.32s/it][A
Training...:  48% 1249/2609 [1:11:42<26:10,  1.15s/it][A
Training...:  48% 1250/2609 [1:11:43<21:58,  1.03it/s][A
Training...:  48% 1251/2609 [1:11:50<1:03:57,  2.83s/it][A
Training...:  48% 1252/2609 [1:11:57<1:32:46,  4.10s/it][A
Training...:  48% 1253/2609 [1:12:03<1:49:29,  4.84s/it][A
Training...:  48% 1254/2609 [1:12:10<1:59:50,  5.31s/it][A
Training...:  48% 1255/2609 [1:12:16<2:04:22,  5.51s/it][A
Training...:  48% 1256/2609 [1:12:21<2:04:50,  5.54s/it][A
Training...:  48% 1257/2609 [1:12:27<2:03:41,  5.49s/it][A
Training...:  48% 1258/2609 [1:12:32<2:01:03,  5.38s/it][A
Training...:  48% 1259/2609 [1:12:37<1:58:39,  5.27s/it][A
Training...:  48% 1260/2609 [1:12:42<1:55:35,  5.14s/it][A
Training...:  48% 1261/2609 [1:12:47<1:53:08,  5.04s/it][A
Training...:  48% 1262/2609 [1:12:51<1:49:34,  4.88s/it][A
Training...:  48% 1263/2609 [1:12:56<1:46:31,  4.75s/it][A
Training...:  48% 1264/2609 [1:13:00<1:43:04,  4.60s/it][A
Training...:  48% 1265/2609 [1:13:04<1:40:24,  4.48s/it][A
Training...:  49% 1266/2609 [1:13:08<1:37:19,  4.35s/it][A
Training...:  49% 1267/2609 [1:13:12<1:35:03,  4.25s/it][A
Training...:  49% 1268/2609 [1:13:16<1:32:11,  4.13s/it][A
Training...:  49% 1269/2609 [1:13:20<1:29:45,  4.02s/it][A
Training...:  49% 1270/2609 [1:13:23<1:27:17,  3.91s/it][A
Training...:  49% 1271/2609 [1:13:27<1:25:16,  3.82s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:45:38<7:39:29, 9189.94s/it]
Training...:  49% 1271/2609 [1:13:31<1:25:16,  3.82s/it][A
Training...:  49% 1272/2609 [1:13:31<1:27:35,  3.93s/it][A
Training...:  49% 1273/2609 [1:13:35<1:24:35,  3.80s/it][A
Training...:  49% 1274/2609 [1:13:38<1:21:37,  3.67s/it][A
Training...:  49% 1275/2609 [1:13:41<1:18:56,  3.55s/it][A
Training...:  49% 1276/2609 [1:13:44<1:15:59,  3.42s/it][A
Training...:  49% 1277/2609 [1:13:47<1:13:49,  3.33s/it][A
Training...:  49% 1278/2609 [1:13:50<1:11:16,  3.21s/it][A
Training...:  49% 1279/2609 [1:13:53<1:09:33,  3.14s/it][A
Training...:  49% 1280/2609 [1:13:56<1:07:14,  3.04s/it][A
Training...:  49% 1281/2609 [1:13:59<1:06:04,  2.99s/it][A
Training...:  49% 1282/2609 [1:14:02<1:04:18,  2.91s/it][A
Training...:  49% 1283/2609 [1:14:04<1:02:41,  2.84s/it][A
Training...:  49% 1284/2609 [1:14:07<1:00:21,  2.73s/it][A
Training...:  49% 1285/2609 [1:14:09<58:02,  2.63s/it]  [A
Training...:  49% 1286/2609 [1:14:12<55:56,  2.54s/it][A
Training...:  49% 1287/2609 [1:14:14<53:48,  2.44s/it][A
Training...:  49% 1288/2609 [1:14:16<51:55,  2.36s/it][A
Training...:  49% 1289/2609 [1:14:18<49:52,  2.27s/it][A
Training...:  49% 1290/2609 [1:14:20<47:50,  2.18s/it][A
Training...:  49% 1291/2609 [1:14:22<45:34,  2.07s/it][A
Training...:  50% 1292/2609 [1:14:24<43:18,  1.97s/it][A
Training...:  50% 1293/2609 [1:14:25<41:15,  1.88s/it][A
Training...:  50% 1294/2609 [1:14:27<38:56,  1.78s/it][A
Training...:  50% 1295/2609 [1:14:28<36:41,  1.68s/it][A
Training...:  50% 1296/2609 [1:14:30<34:22,  1.57s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:46:38<7:39:29, 9189.94s/it]
Training...:  50% 1296/2609 [1:14:31<34:22,  1.57s/it][A
Training...:  50% 1297/2609 [1:14:31<33:54,  1.55s/it][A
Training...:  50% 1298/2609 [1:14:32<30:19,  1.39s/it][A
Training...:  50% 1299/2609 [1:14:33<26:30,  1.21s/it][A
Training...:  50% 1300/2609 [1:14:33<22:12,  1.02s/it][A
Training...:  50% 1301/2609 [1:14:41<1:02:49,  2.88s/it][A
Training...:  50% 1302/2609 [1:14:48<1:30:55,  4.17s/it][A
Training...:  50% 1303/2609 [1:14:55<1:47:18,  4.93s/it][A
Training...:  50% 1304/2609 [1:15:01<1:56:22,  5.35s/it][A
Training...:  50% 1305/2609 [1:15:07<2:00:28,  5.54s/it][A
Training...:  50% 1306/2609 [1:15:13<2:01:37,  5.60s/it][A
Training...:  50% 1307/2609 [1:15:18<2:01:10,  5.58s/it][A
Training...:  50% 1308/2609 [1:15:24<1:59:28,  5.51s/it][A
Training...:  50% 1309/2609 [1:15:29<1:57:27,  5.42s/it][A
Training...:  50% 1310/2609 [1:15:34<1:54:02,  5.27s/it][A
Training...:  50% 1311/2609 [1:15:38<1:51:01,  5.13s/it][A
Training...:  50% 1312/2609 [1:15:43<1:48:09,  5.00s/it][A
Training...:  50% 1313/2609 [1:15:48<1:45:16,  4.87s/it][A
Training...:  50% 1314/2609 [1:15:52<1:42:15,  4.74s/it][A
Training...:  50% 1315/2609 [1:15:56<1:39:10,  4.60s/it][A
Training...:  50% 1316/2609 [1:16:01<1:36:05,  4.46s/it][A
Training...:  50% 1317/2609 [1:16:05<1:33:15,  4.33s/it][A
Training...:  51% 1318/2609 [1:16:08<1:30:05,  4.19s/it][A
Training...:  51% 1319/2609 [1:16:12<1:27:50,  4.09s/it][A
Training...:  51% 1320/2609 [1:16:16<1:25:57,  4.00s/it][A
Training...:  51% 1321/2609 [1:16:20<1:24:13,  3.92s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:48:31<7:39:29, 9189.94s/it]
Training...:  51% 1321/2609 [1:16:24<1:24:13,  3.92s/it][A
Training...:  51% 1322/2609 [1:16:24<1:25:22,  3.98s/it][A
Training...:  51% 1323/2609 [1:16:27<1:21:43,  3.81s/it][A
Training...:  51% 1324/2609 [1:16:31<1:18:17,  3.66s/it][A
Training...:  51% 1325/2609 [1:16:34<1:15:31,  3.53s/it][A
Training...:  51% 1326/2609 [1:16:37<1:12:29,  3.39s/it][A
Training...:  51% 1327/2609 [1:16:40<1:10:20,  3.29s/it][A
Training...:  51% 1328/2609 [1:16:43<1:08:02,  3.19s/it][A
Training...:  51% 1329/2609 [1:16:46<1:05:32,  3.07s/it][A
Training...:  51% 1330/2609 [1:16:49<1:03:26,  2.98s/it][A
Training...:  51% 1331/2609 [1:16:51<1:01:23,  2.88s/it][A
Training...:  51% 1332/2609 [1:16:54<59:24,  2.79s/it]  [A
Training...:  51% 1333/2609 [1:16:56<57:32,  2.71s/it][A
Training...:  51% 1334/2609 [1:16:59<55:34,  2.62s/it][A
Training...:  51% 1335/2609 [1:17:01<53:44,  2.53s/it][A
Training...:  51% 1336/2609 [1:17:03<51:53,  2.45s/it][A
Training...:  51% 1337/2609 [1:17:05<49:58,  2.36s/it][A
Training...:  51% 1338/2609 [1:17:07<48:00,  2.27s/it][A
Training...:  51% 1339/2609 [1:17:09<46:12,  2.18s/it][A
Training...:  51% 1340/2609 [1:17:11<44:12,  2.09s/it][A
Training...:  51% 1341/2609 [1:17:13<42:15,  2.00s/it][A
Training...:  51% 1342/2609 [1:17:15<40:25,  1.91s/it][A
Training...:  51% 1343/2609 [1:17:16<38:28,  1.82s/it][A
Training...:  52% 1344/2609 [1:17:18<36:24,  1.73s/it][A
Training...:  52% 1345/2609 [1:17:19<34:20,  1.63s/it][A
Training...:  52% 1346/2609 [1:17:21<32:04,  1.52s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:49:29<7:39:29, 9189.94s/it]
Training...:  52% 1346/2609 [1:17:22<32:04,  1.52s/it][A
Training...:  52% 1347/2609 [1:17:22<31:41,  1.51s/it][A
Training...:  52% 1348/2609 [1:17:23<28:09,  1.34s/it][A
Training...:  52% 1349/2609 [1:17:24<24:37,  1.17s/it][A
Training...:  52% 1350/2609 [1:17:24<20:41,  1.01it/s][A
Training...:  52% 1351/2609 [1:17:32<59:36,  2.84s/it][A
Training...:  52% 1352/2609 [1:17:39<1:25:50,  4.10s/it][A
Training...:  52% 1353/2609 [1:17:45<1:41:26,  4.85s/it][A
Training...:  52% 1354/2609 [1:17:51<1:49:59,  5.26s/it][A
Training...:  52% 1355/2609 [1:17:57<1:54:34,  5.48s/it][A
Training...:  52% 1356/2609 [1:18:03<1:55:52,  5.55s/it][A
Training...:  52% 1357/2609 [1:18:09<1:55:53,  5.55s/it][A
Training...:  52% 1358/2609 [1:18:14<1:53:59,  5.47s/it][A
Training...:  52% 1359/2609 [1:18:19<1:52:01,  5.38s/it][A
Training...:  52% 1360/2609 [1:18:24<1:48:55,  5.23s/it][A
Training...:  52% 1361/2609 [1:18:29<1:46:41,  5.13s/it][A
Training...:  52% 1362/2609 [1:18:34<1:43:39,  4.99s/it][A
Training...:  52% 1363/2609 [1:18:38<1:41:05,  4.87s/it][A
Training...:  52% 1364/2609 [1:18:43<1:38:31,  4.75s/it][A
Training...:  52% 1365/2609 [1:18:47<1:36:20,  4.65s/it][A
Training...:  52% 1366/2609 [1:18:51<1:33:41,  4.52s/it][A
Training...:  52% 1367/2609 [1:18:55<1:30:29,  4.37s/it][A
Training...:  52% 1368/2609 [1:18:59<1:27:46,  4.24s/it][A
Training...:  52% 1369/2609 [1:19:03<1:25:08,  4.12s/it][A
Training...:  53% 1370/2609 [1:19:07<1:22:28,  3.99s/it][A
Training...:  53% 1371/2609 [1:19:10<1:20:12,  3.89s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:51:21<7:39:29, 9189.94s/it]
Training...:  53% 1371/2609 [1:19:14<1:20:12,  3.89s/it][A
Training...:  53% 1372/2609 [1:19:14<1:21:26,  3.95s/it][A
Training...:  53% 1373/2609 [1:19:18<1:18:11,  3.80s/it][A
Training...:  53% 1374/2609 [1:19:21<1:15:17,  3.66s/it][A
Training...:  53% 1375/2609 [1:19:25<1:13:25,  3.57s/it][A
Training...:  53% 1376/2609 [1:19:28<1:10:50,  3.45s/it][A
Training...:  53% 1377/2609 [1:19:31<1:08:33,  3.34s/it][A
Training...:  53% 1378/2609 [1:19:34<1:05:52,  3.21s/it][A
Training...:  53% 1379/2609 [1:19:37<1:04:00,  3.12s/it][A
Training...:  53% 1380/2609 [1:19:39<1:01:55,  3.02s/it][A
Training...:  53% 1381/2609 [1:19:42<1:00:06,  2.94s/it][A
Training...:  53% 1382/2609 [1:19:45<58:14,  2.85s/it]  [A
Training...:  53% 1383/2609 [1:19:47<56:23,  2.76s/it][A
Training...:  53% 1384/2609 [1:19:50<54:27,  2.67s/it][A
Training...:  53% 1385/2609 [1:19:52<52:36,  2.58s/it][A
Training...:  53% 1386/2609 [1:19:55<50:54,  2.50s/it][A
Training...:  53% 1387/2609 [1:19:57<49:17,  2.42s/it][A
Training...:  53% 1388/2609 [1:19:59<47:10,  2.32s/it][A
Training...:  53% 1389/2609 [1:20:01<45:30,  2.24s/it][A
Training...:  53% 1390/2609 [1:20:03<43:34,  2.15s/it][A
Training...:  53% 1391/2609 [1:20:05<41:38,  2.05s/it][A
Training...:  53% 1392/2609 [1:20:06<39:32,  1.95s/it][A
Training...:  53% 1393/2609 [1:20:08<37:26,  1.85s/it][A
Training...:  53% 1394/2609 [1:20:09<35:19,  1.74s/it][A
Training...:  53% 1395/2609 [1:20:11<33:11,  1.64s/it][A
Training...:  54% 1396/2609 [1:20:12<30:49,  1.52s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:52:20<7:39:29, 9189.94s/it]
Training...:  54% 1396/2609 [1:20:14<30:49,  1.52s/it][A
Training...:  54% 1397/2609 [1:20:14<30:18,  1.50s/it][A
Training...:  54% 1398/2609 [1:20:15<26:58,  1.34s/it][A
Training...:  54% 1399/2609 [1:20:15<23:44,  1.18s/it][A
Training...:  54% 1400/2609 [1:20:16<19:59,  1.01it/s][A
Training...:  54% 1401/2609 [1:20:23<56:21,  2.80s/it][A
Training...:  54% 1402/2609 [1:20:30<1:21:38,  4.06s/it][A
Training...:  54% 1403/2609 [1:20:37<1:37:11,  4.84s/it][A
Training...:  54% 1404/2609 [1:20:43<1:45:23,  5.25s/it][A
Training...:  54% 1405/2609 [1:20:49<1:50:11,  5.49s/it][A
Training...:  54% 1406/2609 [1:20:55<1:51:38,  5.57s/it][A
Training...:  54% 1407/2609 [1:21:00<1:50:55,  5.54s/it][A
Training...:  54% 1408/2609 [1:21:05<1:48:30,  5.42s/it][A
Training...:  54% 1409/2609 [1:21:10<1:46:28,  5.32s/it][A
Training...:  54% 1410/2609 [1:21:15<1:44:12,  5.22s/it][A
Training...:  54% 1411/2609 [1:21:20<1:41:53,  5.10s/it][A
Training...:  54% 1412/2609 [1:21:25<1:38:57,  4.96s/it][A
Training...:  54% 1413/2609 [1:21:29<1:36:16,  4.83s/it][A
Training...:  54% 1414/2609 [1:21:34<1:33:03,  4.67s/it][A
Training...:  54% 1415/2609 [1:21:38<1:30:11,  4.53s/it][A
Training...:  54% 1416/2609 [1:21:42<1:27:33,  4.40s/it][A
Training...:  54% 1417/2609 [1:21:46<1:25:17,  4.29s/it][A
Training...:  54% 1418/2609 [1:21:50<1:22:46,  4.17s/it][A
Training...:  54% 1419/2609 [1:21:54<1:20:42,  4.07s/it][A
Training...:  54% 1420/2609 [1:21:57<1:18:02,  3.94s/it][A
Training...:  54% 1421/2609 [1:22:01<1:16:18,  3.85s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:54:12<7:39:29, 9189.94s/it]
Training...:  54% 1421/2609 [1:22:05<1:16:18,  3.85s/it][A
Training...:  55% 1422/2609 [1:22:05<1:17:43,  3.93s/it][A
Training...:  55% 1423/2609 [1:22:08<1:14:48,  3.78s/it][A
Training...:  55% 1424/2609 [1:22:12<1:11:49,  3.64s/it][A
Training...:  55% 1425/2609 [1:22:15<1:09:07,  3.50s/it][A
Training...:  55% 1426/2609 [1:22:18<1:06:24,  3.37s/it][A
Training...:  55% 1427/2609 [1:22:21<1:04:27,  3.27s/it][A
Training...:  55% 1428/2609 [1:22:24<1:02:11,  3.16s/it][A
Training...:  55% 1429/2609 [1:22:27<1:00:22,  3.07s/it][A
Training...:  55% 1430/2609 [1:22:30<58:44,  2.99s/it]  [A
Training...:  55% 1431/2609 [1:22:32<57:09,  2.91s/it][A
Training...:  55% 1432/2609 [1:22:35<55:45,  2.84s/it][A
Training...:  55% 1433/2609 [1:22:38<53:54,  2.75s/it][A
Training...:  55% 1434/2609 [1:22:40<52:05,  2.66s/it][A
Training...:  55% 1435/2609 [1:22:42<50:23,  2.58s/it][A
Training...:  55% 1436/2609 [1:22:45<48:39,  2.49s/it][A
Training...:  55% 1437/2609 [1:22:47<46:53,  2.40s/it][A
Training...:  55% 1438/2609 [1:22:49<45:14,  2.32s/it][A
Training...:  55% 1439/2609 [1:22:51<43:28,  2.23s/it][A
Training...:  55% 1440/2609 [1:22:53<41:33,  2.13s/it][A
Training...:  55% 1441/2609 [1:22:55<40:03,  2.06s/it][A
Training...:  55% 1442/2609 [1:22:57<38:38,  1.99s/it][A
Training...:  55% 1443/2609 [1:22:58<36:48,  1.89s/it][A
Training...:  55% 1444/2609 [1:23:00<34:34,  1.78s/it][A
Training...:  55% 1445/2609 [1:23:01<32:20,  1.67s/it][A
Training...:  55% 1446/2609 [1:23:02<30:02,  1.55s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:55:11<7:39:29, 9189.94s/it]
Training...:  55% 1446/2609 [1:23:04<30:02,  1.55s/it][A
Training...:  55% 1447/2609 [1:23:04<29:45,  1.54s/it][A
Training...:  56% 1448/2609 [1:23:05<26:38,  1.38s/it][A
Training...:  56% 1449/2609 [1:23:06<23:20,  1.21s/it][A
Training...:  56% 1450/2609 [1:23:06<19:31,  1.01s/it][A
Training...:  56% 1451/2609 [1:23:14<55:58,  2.90s/it][A
Training...:  56% 1452/2609 [1:23:21<1:19:53,  4.14s/it][A
Training...:  56% 1453/2609 [1:23:27<1:34:14,  4.89s/it][A
Training...:  56% 1454/2609 [1:23:34<1:42:42,  5.34s/it][A
Training...:  56% 1455/2609 [1:23:40<1:46:21,  5.53s/it][A
Training...:  56% 1456/2609 [1:23:45<1:46:49,  5.56s/it][A
Training...:  56% 1457/2609 [1:23:51<1:46:06,  5.53s/it][A
Training...:  56% 1458/2609 [1:23:56<1:43:57,  5.42s/it][A
Training...:  56% 1459/2609 [1:24:01<1:41:53,  5.32s/it][A
Training...:  56% 1460/2609 [1:24:06<1:39:17,  5.19s/it][A
Training...:  56% 1461/2609 [1:24:11<1:36:28,  5.04s/it][A
Training...:  56% 1462/2609 [1:24:15<1:33:30,  4.89s/it][A
Training...:  56% 1463/2609 [1:24:20<1:30:58,  4.76s/it][A
Training...:  56% 1464/2609 [1:24:24<1:28:18,  4.63s/it][A
Training...:  56% 1465/2609 [1:24:28<1:26:04,  4.51s/it][A
Training...:  56% 1466/2609 [1:24:32<1:23:45,  4.40s/it][A
Training...:  56% 1467/2609 [1:24:36<1:21:37,  4.29s/it][A
Training...:  56% 1468/2609 [1:24:40<1:19:20,  4.17s/it][A
Training...:  56% 1469/2609 [1:24:44<1:17:07,  4.06s/it][A
Training...:  56% 1470/2609 [1:24:48<1:14:26,  3.92s/it][A
Training...:  56% 1471/2609 [1:24:51<1:12:38,  3.83s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:57:02<7:39:29, 9189.94s/it]
Training...:  56% 1471/2609 [1:24:55<1:12:38,  3.83s/it][A
Training...:  56% 1472/2609 [1:24:55<1:13:58,  3.90s/it][A
Training...:  56% 1473/2609 [1:24:59<1:11:44,  3.79s/it][A
Training...:  56% 1474/2609 [1:25:02<1:09:14,  3.66s/it][A
Training...:  57% 1475/2609 [1:25:05<1:06:37,  3.52s/it][A
Training...:  57% 1476/2609 [1:25:08<1:04:05,  3.39s/it][A
Training...:  57% 1477/2609 [1:25:12<1:02:07,  3.29s/it][A
Training...:  57% 1478/2609 [1:25:15<1:00:19,  3.20s/it][A
Training...:  57% 1479/2609 [1:25:17<58:25,  3.10s/it]  [A
Training...:  57% 1480/2609 [1:25:20<56:22,  3.00s/it][A
Training...:  57% 1481/2609 [1:25:23<54:27,  2.90s/it][A
Training...:  57% 1482/2609 [1:25:25<52:40,  2.80s/it][A
Training...:  57% 1483/2609 [1:25:28<51:23,  2.74s/it][A
Training...:  57% 1484/2609 [1:25:30<49:42,  2.65s/it][A
Training...:  57% 1485/2609 [1:25:33<48:03,  2.57s/it][A
Training...:  57% 1486/2609 [1:25:35<46:26,  2.48s/it][A
Training...:  57% 1487/2609 [1:25:37<44:57,  2.40s/it][A
Training...:  57% 1488/2609 [1:25:39<43:15,  2.32s/it][A
Training...:  57% 1489/2609 [1:25:41<41:33,  2.23s/it][A
Training...:  57% 1490/2609 [1:25:43<39:44,  2.13s/it][A
Training...:  57% 1491/2609 [1:25:45<37:50,  2.03s/it][A
Training...:  57% 1492/2609 [1:25:47<35:55,  1.93s/it][A
Training...:  57% 1493/2609 [1:25:48<34:04,  1.83s/it][A
Training...:  57% 1494/2609 [1:25:50<32:04,  1.73s/it][A
Training...:  57% 1495/2609 [1:25:51<30:00,  1.62s/it][A
Training...:  57% 1496/2609 [1:25:53<27:55,  1.50s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:58:01<7:39:29, 9189.94s/it]
Training...:  57% 1496/2609 [1:25:54<27:55,  1.50s/it][A
Training...:  57% 1497/2609 [1:25:54<27:49,  1.50s/it][A
Training...:  57% 1498/2609 [1:25:55<24:49,  1.34s/it][A
Training...:  57% 1499/2609 [1:25:56<21:46,  1.18s/it][A
Training...:  57% 1500/2609 [1:25:56<18:17,  1.01it/s][A
Training...:  58% 1501/2609 [1:26:04<52:37,  2.85s/it][A
Training...:  58% 1502/2609 [1:26:11<1:16:45,  4.16s/it][A
Training...:  58% 1503/2609 [1:26:18<1:31:07,  4.94s/it][A
Training...:  58% 1504/2609 [1:26:24<1:39:17,  5.39s/it][A
Training...:  58% 1505/2609 [1:26:30<1:42:58,  5.60s/it][A
Training...:  58% 1506/2609 [1:26:36<1:43:44,  5.64s/it][A
Training...:  58% 1507/2609 [1:26:41<1:43:44,  5.65s/it][A
Training...:  58% 1508/2609 [1:26:47<1:42:06,  5.56s/it][A
Training...:  58% 1509/2609 [1:26:52<1:39:51,  5.45s/it][A
Training...:  58% 1510/2609 [1:26:57<1:37:22,  5.32s/it][A
Training...:  58% 1511/2609 [1:27:02<1:34:39,  5.17s/it][A
Training...:  58% 1512/2609 [1:27:07<1:32:30,  5.06s/it][A
Training...:  58% 1513/2609 [1:27:11<1:31:06,  4.99s/it][A
Training...:  58% 1514/2609 [1:27:16<1:28:09,  4.83s/it][A
Training...:  58% 1515/2609 [1:27:20<1:25:18,  4.68s/it][A
Training...:  58% 1516/2609 [1:27:24<1:22:51,  4.55s/it][A
Training...:  58% 1517/2609 [1:27:29<1:20:27,  4.42s/it][A
Training...:  58% 1518/2609 [1:27:33<1:17:51,  4.28s/it][A
Training...:  58% 1519/2609 [1:27:36<1:15:33,  4.16s/it][A
Training...:  58% 1520/2609 [1:27:40<1:13:10,  4.03s/it][A
Training...:  58% 1521/2609 [1:27:44<1:11:06,  3.92s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [44:59:55<7:39:29, 9189.94s/it]
Training...:  58% 1521/2609 [1:27:48<1:11:06,  3.92s/it][A
Training...:  58% 1522/2609 [1:27:48<1:12:15,  3.99s/it][A
Training...:  58% 1523/2609 [1:27:51<1:09:13,  3.83s/it][A
Training...:  58% 1524/2609 [1:27:55<1:06:22,  3.67s/it][A
Training...:  58% 1525/2609 [1:27:58<1:04:15,  3.56s/it][A
Training...:  58% 1526/2609 [1:28:01<1:02:16,  3.45s/it][A
Training...:  59% 1527/2609 [1:28:04<1:00:06,  3.33s/it][A
Training...:  59% 1528/2609 [1:28:07<58:08,  3.23s/it]  [A
Training...:  59% 1529/2609 [1:28:10<56:20,  3.13s/it][A
Training...:  59% 1530/2609 [1:28:13<54:31,  3.03s/it][A
Training...:  59% 1531/2609 [1:28:16<52:51,  2.94s/it][A
Training...:  59% 1532/2609 [1:28:18<51:07,  2.85s/it][A
Training...:  59% 1533/2609 [1:28:21<49:32,  2.76s/it][A
Training...:  59% 1534/2609 [1:28:23<47:38,  2.66s/it][A
Training...:  59% 1535/2609 [1:28:26<46:06,  2.58s/it][A
Training...:  59% 1536/2609 [1:28:28<44:20,  2.48s/it][A
Training...:  59% 1537/2609 [1:28:30<42:44,  2.39s/it][A
Training...:  59% 1538/2609 [1:28:32<41:12,  2.31s/it][A
Training...:  59% 1539/2609 [1:28:34<39:39,  2.22s/it][A
Training...:  59% 1540/2609 [1:28:36<37:58,  2.13s/it][A
Training...:  59% 1541/2609 [1:28:38<36:15,  2.04s/it][A
Training...:  59% 1542/2609 [1:28:40<34:40,  1.95s/it][A
Training...:  59% 1543/2609 [1:28:41<32:44,  1.84s/it][A
Training...:  59% 1544/2609 [1:28:43<30:55,  1.74s/it][A
Training...:  59% 1545/2609 [1:28:44<29:03,  1.64s/it][A
Training...:  59% 1546/2609 [1:28:46<27:01,  1.53s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:00:54<7:39:29, 9189.94s/it]
Training...:  59% 1546/2609 [1:28:47<27:01,  1.53s/it][A
Training...:  59% 1547/2609 [1:28:47<26:41,  1.51s/it][A
Training...:  59% 1548/2609 [1:28:48<23:56,  1.35s/it][A
Training...:  59% 1549/2609 [1:28:49<21:04,  1.19s/it][A
Training...:  59% 1550/2609 [1:28:49<17:50,  1.01s/it][A
Training...:  59% 1551/2609 [1:28:56<50:10,  2.85s/it][A
Training...:  59% 1552/2609 [1:29:04<1:12:56,  4.14s/it][A
Training...:  60% 1553/2609 [1:29:11<1:28:13,  5.01s/it][A
Training...:  60% 1554/2609 [1:29:17<1:34:52,  5.40s/it][A
Training...:  60% 1555/2609 [1:29:23<1:37:36,  5.56s/it][A
Training...:  60% 1556/2609 [1:29:29<1:38:16,  5.60s/it][A
Training...:  60% 1557/2609 [1:29:34<1:38:02,  5.59s/it][A
Training...:  60% 1558/2609 [1:29:39<1:35:54,  5.47s/it][A
Training...:  60% 1559/2609 [1:29:45<1:33:53,  5.37s/it][A
Training...:  60% 1560/2609 [1:29:49<1:30:52,  5.20s/it][A
Training...:  60% 1561/2609 [1:29:54<1:28:15,  5.05s/it][A
Training...:  60% 1562/2609 [1:29:59<1:25:32,  4.90s/it][A
Training...:  60% 1563/2609 [1:30:03<1:23:51,  4.81s/it][A
Training...:  60% 1564/2609 [1:30:07<1:20:55,  4.65s/it][A
Training...:  60% 1565/2609 [1:30:12<1:18:54,  4.53s/it][A
Training...:  60% 1566/2609 [1:30:16<1:16:40,  4.41s/it][A
Training...:  60% 1567/2609 [1:30:20<1:15:26,  4.34s/it][A
Training...:  60% 1568/2609 [1:30:24<1:12:55,  4.20s/it][A
Training...:  60% 1569/2609 [1:30:28<1:10:39,  4.08s/it][A
Training...:  60% 1570/2609 [1:30:31<1:08:06,  3.93s/it][A
Training...:  60% 1571/2609 [1:30:35<1:06:09,  3.82s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:02:45<7:39:29, 9189.94s/it]
Training...:  60% 1571/2609 [1:30:39<1:06:09,  3.82s/it][A
Training...:  60% 1572/2609 [1:30:39<1:07:12,  3.89s/it][A
Training...:  60% 1573/2609 [1:30:42<1:04:30,  3.74s/it][A
Training...:  60% 1574/2609 [1:30:46<1:01:58,  3.59s/it][A
Training...:  60% 1575/2609 [1:30:49<59:43,  3.47s/it]  [A
Training...:  60% 1576/2609 [1:30:52<58:14,  3.38s/it][A
Training...:  60% 1577/2609 [1:30:55<56:13,  3.27s/it][A
Training...:  60% 1578/2609 [1:30:58<54:21,  3.16s/it][A
Training...:  61% 1579/2609 [1:31:01<53:01,  3.09s/it][A
Training...:  61% 1580/2609 [1:31:04<51:23,  3.00s/it][A
Training...:  61% 1581/2609 [1:31:06<50:05,  2.92s/it][A
Training...:  61% 1582/2609 [1:31:09<48:26,  2.83s/it][A
Training...:  61% 1583/2609 [1:31:11<46:58,  2.75s/it][A
Training...:  61% 1584/2609 [1:31:14<45:19,  2.65s/it][A
Training...:  61% 1585/2609 [1:31:16<43:41,  2.56s/it][A
Training...:  61% 1586/2609 [1:31:18<42:04,  2.47s/it][A
Training...:  61% 1587/2609 [1:31:21<40:35,  2.38s/it][A
Training...:  61% 1588/2609 [1:31:23<38:51,  2.28s/it][A
Training...:  61% 1589/2609 [1:31:25<37:20,  2.20s/it][A
Training...:  61% 1590/2609 [1:31:27<35:43,  2.10s/it][A
Training...:  61% 1591/2609 [1:31:28<34:10,  2.01s/it][A
Training...:  61% 1592/2609 [1:31:30<32:38,  1.93s/it][A
Training...:  61% 1593/2609 [1:31:32<31:01,  1.83s/it][A
Training...:  61% 1594/2609 [1:31:33<29:19,  1.73s/it][A
Training...:  61% 1595/2609 [1:31:35<27:28,  1.63s/it][A
Training...:  61% 1596/2609 [1:31:36<25:35,  1.52s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:03:44<7:39:29, 9189.94s/it]
Training...:  61% 1596/2609 [1:31:37<25:35,  1.52s/it][A
Training...:  61% 1597/2609 [1:31:37<25:16,  1.50s/it][A
Training...:  61% 1598/2609 [1:31:38<22:34,  1.34s/it][A
Training...:  61% 1599/2609 [1:31:39<19:48,  1.18s/it][A
Training...:  61% 1600/2609 [1:31:40<16:41,  1.01it/s][A
Training...:  61% 1601/2609 [1:31:47<48:06,  2.86s/it][A
Training...:  61% 1602/2609 [1:31:54<1:10:27,  4.20s/it][A
Training...:  61% 1603/2609 [1:32:01<1:21:57,  4.89s/it][A
Training...:  61% 1604/2609 [1:32:07<1:29:43,  5.36s/it][A
Training...:  62% 1605/2609 [1:32:13<1:33:59,  5.62s/it][A
Training...:  62% 1606/2609 [1:32:19<1:34:02,  5.63s/it][A
Training...:  62% 1607/2609 [1:32:25<1:33:29,  5.60s/it][A
Training...:  62% 1608/2609 [1:32:30<1:31:33,  5.49s/it][A
Training...:  62% 1609/2609 [1:32:35<1:29:26,  5.37s/it][A
Training...:  62% 1610/2609 [1:32:40<1:26:46,  5.21s/it][A
Training...:  62% 1611/2609 [1:32:44<1:24:21,  5.07s/it][A
Training...:  62% 1612/2609 [1:32:49<1:21:51,  4.93s/it][A
Training...:  62% 1613/2609 [1:32:54<1:20:19,  4.84s/it][A
Training...:  62% 1614/2609 [1:32:58<1:17:50,  4.69s/it][A
Training...:  62% 1615/2609 [1:33:02<1:15:41,  4.57s/it][A
Training...:  62% 1616/2609 [1:33:06<1:13:10,  4.42s/it][A
Training...:  62% 1617/2609 [1:33:10<1:11:00,  4.30s/it][A
Training...:  62% 1618/2609 [1:33:14<1:08:50,  4.17s/it][A
Training...:  62% 1619/2609 [1:33:18<1:07:24,  4.08s/it][A
Training...:  62% 1620/2609 [1:33:22<1:05:20,  3.96s/it][A
Training...:  62% 1621/2609 [1:33:25<1:03:20,  3.85s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:05:36<7:39:29, 9189.94s/it]
Training...:  62% 1621/2609 [1:33:29<1:03:20,  3.85s/it][A
Training...:  62% 1622/2609 [1:33:29<1:04:23,  3.91s/it][A
Training...:  62% 1623/2609 [1:33:33<1:01:49,  3.76s/it][A
Training...:  62% 1624/2609 [1:33:36<59:24,  3.62s/it]  [A
Training...:  62% 1625/2609 [1:33:39<57:28,  3.50s/it][A
Training...:  62% 1626/2609 [1:33:42<55:29,  3.39s/it][A
Training...:  62% 1627/2609 [1:33:46<53:48,  3.29s/it][A
Training...:  62% 1628/2609 [1:33:49<52:18,  3.20s/it][A
Training...:  62% 1629/2609 [1:33:51<50:47,  3.11s/it][A
Training...:  62% 1630/2609 [1:33:54<49:13,  3.02s/it][A
Training...:  63% 1631/2609 [1:33:57<48:00,  2.95s/it][A
Training...:  63% 1632/2609 [1:34:00<46:32,  2.86s/it][A
Training...:  63% 1633/2609 [1:34:02<45:27,  2.79s/it][A
Training...:  63% 1634/2609 [1:34:05<43:58,  2.71s/it][A
Training...:  63% 1635/2609 [1:34:07<42:14,  2.60s/it][A
Training...:  63% 1636/2609 [1:34:09<40:38,  2.51s/it][A
Training...:  63% 1637/2609 [1:34:12<39:11,  2.42s/it][A
Training...:  63% 1638/2609 [1:34:14<37:43,  2.33s/it][A
Training...:  63% 1639/2609 [1:34:16<36:16,  2.24s/it][A
Training...:  63% 1640/2609 [1:34:18<34:51,  2.16s/it][A
Training...:  63% 1641/2609 [1:34:20<33:27,  2.07s/it][A
Training...:  63% 1642/2609 [1:34:21<31:51,  1.98s/it][A
Training...:  63% 1643/2609 [1:34:23<30:12,  1.88s/it][A
Training...:  63% 1644/2609 [1:34:25<28:21,  1.76s/it][A
Training...:  63% 1645/2609 [1:34:26<26:38,  1.66s/it][A
Training...:  63% 1646/2609 [1:34:27<24:48,  1.55s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:06:35<7:39:29, 9189.94s/it]
Training...:  63% 1646/2609 [1:34:29<24:48,  1.55s/it][A
Training...:  63% 1647/2609 [1:34:29<24:37,  1.54s/it][A
Training...:  63% 1648/2609 [1:34:30<22:08,  1.38s/it][A
Training...:  63% 1649/2609 [1:34:31<19:28,  1.22s/it][A
Training...:  63% 1650/2609 [1:34:31<16:23,  1.03s/it][A
Training...:  63% 1651/2609 [1:34:38<45:55,  2.88s/it][A
Training...:  63% 1652/2609 [1:34:45<1:05:17,  4.09s/it][A
Training...:  63% 1653/2609 [1:34:52<1:16:43,  4.82s/it][A
Training...:  63% 1654/2609 [1:34:58<1:22:38,  5.19s/it][A
Training...:  63% 1655/2609 [1:35:04<1:26:15,  5.43s/it][A
Training...:  63% 1656/2609 [1:35:09<1:26:46,  5.46s/it][A
Training...:  64% 1657/2609 [1:35:15<1:26:44,  5.47s/it][A
Training...:  64% 1658/2609 [1:35:20<1:25:23,  5.39s/it][A
Training...:  64% 1659/2609 [1:35:25<1:24:17,  5.32s/it][A
Training...:  64% 1660/2609 [1:35:30<1:22:14,  5.20s/it][A
Training...:  64% 1661/2609 [1:35:35<1:20:41,  5.11s/it][A
Training...:  64% 1662/2609 [1:35:40<1:18:51,  5.00s/it][A
Training...:  64% 1663/2609 [1:35:44<1:17:01,  4.89s/it][A
Training...:  64% 1664/2609 [1:35:49<1:14:46,  4.75s/it][A
Training...:  64% 1665/2609 [1:35:53<1:12:50,  4.63s/it][A
Training...:  64% 1666/2609 [1:35:57<1:10:21,  4.48s/it][A
Training...:  64% 1667/2609 [1:36:02<1:08:52,  4.39s/it][A
Training...:  64% 1668/2609 [1:36:06<1:07:06,  4.28s/it][A
Training...:  64% 1669/2609 [1:36:09<1:05:09,  4.16s/it][A
Training...:  64% 1670/2609 [1:36:13<1:03:18,  4.05s/it][A
Training...:  64% 1671/2609 [1:36:17<1:01:47,  3.95s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:08:28<7:39:29, 9189.94s/it]
Training...:  64% 1671/2609 [1:36:21<1:01:47,  3.95s/it][A
Training...:  64% 1672/2609 [1:36:21<1:02:47,  4.02s/it][A
Training...:  64% 1673/2609 [1:36:25<1:00:44,  3.89s/it][A
Training...:  64% 1674/2609 [1:36:28<58:52,  3.78s/it]  [A
Training...:  64% 1675/2609 [1:36:32<56:44,  3.65s/it][A
Training...:  64% 1676/2609 [1:36:35<54:42,  3.52s/it][A
Training...:  64% 1677/2609 [1:36:38<52:40,  3.39s/it][A
Training...:  64% 1678/2609 [1:36:41<50:54,  3.28s/it][A
Training...:  64% 1679/2609 [1:36:44<49:25,  3.19s/it][A
Training...:  64% 1680/2609 [1:36:47<47:53,  3.09s/it][A
Training...:  64% 1681/2609 [1:36:50<46:21,  3.00s/it][A
Training...:  64% 1682/2609 [1:36:52<44:50,  2.90s/it][A
Training...:  65% 1683/2609 [1:36:55<43:32,  2.82s/it][A
Training...:  65% 1684/2609 [1:36:57<41:49,  2.71s/it][A
Training...:  65% 1685/2609 [1:37:00<40:28,  2.63s/it][A
Training...:  65% 1686/2609 [1:37:02<39:02,  2.54s/it][A
Training...:  65% 1687/2609 [1:37:04<37:29,  2.44s/it][A
Training...:  65% 1688/2609 [1:37:06<36:08,  2.35s/it][A
Training...:  65% 1689/2609 [1:37:09<34:48,  2.27s/it][A
Training...:  65% 1690/2609 [1:37:10<33:16,  2.17s/it][A
Training...:  65% 1691/2609 [1:37:12<31:47,  2.08s/it][A
Training...:  65% 1692/2609 [1:37:14<30:15,  1.98s/it][A
Training...:  65% 1693/2609 [1:37:16<28:45,  1.88s/it][A
Training...:  65% 1694/2609 [1:37:17<27:15,  1.79s/it][A
Training...:  65% 1695/2609 [1:37:19<25:34,  1.68s/it][A
Training...:  65% 1696/2609 [1:37:20<23:53,  1.57s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:09:28<7:39:29, 9189.94s/it]
Training...:  65% 1696/2609 [1:37:22<23:53,  1.57s/it][A
Training...:  65% 1697/2609 [1:37:22<23:40,  1.56s/it][A
Training...:  65% 1698/2609 [1:37:23<21:08,  1.39s/it][A
Training...:  65% 1699/2609 [1:37:23<18:27,  1.22s/it][A
Training...:  65% 1700/2609 [1:37:24<15:28,  1.02s/it][A
Training...:  65% 1701/2609 [1:37:31<43:17,  2.86s/it][A
Training...:  65% 1702/2609 [1:37:38<1:02:22,  4.13s/it][A
Training...:  65% 1703/2609 [1:37:45<1:13:52,  4.89s/it][A
Training...:  65% 1704/2609 [1:37:51<1:19:49,  5.29s/it][A
Training...:  65% 1705/2609 [1:37:57<1:22:40,  5.49s/it][A
Training...:  65% 1706/2609 [1:38:03<1:23:24,  5.54s/it][A
Training...:  65% 1707/2609 [1:38:08<1:22:58,  5.52s/it][A
Training...:  65% 1708/2609 [1:38:13<1:21:20,  5.42s/it][A
Training...:  66% 1709/2609 [1:38:18<1:19:46,  5.32s/it][A
Training...:  66% 1710/2609 [1:38:23<1:17:34,  5.18s/it][A
Training...:  66% 1711/2609 [1:38:28<1:15:19,  5.03s/it][A
Training...:  66% 1712/2609 [1:38:32<1:12:59,  4.88s/it][A
Training...:  66% 1713/2609 [1:38:37<1:11:09,  4.77s/it][A
Training...:  66% 1714/2609 [1:38:41<1:09:05,  4.63s/it][A
Training...:  66% 1715/2609 [1:38:46<1:07:13,  4.51s/it][A
Training...:  66% 1716/2609 [1:38:50<1:04:56,  4.36s/it][A
Training...:  66% 1717/2609 [1:38:54<1:03:28,  4.27s/it][A
Training...:  66% 1718/2609 [1:38:57<1:01:33,  4.15s/it][A
Training...:  66% 1719/2609 [1:39:01<59:53,  4.04s/it]  [A
Training...:  66% 1720/2609 [1:39:05<58:08,  3.92s/it][A
Training...:  66% 1721/2609 [1:39:09<57:14,  3.87s/it][A                                                                                                                                                                   
                                                      [AStep... (44375 | Loss: 0.002599526196718216, Learning Rate: 1.1365657883288804e-05, Gradient Norm: 0.21466436982154846)
Step... (44400 | Loss: 0.000393671594792977, Learning Rate: 1.1315149095025845e-05, Gradient Norm: 0.027707651257514954)
Step... (44425 | Loss: 0.00325018004514277, Learning Rate: 1.1264645763731096e-05, Gradient Norm: 0.27783867716789246)
Step... (44450 | Loss: 0.0007490660063922405, Learning Rate: 1.1214142432436347e-05, Gradient Norm: 0.08852352946996689)
Step... (44475 | Loss: 0.0010264067677780986, Learning Rate: 1.1163633644173387e-05, Gradient Norm: 0.051829997450113297)
Step... (44500 | Loss: 0.013208111748099327, Learning Rate: 1.1113130312878639e-05, Gradient Norm: 0.5789647698402405)
Step... (44525 | Loss: 0.0021111462265253067, Learning Rate: 1.1062627891078591e-05, Gradient Norm: 0.18172146379947662)
Step... (44550 | Loss: 0.0004425535153131932, Learning Rate: 1.1012119102815632e-05, Gradient Norm: 0.040538400411605835)
Step... (44575 | Loss: 0.0026186995673924685, Learning Rate: 1.0961615771520883e-05, Gradient Norm: 0.14891156554222107)
Step... (44600 | Loss: 0.0009730941383168101, Learning Rate: 1.0911112440226134e-05, Gradient Norm: 0.11199883371591568)
Step... (44625 | Loss: 0.0030722690280526876, Learning Rate: 1.0860603651963174e-05, Gradient Norm: 0.20033568143844604)
Step... (44650 | Loss: 0.004715049173682928, Learning Rate: 1.0810100320668425e-05, Gradient Norm: 0.4594890773296356)
Step... (44675 | Loss: 0.006175413262099028, Learning Rate: 1.0759597898868378e-05, Gradient Norm: 0.4026499390602112)
Step... (44700 | Loss: 0.005121442489326, Learning Rate: 1.0709089110605419e-05, Gradient Norm: 0.4452526867389679)
Step... (44725 | Loss: 0.002627072622999549, Learning Rate: 1.065858577931067e-05, Gradient Norm: 0.2489367425441742)
Step... (44750 | Loss: 0.000327203975757584, Learning Rate: 1.060808244801592e-05, Gradient Norm: 0.09253375977277756)
Step... (44775 | Loss: 0.00252942624501884, Learning Rate: 1.0557573659752961e-05, Gradient Norm: 0.16437920928001404)
Step... (44800 | Loss: 0.0007310528890229762, Learning Rate: 1.0507070328458212e-05, Gradient Norm: 0.10637442767620087)
Step... (44825 | Loss: 0.005036709364503622, Learning Rate: 1.0456567906658165e-05, Gradient Norm: 0.2852174937725067)
Step... (44850 | Loss: 0.0005204104236327112, Learning Rate: 1.0406059118395206e-05, Gradient Norm: 0.08368536829948425)
Step... (44875 | Loss: 0.002250388264656067, Learning Rate: 1.0355555787100457e-05, Gradient Norm: 0.20662890374660492)
Step... (44900 | Loss: 0.002991440938785672, Learning Rate: 1.0305052455805708e-05, Gradient Norm: 0.38467690348625183)
Step... (44925 | Loss: 0.008163868449628353, Learning Rate: 1.0254543667542748e-05, Gradient Norm: 0.532816469669342)
Step... (44950 | Loss: 0.0006721785175614059, Learning Rate: 1.0204040336248e-05, Gradient Norm: 0.10037510097026825)
Step... (44975 | Loss: 0.0045889075845479965, Learning Rate: 1.0153537914447952e-05, Gradient Norm: 0.464776873588562)
Step... (45000 | Loss: 0.0007721564616076648, Learning Rate: 1.0103029126184992e-05, Gradient Norm: 0.10224220901727676)
Step... (45025 | Loss: 0.0031480456236749887, Learning Rate: 1.0052525794890244e-05, Gradient Norm: 0.3152555823326111)
Step... (45050 | Loss: 0.0002447690349072218, Learning Rate: 1.0002022463595495e-05, Gradient Norm: 0.026111802086234093)
Step... (45075 | Loss: 0.003209827234968543, Learning Rate: 9.951513675332535e-06, Gradient Norm: 0.2103501707315445)
Step... (45100 | Loss: 0.00026441478985361755, Learning Rate: 9.901010344037786e-06, Gradient Norm: 0.03674888610839844)
Step... (45125 | Loss: 0.0025166277773678303, Learning Rate: 9.850507922237739e-06, Gradient Norm: 0.17408958077430725)
Step... (45150 | Loss: 0.001868699211627245, Learning Rate: 9.79999913397478e-06, Gradient Norm: 0.323019415140152)
Step... (45175 | Loss: 0.0022841873578727245, Learning Rate: 9.74949580268003e-06, Gradient Norm: 0.16434594988822937)
Step... (45200 | Loss: 0.0017139698611572385, Learning Rate: 9.698992471385282e-06, Gradient Norm: 0.34176453948Step... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:11:19<7:39:29, 9189.94s/it]
020935)
Step... (45225 | Loss: 0.003003218211233616, Learning Rate: 9.648483683122322e-06, Gradient Norm: 0.3510678708553314)
Step... (45250 | Loss: 0.0003827151085715741, Learning Rate: 9.597980351827573e-06, Gradient Norm: 0.04166354984045029)
Step... (45275 | Loss: 0.005200350657105446, Learning Rate: 9.547477930027526e-06, Gradient Norm: 0.29034948348999023)
Step... (45300 | Loss: 0.005325478035956621, Learning Rate: 9.496969141764566e-06, Gradient Norm: 0.5153223276138306)
Step... (45325 | Loss: 0.003768404247239232, Learning Rate: 9.446465810469817e-06, Gradient Norm: 0.24227586388587952)
Step... (45350 | Loss: 0.002407449297606945, Learning Rate: 9.395962479175068e-06, Gradient Norm: 0.43598082661628723)
Step... (45375 | Loss: 0.0040262313559651375, Learning Rate: 9.345453690912109e-06, Gradient Norm: 0.2333580106496811)
Step... (45400 | Loss: 0.0016563375247642398, Learning Rate: 9.29495035961736e-06, Gradient Norm: 0.3817882835865021)
Step... (45425 | Loss: 0.00321691925637424, Learning Rate: 9.2444415713544e-06, Gradient Norm: 0.24080482125282288)
Step... (45450 | Loss: 0.0002739433548413217, Learning Rate: 9.193939149554353e-06, Gradient Norm: 0.025665152817964554)
Step... (45475 | Loss: 0.0019007319351658225, Learning Rate: 9.143435818259604e-06, Gradient Norm: 0.17515426874160767)
Step... (45500 | Loss: 0.00025781613658182323, Learning Rate: 9.092927029996645e-06, Gradient Norm: 0.03316045179963112)
Step... (45525 | Loss: 0.006688155233860016, Learning Rate: 9.042423698701896e-06, Gradient Norm: 0.35966071486473083)
Step... (45550 | Loss: 0.0002078495017485693, Learning Rate: 8.991920367407147e-06, Gradient Norm: 0.019630057737231255)
Step... (45575 | Loss: 0.0021277726627886295, Learning Rate: 8.941411579144187e-06, Gradient Norm: 0.1620534360408783)
Step... (45600 | Loss: 0.00024155052960850298, Learning Rate: 8.89090915734414e-06, Gradient Norm: 0.016746878623962402)
Step... (45625 | Loss: 0.002106674248352647, Learning Rate: 8.840405826049391e-06, Gradient Norm: 0.20421190559864044)
Step... (45650 | Loss: 0.0005619834992103279, Learning Rate: 8.789897037786432e-06, Gradient Norm: 0.14358896017074585)
Step... (45675 | Loss: 0.006277510896325111, Learning Rate: 8.739393706491683e-06, Gradient Norm: 0.5369372963905334)
Step... (45700 | Loss: 0.00931742787361145, Learning Rate: 8.688890375196934e-06, Gradient Norm: 0.7572270035743713)
Step... (45725 | Loss: 0.005059976130723953, Learning Rate: 8.638381586933974e-06, Gradient Norm: 0.25266945362091064)
Step... (45750 | Loss: 0.001276666414923966, Learning Rate: 8.587879165133927e-06, Gradient Norm: 0.287428081035614)
Step... (45775 | Loss: 0.0006795579101890326, Learning Rate: 8.537375833839178e-06, Gradient Norm: 0.06905020773410797)
Step... (45800 | Loss: 0.0002058052778011188, Learning Rate: 8.486867045576219e-06, Gradient Norm: 0.0145974550396204)
Step... (45825 | Loss: 0.0032139732502400875, Learning Rate: 8.43636371428147e-06, Gradient Norm: 0.20528744161128998)
Step... (45850 | Loss: 0.0018052862724289298, Learning Rate: 8.38586038298672e-06, Gradient Norm: 0.21579650044441223)
Step... (45875 | Loss: 0.0016913613071665168, Learning Rate: 8.335351594723761e-06, Gradient Norm: 0.11283902823925018)
Step... (45900 | Loss: 0.0015555252321064472, Learning Rate: 8.284849172923714e-06, Gradient Norm: 0.2172669768333435)
Step... (45925 | Loss: 0.005181814543902874, Learning Rate: 8.234345841628965e-06, Gradient Norm: 0.41870322823524475)
Step... (45950 | Loss: 0.0007807626388967037, Learning Rate: 8.183837053366005e-06, Gradient Norm: 0.12529294192790985)
Step... (45975 | Loss: 0.0033336319029331207, Learning Rate: 8.133333722071256e-06, Gradient Norm: 0.38175538182258606)
Step... (46000 | Loss: 0.003764127613976598, Learning Rate: 8.082830390776508e-06, Gradient Norm: 0.3390643000602722)
Step... (46025 | Loss: 0.0059472424909472466, Learning Rate: 8.032321602513548e-06, Gradient Norm: 0.5165642499923706)
Step... (46050 | Loss: 0.0003254319017287344, Learning Rate: 7.981818271218799e-06, Gradient Norm: 0.03268285095691681)
Training...:  66% 1721/2609 [1:39:13<57:14,  3.87s/it][A
Training...:  66% 1722/2609 [1:39:13<58:30,  3.96s/it][A
Training...:  66% 1723/2609 [1:39:17<1:00:02,  4.07s/it][A
Training...:  66% 1724/2609 [1:39:20<56:51,  3.85s/it]  [A
Training...:  66% 1725/2609 [1:39:24<54:10,  3.68s/it][A
Training...:  66% 1726/2609 [1:39:27<51:46,  3.52s/it][A
Training...:  66% 1727/2609 [1:39:30<49:50,  3.39s/it][A
Training...:  66% 1728/2609 [1:39:33<48:11,  3.28s/it][A
Training...:  66% 1729/2609 [1:39:36<46:43,  3.19s/it][A
Training...:  66% 1730/2609 [1:39:39<45:21,  3.10s/it][A
Training...:  66% 1731/2609 [1:39:42<44:14,  3.02s/it][A
Training...:  66% 1732/2609 [1:39:44<42:47,  2.93s/it][A
Training...:  66% 1733/2609 [1:39:47<41:19,  2.83s/it][A
Training...:  66% 1734/2609 [1:39:50<39:55,  2.74s/it][A
Training...:  67% 1735/2609 [1:39:52<38:22,  2.63s/it][A
Training...:  67% 1736/2609 [1:39:54<36:53,  2.54s/it][A
Training...:  67% 1737/2609 [1:39:56<35:33,  2.45s/it][A
Training...:  67% 1738/2609 [1:39:59<33:58,  2.34s/it][A
Training...:  67% 1739/2609 [1:40:01<32:32,  2.24s/it][A
Training...:  67% 1740/2609 [1:40:03<31:11,  2.15s/it][A
Training...:  67% 1741/2609 [1:40:04<29:45,  2.06s/it][A
Training...:  67% 1742/2609 [1:40:06<28:15,  1.96s/it][A
Training...:  67% 1743/2609 [1:40:08<26:50,  1.86s/it][A
Training...:  67% 1744/2609 [1:40:09<25:21,  1.76s/it][A
Training...:  67% 1745/2609 [1:40:11<23:57,  1.66s/it][A
Training...:  67% 1746/2609 [1:40:12<22:23,  1.56s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:12:20<7:39:29, 9189.94s/it]
Training...:  67% 1746/2609 [1:40:13<22:23,  1.56s/it][A
Training...:  67% 1747/2609 [1:40:13<22:05,  1.54s/it][A
Training...:  67% 1748/2609 [1:40:14<19:40,  1.37s/it][A
Training...:  67% 1749/2609 [1:40:15<17:15,  1.20s/it][A
Training...:  67% 1750/2609 [1:40:16<14:33,  1.02s/it][A
Training...:  67% 1751/2609 [1:40:23<40:32,  2.84s/it][A
Training...:  67% 1752/2609 [1:40:30<58:19,  4.08s/it][A
Training...:  67% 1753/2609 [1:40:37<1:09:01,  4.84s/it][A
Training...:  67% 1754/2609 [1:40:43<1:15:28,  5.30s/it][A
Training...:  67% 1755/2609 [1:40:49<1:18:42,  5.53s/it][A
Training...:  67% 1756/2609 [1:40:55<1:19:44,  5.61s/it][A
Training...:  67% 1757/2609 [1:41:00<1:19:51,  5.62s/it][A
Training...:  67% 1758/2609 [1:41:06<1:18:49,  5.56s/it][A
Training...:  67% 1759/2609 [1:41:11<1:17:00,  5.44s/it][A
Training...:  67% 1760/2609 [1:41:16<1:14:34,  5.27s/it][A
Training...:  67% 1761/2609 [1:41:21<1:12:25,  5.12s/it][A
Training...:  68% 1762/2609 [1:41:25<1:10:46,  5.01s/it][A
Training...:  68% 1763/2609 [1:41:30<1:09:21,  4.92s/it][A
Training...:  68% 1764/2609 [1:41:34<1:07:01,  4.76s/it][A
Training...:  68% 1765/2609 [1:41:39<1:04:39,  4.60s/it][A
Training...:  68% 1766/2609 [1:41:43<1:02:16,  4.43s/it][A
Training...:  68% 1767/2609 [1:41:47<1:00:23,  4.30s/it][A
Training...:  68% 1768/2609 [1:41:51<58:33,  4.18s/it]  [A
Training...:  68% 1769/2609 [1:41:54<57:03,  4.08s/it][A
Training...:  68% 1770/2609 [1:41:58<55:26,  3.97s/it][A
Training...:  68% 1771/2609 [1:42:02<53:57,  3.86s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:14:13<7:39:29, 9189.94s/it]
Training...:  68% 1771/2609 [1:42:06<53:57,  3.86s/it][A
Training...:  68% 1772/2609 [1:42:06<55:04,  3.95s/it][A
Training...:  68% 1773/2609 [1:42:09<52:44,  3.79s/it][A
Training...:  68% 1774/2609 [1:42:13<50:52,  3.66s/it][A
Training...:  68% 1775/2609 [1:42:16<49:15,  3.54s/it][A
Training...:  68% 1776/2609 [1:42:19<47:44,  3.44s/it][A
Training...:  68% 1777/2609 [1:42:22<46:09,  3.33s/it][A
Training...:  68% 1778/2609 [1:42:25<44:38,  3.22s/it][A
Training...:  68% 1779/2609 [1:42:28<43:24,  3.14s/it][A
Training...:  68% 1780/2609 [1:42:31<41:55,  3.03s/it][A
Training...:  68% 1781/2609 [1:42:34<40:37,  2.94s/it][A
Training...:  68% 1782/2609 [1:42:36<39:20,  2.85s/it][A
Training...:  68% 1783/2609 [1:42:39<38:07,  2.77s/it][A
Training...:  68% 1784/2609 [1:42:41<37:02,  2.69s/it][A
Training...:  68% 1785/2609 [1:42:44<35:45,  2.60s/it][A
Training...:  68% 1786/2609 [1:42:46<34:25,  2.51s/it][A
Training...:  68% 1787/2609 [1:42:48<33:20,  2.43s/it][A
Training...:  69% 1788/2609 [1:42:51<32:10,  2.35s/it][A
Training...:  69% 1789/2609 [1:42:53<31:01,  2.27s/it][A
Training...:  69% 1790/2609 [1:42:55<29:37,  2.17s/it][A
Training...:  69% 1791/2609 [1:42:56<28:24,  2.08s/it][A
Training...:  69% 1792/2609 [1:42:58<27:11,  2.00s/it][A
Training...:  69% 1793/2609 [1:43:00<25:54,  1.90s/it][A
Training...:  69% 1794/2609 [1:43:02<24:34,  1.81s/it][A
Training...:  69% 1795/2609 [1:43:03<23:04,  1.70s/it][A
Training...:  69% 1796/2609 [1:43:04<21:25,  1.58s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:15:12<7:39:29, 9189.94s/it]
Training...:  69% 1796/2609 [1:43:06<21:25,  1.58s/it][A
Training...:  69% 1797/2609 [1:43:06<21:13,  1.57s/it][A
Training...:  69% 1798/2609 [1:43:07<18:56,  1.40s/it][A
Training...:  69% 1799/2609 [1:43:08<16:26,  1.22s/it][A
Training...:  69% 1800/2609 [1:43:08<13:40,  1.01s/it][A
Training...:  69% 1801/2609 [1:43:15<38:06,  2.83s/it][A
Training...:  69% 1802/2609 [1:43:22<54:41,  4.07s/it][A
Training...:  69% 1803/2609 [1:43:29<1:04:22,  4.79s/it][A
Training...:  69% 1804/2609 [1:43:35<1:09:53,  5.21s/it][A
Training...:  69% 1805/2609 [1:43:41<1:12:34,  5.42s/it][A
Training...:  69% 1806/2609 [1:43:46<1:13:14,  5.47s/it][A
Training...:  69% 1807/2609 [1:43:52<1:12:52,  5.45s/it][A
Training...:  69% 1808/2609 [1:43:57<1:12:24,  5.42s/it][A
Training...:  69% 1809/2609 [1:44:02<1:11:49,  5.39s/it][A
Training...:  69% 1810/2609 [1:44:07<1:09:33,  5.22s/it][A
Training...:  69% 1811/2609 [1:44:12<1:07:23,  5.07s/it][A
Training...:  69% 1812/2609 [1:44:16<1:05:06,  4.90s/it][A
Training...:  69% 1813/2609 [1:44:21<1:03:16,  4.77s/it][A
Training...:  70% 1814/2609 [1:44:25<1:01:16,  4.62s/it][A
Training...:  70% 1815/2609 [1:44:29<59:38,  4.51s/it]  [A
Training...:  70% 1816/2609 [1:44:33<57:46,  4.37s/it][A
Training...:  70% 1817/2609 [1:44:37<56:11,  4.26s/it][A
Training...:  70% 1818/2609 [1:44:41<54:41,  4.15s/it][A
Training...:  70% 1819/2609 [1:44:45<53:04,  4.03s/it][A
Training...:  70% 1820/2609 [1:44:49<51:19,  3.90s/it][A
Training...:  70% 1821/2609 [1:44:52<49:58,  3.81s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:17:03<7:39:29, 9189.94s/it]
Training...:  70% 1821/2609 [1:44:56<49:58,  3.81s/it][A
Training...:  70% 1822/2609 [1:44:56<50:57,  3.89s/it][A
Training...:  70% 1823/2609 [1:45:00<49:04,  3.75s/it][A
Training...:  70% 1824/2609 [1:45:03<47:32,  3.63s/it][A
Training...:  70% 1825/2609 [1:45:06<45:52,  3.51s/it][A
Training...:  70% 1826/2609 [1:45:10<44:15,  3.39s/it][A
Training...:  70% 1827/2609 [1:45:13<42:46,  3.28s/it][A
Training...:  70% 1828/2609 [1:45:15<41:26,  3.18s/it][A
Training...:  70% 1829/2609 [1:45:18<40:10,  3.09s/it][A
Training...:  70% 1830/2609 [1:45:21<38:50,  2.99s/it][A
Training...:  70% 1831/2609 [1:45:24<37:37,  2.90s/it][A
Training...:  70% 1832/2609 [1:45:26<36:24,  2.81s/it][A
Training...:  70% 1833/2609 [1:45:29<35:16,  2.73s/it][A
Training...:  70% 1834/2609 [1:45:31<34:13,  2.65s/it][A
Training...:  70% 1835/2609 [1:45:34<33:11,  2.57s/it][A
Training...:  70% 1836/2609 [1:45:36<32:11,  2.50s/it][A
Training...:  70% 1837/2609 [1:45:38<31:00,  2.41s/it][A
Training...:  70% 1838/2609 [1:45:40<29:48,  2.32s/it][A
Training...:  70% 1839/2609 [1:45:43<28:46,  2.24s/it][A
Training...:  71% 1840/2609 [1:45:44<27:37,  2.16s/it][A
Training...:  71% 1841/2609 [1:45:46<26:26,  2.07s/it][A
Training...:  71% 1842/2609 [1:45:48<25:16,  1.98s/it][A
Training...:  71% 1843/2609 [1:45:50<24:02,  1.88s/it][A
Training...:  71% 1844/2609 [1:45:51<22:35,  1.77s/it][A
Training...:  71% 1845/2609 [1:45:53<21:13,  1.67s/it][A
Training...:  71% 1846/2609 [1:45:54<19:44,  1.55s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:18:02<7:39:29, 9189.94s/it]
Training...:  71% 1846/2609 [1:45:55<19:44,  1.55s/it][A
Training...:  71% 1847/2609 [1:45:55<19:29,  1.53s/it][A
Training...:  71% 1848/2609 [1:45:56<17:19,  1.37s/it][A
Training...:  71% 1849/2609 [1:45:57<15:06,  1.19s/it][A
Training...:  71% 1850/2609 [1:45:58<12:44,  1.01s/it][A
Training...:  71% 1851/2609 [1:46:05<37:00,  2.93s/it][A
Training...:  71% 1852/2609 [1:46:13<53:35,  4.25s/it][A
Training...:  71% 1853/2609 [1:46:19<1:02:16,  4.94s/it][A
Training...:  71% 1854/2609 [1:46:25<1:07:17,  5.35s/it][A
Training...:  71% 1855/2609 [1:46:31<1:09:39,  5.54s/it][A
Training...:  71% 1856/2609 [1:46:37<1:10:09,  5.59s/it][A
Training...:  71% 1857/2609 [1:46:43<1:10:12,  5.60s/it][A
Training...:  71% 1858/2609 [1:46:48<1:08:57,  5.51s/it][A
Training...:  71% 1859/2609 [1:46:53<1:07:49,  5.43s/it][A
Training...:  71% 1860/2609 [1:46:58<1:06:14,  5.31s/it][A
Training...:  71% 1861/2609 [1:47:03<1:04:53,  5.21s/it][A
Training...:  71% 1862/2609 [1:47:08<1:03:03,  5.07s/it][A
Training...:  71% 1863/2609 [1:47:13<1:01:48,  4.97s/it][A
Training...:  71% 1864/2609 [1:47:17<1:00:14,  4.85s/it][A
Training...:  71% 1865/2609 [1:47:22<58:26,  4.71s/it]  [A
Training...:  72% 1866/2609 [1:47:26<56:29,  4.56s/it][A
Training...:  72% 1867/2609 [1:47:30<54:47,  4.43s/it][A
Training...:  72% 1868/2609 [1:47:34<53:01,  4.29s/it][A
Training...:  72% 1869/2609 [1:47:38<51:26,  4.17s/it][A
Training...:  72% 1870/2609 [1:47:42<50:16,  4.08s/it][A
Training...:  72% 1871/2609 [1:47:46<49:19,  4.01s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:19:57<7:39:29, 9189.94s/it]
Training...:  72% 1871/2609 [1:47:50<49:19,  4.01s/it][A
Training...:  72% 1872/2609 [1:47:50<50:33,  4.12s/it][A
Training...:  72% 1873/2609 [1:47:54<48:48,  3.98s/it][A
Training...:  72% 1874/2609 [1:47:57<46:54,  3.83s/it][A
Training...:  72% 1875/2609 [1:48:01<45:25,  3.71s/it][A
Training...:  72% 1876/2609 [1:48:04<43:48,  3.59s/it][A
Training...:  72% 1877/2609 [1:48:07<42:05,  3.45s/it][A
Training...:  72% 1878/2609 [1:48:10<40:37,  3.33s/it][A
Training...:  72% 1879/2609 [1:48:13<39:10,  3.22s/it][A
Training...:  72% 1880/2609 [1:48:16<37:48,  3.11s/it][A
Training...:  72% 1881/2609 [1:48:19<36:48,  3.03s/it][A
Training...:  72% 1882/2609 [1:48:21<35:48,  2.96s/it][A
Training...:  72% 1883/2609 [1:48:24<34:53,  2.88s/it][A
Training...:  72% 1884/2609 [1:48:27<33:55,  2.81s/it][A
Training...:  72% 1885/2609 [1:48:29<32:54,  2.73s/it][A
Training...:  72% 1886/2609 [1:48:32<31:58,  2.65s/it][A
Training...:  72% 1887/2609 [1:48:34<30:54,  2.57s/it][A
Training...:  72% 1888/2609 [1:48:36<29:47,  2.48s/it][A
Training...:  72% 1889/2609 [1:48:39<28:33,  2.38s/it][A
Training...:  72% 1890/2609 [1:48:41<27:29,  2.29s/it][A
Training...:  72% 1891/2609 [1:48:43<26:22,  2.20s/it][A
Training...:  73% 1892/2609 [1:48:45<25:04,  2.10s/it][A
Training...:  73% 1893/2609 [1:48:46<23:47,  1.99s/it][A
Training...:  73% 1894/2609 [1:48:48<22:28,  1.89s/it][A
Training...:  73% 1895/2609 [1:48:49<21:04,  1.77s/it][A
Training...:  73% 1896/2609 [1:48:51<19:33,  1.65s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:20:59<7:39:29, 9189.94s/it]
Training...:  73% 1896/2609 [1:48:52<19:33,  1.65s/it][A
Training...:  73% 1897/2609 [1:48:52<19:13,  1.62s/it][A
Training...:  73% 1898/2609 [1:48:53<17:01,  1.44s/it][A
Training...:  73% 1899/2609 [1:48:54<14:46,  1.25s/it][A
Training...:  73% 1900/2609 [1:48:55<12:19,  1.04s/it][A
Training...:  73% 1901/2609 [1:49:02<34:22,  2.91s/it][A
Training...:  73% 1902/2609 [1:49:09<49:27,  4.20s/it][A
Training...:  73% 1903/2609 [1:49:16<57:59,  4.93s/it][A
Training...:  73% 1904/2609 [1:49:22<1:02:58,  5.36s/it][A
Training...:  73% 1905/2609 [1:49:28<1:05:21,  5.57s/it][A
Training...:  73% 1906/2609 [1:49:34<1:06:53,  5.71s/it][A
Training...:  73% 1907/2609 [1:49:40<1:07:07,  5.74s/it][A
Training...:  73% 1908/2609 [1:49:45<1:05:38,  5.62s/it][A
Training...:  73% 1909/2609 [1:49:51<1:04:32,  5.53s/it][A
Training...:  73% 1910/2609 [1:49:56<1:02:50,  5.39s/it][A
Training...:  73% 1911/2609 [1:50:01<1:00:57,  5.24s/it][A
Training...:  73% 1912/2609 [1:50:05<58:51,  5.07s/it]  [A
Training...:  73% 1913/2609 [1:50:10<57:02,  4.92s/it][A
Training...:  73% 1914/2609 [1:50:14<55:28,  4.79s/it][A
Training...:  73% 1915/2609 [1:50:19<53:38,  4.64s/it][A
Training...:  73% 1916/2609 [1:50:23<51:57,  4.50s/it][A
Training...:  73% 1917/2609 [1:50:27<50:34,  4.39s/it][A
Training...:  74% 1918/2609 [1:50:31<48:54,  4.25s/it][A
Training...:  74% 1919/2609 [1:50:35<47:19,  4.12s/it][A
Training...:  74% 1920/2609 [1:50:38<45:49,  3.99s/it][A
Training...:  74% 1921/2609 [1:50:42<44:31,  3.88s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:22:53<7:39:29, 9189.94s/it]
Training...:  74% 1921/2609 [1:50:46<44:31,  3.88s/it][A
Training...:  74% 1922/2609 [1:50:46<45:17,  3.96s/it][A
Training...:  74% 1923/2609 [1:50:50<43:28,  3.80s/it][A
Training...:  74% 1924/2609 [1:50:53<41:56,  3.67s/it][A
Training...:  74% 1925/2609 [1:50:56<40:29,  3.55s/it][A
Training...:  74% 1926/2609 [1:51:00<39:13,  3.45s/it][A
Training...:  74% 1927/2609 [1:51:03<38:01,  3.35s/it][A
Training...:  74% 1928/2609 [1:51:06<37:14,  3.28s/it][A
Training...:  74% 1929/2609 [1:51:09<36:27,  3.22s/it][A
Training...:  74% 1930/2609 [1:51:12<35:28,  3.13s/it][A
Training...:  74% 1931/2609 [1:51:15<34:28,  3.05s/it][A
Training...:  74% 1932/2609 [1:51:17<33:32,  2.97s/it][A
Training...:  74% 1933/2609 [1:51:20<32:21,  2.87s/it][A
Training...:  74% 1934/2609 [1:51:23<31:12,  2.77s/it][A
Training...:  74% 1935/2609 [1:51:25<30:10,  2.69s/it][A
Training...:  74% 1936/2609 [1:51:27<29:05,  2.59s/it][A
Training...:  74% 1937/2609 [1:51:30<27:57,  2.50s/it][A
Training...:  74% 1938/2609 [1:51:32<26:41,  2.39s/it][A
Training...:  74% 1939/2609 [1:51:34<25:33,  2.29s/it][A
Training...:  74% 1940/2609 [1:51:36<24:21,  2.18s/it][A
Training...:  74% 1941/2609 [1:51:38<23:16,  2.09s/it][A
Training...:  74% 1942/2609 [1:51:40<22:09,  1.99s/it][A
Training...:  74% 1943/2609 [1:51:41<21:13,  1.91s/it][A
Training...:  75% 1944/2609 [1:51:43<20:04,  1.81s/it][A
Training...:  75% 1945/2609 [1:51:44<18:51,  1.70s/it][A
Training...:  75% 1946/2609 [1:51:46<17:34,  1.59s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:23:54<7:39:29, 9189.94s/it]
Training...:  75% 1946/2609 [1:51:47<17:34,  1.59s/it][A
Training...:  75% 1947/2609 [1:51:47<17:29,  1.59s/it][A
Training...:  75% 1948/2609 [1:51:48<15:41,  1.42s/it][A
Training...:  75% 1949/2609 [1:51:49<13:52,  1.26s/it][A
Training...:  75% 1950/2609 [1:51:50<11:47,  1.07s/it][A
Training...:  75% 1951/2609 [1:51:57<31:41,  2.89s/it][A
Training...:  75% 1952/2609 [1:52:04<44:56,  4.10s/it][A
Training...:  75% 1953/2609 [1:52:10<52:20,  4.79s/it][A
Training...:  75% 1954/2609 [1:52:16<56:39,  5.19s/it][A
Training...:  75% 1955/2609 [1:52:22<58:57,  5.41s/it][A
Training...:  75% 1956/2609 [1:52:28<59:32,  5.47s/it][A
Training...:  75% 1957/2609 [1:52:33<59:36,  5.49s/it][A
Training...:  75% 1958/2609 [1:52:39<59:06,  5.45s/it][A
Training...:  75% 1959/2609 [1:52:44<58:01,  5.36s/it][A
Training...:  75% 1960/2609 [1:52:49<56:20,  5.21s/it][A
Training...:  75% 1961/2609 [1:52:54<55:08,  5.11s/it][A
Training...:  75% 1962/2609 [1:52:58<53:17,  4.94s/it][A
Training...:  75% 1963/2609 [1:53:03<52:24,  4.87s/it][A
Training...:  75% 1964/2609 [1:53:07<51:15,  4.77s/it][A
Training...:  75% 1965/2609 [1:53:12<49:47,  4.64s/it][A
Training...:  75% 1966/2609 [1:53:16<47:54,  4.47s/it][A
Training...:  75% 1967/2609 [1:53:20<46:46,  4.37s/it][A
Training...:  75% 1968/2609 [1:53:24<45:05,  4.22s/it][A
Training...:  75% 1969/2609 [1:53:28<43:53,  4.11s/it][A
Training...:  76% 1970/2609 [1:53:31<42:18,  3.97s/it][A
Training...:  76% 1971/2609 [1:53:35<41:05,  3.86s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:25:46<7:39:29, 9189.94s/it]
Training...:  76% 1971/2609 [1:53:39<41:05,  3.86s/it][A
Training...:  76% 1972/2609 [1:53:39<41:37,  3.92s/it][A
Training...:  76% 1973/2609 [1:53:42<40:08,  3.79s/it][A
Training...:  76% 1974/2609 [1:53:46<38:41,  3.66s/it][A
Training...:  76% 1975/2609 [1:53:49<37:15,  3.53s/it][A
Training...:  76% 1976/2609 [1:53:52<35:59,  3.41s/it][A
Training...:  76% 1977/2609 [1:53:55<35:05,  3.33s/it][A
Training...:  76% 1978/2609 [1:53:58<34:18,  3.26s/it][A
Training...:  76% 1979/2609 [1:54:01<33:16,  3.17s/it][A
Training...:  76% 1980/2609 [1:54:04<32:08,  3.07s/it][A
Training...:  76% 1981/2609 [1:54:07<31:07,  2.97s/it][A
Training...:  76% 1982/2609 [1:54:10<29:59,  2.87s/it][A
Training...:  76% 1983/2609 [1:54:12<29:05,  2.79s/it][A
Training...:  76% 1984/2609 [1:54:15<28:08,  2.70s/it][A
Training...:  76% 1985/2609 [1:54:17<27:12,  2.62s/it][A
Training...:  76% 1986/2609 [1:54:19<26:12,  2.52s/it][A
Training...:  76% 1987/2609 [1:54:22<25:10,  2.43s/it][A
Training...:  76% 1988/2609 [1:54:24<24:15,  2.34s/it][A
Training...:  76% 1989/2609 [1:54:26<23:22,  2.26s/it][A
Training...:  76% 1990/2609 [1:54:28<22:25,  2.17s/it][A
Training...:  76% 1991/2609 [1:54:30<21:24,  2.08s/it][A
Training...:  76% 1992/2609 [1:54:31<20:24,  1.98s/it][A
Training...:  76% 1993/2609 [1:54:33<19:24,  1.89s/it][A
Training...:  76% 1994/2609 [1:54:35<18:20,  1.79s/it][A
Training...:  76% 1995/2609 [1:54:36<17:09,  1.68s/it][A
Training...:  77% 1996/2609 [1:54:37<16:14,  1.59s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:26:46<7:39:29, 9189.94s/it]
Training...:  77% 1996/2609 [1:54:39<16:14,  1.59s/it][A
Training...:  77% 1997/2609 [1:54:39<16:14,  1.59s/it][A
Training...:  77% 1998/2609 [1:54:40<14:35,  1.43s/it][A
Training...:  77% 1999/2609 [1:54:41<12:54,  1.27s/it][A
Training...:  77% 2000/2609 [1:54:42<10:52,  1.07s/it][A
Training...:  77% 2001/2609 [1:54:49<30:03,  2.97s/it][A
Training...:  77% 2002/2609 [1:54:56<42:34,  4.21s/it][A
Training...:  77% 2003/2609 [1:55:03<50:20,  4.98s/it][A
Training...:  77% 2004/2609 [1:55:10<55:54,  5.54s/it][A
Training...:  77% 2005/2609 [1:55:16<58:16,  5.79s/it][A
Training...:  77% 2006/2609 [1:55:22<58:25,  5.81s/it][A
Training...:  77% 2007/2609 [1:55:27<57:25,  5.72s/it][A
Training...:  77% 2008/2609 [1:55:33<55:58,  5.59s/it][A
Training...:  77% 2009/2609 [1:55:38<54:39,  5.47s/it][A
Training...:  77% 2010/2609 [1:55:43<53:15,  5.33s/it][A
Training...:  77% 2011/2609 [1:55:48<52:00,  5.22s/it][A
Training...:  77% 2012/2609 [1:55:53<50:33,  5.08s/it][A
Training...:  77% 2013/2609 [1:55:57<49:06,  4.94s/it][A
Training...:  77% 2014/2609 [1:56:02<47:44,  4.81s/it][A
Training...:  77% 2015/2609 [1:56:06<46:16,  4.67s/it][A
Training...:  77% 2016/2609 [1:56:10<44:51,  4.54s/it][A
Training...:  77% 2017/2609 [1:56:15<43:39,  4.42s/it][A
Training...:  77% 2018/2609 [1:56:19<42:25,  4.31s/it][A
Training...:  77% 2019/2609 [1:56:23<41:31,  4.22s/it][A
Training...:  77% 2020/2609 [1:56:26<40:25,  4.12s/it][A
Training...:  77% 2021/2609 [1:56:30<39:17,  4.01s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:28:41<7:39:29, 9189.94s/it]
Training...:  77% 2021/2609 [1:56:34<39:17,  4.01s/it][A
Training...:  78% 2022/2609 [1:56:34<39:53,  4.08s/it][A
Training...:  78% 2023/2609 [1:56:38<38:16,  3.92s/it][A
Training...:  78% 2024/2609 [1:56:41<36:45,  3.77s/it][A
Training...:  78% 2025/2609 [1:56:45<35:32,  3.65s/it][A
Training...:  78% 2026/2609 [1:56:48<34:09,  3.52s/it][A
Training...:  78% 2027/2609 [1:56:51<33:16,  3.43s/it][A
Training...:  78% 2028/2609 [1:56:54<32:24,  3.35s/it][A
Training...:  78% 2029/2609 [1:56:57<31:18,  3.24s/it][A
Training...:  78% 2030/2609 [1:57:00<30:27,  3.16s/it][A
Training...:  78% 2031/2609 [1:57:03<29:47,  3.09s/it][A
Training...:  78% 2032/2609 [1:57:06<28:58,  3.01s/it][A
Training...:  78% 2033/2609 [1:57:09<28:06,  2.93s/it][A
Training...:  78% 2034/2609 [1:57:11<27:11,  2.84s/it][A
Training...:  78% 2035/2609 [1:57:14<26:23,  2.76s/it][A
Training...:  78% 2036/2609 [1:57:16<25:26,  2.66s/it][A
Training...:  78% 2037/2609 [1:57:19<24:19,  2.55s/it][A
Training...:  78% 2038/2609 [1:57:21<23:15,  2.44s/it][A
Training...:  78% 2039/2609 [1:57:23<22:19,  2.35s/it][A
Training...:  78% 2040/2609 [1:57:25<21:10,  2.23s/it][A
Training...:  78% 2041/2609 [1:57:27<20:09,  2.13s/it][A
Training...:  78% 2042/2609 [1:57:29<19:10,  2.03s/it][A
Training...:  78% 2043/2609 [1:57:30<18:09,  1.92s/it][A
Training...:  78% 2044/2609 [1:57:32<17:10,  1.82s/it][A
Training...:  78% 2045/2609 [1:57:33<16:07,  1.71s/it][A
Training...:  78% 2046/2609 [1:57:35<15:02,  1.60s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:29:43<7:39:29, 9189.94s/it]
Training...:  78% 2046/2609 [1:57:36<15:02,  1.60s/it][A
Training...:  78% 2047/2609 [1:57:36<14:53,  1.59s/it][A
Training...:  78% 2048/2609 [1:57:37<13:21,  1.43s/it][A
Training...:  79% 2049/2609 [1:57:38<11:44,  1.26s/it][A
Training...:  79% 2050/2609 [1:57:39<09:47,  1.05s/it][A
Training...:  79% 2051/2609 [1:57:46<26:38,  2.87s/it][A
Training...:  79% 2052/2609 [1:57:53<38:12,  4.12s/it][A
Training...:  79% 2053/2609 [1:58:00<45:18,  4.89s/it][A
Training...:  79% 2054/2609 [1:58:06<48:57,  5.29s/it][A
Training...:  79% 2055/2609 [1:58:12<50:51,  5.51s/it][A
Training...:  79% 2056/2609 [1:58:18<51:31,  5.59s/it][A
Training...:  79% 2057/2609 [1:58:23<51:46,  5.63s/it][A
Training...:  79% 2058/2609 [1:58:29<50:55,  5.55s/it][A
Training...:  79% 2059/2609 [1:58:34<49:57,  5.45s/it][A
Training...:  79% 2060/2609 [1:58:39<48:14,  5.27s/it][A
Training...:  79% 2061/2609 [1:58:44<46:48,  5.13s/it][A
Training...:  79% 2062/2609 [1:58:48<45:09,  4.95s/it][A
Training...:  79% 2063/2609 [1:58:53<44:00,  4.84s/it][A
Training...:  79% 2064/2609 [1:58:57<42:50,  4.72s/it][A
Training...:  79% 2065/2609 [1:59:02<41:52,  4.62s/it][A
Training...:  79% 2066/2609 [1:59:06<40:29,  4.47s/it][A
Training...:  79% 2067/2609 [1:59:10<39:15,  4.35s/it][A
Training...:  79% 2068/2609 [1:59:14<37:56,  4.21s/it][A
Training...:  79% 2069/2609 [1:59:17<36:52,  4.10s/it][A
Training...:  79% 2070/2609 [1:59:21<35:50,  3.99s/it][A
Training...:  79% 2071/2609 [1:59:25<34:46,  3.88s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:31:36<7:39:29, 9189.94s/it]
Training...:  79% 2071/2609 [1:59:29<34:46,  3.88s/it][A
Training...:  79% 2072/2609 [1:59:29<35:13,  3.94s/it][A
Training...:  79% 2073/2609 [1:59:32<33:45,  3.78s/it][A
Training...:  79% 2074/2609 [1:59:36<32:28,  3.64s/it][A
Training...:  80% 2075/2609 [1:59:39<31:26,  3.53s/it][A
Training...:  80% 2076/2609 [1:59:42<30:23,  3.42s/it][A
Training...:  80% 2077/2609 [1:59:45<29:48,  3.36s/it][A
Training...:  80% 2078/2609 [1:59:48<28:56,  3.27s/it][A
Training...:  80% 2079/2609 [1:59:51<28:02,  3.17s/it][A
Training...:  80% 2080/2609 [1:59:54<27:06,  3.08s/it][A
Training...:  80% 2081/2609 [1:59:57<26:15,  2.98s/it][A
Training...:  80% 2082/2609 [2:00:00<25:29,  2.90s/it][A
Training...:  80% 2083/2609 [2:00:02<24:40,  2.81s/it][A
Training...:  80% 2084/2609 [2:00:05<23:52,  2.73s/it][A
Training...:  80% 2085/2609 [2:00:07<23:02,  2.64s/it][A
Training...:  80% 2086/2609 [2:00:10<22:16,  2.56s/it][A
Training...:  80% 2087/2609 [2:00:12<21:28,  2.47s/it][A
Training...:  80% 2088/2609 [2:00:14<20:40,  2.38s/it][A
Training...:  80% 2089/2609 [2:00:16<20:00,  2.31s/it][A
Training...:  80% 2090/2609 [2:00:18<19:08,  2.21s/it][A
Training...:  80% 2091/2609 [2:00:20<18:24,  2.13s/it][A
Training...:  80% 2092/2609 [2:00:22<17:38,  2.05s/it][A
Training...:  80% 2093/2609 [2:00:24<16:40,  1.94s/it][A
Training...:  80% 2094/2609 [2:00:25<15:41,  1.83s/it][A
Training...:  80% 2095/2609 [2:00:27<14:44,  1.72s/it][A
Training...:  80% 2096/2609 [2:00:28<13:45,  1.61s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:32:36<7:39:29, 9189.94s/it]
Training...:  80% 2096/2609 [2:00:30<13:45,  1.61s/it][A
Training...:  80% 2097/2609 [2:00:30<13:31,  1.59s/it][A
Training...:  80% 2098/2609 [2:00:31<12:01,  1.41s/it][A
Training...:  80% 2099/2609 [2:00:31<10:29,  1.23s/it][A
Training...:  80% 2100/2609 [2:00:32<08:45,  1.03s/it][A
Training...:  81% 2101/2609 [2:00:39<24:15,  2.87s/it][A
Training...:  81% 2102/2609 [2:00:46<35:33,  4.21s/it][A
Training...:  81% 2103/2609 [2:00:53<41:59,  4.98s/it][A
Training...:  81% 2104/2609 [2:00:59<45:11,  5.37s/it][A
Training...:  81% 2105/2609 [2:01:05<46:39,  5.55s/it][A
Training...:  81% 2106/2609 [2:01:11<47:04,  5.61s/it][A
Training...:  81% 2107/2609 [2:01:17<47:10,  5.64s/it][A
Training...:  81% 2108/2609 [2:01:22<46:09,  5.53s/it][A
Training...:  81% 2109/2609 [2:01:27<45:08,  5.42s/it][A
Training...:  81% 2110/2609 [2:01:32<44:00,  5.29s/it][A
Training...:  81% 2111/2609 [2:01:37<42:44,  5.15s/it][A
Training...:  81% 2112/2609 [2:01:42<41:32,  5.01s/it][A
Training...:  81% 2113/2609 [2:01:46<40:24,  4.89s/it][A
Training...:  81% 2114/2609 [2:01:51<39:18,  4.76s/it][A
Training...:  81% 2115/2609 [2:01:55<38:16,  4.65s/it][A
Training...:  81% 2116/2609 [2:01:59<37:00,  4.50s/it][A
Training...:  81% 2117/2609 [2:02:04<35:51,  4.37s/it][A
Training...:  81% 2118/2609 [2:02:08<34:55,  4.27s/it][A
Training...:  81% 2119/2609 [2:02:11<33:56,  4.16s/it][A
Training...:  81% 2120/2609 [2:02:15<32:41,  4.01s/it][A
Training...:  81% 2121/2609 [2:02:19<31:39,  3.89s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:34:30<7:39:29, 9189.94s/it]
Training...:  81% 2121/2609 [2:02:23<31:39,  3.89s/it][A
Training...:  81% 2122/2609 [2:02:23<32:21,  3.99s/it][A
Training...:  81% 2123/2609 [2:02:26<31:03,  3.84s/it][A
Training...:  81% 2124/2609 [2:02:30<29:59,  3.71s/it][A
Training...:  81% 2125/2609 [2:02:33<28:56,  3.59s/it][A
Training...:  81% 2126/2609 [2:02:36<27:52,  3.46s/it][A
Training...:  82% 2127/2609 [2:02:39<26:50,  3.34s/it][A
Training...:  82% 2128/2609 [2:02:42<26:04,  3.25s/it][A
Training...:  82% 2129/2609 [2:02:45<25:06,  3.14s/it][A
Training...:  82% 2130/2609 [2:02:48<24:20,  3.05s/it][A
Training...:  82% 2131/2609 [2:02:51<23:40,  2.97s/it][A
Training...:  82% 2132/2609 [2:02:54<22:55,  2.88s/it][A
Training...:  82% 2133/2609 [2:02:56<22:06,  2.79s/it][A
Training...:  82% 2134/2609 [2:02:59<21:13,  2.68s/it][A
Training...:  82% 2135/2609 [2:03:01<20:35,  2.61s/it][A
Training...:  82% 2136/2609 [2:03:03<19:56,  2.53s/it][A
Training...:  82% 2137/2609 [2:03:06<19:08,  2.43s/it][A
Training...:  82% 2138/2609 [2:03:08<18:22,  2.34s/it][A
Training...:  82% 2139/2609 [2:03:10<17:42,  2.26s/it][A
Training...:  82% 2140/2609 [2:03:12<16:55,  2.17s/it][A
Training...:  82% 2141/2609 [2:03:14<16:10,  2.07s/it][A
Training...:  82% 2142/2609 [2:03:15<15:23,  1.98s/it][A
Training...:  82% 2143/2609 [2:03:17<14:39,  1.89s/it][A
Training...:  82% 2144/2609 [2:03:19<13:48,  1.78s/it][A
Training...:  82% 2145/2609 [2:03:20<12:57,  1.68s/it][A
Training...:  82% 2146/2609 [2:03:21<11:59,  1.55s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:35:29<7:39:29, 9189.94s/it]
Training...:  82% 2146/2609 [2:03:23<11:59,  1.55s/it][A
Training...:  82% 2147/2609 [2:03:23<11:52,  1.54s/it][A
Training...:  82% 2148/2609 [2:03:24<10:32,  1.37s/it][A
Training...:  82% 2149/2609 [2:03:25<09:11,  1.20s/it][A
Training...:  82% 2150/2609 [2:03:25<07:40,  1.00s/it][A
Training...:  82% 2151/2609 [2:03:32<21:51,  2.86s/it][A
Training...:  82% 2152/2609 [2:03:39<31:19,  4.11s/it][A
Training...:  83% 2153/2609 [2:03:46<36:45,  4.84s/it][A
Training...:  83% 2154/2609 [2:03:52<39:54,  5.26s/it][A
Training...:  83% 2155/2609 [2:03:58<41:20,  5.46s/it][A
Training...:  83% 2156/2609 [2:04:04<41:52,  5.55s/it][A
Training...:  83% 2157/2609 [2:04:09<42:03,  5.58s/it][A
Training...:  83% 2158/2609 [2:04:15<41:47,  5.56s/it][A
Training...:  83% 2159/2609 [2:04:20<40:48,  5.44s/it][A
Training...:  83% 2160/2609 [2:04:25<39:30,  5.28s/it][A
Training...:  83% 2161/2609 [2:04:30<38:15,  5.12s/it][A
Training...:  83% 2162/2609 [2:04:34<37:01,  4.97s/it][A
Training...:  83% 2163/2609 [2:04:39<35:53,  4.83s/it][A
Training...:  83% 2164/2609 [2:04:43<34:36,  4.67s/it][A
Training...:  83% 2165/2609 [2:04:47<33:35,  4.54s/it][A
Training...:  83% 2166/2609 [2:04:52<32:35,  4.41s/it][A
Training...:  83% 2167/2609 [2:04:56<31:51,  4.33s/it][A
Training...:  83% 2168/2609 [2:05:00<30:49,  4.19s/it][A
Training...:  83% 2169/2609 [2:05:03<30:02,  4.10s/it][A
Training...:  83% 2170/2609 [2:05:07<29:09,  3.98s/it][A
Training...:  83% 2171/2609 [2:05:11<28:18,  3.88s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:37:22<7:39:29, 9189.94s/it]
Training...:  83% 2171/2609 [2:05:15<28:18,  3.88s/it][A
Training...:  83% 2172/2609 [2:05:15<28:53,  3.97s/it][A
Training...:  83% 2173/2609 [2:05:18<27:42,  3.81s/it][A
Training...:  83% 2174/2609 [2:05:22<26:37,  3.67s/it][A
Training...:  83% 2175/2609 [2:05:25<25:34,  3.54s/it][A
Training...:  83% 2176/2609 [2:05:28<24:38,  3.42s/it][A
Training...:  83% 2177/2609 [2:05:31<23:51,  3.31s/it][A
Training...:  83% 2178/2609 [2:05:34<23:18,  3.25s/it][A
Training...:  84% 2179/2609 [2:05:37<22:34,  3.15s/it][A
Training...:  84% 2180/2609 [2:05:40<21:50,  3.06s/it][A
Training...:  84% 2181/2609 [2:05:43<21:08,  2.96s/it][A
Training...:  84% 2182/2609 [2:05:45<20:24,  2.87s/it][A
Training...:  84% 2183/2609 [2:05:48<19:46,  2.78s/it][A
Training...:  84% 2184/2609 [2:05:50<19:05,  2.70s/it][A
Training...:  84% 2185/2609 [2:05:53<18:34,  2.63s/it][A
Training...:  84% 2186/2609 [2:05:55<17:56,  2.54s/it][A
Training...:  84% 2187/2609 [2:05:58<17:29,  2.49s/it][A
Training...:  84% 2188/2609 [2:06:00<16:57,  2.42s/it][A
Training...:  84% 2189/2609 [2:06:02<16:24,  2.34s/it][A
Training...:  84% 2190/2609 [2:06:04<15:44,  2.25s/it][A
Training...:  84% 2191/2609 [2:06:06<14:58,  2.15s/it][A
Training...:  84% 2192/2609 [2:06:08<14:09,  2.04s/it][A
Training...:  84% 2193/2609 [2:06:10<13:28,  1.94s/it][A
Training...:  84% 2194/2609 [2:06:11<12:39,  1.83s/it][A
Training...:  84% 2195/2609 [2:06:13<11:53,  1.72s/it][A
Training...:  84% 2196/2609 [2:06:14<11:04,  1.61s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:38:22<7:39:29, 9189.94s/it]
Training...:  84% 2196/2609 [2:06:15<11:04,  1.61s/it][A
Training...:  84% 2197/2609 [2:06:15<10:59,  1.60s/it][A
Training...:  84% 2198/2609 [2:06:17<09:52,  1.44s/it][A
Training...:  84% 2199/2609 [2:06:17<08:43,  1.28s/it][A
Training...:  84% 2200/2609 [2:06:18<07:21,  1.08s/it][A
Training...:  84% 2201/2609 [2:06:25<20:09,  2.97s/it][A
Training...:  84% 2202/2609 [2:06:33<29:02,  4.28s/it][A
Training...:  84% 2203/2609 [2:06:40<34:01,  5.03s/it][A
Training...:  84% 2204/2609 [2:06:46<36:30,  5.41s/it][A
Training...:  85% 2205/2609 [2:06:52<37:41,  5.60s/it][A
Training...:  85% 2206/2609 [2:06:58<37:57,  5.65s/it][A
Training...:  85% 2207/2609 [2:07:03<37:45,  5.64s/it][A
Training...:  85% 2208/2609 [2:07:09<37:13,  5.57s/it][A
Training...:  85% 2209/2609 [2:07:14<36:20,  5.45s/it][A
Training...:  85% 2210/2609 [2:07:19<35:29,  5.34s/it][A
Training...:  85% 2211/2609 [2:07:24<34:33,  5.21s/it][A
Training...:  85% 2212/2609 [2:07:29<33:33,  5.07s/it][A
Training...:  85% 2213/2609 [2:07:33<32:39,  4.95s/it][A
Training...:  85% 2214/2609 [2:07:38<31:31,  4.79s/it][A
Training...:  85% 2215/2609 [2:07:42<30:32,  4.65s/it][A
Training...:  85% 2216/2609 [2:07:46<29:36,  4.52s/it][A
Training...:  85% 2217/2609 [2:07:50<28:52,  4.42s/it][A
Training...:  85% 2218/2609 [2:07:54<27:59,  4.30s/it][A
Training...:  85% 2219/2609 [2:07:58<27:18,  4.20s/it][A
Training...:  85% 2220/2609 [2:08:02<26:29,  4.09s/it][A
Training...:  85% 2221/2609 [2:08:06<25:43,  3.98s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:40:17<7:39:29, 9189.94s/it]
Training...:  85% 2221/2609 [2:08:10<25:43,  3.98s/it][A
Training...:  85% 2222/2609 [2:08:10<26:05,  4.05s/it][A
Training...:  85% 2223/2609 [2:08:14<24:58,  3.88s/it][A
Training...:  85% 2224/2609 [2:08:17<23:55,  3.73s/it][A
Training...:  85% 2225/2609 [2:08:20<23:02,  3.60s/it][A
Training...:  85% 2226/2609 [2:08:23<22:10,  3.47s/it][A
Training...:  85% 2227/2609 [2:08:27<21:40,  3.40s/it][A
Training...:  85% 2228/2609 [2:08:30<21:09,  3.33s/it][A
Training...:  85% 2229/2609 [2:08:33<20:31,  3.24s/it][A
Training...:  85% 2230/2609 [2:08:36<19:49,  3.14s/it][A
Training...:  86% 2231/2609 [2:08:39<19:15,  3.06s/it][A
Training...:  86% 2232/2609 [2:08:41<18:35,  2.96s/it][A
Training...:  86% 2233/2609 [2:08:44<18:03,  2.88s/it][A
Training...:  86% 2234/2609 [2:08:47<17:21,  2.78s/it][A
Training...:  86% 2235/2609 [2:08:49<16:42,  2.68s/it][A
Training...:  86% 2236/2609 [2:08:51<16:01,  2.58s/it][A
Training...:  86% 2237/2609 [2:08:54<15:25,  2.49s/it][A
Training...:  86% 2238/2609 [2:08:56<14:46,  2.39s/it][A
Training...:  86% 2239/2609 [2:08:58<14:05,  2.29s/it][A
Training...:  86% 2240/2609 [2:09:00<13:31,  2.20s/it][A
Training...:  86% 2241/2609 [2:09:02<12:52,  2.10s/it][A
Training...:  86% 2242/2609 [2:09:04<12:09,  1.99s/it][A
Training...:  86% 2243/2609 [2:09:05<11:34,  1.90s/it][A
Training...:  86% 2244/2609 [2:09:07<10:51,  1.79s/it][A
Training...:  86% 2245/2609 [2:09:08<10:05,  1.66s/it][A
Training...:  86% 2246/2609 [2:09:09<09:16,  1.53s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:41:17<7:39:29, 9189.94s/it]
Training...:  86% 2246/2609 [2:09:11<09:16,  1.53s/it][A
Training...:  86% 2247/2609 [2:09:11<09:03,  1.50s/it][A
Training...:  86% 2248/2609 [2:09:12<07:59,  1.33s/it][A
Training...:  86% 2249/2609 [2:09:12<06:56,  1.16s/it][A
Training...:  86% 2250/2609 [2:09:13<05:50,  1.02it/s][A
Training...:  86% 2251/2609 [2:09:20<17:07,  2.87s/it][A
Training...:  86% 2252/2609 [2:09:27<24:41,  4.15s/it][A
Training...:  86% 2253/2609 [2:09:34<29:07,  4.91s/it][A
Training...:  86% 2254/2609 [2:09:41<31:41,  5.36s/it][A
Training...:  86% 2255/2609 [2:09:47<33:00,  5.59s/it][A
Training...:  86% 2256/2609 [2:09:52<33:14,  5.65s/it][A
Training...:  87% 2257/2609 [2:09:58<33:07,  5.65s/it][A
Training...:  87% 2258/2609 [2:10:04<32:40,  5.58s/it][A
Training...:  87% 2259/2609 [2:10:09<32:02,  5.49s/it][A
Training...:  87% 2260/2609 [2:10:14<31:07,  5.35s/it][A
Training...:  87% 2261/2609 [2:10:19<30:11,  5.21s/it][A
Training...:  87% 2262/2609 [2:10:23<29:14,  5.06s/it][A
Training...:  87% 2263/2609 [2:10:28<28:18,  4.91s/it][A
Training...:  87% 2264/2609 [2:10:32<27:23,  4.76s/it][A
Training...:  87% 2265/2609 [2:10:37<26:47,  4.67s/it][A
Training...:  87% 2266/2609 [2:10:41<26:04,  4.56s/it][A
Training...:  87% 2267/2609 [2:10:45<25:11,  4.42s/it][A
Training...:  87% 2268/2609 [2:10:49<24:24,  4.29s/it][A
Training...:  87% 2269/2609 [2:10:53<23:32,  4.15s/it][A
Training...:  87% 2270/2609 [2:10:57<22:46,  4.03s/it][A
Training...:  87% 2271/2609 [2:11:00<22:04,  3.92s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:43:11<7:39:29, 9189.94s/it]
Training...:  87% 2271/2609 [2:11:05<22:04,  3.92s/it][A
Training...:  87% 2272/2609 [2:11:05<22:27,  4.00s/it][A
Training...:  87% 2273/2609 [2:11:08<21:31,  3.84s/it][A
Training...:  87% 2274/2609 [2:11:12<20:49,  3.73s/it][A
Training...:  87% 2275/2609 [2:11:15<20:04,  3.61s/it][A
Training...:  87% 2276/2609 [2:11:18<19:38,  3.54s/it][A
Training...:  87% 2277/2609 [2:11:22<19:02,  3.44s/it][A
Training...:  87% 2278/2609 [2:11:25<18:28,  3.35s/it][A
Training...:  87% 2279/2609 [2:11:28<17:50,  3.24s/it][A
Training...:  87% 2280/2609 [2:11:31<17:10,  3.13s/it][A
Training...:  87% 2281/2609 [2:11:33<16:36,  3.04s/it][A
Training...:  87% 2282/2609 [2:11:36<16:02,  2.94s/it][A
Training...:  88% 2283/2609 [2:11:39<15:26,  2.84s/it][A
Training...:  88% 2284/2609 [2:11:41<14:51,  2.74s/it][A
Training...:  88% 2285/2609 [2:11:44<14:20,  2.65s/it][A
Training...:  88% 2286/2609 [2:11:46<13:48,  2.56s/it][A
Training...:  88% 2287/2609 [2:11:48<13:19,  2.48s/it][A
Training...:  88% 2288/2609 [2:11:50<12:42,  2.38s/it][A
Training...:  88% 2289/2609 [2:11:52<12:09,  2.28s/it][A
Training...:  88% 2290/2609 [2:11:54<11:36,  2.18s/it][A
Training...:  88% 2291/2609 [2:11:56<11:06,  2.10s/it][A
Training...:  88% 2292/2609 [2:11:58<10:35,  2.00s/it][A
Training...:  88% 2293/2609 [2:12:00<10:04,  1.91s/it][A
Training...:  88% 2294/2609 [2:12:01<09:30,  1.81s/it][A
Training...:  88% 2295/2609 [2:12:03<08:52,  1.69s/it][A
Training...:  88% 2296/2609 [2:12:04<08:13,  1.58s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:44:12<7:39:29, 9189.94s/it]
Training...:  88% 2296/2609 [2:12:06<08:13,  1.58s/it][A
Training...:  88% 2297/2609 [2:12:06<08:04,  1.55s/it][A
Training...:  88% 2298/2609 [2:12:07<07:08,  1.38s/it][A
Training...:  88% 2299/2609 [2:12:07<06:13,  1.21s/it][A
Training...:  88% 2300/2609 [2:12:08<05:12,  1.01s/it][A
Training...:  88% 2301/2609 [2:12:15<14:43,  2.87s/it][A
Training...:  88% 2302/2609 [2:12:22<21:09,  4.14s/it][A
Training...:  88% 2303/2609 [2:12:29<25:01,  4.91s/it][A
Training...:  88% 2304/2609 [2:12:35<27:03,  5.32s/it][A
Training...:  88% 2305/2609 [2:12:41<27:58,  5.52s/it][A
Training...:  88% 2306/2609 [2:12:47<28:12,  5.58s/it][A
Training...:  88% 2307/2609 [2:12:53<28:08,  5.59s/it][A
Training...:  88% 2308/2609 [2:12:58<27:37,  5.51s/it][A
Training...:  89% 2309/2609 [2:13:03<27:13,  5.44s/it][A
Training...:  89% 2310/2609 [2:13:08<26:31,  5.32s/it][A
Training...:  89% 2311/2609 [2:13:13<25:52,  5.21s/it][A
Training...:  89% 2312/2609 [2:13:18<25:25,  5.14s/it][A
Training...:  89% 2313/2609 [2:13:23<24:33,  4.98s/it][A
Training...:  89% 2314/2609 [2:13:27<23:32,  4.79s/it][A
Training...:  89% 2315/2609 [2:13:31<22:43,  4.64s/it][A
Training...:  89% 2316/2609 [2:13:35<21:51,  4.48s/it][A
Training...:  89% 2317/2609 [2:13:40<21:15,  4.37s/it][A
Training...:  89% 2318/2609 [2:13:44<20:38,  4.26s/it][A
Training...:  89% 2319/2609 [2:13:47<19:56,  4.13s/it][A
Training...:  89% 2320/2609 [2:13:51<19:14,  3.99s/it][A
Training...:  89% 2321/2609 [2:13:55<18:41,  3.89s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:46:05<7:39:29, 9189.94s/it]
Training...:  89% 2321/2609 [2:13:59<18:41,  3.89s/it][A
Training...:  89% 2322/2609 [2:13:59<18:56,  3.96s/it][A
Training...:  89% 2323/2609 [2:14:02<18:09,  3.81s/it][A
Training...:  89% 2324/2609 [2:14:06<17:36,  3.71s/it][A
Training...:  89% 2325/2609 [2:14:09<16:55,  3.58s/it][A
Training...:  89% 2326/2609 [2:14:12<16:19,  3.46s/it][A
Training...:  89% 2327/2609 [2:14:15<15:45,  3.35s/it][A
Training...:  89% 2328/2609 [2:14:18<15:08,  3.23s/it][A
Training...:  89% 2329/2609 [2:14:21<14:38,  3.14s/it][A
Training...:  89% 2330/2609 [2:14:24<14:11,  3.05s/it][A
Training...:  89% 2331/2609 [2:14:27<13:43,  2.96s/it][A
Training...:  89% 2332/2609 [2:14:29<13:17,  2.88s/it][A
Training...:  89% 2333/2609 [2:14:32<12:51,  2.80s/it][A
Training...:  89% 2334/2609 [2:14:35<12:22,  2.70s/it][A
Training...:  89% 2335/2609 [2:14:37<11:56,  2.62s/it][A
Training...:  90% 2336/2609 [2:14:39<11:31,  2.53s/it][A
Training...:  90% 2337/2609 [2:14:42<11:04,  2.44s/it][A
Training...:  90% 2338/2609 [2:14:44<10:37,  2.35s/it][A
Training...:  90% 2339/2609 [2:14:46<10:08,  2.25s/it][A
Training...:  90% 2340/2609 [2:14:48<09:40,  2.16s/it][A
Training...:  90% 2341/2609 [2:14:50<09:15,  2.07s/it][A
Training...:  90% 2342/2609 [2:14:51<08:48,  1.98s/it][A
Training...:  90% 2343/2609 [2:14:53<08:20,  1.88s/it][A
Training...:  90% 2344/2609 [2:14:54<07:49,  1.77s/it][A
Training...:  90% 2345/2609 [2:14:56<07:19,  1.67s/it][A
Training...:  90% 2346/2609 [2:14:57<06:48,  1.55s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:47:05<7:39:29, 9189.94s/it]
Training...:  90% 2346/2609 [2:14:59<06:48,  1.55s/it][A
Training...:  90% 2347/2609 [2:14:59<06:42,  1.54s/it][A
Training...:  90% 2348/2609 [2:15:00<05:57,  1.37s/it][A
Training...:  90% 2349/2609 [2:15:00<05:14,  1.21s/it][A
Training...:  90% 2350/2609 [2:15:01<04:23,  1.02s/it][A
Training...:  90% 2351/2609 [2:15:08<12:21,  2.87s/it][A
Training...:  90% 2352/2609 [2:15:16<17:58,  4.20s/it][A
Training...:  90% 2353/2609 [2:15:22<21:10,  4.96s/it][A
Training...:  90% 2354/2609 [2:15:29<22:59,  5.41s/it][A
Training...:  90% 2355/2609 [2:15:35<23:43,  5.60s/it][A
Training...:  90% 2356/2609 [2:15:41<23:52,  5.66s/it][A
Training...:  90% 2357/2609 [2:15:46<23:46,  5.66s/it][A
Training...:  90% 2358/2609 [2:15:52<23:18,  5.57s/it][A
Training...:  90% 2359/2609 [2:15:57<22:45,  5.46s/it][A
Training...:  90% 2360/2609 [2:16:02<22:06,  5.33s/it][A
Training...:  90% 2361/2609 [2:16:07<21:26,  5.19s/it][A
Training...:  91% 2362/2609 [2:16:11<20:45,  5.04s/it][A
Training...:  91% 2363/2609 [2:16:16<20:12,  4.93s/it][A
Training...:  91% 2364/2609 [2:16:20<19:30,  4.78s/it][A
Training...:  91% 2365/2609 [2:16:25<18:52,  4.64s/it][A
Training...:  91% 2366/2609 [2:16:29<18:16,  4.51s/it][A
Training...:  91% 2367/2609 [2:16:33<17:41,  4.38s/it][A
Training...:  91% 2368/2609 [2:16:37<17:05,  4.26s/it][A
Training...:  91% 2369/2609 [2:16:41<16:40,  4.17s/it][A
Training...:  91% 2370/2609 [2:16:45<16:12,  4.07s/it][A
Training...:  91% 2371/2609 [2:16:49<15:40,  3.95s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:48:59<7:39:29, 9189.94s/it]
Training...:  91% 2371/2609 [2:16:53<15:40,  3.95s/it][A
Training...:  91% 2372/2609 [2:16:53<15:53,  4.02s/it][A
Training...:  91% 2373/2609 [2:16:56<15:14,  3.87s/it][A
Training...:  91% 2374/2609 [2:17:00<14:40,  3.75s/it][A
Training...:  91% 2375/2609 [2:17:03<14:08,  3.63s/it][A
Training...:  91% 2376/2609 [2:17:06<13:39,  3.52s/it][A
Training...:  91% 2377/2609 [2:17:10<13:13,  3.42s/it][A
Training...:  91% 2378/2609 [2:17:13<12:46,  3.32s/it][A
Training...:  91% 2379/2609 [2:17:16<12:23,  3.23s/it][A
Training...:  91% 2380/2609 [2:17:19<12:05,  3.17s/it][A
Training...:  91% 2381/2609 [2:17:21<11:39,  3.07s/it][A
Training...:  91% 2382/2609 [2:17:24<11:16,  2.98s/it][A
Training...:  91% 2383/2609 [2:17:27<10:48,  2.87s/it][A
Training...:  91% 2384/2609 [2:17:29<10:21,  2.76s/it][A
Training...:  91% 2385/2609 [2:17:32<09:53,  2.65s/it][A
Training...:  91% 2386/2609 [2:17:34<09:29,  2.55s/it][A
Training...:  91% 2387/2609 [2:17:36<09:06,  2.46s/it][A
Training...:  92% 2388/2609 [2:17:38<08:40,  2.36s/it][A
Training...:  92% 2389/2609 [2:17:41<08:19,  2.27s/it][A
Training...:  92% 2390/2609 [2:17:42<07:57,  2.18s/it][A
Training...:  92% 2391/2609 [2:17:44<07:33,  2.08s/it][A
Training...:  92% 2392/2609 [2:17:46<07:08,  1.97s/it][A
Training...:  92% 2393/2609 [2:17:48<06:47,  1.89s/it][A
Training...:  92% 2394/2609 [2:17:49<06:26,  1.80s/it][A
Training...:  92% 2395/2609 [2:17:51<06:04,  1.70s/it][A
Training...:  92% 2396/2609 [2:17:52<05:39,  1.59s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:50:00<7:39:29, 9189.94s/it]
Training...:  92% 2396/2609 [2:17:54<05:39,  1.59s/it][A
Training...:  92% 2397/2609 [2:17:54<05:35,  1.58s/it][A
Training...:  92% 2398/2609 [2:17:55<04:59,  1.42s/it][A
Training...:  92% 2399/2609 [2:17:56<04:21,  1.24s/it][A
Training...:  92% 2400/2609 [2:17:56<03:36,  1.04s/it][A
Training...:  92% 2401/2609 [2:18:03<09:56,  2.87s/it][A
Training...:  92% 2402/2609 [2:18:10<14:18,  4.15s/it][A
Training...:  92% 2403/2609 [2:18:17<16:45,  4.88s/it][A
Training...:  92% 2404/2609 [2:18:23<18:14,  5.34s/it][A
Training...:  92% 2405/2609 [2:18:30<18:56,  5.57s/it][A
Training...:  92% 2406/2609 [2:18:35<19:09,  5.66s/it][A
Training...:  92% 2407/2609 [2:18:41<19:08,  5.69s/it][A
Training...:  92% 2408/2609 [2:18:47<18:57,  5.66s/it][A
Training...:  92% 2409/2609 [2:18:52<18:27,  5.54s/it][A
Training...:  92% 2410/2609 [2:18:57<17:56,  5.41s/it][A
Training...:  92% 2411/2609 [2:19:02<17:27,  5.29s/it][A
Training...:  92% 2412/2609 [2:19:07<16:54,  5.15s/it][A
Training...:  92% 2413/2609 [2:19:12<16:24,  5.02s/it][A
Training...:  93% 2414/2609 [2:19:16<15:55,  4.90s/it][A
Training...:  93% 2415/2609 [2:19:21<15:27,  4.78s/it][A
Training...:  93% 2416/2609 [2:19:25<14:58,  4.66s/it][A
Training...:  93% 2417/2609 [2:19:29<14:26,  4.51s/it][A
Training...:  93% 2418/2609 [2:19:33<13:54,  4.37s/it][A
Training...:  93% 2419/2609 [2:19:37<13:31,  4.27s/it][A
Training...:  93% 2420/2609 [2:19:41<13:06,  4.16s/it][A
Training...:  93% 2421/2609 [2:19:45<12:45,  4.07s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:51:56<7:39:29, 9189.94s/it]
Training...:  93% 2421/2609 [2:19:50<12:45,  4.07s/it][A
Training...:  93% 2422/2609 [2:19:50<12:56,  4.15s/it][A
Training...:  93% 2423/2609 [2:19:53<12:24,  4.00s/it][A
Training...:  93% 2424/2609 [2:19:57<11:54,  3.86s/it][A
Training...:  93% 2425/2609 [2:20:00<11:31,  3.76s/it][A
Training...:  93% 2426/2609 [2:20:04<11:07,  3.65s/it][A
Training...:  93% 2427/2609 [2:20:07<10:43,  3.54s/it][A
Training...:  93% 2428/2609 [2:20:10<10:18,  3.42s/it][A
Training...:  93% 2429/2609 [2:20:13<09:58,  3.33s/it][A
Training...:  93% 2430/2609 [2:20:16<09:37,  3.23s/it][A
Training...:  93% 2431/2609 [2:20:19<09:15,  3.12s/it][A
Training...:  93% 2432/2609 [2:20:22<08:55,  3.03s/it][A
Training...:  93% 2433/2609 [2:20:25<08:36,  2.94s/it][A
Training...:  93% 2434/2609 [2:20:27<08:14,  2.83s/it][A
Training...:  93% 2435/2609 [2:20:30<07:55,  2.74s/it][A
Training...:  93% 2436/2609 [2:20:32<07:37,  2.65s/it][A
Training...:  93% 2437/2609 [2:20:34<07:18,  2.55s/it][A
Training...:  93% 2438/2609 [2:20:37<06:59,  2.46s/it][A
Training...:  93% 2439/2609 [2:20:39<06:40,  2.36s/it][A
Training...:  94% 2440/2609 [2:20:41<06:22,  2.26s/it][A
Training...:  94% 2441/2609 [2:20:43<06:03,  2.16s/it][A
Training...:  94% 2442/2609 [2:20:45<05:43,  2.06s/it][A
Training...:  94% 2443/2609 [2:20:46<05:26,  1.97s/it][A
Training...:  94% 2444/2609 [2:20:48<05:06,  1.86s/it][A
Training...:  94% 2445/2609 [2:20:49<04:47,  1.75s/it][A
Training...:  94% 2446/2609 [2:20:51<04:23,  1.62s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:52:59<7:39:29, 9189.94s/it]
Training...:  94% 2446/2609 [2:20:52<04:23,  1.62s/it][A
Training...:  94% 2447/2609 [2:20:52<04:18,  1.60s/it][A
Training...:  94% 2448/2609 [2:20:53<03:49,  1.43s/it][A
Training...:  94% 2449/2609 [2:20:54<03:19,  1.25s/it][A
Training...:  94% 2450/2609 [2:20:55<02:46,  1.04s/it][A
Training...:  94% 2451/2609 [2:21:02<07:36,  2.89s/it][A
Training...:  94% 2452/2609 [2:21:09<10:57,  4.19s/it][A
Training...:  94% 2453/2609 [2:21:16<12:55,  4.97s/it][A
Training...:  94% 2454/2609 [2:21:22<13:52,  5.37s/it][A
Training...:  94% 2455/2609 [2:21:28<14:21,  5.59s/it][A
Training...:  94% 2456/2609 [2:21:34<14:28,  5.68s/it][A
Training...:  94% 2457/2609 [2:21:40<14:19,  5.66s/it][A
Training...:  94% 2458/2609 [2:21:45<14:05,  5.60s/it][A
Training...:  94% 2459/2609 [2:21:51<13:45,  5.51s/it][A
Training...:  94% 2460/2609 [2:21:56<13:19,  5.36s/it][A
Training...:  94% 2461/2609 [2:22:00<12:53,  5.23s/it][A
Training...:  94% 2462/2609 [2:22:05<12:33,  5.12s/it][A
Training...:  94% 2463/2609 [2:22:10<12:12,  5.01s/it][A
Training...:  94% 2464/2609 [2:22:15<11:43,  4.85s/it][A
Training...:  94% 2465/2609 [2:22:19<11:17,  4.70s/it][A
Training...:  95% 2466/2609 [2:22:23<10:51,  4.55s/it][A
Training...:  95% 2467/2609 [2:22:27<10:28,  4.42s/it][A
Training...:  95% 2468/2609 [2:22:31<10:06,  4.30s/it][A
Training...:  95% 2469/2609 [2:22:35<09:45,  4.18s/it][A
Training...:  95% 2470/2609 [2:22:39<09:27,  4.08s/it][A
Training...:  95% 2471/2609 [2:22:43<09:09,  3.98s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:54:54<7:39:29, 9189.94s/it]
Training...:  95% 2471/2609 [2:22:47<09:09,  3.98s/it][A
Training...:  95% 2472/2609 [2:22:47<09:15,  4.05s/it][A
Training...:  95% 2473/2609 [2:22:51<08:51,  3.91s/it][A
Training...:  95% 2474/2609 [2:22:54<08:31,  3.79s/it][A
Training...:  95% 2475/2609 [2:22:57<08:11,  3.67s/it][A
Training...:  95% 2476/2609 [2:23:01<07:51,  3.54s/it][A
Training...:  95% 2477/2609 [2:23:04<07:33,  3.43s/it][A
Training...:  95% 2478/2609 [2:23:07<07:17,  3.34s/it][A
Training...:  95% 2479/2609 [2:23:10<07:03,  3.25s/it][A
Training...:  95% 2480/2609 [2:23:13<06:46,  3.15s/it][A
Training...:  95% 2481/2609 [2:23:16<06:33,  3.07s/it][A
Training...:  95% 2482/2609 [2:23:19<06:19,  2.99s/it][A
Training...:  95% 2483/2609 [2:23:21<06:07,  2.91s/it][A
Training...:  95% 2484/2609 [2:23:24<05:53,  2.83s/it][A
Training...:  95% 2485/2609 [2:23:27<05:39,  2.74s/it][A
Training...:  95% 2486/2609 [2:23:29<05:24,  2.64s/it][A
Training...:  95% 2487/2609 [2:23:31<05:09,  2.54s/it][A
Training...:  95% 2488/2609 [2:23:34<04:55,  2.44s/it][A
Training...:  95% 2489/2609 [2:23:36<04:42,  2.35s/it][A
Training...:  95% 2490/2609 [2:23:38<04:29,  2.26s/it][A
Training...:  95% 2491/2609 [2:23:40<04:14,  2.16s/it][A
Training...:  96% 2492/2609 [2:23:41<03:59,  2.05s/it][A
Training...:  96% 2493/2609 [2:23:43<03:47,  1.96s/it][A
Training...:  96% 2494/2609 [2:23:45<03:33,  1.85s/it][A
Training...:  96% 2495/2609 [2:23:46<03:18,  1.74s/it][A
Training...:  96% 2496/2609 [2:23:48<03:02,  1.62s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:55:56<7:39:29, 9189.94s/it]
Training...:  96% 2496/2609 [2:23:49<03:02,  1.62s/it][A
Training...:  96% 2497/2609 [2:23:49<02:59,  1.60s/it][A
Training...:  96% 2498/2609 [2:23:50<02:38,  1.43s/it][A
Training...:  96% 2499/2609 [2:23:51<02:16,  1.24s/it][A
Training...:  96% 2500/2609 [2:23:52<01:53,  1.04s/it][A
Training...:  96% 2501/2609 [2:23:59<05:12,  2.89s/it][A
Training...:  96% 2502/2609 [2:24:06<07:26,  4.17s/it][A
Training...:  96% 2503/2609 [2:24:13<08:43,  4.94s/it][A
Training...:  96% 2504/2609 [2:24:19<09:23,  5.36s/it][A
Training...:  96% 2505/2609 [2:24:25<09:41,  5.60s/it][A
Training...:  96% 2506/2609 [2:24:31<09:47,  5.70s/it][A
Training...:  96% 2507/2609 [2:24:37<09:35,  5.64s/it][A
Training...:  96% 2508/2609 [2:24:42<09:19,  5.54s/it][A
Training...:  96% 2509/2609 [2:24:47<09:01,  5.42s/it][A
Training...:  96% 2510/2609 [2:24:52<08:44,  5.30s/it][A
Training...:  96% 2511/2609 [2:24:57<08:24,  5.15s/it][A
Training...:  96% 2512/2609 [2:25:01<08:04,  4.99s/it][A
Training...:  96% 2513/2609 [2:25:06<07:46,  4.86s/it][A
Training...:  96% 2514/2609 [2:25:10<07:29,  4.73s/it][A
Training...:  96% 2515/2609 [2:25:15<07:12,  4.60s/it][A
Training...:  96% 2516/2609 [2:25:19<06:53,  4.45s/it][A
Training...:  96% 2517/2609 [2:25:23<06:38,  4.33s/it][A
Training...:  97% 2518/2609 [2:25:27<06:22,  4.20s/it][A
Training...:  97% 2519/2609 [2:25:31<06:06,  4.08s/it][A
Training...:  97% 2520/2609 [2:25:34<05:54,  3.98s/it][A
Training...:  97% 2521/2609 [2:25:38<05:41,  3.88s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:57:49<7:39:29, 9189.94s/it]
Training...:  97% 2521/2609 [2:25:42<05:41,  3.88s/it][A
Training...:  97% 2522/2609 [2:25:42<05:43,  3.95s/it][A
Training...:  97% 2523/2609 [2:25:46<05:28,  3.82s/it][A
Training...:  97% 2524/2609 [2:25:49<05:15,  3.72s/it][A
Training...:  97% 2525/2609 [2:25:52<05:02,  3.60s/it][A
Training...:  97% 2526/2609 [2:25:56<04:50,  3.50s/it][A
Training...:  97% 2527/2609 [2:25:59<04:39,  3.41s/it][A
Training...:  97% 2528/2609 [2:26:02<04:27,  3.30s/it][A
Training...:  97% 2529/2609 [2:26:05<04:16,  3.21s/it][A
Training...:  97% 2530/2609 [2:26:08<04:04,  3.10s/it][A
Training...:  97% 2531/2609 [2:26:11<03:55,  3.02s/it][A
Training...:  97% 2532/2609 [2:26:13<03:44,  2.91s/it][A
Training...:  97% 2533/2609 [2:26:16<03:35,  2.84s/it][A
Training...:  97% 2534/2609 [2:26:19<03:28,  2.78s/it][A
Training...:  97% 2535/2609 [2:26:21<03:20,  2.71s/it][A
Training...:  97% 2536/2609 [2:26:24<03:10,  2.61s/it][A
Training...:  97% 2537/2609 [2:26:26<03:01,  2.52s/it][A
Training...:  97% 2538/2609 [2:26:28<02:51,  2.42s/it][A
Training...:  97% 2539/2609 [2:26:30<02:42,  2.32s/it][A
Training...:  97% 2540/2609 [2:26:32<02:32,  2.22s/it][A
Training...:  97% 2541/2609 [2:26:34<02:24,  2.12s/it][A
Training...:  97% 2542/2609 [2:26:36<02:14,  2.01s/it][A
Training...:  97% 2543/2609 [2:26:37<02:05,  1.90s/it][A
Training...:  98% 2544/2609 [2:26:39<01:56,  1.79s/it][A
Training...:  98% 2545/2609 [2:26:40<01:47,  1.68s/it][A
Training...:  98% 2546/2609 [2:26:42<01:39,  1.58s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [45:58:50<7:39:29, 9189.94s/it]
Training...:  98% 2546/2609 [2:26:43<01:39,  1.58s/it][A
Training...:  98% 2547/2609 [2:26:43<01:37,  1.58s/it][A
Training...:  98% 2548/2609 [2:26:44<01:26,  1.42s/it][A
Training...:  98% 2549/2609 [2:26:45<01:14,  1.25s/it][A
Training...:  98% 2550/2609 [2:26:46<01:01,  1.05s/it][A
Training...:  98% 2551/2609 [2:26:53<02:48,  2.91s/it][A
Training...:  98% 2552/2609 [2:27:00<03:57,  4.16s/it][A
Training...:  98% 2553/2609 [2:27:07<04:32,  4.87s/it][A
Training...:  98% 2554/2609 [2:27:13<04:49,  5.27s/it][A
Training...:  98% 2555/2609 [2:27:19<04:55,  5.47s/it][A
Training...:  98% 2556/2609 [2:27:24<04:52,  5.52s/it][A
Training...:  98% 2557/2609 [2:27:30<04:45,  5.49s/it][A
Training...:  98% 2558/2609 [2:27:35<04:36,  5.42s/it][A
Training...:  98% 2559/2609 [2:27:40<04:26,  5.34s/it][A
Training...:  98% 2560/2609 [2:27:45<04:14,  5.19s/it][A
Training...:  98% 2561/2609 [2:27:50<04:02,  5.06s/it][A
Training...:  98% 2562/2609 [2:27:54<03:51,  4.93s/it][A
Training...:  98% 2563/2609 [2:27:59<03:41,  4.82s/it][A
Training...:  98% 2564/2609 [2:28:03<03:30,  4.68s/it][A
Training...:  98% 2565/2609 [2:28:08<03:21,  4.57s/it][A
Training...:  98% 2566/2609 [2:28:12<03:12,  4.48s/it][A
Training...:  98% 2567/2609 [2:28:16<03:04,  4.39s/it][A
Training...:  98% 2568/2609 [2:28:20<02:54,  4.25s/it][A
Training...:  98% 2569/2609 [2:28:24<02:45,  4.13s/it][A
Training...:  99% 2570/2609 [2:28:27<02:35,  3.98s/it][A
Training...:  99% 2571/2609 [2:28:31<02:26,  3.85s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [46:00:42<7:39:29, 9189.94s/it]
Training...:  99% 2571/2609 [2:28:35<02:26,  3.85s/it][A
Training...:  99% 2572/2609 [2:28:35<02:24,  3.91s/it][A
Training...:  99% 2573/2609 [2:28:38<02:15,  3.76s/it][A
Training...:  99% 2574/2609 [2:28:42<02:07,  3.64s/it][A
Training...:  99% 2575/2609 [2:28:45<01:59,  3.51s/it][A
Training...:  99% 2576/2609 [2:28:48<01:51,  3.38s/it][A
Training...:  99% 2577/2609 [2:28:51<01:44,  3.27s/it][A
Training...:  99% 2578/2609 [2:28:54<01:37,  3.16s/it][A
Training...:  99% 2579/2609 [2:28:57<01:32,  3.07s/it][A
Training...:  99% 2580/2609 [2:29:00<01:25,  2.97s/it][A
Training...:  99% 2581/2609 [2:29:02<01:20,  2.88s/it][A
Training...:  99% 2582/2609 [2:29:05<01:15,  2.78s/it][A
Training...:  99% 2583/2609 [2:29:07<01:10,  2.71s/it][A
Training...:  99% 2584/2609 [2:29:10<01:05,  2.61s/it][A
Training...:  99% 2585/2609 [2:29:12<01:00,  2.53s/it][A
Training...:  99% 2586/2609 [2:29:14<00:56,  2.45s/it][A
Training...:  99% 2587/2609 [2:29:17<00:51,  2.35s/it][A
Training...:  99% 2588/2609 [2:29:19<00:47,  2.26s/it][A
Training...:  99% 2589/2609 [2:29:21<00:43,  2.18s/it][A
Training...:  99% 2590/2609 [2:29:22<00:39,  2.08s/it][A
Training...:  99% 2591/2609 [2:29:24<00:36,  2.00s/it][A
Training...:  99% 2592/2609 [2:29:26<00:32,  1.91s/it][A
Training...:  99% 2593/2609 [2:29:28<00:29,  1.83s/it][A
Training...:  99% 2594/2609 [2:29:29<00:26,  1.74s/it][A
Training...:  99% 2595/2609 [2:29:31<00:23,  1.65s/it][A
Training...: 100% 2596/2609 [2:29:32<00:20,  1.55s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  85% 17/20 [46:01:40<7:39:29, 9189.94s/it]
Training...: 100% 2596/2609 [2:29:33<00:20,  1.55s/it][A
Training...: 100% 2597/2609 [2:29:33<00:18,  1.54s/it][A
Training...: 100% 2598/2609 [2:29:34<00:15,  1.38s/it][A
Training...: 100% 2599/2609 [2:29:35<00:11,  1.20s/it][A
Training...: 100% 2600/2609 [2:29:36<00:08,  1.01it/s][A
Training...: 100% 2601/2609 [2:29:42<00:20,  2.62s/it][A
Training...: 100% 2602/2609 [2:29:47<00:24,  3.45s/it][A
Training...: 100% 2603/2609 [2:29:52<00:22,  3.80s/it][A
Training...: 100% 2604/2609 [2:29:56<00:19,  3.84s/it][A
Training...: 100% 2605/2609 [2:29:59<00:14,  3.72s/it][A
Training...: 100% 2606/2609 [2:30:02<00:10,  3.49s/it][A
Training...: 100% 2607/2609 [2:30:05<00:06,  3.18s/it][A
Training...: 100% 2608/2609 [2:30:07<00:02,  2.82s/it][A
Training...: 100% 2609/2609 [2:30:08<00:00,  2.42s/it][ATraining...: 100% 2609/2609 [2:30:08<00:00,  3.45s/it]
Step... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:02:15<5:04:31, 9135.91s/it]
Training...:   0% 0/2609 [00:00<?, ?it/s][AStep... (46075 | Loss: 0.004372195806354284, Learning Rate: 7.931315849418752e-06, Gradient Norm: 0.3036195933818817)
Step... (46100 | Loss: 0.0008613658719696105, Learning Rate: 7.880807061155792e-06, Gradient Norm: 0.09910883009433746)
Step... (46125 | Loss: 0.001821859972551465, Learning Rate: 7.830303729861043e-06, Gradient Norm: 0.15185052156448364)
Step... (46150 | Loss: 0.003918915055692196, Learning Rate: 7.779800398566294e-06, Gradient Norm: 0.4677319824695587)
Step... (46175 | Loss: 0.0022582821547985077, Learning Rate: 7.729291610303335e-06, Gradient Norm: 0.19637338817119598)
Step... (46200 | Loss: 0.0007834612624719739, Learning Rate: 7.678788279008586e-06, Gradient Norm: 0.08827199041843414)
Step... (46225 | Loss: 0.0032628520857542753, Learning Rate: 7.628285857208539e-06, Gradient Norm: 0.19588959217071533)
Step... (46250 | Loss: 0.001349514233879745, Learning Rate: 7.577776614198228e-06, Gradient Norm: 0.2063360959291458)
Step... (46275 | Loss: 0.004734341520816088, Learning Rate: 7.52727373765083e-06, Gradient Norm: 0.38036048412323)
Step... (46300 | Loss: 0.0006575337611138821, Learning Rate: 7.476770861103432e-06, Gradient Norm: 0.10139913111925125)
Step... (46325 | Loss: 0.0014647740172222257, Learning Rate: 7.426261618093122e-06, Gradient Norm: 0.10288549214601517)
Step... (46350 | Loss: 0.0003891898086294532, Learning Rate: 7.375758741545724e-06, Gradient Norm: 0.05041729658842087)
Step... (46375 | Loss: 0.0016437590820714831, Learning Rate: 7.325255864998326e-06, Gradient Norm: 0.1368080973625183)
Step... (46400 | Loss: 0.0007260639686137438, Learning Rate: 7.274746621988015e-06, Gradient Norm: 0.1253528594970703)
Step... (46425 | Loss: 0.0018000913551077247, Learning Rate: 7.224243745440617e-06, Gradient Norm: 0.16539496183395386)
Step... (46450 | Loss: 0.00017267091607209295, Learning Rate: 7.173734502430307e-06, Gradient Norm: 0.014953238889575005)
Step... (46475 | Loss: 0.005969086196273565, Learning Rate: 7.123231625882909e-06, Gradient Norm: 0.36640650033950806)
Step... (46500 | Loss: 0.002069723093882203, Learning Rate: 7.072728749335511e-06, Gradient Norm: 0.20354917645454407)
Step... (46525 | Loss: 0.004651650786399841, Learning Rate: 7.0222195063252e-06, Gradient Norm: 0.3645016551017761)
Step... (46550 | Loss: 0.0024821592960506678, Learning Rate: 6.971716629777802e-06, Gradient Norm: 0.3666544556617737)
Step... (46575 | Loss: 0.004383639432489872, Learning Rate: 6.921213753230404e-06, Gradient Norm: 0.27292969822883606)
Step... (46600 | Loss: 0.0005099439877085388, Learning Rate: 6.870704510220094e-06, Gradient Norm: 0.06272653490304947)
Step... (46625 | Loss: 0.003064596327021718, Learning Rate: 6.820201633672696e-06, Gradient Norm: 0.23317749798297882)
Step... (46650 | Loss: 0.0008280738838948309, Learning Rate: 6.7696987571252976e-06, Gradient Norm: 0.11053113639354706)
Step... (46675 | Loss: 0.0014559319242835045, Learning Rate: 6.719189514114987e-06, Gradient Norm: 0.1146203950047493)
Step... (46700 | Loss: 0.0003803801373578608, Learning Rate: 6.668686637567589e-06, Gradient Norm: 0.03873639926314354)
Step... (46725 | Loss: 0.0013843742199242115, Learning Rate: 6.618183761020191e-06, Gradient Norm: 0.11826612055301666)
Step... (46750 | Loss: 0.0009432635852135718, Learning Rate: 6.5676745180098806e-06, Gradient Norm: 0.1359485685825348)
Step... (46775 | Loss: 0.008373725228011608, Learning Rate: 6.5171716414624825e-06, Gradient Norm: 0.3967455327510834)
Step... (46800 | Loss: 0.00020594797388184816, Learning Rate: 6.4666687649150845e-06, Gradient Norm: 0.019970981404185295)
Step... (46825 | Loss: 0.002809831639751792, Learning Rate: 6.416159521904774e-06, Gradient Norm: 0.20346608757972717)
Step... (46850 | Loss: 0.0008232106338255107, Learning Rate: 6.365656645357376e-06, Gradient Norm: 0.16261398792266846)
Step... (46875 | Loss: 0.0013363996986299753, Learning Rate: 6.315153768809978e-06, Gradient Norm: 0.08998702466487885)
Step... (46900 | Loss: 0.0004637988458853215, Learning Rate: 6.2646445257996675e-06, Gradient Norm: 0.050622109323740005)
Step... (46925 | Loss: 0.0034101633355021477, Learning Rate: 6.214141649252269e-06, Gradient Norm: 0.2313823699951172)
Step... (46950 | Loss: 0.00021041170111857355, Learning Rate: 6.163638772704871e-06, Gradient Norm: 0.020873555913567543)

Training...:   0% 1/2609 [00:07<5:16:57,  7.29s/it][A
Training...:   0% 2/2609 [00:14<5:11:38,  7.17s/it][A
Training...:   0% 3/2609 [00:20<4:58:17,  6.87s/it][A
Training...:   0% 4/2609 [00:27<4:46:27,  6.60s/it][A
Training...:   0% 5/2609 [00:33<4:35:54,  6.36s/it][A
Training...:   0% 6/2609 [00:38<4:26:33,  6.14s/it][A
Training...:   0% 7/2609 [00:44<4:18:56,  5.97s/it][A
Training...:   0% 8/2609 [00:49<4:11:37,  5.80s/it][A
Training...:   0% 9/2609 [00:54<4:01:11,  5.57s/it][A
Training...:   0% 10/2609 [00:59<3:51:53,  5.35s/it][A
Training...:   0% 11/2609 [01:04<3:43:32,  5.16s/it][A
Training...:   0% 12/2609 [01:09<3:35:56,  4.99s/it][A                                                                                                                                                                   
                                                    [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:03:30<5:04:31, 9135.91s/it]
Training...:   0% 12/2609 [01:14<3:35:56,  4.99s/it][A
Training...:   0% 13/2609 [01:14<3:39:09,  5.07s/it][A
Training...:   1% 14/2609 [01:18<3:29:39,  4.85s/it][A
Training...:   1% 15/2609 [01:22<3:21:41,  4.67s/it][A
Training...:   1% 16/2609 [01:26<3:14:05,  4.49s/it][A
Training...:   1% 17/2609 [01:30<3:07:16,  4.34s/it][A
Training...:   1% 18/2609 [01:34<3:01:10,  4.20s/it][A
Training...:   1% 19/2609 [01:38<2:55:38,  4.07s/it][A
Training...:   1% 20/2609 [01:42<2:50:59,  3.96s/it][A
Training...:   1% 21/2609 [01:45<2:45:54,  3.85s/it][A
Training...:   1% 22/2609 [01:49<2:40:57,  3.73s/it][A
Training...:   1% 23/2609 [01:52<2:36:18,  3.63s/it][A
Training...:   1% 24/2609 [01:56<2:32:31,  3.54s/it][A
Training...:   1% 25/2609 [01:59<2:29:07,  3.46s/it][A
Training...:   1% 26/2609 [02:02<2:25:12,  3.37s/it][A
Training...:   1% 27/2609 [02:05<2:21:06,  3.28s/it][A
Training...:   1% 28/2609 [02:08<2:17:10,  3.19s/it][A
Training...:   1% 29/2609 [02:11<2:13:49,  3.11s/it][A
Training...:   1% 30/2609 [02:14<2:10:22,  3.03s/it][A
Training...:   1% 31/2609 [02:17<2:06:57,  2.95s/it][A
Training...:   1% 32/2609 [02:19<2:03:52,  2.88s/it][A
Training...:   1% 33/2609 [02:22<1:59:29,  2.78s/it][A
Training...:   1% 34/2609 [02:24<1:55:42,  2.70s/it][A
Training...:   1% 35/2609 [02:27<1:51:32,  2.60s/it][A
Training...:   1% 36/2609 [02:29<1:47:19,  2.50s/it][A
Training...:   1% 37/2609 [02:31<1:43:23,  2.41s/it][A                                                                                                                                                                   
                                                    [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:04:50<5:04:31, 9135.91s/it]
Training...:   1% 37/2609 [02:34<1:43:23,  2.41s/it][A
Training...:   1% 38/2609 [02:34<1:44:41,  2.44s/it][A
Training...:   1% 39/2609 [02:36<1:39:08,  2.31s/it][A
Training...:   2% 40/2609 [02:38<1:34:28,  2.21s/it][A
Training...:   2% 41/2609 [02:40<1:29:41,  2.10s/it][A
Training...:   2% 42/2609 [02:41<1:25:57,  2.01s/it][A
Training...:   2% 43/2609 [02:43<1:21:42,  1.91s/it][A
Training...:   2% 44/2609 [02:45<1:16:49,  1.80s/it][A
Training...:   2% 45/2609 [02:46<1:11:58,  1.68s/it][A
Training...:   2% 46/2609 [02:47<1:06:40,  1.56s/it][A
Training...:   2% 47/2609 [02:48<1:01:19,  1.44s/it][A
Training...:   2% 48/2609 [02:49<55:26,  1.30s/it]  [A
Training...:   2% 49/2609 [02:50<48:51,  1.15s/it][A
Training...:   2% 50/2609 [02:51<41:02,  1.04it/s][A
Training...:   2% 51/2609 [02:58<1:59:21,  2.80s/it][A
Training...:   2% 52/2609 [03:05<2:52:53,  4.06s/it][A
Training...:   2% 53/2609 [03:11<3:25:39,  4.83s/it][A
Training...:   2% 54/2609 [03:18<3:43:14,  5.24s/it][A
Training...:   2% 55/2609 [03:24<3:54:49,  5.52s/it][A
Training...:   2% 56/2609 [03:30<4:00:26,  5.65s/it][A
Training...:   2% 57/2609 [03:35<3:59:42,  5.64s/it][A
Training...:   2% 58/2609 [03:41<3:55:49,  5.55s/it][A
Training...:   2% 59/2609 [03:46<3:51:22,  5.44s/it][A
Training...:   2% 60/2609 [03:51<3:44:36,  5.29s/it][A
Training...:   2% 61/2609 [03:56<3:39:20,  5.17s/it][A
Training...:   2% 62/2609 [04:00<3:32:21,  5.00s/it][A                                                                                                                                                                   
                                                    [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:06:22<5:04:31, 9135.91s/it]
Training...:   2% 62/2609 [04:06<3:32:21,  5.00s/it][A
Training...:   2% 63/2609 [04:06<3:36:20,  5.10s/it][A
Training...:   2% 64/2609 [04:10<3:27:41,  4.90s/it][A
Training...:   2% 65/2609 [04:14<3:20:54,  4.74s/it][A
Training...:   3% 66/2609 [04:19<3:12:53,  4.55s/it][A
Training...:   3% 67/2609 [04:23<3:07:09,  4.42s/it][A
Training...:   3% 68/2609 [04:27<3:01:23,  4.28s/it][A
Training...:   3% 69/2609 [04:30<2:55:47,  4.15s/it][A
Training...:   3% 70/2609 [04:34<2:50:18,  4.02s/it][A
Training...:   3% 71/2609 [04:38<2:45:36,  3.92s/it][A
Training...:   3% 72/2609 [04:41<2:41:00,  3.81s/it][A
Training...:   3% 73/2609 [04:45<2:37:24,  3.72s/it][A
Training...:   3% 74/2609 [04:48<2:32:33,  3.61s/it][A
Training...:   3% 75/2609 [04:52<2:29:05,  3.53s/it][A
Training...:   3% 76/2609 [04:55<2:24:33,  3.42s/it][A
Training...:   3% 77/2609 [04:58<2:20:36,  3.33s/it][A
Training...:   3% 78/2609 [05:01<2:16:01,  3.22s/it][A
Training...:   3% 79/2609 [05:04<2:12:09,  3.13s/it][A
Training...:   3% 80/2609 [05:07<2:08:12,  3.04s/it][A
Training...:   3% 81/2609 [05:09<2:04:45,  2.96s/it][A
Training...:   3% 82/2609 [05:12<2:01:03,  2.87s/it][A
Training...:   3% 83/2609 [05:15<1:57:23,  2.79s/it][A
Training...:   3% 84/2609 [05:17<1:54:26,  2.72s/it][A
Training...:   3% 85/2609 [05:20<1:50:26,  2.63s/it][A
Training...:   3% 86/2609 [05:22<1:46:16,  2.53s/it][A
Training...:   3% 87/2609 [05:24<1:42:35,  2.44s/it][A                                                                                                                                                                   
                                                    [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:07:43<5:04:31, 9135.91s/it]
Training...:   3% 87/2609 [05:27<1:42:35,  2.44s/it][A
Training...:   3% 88/2609 [05:27<1:43:29,  2.46s/it][A
Training...:   3% 89/2609 [05:29<1:38:02,  2.33s/it][A
Training...:   3% 90/2609 [05:31<1:33:29,  2.23s/it][A
Training...:   3% 91/2609 [05:33<1:29:06,  2.12s/it][A
Training...:   4% 92/2609 [05:34<1:24:46,  2.02s/it][A
Training...:   4% 93/2609 [05:36<1:19:40,  1.90s/it][A
Training...:   4% 94/2609 [05:37<1:14:14,  1.77s/it][A
Training...:   4% 95/2609 [05:39<1:08:58,  1.65s/it][A
Training...:   4% 96/2609 [05:40<1:04:06,  1.53s/it][A
Training...:   4% 97/2609 [05:41<58:45,  1.40s/it]  [A
Training...:   4% 98/2609 [05:42<52:54,  1.26s/it][A
Training...:   4% 99/2609 [05:43<46:49,  1.12s/it][A
Training...:   4% 100/2609 [05:43<39:51,  1.05it/s][A
Training...:   4% 101/2609 [05:51<1:57:36,  2.81s/it][A
Training...:   4% 102/2609 [05:58<2:49:45,  4.06s/it][A
Training...:   4% 103/2609 [06:04<3:24:55,  4.91s/it][A
Training...:   4% 104/2609 [06:11<3:41:47,  5.31s/it][A
Training...:   4% 105/2609 [06:17<3:50:59,  5.54s/it][A
Training...:   4% 106/2609 [06:23<3:53:37,  5.60s/it][A
Training...:   4% 107/2609 [06:28<3:53:05,  5.59s/it][A
Training...:   4% 108/2609 [06:33<3:49:21,  5.50s/it][A
Training...:   4% 109/2609 [06:39<3:47:11,  5.45s/it][A
Training...:   4% 110/2609 [06:44<3:41:14,  5.31s/it][A
Training...:   4% 111/2609 [06:49<3:35:13,  5.17s/it][A
Training...:   4% 112/2609 [06:53<3:28:20,  5.01s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:09:15<5:04:31, 9135.91s/it]
Training...:   4% 112/2609 [06:58<3:28:20,  5.01s/it][A
Training...:   4% 113/2609 [06:58<3:32:16,  5.10s/it][A
Training...:   4% 114/2609 [07:03<3:23:18,  4.89s/it][A
Training...:   4% 115/2609 [07:07<3:15:33,  4.70s/it][A
Training...:   4% 116/2609 [07:11<3:08:10,  4.53s/it][A
Training...:   4% 117/2609 [07:15<3:02:19,  4.39s/it][A
Training...:   5% 118/2609 [07:19<2:56:46,  4.26s/it][A
Training...:   5% 119/2609 [07:23<2:51:44,  4.14s/it][A
Training...:   5% 120/2609 [07:27<2:46:57,  4.02s/it][A
Training...:   5% 121/2609 [07:31<2:42:20,  3.91s/it][A
Training...:   5% 122/2609 [07:34<2:37:37,  3.80s/it][A
Training...:   5% 123/2609 [07:38<2:34:10,  3.72s/it][A
Training...:   5% 124/2609 [07:41<2:29:57,  3.62s/it][A
Training...:   5% 125/2609 [07:44<2:25:38,  3.52s/it][A
Training...:   5% 126/2609 [07:47<2:21:13,  3.41s/it][A
Training...:   5% 127/2609 [07:51<2:17:17,  3.32s/it][A
Training...:   5% 128/2609 [07:54<2:13:26,  3.23s/it][A
Training...:   5% 129/2609 [07:57<2:10:04,  3.15s/it][A
Training...:   5% 130/2609 [07:59<2:05:51,  3.05s/it][A
Training...:   5% 131/2609 [08:02<2:02:29,  2.97s/it][A
Training...:   5% 132/2609 [08:05<1:58:27,  2.87s/it][A
Training...:   5% 133/2609 [08:07<1:55:08,  2.79s/it][A
Training...:   5% 134/2609 [08:10<1:51:24,  2.70s/it][A
Training...:   5% 135/2609 [08:12<1:47:49,  2.61s/it][A
Training...:   5% 136/2609 [08:15<1:44:13,  2.53s/it][A
Training...:   5% 137/2609 [08:17<1:41:14,  2.46s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:10:36<5:04:31, 9135.91s/it]
Training...:   5% 137/2609 [08:19<1:41:14,  2.46s/it][A
Training...:   5% 138/2609 [08:19<1:42:38,  2.49s/it][A
Training...:   5% 139/2609 [08:22<1:37:29,  2.37s/it][A
Training...:   5% 140/2609 [08:24<1:32:52,  2.26s/it][A
Training...:   5% 141/2609 [08:26<1:29:14,  2.17s/it][A
Training...:   5% 142/2609 [08:27<1:24:30,  2.06s/it][A
Training...:   5% 143/2609 [08:29<1:19:58,  1.95s/it][A
Training...:   6% 144/2609 [08:31<1:15:44,  1.84s/it][A
Training...:   6% 145/2609 [08:32<1:10:57,  1.73s/it][A
Training...:   6% 146/2609 [08:33<1:06:08,  1.61s/it][A
Training...:   6% 147/2609 [08:35<1:00:37,  1.48s/it][A
Training...:   6% 148/2609 [08:36<54:48,  1.34s/it]  [A
Training...:   6% 149/2609 [08:36<48:29,  1.18s/it][A
Training...:   6% 150/2609 [08:37<40:47,  1.00it/s][A
Training...:   6% 151/2609 [08:44<1:58:01,  2.88s/it][A
Training...:   6% 152/2609 [08:52<2:53:34,  4.24s/it][A
Training...:   6% 153/2609 [08:58<3:22:55,  4.96s/it][A
Training...:   6% 154/2609 [09:05<3:38:52,  5.35s/it][A
Training...:   6% 155/2609 [09:11<3:46:43,  5.54s/it][A
Training...:   6% 156/2609 [09:16<3:48:23,  5.59s/it][A
Training...:   6% 157/2609 [09:22<3:48:07,  5.58s/it][A
Training...:   6% 158/2609 [09:27<3:44:40,  5.50s/it][A
Training...:   6% 159/2609 [09:32<3:40:50,  5.41s/it][A
Training...:   6% 160/2609 [09:37<3:36:47,  5.31s/it][A
Training...:   6% 161/2609 [09:42<3:30:53,  5.17s/it][A
Training...:   6% 162/2609 [09:47<3:25:41,  5.04s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:12:09<5:04:31, 9135.91s/it]
Training...:   6% 162/2609 [09:52<3:25:41,  5.04s/it][A
Training...:   6% 163/2609 [09:52<3:29:01,  5.13s/it][A
Training...:   6% 164/2609 [09:57<3:19:36,  4.90s/it][A
Training...:   6% 165/2609 [10:01<3:12:27,  4.73s/it][A
Training...:   6% 166/2609 [10:05<3:05:20,  4.55s/it][A
Training...:   6% 167/2609 [10:09<2:58:41,  4.39s/it][A
Training...:   6% 168/2609 [10:13<2:52:30,  4.24s/it][A
Training...:   6% 169/2609 [10:17<2:46:53,  4.10s/it][A
Training...:   7% 170/2609 [10:20<2:41:19,  3.97s/it][A
Training...:   7% 171/2609 [10:24<2:37:01,  3.86s/it][A
Training...:   7% 172/2609 [10:28<2:32:40,  3.76s/it][A
Training...:   7% 173/2609 [10:31<2:29:10,  3.67s/it][A
Training...:   7% 174/2609 [10:34<2:25:09,  3.58s/it][A
Training...:   7% 175/2609 [10:38<2:22:04,  3.50s/it][A
Training...:   7% 176/2609 [10:41<2:17:50,  3.40s/it][A
Training...:   7% 177/2609 [10:44<2:14:27,  3.32s/it][A
Training...:   7% 178/2609 [10:47<2:10:24,  3.22s/it][A
Training...:   7% 179/2609 [10:50<2:06:56,  3.13s/it][A
Training...:   7% 180/2609 [10:53<2:02:51,  3.03s/it][A
Training...:   7% 181/2609 [10:56<2:00:05,  2.97s/it][A
Training...:   7% 182/2609 [10:58<1:56:24,  2.88s/it][A
Training...:   7% 183/2609 [11:01<1:53:26,  2.81s/it][A
Training...:   7% 184/2609 [11:03<1:49:34,  2.71s/it][A
Training...:   7% 185/2609 [11:06<1:46:11,  2.63s/it][A
Training...:   7% 186/2609 [11:08<1:42:40,  2.54s/it][A
Training...:   7% 187/2609 [11:10<1:40:04,  2.48s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:13:30<5:04:31, 9135.91s/it]
Training...:   7% 187/2609 [11:13<1:40:04,  2.48s/it][A
Training...:   7% 188/2609 [11:13<1:41:17,  2.51s/it][A
Training...:   7% 189/2609 [11:15<1:36:29,  2.39s/it][A
Training...:   7% 190/2609 [11:17<1:31:35,  2.27s/it][A
Training...:   7% 191/2609 [11:19<1:26:51,  2.16s/it][A
Training...:   7% 192/2609 [11:21<1:22:33,  2.05s/it][A
Training...:   7% 193/2609 [11:23<1:18:23,  1.95s/it][A
Training...:   7% 194/2609 [11:24<1:14:00,  1.84s/it][A
Training...:   7% 195/2609 [11:26<1:09:52,  1.74s/it][A
Training...:   8% 196/2609 [11:27<1:05:05,  1.62s/it][A
Training...:   8% 197/2609 [11:28<1:00:03,  1.49s/it][A
Training...:   8% 198/2609 [11:29<54:12,  1.35s/it]  [A
Training...:   8% 199/2609 [11:30<47:57,  1.19s/it][A
Training...:   8% 200/2609 [11:31<40:30,  1.01s/it][A
Training...:   8% 201/2609 [11:38<1:55:33,  2.88s/it][A
Training...:   8% 202/2609 [11:45<2:48:07,  4.19s/it][A
Training...:   8% 203/2609 [11:52<3:16:57,  4.91s/it][A
Training...:   8% 204/2609 [11:58<3:33:57,  5.34s/it][A
Training...:   8% 205/2609 [12:04<3:43:57,  5.59s/it][A
Training...:   8% 206/2609 [12:10<3:44:51,  5.61s/it][A
Training...:   8% 207/2609 [12:15<3:42:46,  5.56s/it][A
Training...:   8% 208/2609 [12:21<3:39:46,  5.49s/it][A
Training...:   8% 209/2609 [12:26<3:35:32,  5.39s/it][A
Training...:   8% 210/2609 [12:31<3:30:27,  5.26s/it][A
Training...:   8% 211/2609 [12:36<3:25:00,  5.13s/it][A
Training...:   8% 212/2609 [12:40<3:19:09,  4.99s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:15:02<5:04:31, 9135.91s/it]
Training...:   8% 212/2609 [12:46<3:19:09,  4.99s/it][A
Training...:   8% 213/2609 [12:46<3:22:52,  5.08s/it][A
Training...:   8% 214/2609 [12:50<3:14:06,  4.86s/it][A
Training...:   8% 215/2609 [12:54<3:07:09,  4.69s/it][A
Training...:   8% 216/2609 [12:58<3:00:00,  4.51s/it][A
Training...:   8% 217/2609 [13:02<2:54:26,  4.38s/it][A
Training...:   8% 218/2609 [13:06<2:50:04,  4.27s/it][A
Training...:   8% 219/2609 [13:10<2:44:31,  4.13s/it][A
Training...:   8% 220/2609 [13:14<2:38:43,  3.99s/it][A
Training...:   8% 221/2609 [13:17<2:34:04,  3.87s/it][A
Training...:   9% 222/2609 [13:21<2:29:26,  3.76s/it][A
Training...:   9% 223/2609 [13:24<2:24:41,  3.64s/it][A
Training...:   9% 224/2609 [13:28<2:21:34,  3.56s/it][A
Training...:   9% 225/2609 [13:31<2:17:56,  3.47s/it][A
Training...:   9% 226/2609 [13:34<2:13:43,  3.37s/it][A
Training...:   9% 227/2609 [13:37<2:09:48,  3.27s/it][A
Training...:   9% 228/2609 [13:40<2:05:36,  3.17s/it][A
Training...:   9% 229/2609 [13:43<2:02:16,  3.08s/it][A
Training...:   9% 230/2609 [13:46<1:58:51,  3.00s/it][A
Training...:   9% 231/2609 [13:48<1:54:43,  2.89s/it][A
Training...:   9% 232/2609 [13:51<1:51:13,  2.81s/it][A
Training...:   9% 233/2609 [13:53<1:47:45,  2.72s/it][A
Training...:   9% 234/2609 [13:56<1:44:29,  2.64s/it][A
Training...:   9% 235/2609 [13:58<1:41:31,  2.57s/it][A
Training...:   9% 236/2609 [14:01<1:38:11,  2.48s/it][A
Training...:   9% 237/2609 [14:03<1:35:32,  2.42s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:16:22<5:04:31, 9135.91s/it]
Training...:   9% 237/2609 [14:05<1:35:32,  2.42s/it][A
Training...:   9% 238/2609 [14:05<1:36:47,  2.45s/it][A
Training...:   9% 239/2609 [14:07<1:32:11,  2.33s/it][A
Training...:   9% 240/2609 [14:09<1:27:27,  2.22s/it][A
Training...:   9% 241/2609 [14:11<1:23:07,  2.11s/it][A
Training...:   9% 242/2609 [14:13<1:18:44,  2.00s/it][A
Training...:   9% 243/2609 [14:15<1:14:22,  1.89s/it][A
Training...:   9% 244/2609 [14:16<1:09:51,  1.77s/it][A
Training...:   9% 245/2609 [14:18<1:05:25,  1.66s/it][A
Training...:   9% 246/2609 [14:19<1:00:09,  1.53s/it][A
Training...:   9% 247/2609 [14:20<55:14,  1.40s/it]  [A
Training...:  10% 248/2609 [14:21<49:57,  1.27s/it][A
Training...:  10% 249/2609 [14:22<44:04,  1.12s/it][A
Training...:  10% 250/2609 [14:22<37:09,  1.06it/s][A
Training...:  10% 251/2609 [14:29<1:50:15,  2.81s/it][A
Training...:  10% 252/2609 [14:36<2:40:35,  4.09s/it][A
Training...:  10% 253/2609 [14:43<3:11:02,  4.87s/it][A
Training...:  10% 254/2609 [14:49<3:28:34,  5.31s/it][A
Training...:  10% 255/2609 [14:55<3:36:50,  5.53s/it][A
Training...:  10% 256/2609 [15:01<3:38:29,  5.57s/it][A
Training...:  10% 257/2609 [15:07<3:38:50,  5.58s/it][A
Training...:  10% 258/2609 [15:12<3:36:01,  5.51s/it][A
Training...:  10% 259/2609 [15:17<3:32:41,  5.43s/it][A
Training...:  10% 260/2609 [15:22<3:26:07,  5.26s/it][A
Training...:  10% 261/2609 [15:27<3:21:05,  5.14s/it][A
Training...:  10% 262/2609 [15:32<3:15:52,  5.01s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:17:54<5:04:31, 9135.91s/it]
Training...:  10% 262/2609 [15:37<3:15:52,  5.01s/it][A
Training...:  10% 263/2609 [15:37<3:19:09,  5.09s/it][A
Training...:  10% 264/2609 [15:41<3:10:33,  4.88s/it][A
Training...:  10% 265/2609 [15:46<3:04:11,  4.71s/it][A
Training...:  10% 266/2609 [15:50<2:56:55,  4.53s/it][A
Training...:  10% 267/2609 [15:54<2:50:36,  4.37s/it][A
Training...:  10% 268/2609 [15:58<2:45:11,  4.23s/it][A
Training...:  10% 269/2609 [16:02<2:40:18,  4.11s/it][A
Training...:  10% 270/2609 [16:05<2:35:29,  3.99s/it][A
Training...:  10% 271/2609 [16:09<2:31:30,  3.89s/it][A
Training...:  10% 272/2609 [16:12<2:25:57,  3.75s/it][A
Training...:  10% 273/2609 [16:16<2:21:25,  3.63s/it][A
Training...:  11% 274/2609 [16:19<2:17:00,  3.52s/it][A
Training...:  11% 275/2609 [16:22<2:13:16,  3.43s/it][A
Training...:  11% 276/2609 [16:25<2:09:52,  3.34s/it][A
Training...:  11% 277/2609 [16:28<2:07:04,  3.27s/it][A
Training...:  11% 278/2609 [16:31<2:02:48,  3.16s/it][A
Training...:  11% 279/2609 [16:34<1:59:21,  3.07s/it][A
Training...:  11% 280/2609 [16:37<1:56:05,  2.99s/it][A
Training...:  11% 281/2609 [16:40<1:52:15,  2.89s/it][A
Training...:  11% 282/2609 [16:42<1:49:11,  2.82s/it][A
Training...:  11% 283/2609 [16:45<1:45:53,  2.73s/it][A
Training...:  11% 284/2609 [16:47<1:42:12,  2.64s/it][A
Training...:  11% 285/2609 [16:50<1:39:02,  2.56s/it][A
Training...:  11% 286/2609 [16:52<1:35:45,  2.47s/it][A
Training...:  11% 287/2609 [16:54<1:32:18,  2.39s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:19:13<5:04:31, 9135.91s/it]
Training...:  11% 287/2609 [16:57<1:32:18,  2.39s/it][A
Training...:  11% 288/2609 [16:57<1:33:49,  2.43s/it][A
Training...:  11% 289/2609 [16:59<1:28:50,  2.30s/it][A
Training...:  11% 290/2609 [17:01<1:24:58,  2.20s/it][A
Training...:  11% 291/2609 [17:02<1:20:30,  2.08s/it][A
Training...:  11% 292/2609 [17:04<1:16:17,  1.98s/it][A
Training...:  11% 293/2609 [17:06<1:12:27,  1.88s/it][A
Training...:  11% 294/2609 [17:07<1:08:20,  1.77s/it][A
Training...:  11% 295/2609 [17:09<1:04:11,  1.66s/it][A
Training...:  11% 296/2609 [17:10<1:00:06,  1.56s/it][A
Training...:  11% 297/2609 [17:11<55:32,  1.44s/it]  [A
Training...:  11% 298/2609 [17:12<50:26,  1.31s/it][A
Training...:  11% 299/2609 [17:13<44:38,  1.16s/it][A
Training...:  11% 300/2609 [17:14<37:55,  1.01it/s][A
Training...:  12% 301/2609 [17:21<1:48:07,  2.81s/it][A
Training...:  12% 302/2609 [17:28<2:38:05,  4.11s/it][A
Training...:  12% 303/2609 [17:34<3:07:13,  4.87s/it][A
Training...:  12% 304/2609 [17:41<3:25:04,  5.34s/it][A
Training...:  12% 305/2609 [17:47<3:34:01,  5.57s/it][A
Training...:  12% 306/2609 [17:53<3:36:37,  5.64s/it][A
Training...:  12% 307/2609 [17:58<3:36:02,  5.63s/it][A
Training...:  12% 308/2609 [18:04<3:32:08,  5.53s/it][A
Training...:  12% 309/2609 [18:09<3:29:31,  5.47s/it][A
Training...:  12% 310/2609 [18:14<3:24:28,  5.34s/it][A
Training...:  12% 311/2609 [18:19<3:18:58,  5.20s/it][A
Training...:  12% 312/2609 [18:24<3:13:04,  5.04s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:20:46<5:04:31, 9135.91s/it]
Training...:  12% 312/2609 [18:29<3:13:04,  5.04s/it][A
Training...:  12% 313/2609 [18:29<3:16:04,  5.12s/it][A
Training...:  12% 314/2609 [18:33<3:07:54,  4.91s/it][A
Training...:  12% 315/2609 [18:38<3:01:26,  4.75s/it][A
Training...:  12% 316/2609 [18:42<2:55:02,  4.58s/it][A
Training...:  12% 317/2609 [18:46<2:50:43,  4.47s/it][A
Training...:  12% 318/2609 [18:50<2:44:56,  4.32s/it][A
Training...:  12% 319/2609 [18:54<2:39:33,  4.18s/it][A
Training...:  12% 320/2609 [18:58<2:34:46,  4.06s/it][A
Training...:  12% 321/2609 [19:01<2:30:02,  3.93s/it][A
Training...:  12% 322/2609 [19:05<2:25:30,  3.82s/it][A
Training...:  12% 323/2609 [19:08<2:21:21,  3.71s/it][A
Training...:  12% 324/2609 [19:12<2:17:15,  3.60s/it][A
Training...:  12% 325/2609 [19:15<2:13:49,  3.52s/it][A
Training...:  12% 326/2609 [19:18<2:10:01,  3.42s/it][A
Training...:  13% 327/2609 [19:21<2:07:02,  3.34s/it][A
Training...:  13% 328/2609 [19:24<2:03:16,  3.24s/it][A
Training...:  13% 329/2609 [19:27<2:00:19,  3.17s/it][A
Training...:  13% 330/2609 [19:30<1:56:33,  3.07s/it][A
Training...:  13% 331/2609 [19:33<1:53:44,  3.00s/it][A
Training...:  13% 332/2609 [19:36<1:50:04,  2.90s/it][A
Training...:  13% 333/2609 [19:38<1:46:56,  2.82s/it][A
Training...:  13% 334/2609 [19:41<1:43:23,  2.73s/it][A
Training...:  13% 335/2609 [19:43<1:40:18,  2.65s/it][A
Training...:  13% 336/2609 [19:46<1:36:54,  2.56s/it][A
Training...:  13% 337/2609 [19:48<1:33:11,  2.46s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:22:07<5:04:31, 9135.91s/it]
Training...:  13% 337/2609 [19:50<1:33:11,  2.46s/it][A
Training...:  13% 338/2609 [19:50<1:34:12,  2.49s/it][A
Training...:  13% 339/2609 [19:52<1:29:41,  2.37s/it][A
Training...:  13% 340/2609 [19:55<1:25:42,  2.27s/it][A
Training...:  13% 341/2609 [19:56<1:21:26,  2.15s/it][A
Training...:  13% 342/2609 [19:58<1:17:37,  2.05s/it][A
Training...:  13% 343/2609 [20:00<1:13:27,  1.95s/it][A
Training...:  13% 344/2609 [20:01<1:08:49,  1.82s/it][A
Training...:  13% 345/2609 [20:03<1:04:38,  1.71s/it][A
Training...:  13% 346/2609 [20:04<1:00:33,  1.61s/it][A
Training...:  13% 347/2609 [20:05<56:00,  1.49s/it]  [A
Training...:  13% 348/2609 [20:07<50:56,  1.35s/it][A
Training...:  13% 349/2609 [20:07<45:16,  1.20s/it][A
Training...:  13% 350/2609 [20:08<37:58,  1.01s/it][A
Training...:  13% 351/2609 [20:15<1:49:24,  2.91s/it][A
Training...:  13% 352/2609 [20:23<2:38:29,  4.21s/it][A
Training...:  14% 353/2609 [20:29<3:06:01,  4.95s/it][A
Training...:  14% 354/2609 [20:36<3:22:20,  5.38s/it][A
Training...:  14% 355/2609 [20:42<3:31:43,  5.64s/it][A
Training...:  14% 356/2609 [20:48<3:36:21,  5.76s/it][A
Training...:  14% 357/2609 [20:54<3:37:12,  5.79s/it][A
Training...:  14% 358/2609 [20:59<3:32:31,  5.66s/it][A
Training...:  14% 359/2609 [21:04<3:26:44,  5.51s/it][A
Training...:  14% 360/2609 [21:09<3:20:35,  5.35s/it][A
Training...:  14% 361/2609 [21:14<3:15:32,  5.22s/it][A
Training...:  14% 362/2609 [21:19<3:10:34,  5.09s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:23:41<5:04:31, 9135.91s/it]
Training...:  14% 362/2609 [21:24<3:10:34,  5.09s/it][A
Training...:  14% 363/2609 [21:24<3:13:46,  5.18s/it][A
Training...:  14% 364/2609 [21:29<3:04:47,  4.94s/it][A
Training...:  14% 365/2609 [21:33<2:57:03,  4.73s/it][A
Training...:  14% 366/2609 [21:37<2:50:11,  4.55s/it][A
Training...:  14% 367/2609 [21:41<2:44:30,  4.40s/it][A
Training...:  14% 368/2609 [21:45<2:39:04,  4.26s/it][A
Training...:  14% 369/2609 [21:49<2:34:31,  4.14s/it][A
Training...:  14% 370/2609 [21:53<2:29:15,  4.00s/it][A
Training...:  14% 371/2609 [21:56<2:25:50,  3.91s/it][A
Training...:  14% 372/2609 [22:00<2:21:00,  3.78s/it][A
Training...:  14% 373/2609 [22:03<2:16:28,  3.66s/it][A
Training...:  14% 374/2609 [22:06<2:11:49,  3.54s/it][A
Training...:  14% 375/2609 [22:10<2:08:14,  3.44s/it][A
Training...:  14% 376/2609 [22:13<2:04:21,  3.34s/it][A
Training...:  14% 377/2609 [22:16<2:01:26,  3.26s/it][A
Training...:  14% 378/2609 [22:19<1:58:17,  3.18s/it][A
Training...:  15% 379/2609 [22:22<1:55:44,  3.11s/it][A
Training...:  15% 380/2609 [22:25<1:51:57,  3.01s/it][A
Training...:  15% 381/2609 [22:27<1:48:03,  2.91s/it][A
Training...:  15% 382/2609 [22:30<1:44:10,  2.81s/it][A
Training...:  15% 383/2609 [22:32<1:40:45,  2.72s/it][A
Training...:  15% 384/2609 [22:35<1:37:24,  2.63s/it][A
Training...:  15% 385/2609 [22:37<1:34:26,  2.55s/it][A
Training...:  15% 386/2609 [22:39<1:31:05,  2.46s/it][A
Training...:  15% 387/2609 [22:41<1:28:00,  2.38s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:25:01<5:04:31, 9135.91s/it]
Training...:  15% 387/2609 [22:44<1:28:00,  2.38s/it][A
Training...:  15% 388/2609 [22:44<1:29:39,  2.42s/it][A
Training...:  15% 389/2609 [22:46<1:24:55,  2.30s/it][A
Training...:  15% 390/2609 [22:48<1:20:48,  2.19s/it][A
Training...:  15% 391/2609 [22:50<1:16:42,  2.07s/it][A
Training...:  15% 392/2609 [22:51<1:12:49,  1.97s/it][A
Training...:  15% 393/2609 [22:53<1:08:47,  1.86s/it][A
Training...:  15% 394/2609 [22:55<1:04:44,  1.75s/it][A
Training...:  15% 395/2609 [22:56<1:01:05,  1.66s/it][A
Training...:  15% 396/2609 [22:57<57:07,  1.55s/it]  [A
Training...:  15% 397/2609 [22:58<52:47,  1.43s/it][A
Training...:  15% 398/2609 [23:00<48:14,  1.31s/it][A
Training...:  15% 399/2609 [23:00<43:07,  1.17s/it][A
Training...:  15% 400/2609 [23:01<36:38,  1.00it/s][A
Training...:  15% 401/2609 [23:08<1:44:49,  2.85s/it][A
Training...:  15% 402/2609 [23:15<2:31:32,  4.12s/it][A
Training...:  15% 403/2609 [23:22<2:58:52,  4.86s/it][A
Training...:  15% 404/2609 [23:28<3:13:54,  5.28s/it][A
Training...:  16% 405/2609 [23:34<3:22:06,  5.50s/it][A
Training...:  16% 406/2609 [23:40<3:24:14,  5.56s/it][A
Training...:  16% 407/2609 [23:45<3:24:59,  5.59s/it][A
Training...:  16% 408/2609 [23:51<3:22:05,  5.51s/it][A
Training...:  16% 409/2609 [23:56<3:18:32,  5.41s/it][A
Training...:  16% 410/2609 [24:01<3:14:19,  5.30s/it][A
Training...:  16% 411/2609 [24:06<3:09:18,  5.17s/it][A
Training...:  16% 412/2609 [24:11<3:04:35,  5.04s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:26:33<5:04:31, 9135.91s/it]
Training...:  16% 412/2609 [24:16<3:04:35,  5.04s/it][A
Training...:  16% 413/2609 [24:16<3:10:36,  5.21s/it][A
Training...:  16% 414/2609 [24:21<3:02:47,  5.00s/it][A
Training...:  16% 415/2609 [24:25<2:54:56,  4.78s/it][A
Training...:  16% 416/2609 [24:29<2:48:12,  4.60s/it][A
Training...:  16% 417/2609 [24:33<2:42:09,  4.44s/it][A
Training...:  16% 418/2609 [24:37<2:36:15,  4.28s/it][A
Training...:  16% 419/2609 [24:41<2:31:14,  4.14s/it][A
Training...:  16% 420/2609 [24:45<2:26:52,  4.03s/it][A
Training...:  16% 421/2609 [24:48<2:22:43,  3.91s/it][A
Training...:  16% 422/2609 [24:52<2:18:01,  3.79s/it][A
Training...:  16% 423/2609 [24:55<2:14:12,  3.68s/it][A
Training...:  16% 424/2609 [24:59<2:10:40,  3.59s/it][A
Training...:  16% 425/2609 [25:02<2:06:43,  3.48s/it][A
Training...:  16% 426/2609 [25:05<2:02:33,  3.37s/it][A
Training...:  16% 427/2609 [25:08<1:59:09,  3.28s/it][A
Training...:  16% 428/2609 [25:11<1:55:10,  3.17s/it][A
Training...:  16% 429/2609 [25:14<1:52:04,  3.08s/it][A
Training...:  16% 430/2609 [25:17<1:48:45,  2.99s/it][A
Training...:  17% 431/2609 [25:19<1:45:17,  2.90s/it][A
Training...:  17% 432/2609 [25:22<1:42:00,  2.81s/it][A
Training...:  17% 433/2609 [25:24<1:39:02,  2.73s/it][A
Training...:  17% 434/2609 [25:27<1:35:42,  2.64s/it][A
Training...:  17% 435/2609 [25:29<1:32:42,  2.56s/it][A
Training...:  17% 436/2609 [25:32<1:29:32,  2.47s/it][A
Training...:  17% 437/2609 [25:34<1:26:06,  2.38s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:27:53<5:04:31, 9135.91s/it]
Training...:  17% 437/2609 [25:36<1:26:06,  2.38s/it][A
Training...:  17% 438/2609 [25:36<1:27:14,  2.41s/it][A
Training...:  17% 439/2609 [25:38<1:22:29,  2.28s/it][A
Training...:  17% 440/2609 [25:40<1:18:21,  2.17s/it][A
Training...:  17% 441/2609 [25:42<1:14:59,  2.08s/it][A
Training...:  17% 442/2609 [25:44<1:11:34,  1.98s/it][A
Training...:  17% 443/2609 [25:45<1:07:49,  1.88s/it][A
Training...:  17% 444/2609 [25:47<1:03:45,  1.77s/it][A
Training...:  17% 445/2609 [25:48<59:51,  1.66s/it]  [A
Training...:  17% 446/2609 [25:50<55:51,  1.55s/it][A
Training...:  17% 447/2609 [25:51<51:31,  1.43s/it][A
Training...:  17% 448/2609 [25:52<47:13,  1.31s/it][A
Training...:  17% 449/2609 [25:53<42:09,  1.17s/it][A
Training...:  17% 450/2609 [25:53<35:48,  1.00it/s][A
Training...:  17% 451/2609 [26:00<1:42:35,  2.85s/it][A
Training...:  17% 452/2609 [26:07<2:28:48,  4.14s/it][A
Training...:  17% 453/2609 [26:14<2:59:33,  5.00s/it][A
Training...:  17% 454/2609 [26:21<3:13:52,  5.40s/it][A
Training...:  17% 455/2609 [26:27<3:20:29,  5.58s/it][A
Training...:  17% 456/2609 [26:32<3:21:27,  5.61s/it][A
Training...:  18% 457/2609 [26:38<3:20:03,  5.58s/it][A
Training...:  18% 458/2609 [26:43<3:16:38,  5.48s/it][A
Training...:  18% 459/2609 [26:48<3:13:33,  5.40s/it][A
Training...:  18% 460/2609 [26:53<3:08:38,  5.27s/it][A
Training...:  18% 461/2609 [26:58<3:04:00,  5.14s/it][A
Training...:  18% 462/2609 [27:03<2:58:31,  4.99s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:29:25<5:04:31, 9135.91s/it]
Training...:  18% 462/2609 [27:08<2:58:31,  4.99s/it][A
Training...:  18% 463/2609 [27:08<3:01:26,  5.07s/it][A
Training...:  18% 464/2609 [27:13<2:53:40,  4.86s/it][A
Training...:  18% 465/2609 [27:17<2:46:56,  4.67s/it][A
Training...:  18% 466/2609 [27:21<2:41:46,  4.53s/it][A
Training...:  18% 467/2609 [27:25<2:36:39,  4.39s/it][A
Training...:  18% 468/2609 [27:29<2:31:23,  4.24s/it][A
Training...:  18% 469/2609 [27:33<2:27:42,  4.14s/it][A
Training...:  18% 470/2609 [27:37<2:22:54,  4.01s/it][A
Training...:  18% 471/2609 [27:40<2:18:57,  3.90s/it][A
Training...:  18% 472/2609 [27:44<2:14:51,  3.79s/it][A
Training...:  18% 473/2609 [27:47<2:10:45,  3.67s/it][A
Training...:  18% 474/2609 [27:50<2:07:04,  3.57s/it][A
Training...:  18% 475/2609 [27:54<2:03:51,  3.48s/it][A
Training...:  18% 476/2609 [27:57<2:00:20,  3.39s/it][A
Training...:  18% 477/2609 [28:00<1:57:13,  3.30s/it][A
Training...:  18% 478/2609 [28:03<1:53:46,  3.20s/it][A
Training...:  18% 479/2609 [28:06<1:50:59,  3.13s/it][A
Training...:  18% 480/2609 [28:09<1:48:19,  3.05s/it][A
Training...:  18% 481/2609 [28:12<1:45:33,  2.98s/it][A
Training...:  18% 482/2609 [28:14<1:41:59,  2.88s/it][A
Training...:  19% 483/2609 [28:17<1:39:24,  2.81s/it][A
Training...:  19% 484/2609 [28:19<1:36:28,  2.72s/it][A
Training...:  19% 485/2609 [28:22<1:33:05,  2.63s/it][A
Training...:  19% 486/2609 [28:24<1:29:39,  2.53s/it][A
Training...:  19% 487/2609 [28:26<1:26:23,  2.44s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:30:46<5:04:31, 9135.91s/it]
Training...:  19% 487/2609 [28:29<1:26:23,  2.44s/it][A
Training...:  19% 488/2609 [28:29<1:27:07,  2.46s/it][A
Training...:  19% 489/2609 [28:31<1:22:50,  2.34s/it][A
Training...:  19% 490/2609 [28:33<1:18:41,  2.23s/it][A
Training...:  19% 491/2609 [28:35<1:14:32,  2.11s/it][A
Training...:  19% 492/2609 [28:36<1:10:25,  2.00s/it][A
Training...:  19% 493/2609 [28:38<1:06:31,  1.89s/it][A
Training...:  19% 494/2609 [28:40<1:02:24,  1.77s/it][A
Training...:  19% 495/2609 [28:41<58:29,  1.66s/it]  [A
Training...:  19% 496/2609 [28:42<54:43,  1.55s/it][A
Training...:  19% 497/2609 [28:43<50:38,  1.44s/it][A
Training...:  19% 498/2609 [28:44<46:20,  1.32s/it][A
Training...:  19% 499/2609 [28:45<41:17,  1.17s/it][A
Training...:  19% 500/2609 [28:46<35:19,  1.00s/it][A
Training...:  19% 501/2609 [28:53<1:41:52,  2.90s/it][A
Training...:  19% 502/2609 [29:00<2:26:58,  4.19s/it][A
Training...:  19% 503/2609 [29:07<2:50:44,  4.86s/it][A
Training...:  19% 504/2609 [29:13<3:04:32,  5.26s/it][A
Training...:  19% 505/2609 [29:19<3:11:11,  5.45s/it][A
Training...:  19% 506/2609 [29:25<3:13:23,  5.52s/it][A
Training...:  19% 507/2609 [29:30<3:12:57,  5.51s/it][A
Training...:  19% 508/2609 [29:35<3:10:17,  5.43s/it][A
Training...:  20% 509/2609 [29:41<3:07:07,  5.35s/it][A
Training...:  20% 510/2609 [29:45<3:02:45,  5.22s/it][A
Training...:  20% 511/2609 [29:50<2:58:14,  5.10s/it][A
Training...:  20% 512/2609 [29:55<2:53:23,  4.96s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:32:17<5:04:31, 9135.91s/it]
Training...:  20% 512/2609 [30:00<2:53:23,  4.96s/it][A
Training...:  20% 513/2609 [30:00<2:56:57,  5.07s/it][A
Training...:  20% 514/2609 [30:05<2:49:07,  4.84s/it][A
Training...:  20% 515/2609 [30:09<2:42:23,  4.65s/it][A
Training...:  20% 516/2609 [30:13<2:36:14,  4.48s/it][A
Training...:  20% 517/2609 [30:17<2:31:40,  4.35s/it][A
Training...:  20% 518/2609 [30:21<2:26:08,  4.19s/it][A
Training...:  20% 519/2609 [30:24<2:21:25,  4.06s/it][A
Training...:  20% 520/2609 [30:28<2:16:43,  3.93s/it][A
Training...:  20% 521/2609 [30:32<2:13:01,  3.82s/it][A
Training...:  20% 522/2609 [30:35<2:09:13,  3.71s/it][A
Training...:  20% 523/2609 [30:39<2:05:51,  3.62s/it][A
Training...:  20% 524/2609 [30:42<2:02:49,  3.53s/it][A
Training...:  20% 525/2609 [30:45<1:59:33,  3.44s/it][A
Training...:  20% 526/2609 [30:48<1:56:10,  3.35s/it][A
Training...:  20% 527/2609 [30:51<1:52:42,  3.25s/it][A
Training...:  20% 528/2609 [30:54<1:49:10,  3.15s/it][A
Training...:  20% 529/2609 [30:57<1:46:10,  3.06s/it][A
Training...:  20% 530/2609 [31:00<1:42:38,  2.96s/it][A
Training...:  20% 531/2609 [31:02<1:39:22,  2.87s/it][A
Training...:  20% 532/2609 [31:05<1:36:03,  2.78s/it][A
Training...:  20% 533/2609 [31:07<1:33:01,  2.69s/it][A
Training...:  20% 534/2609 [31:10<1:29:52,  2.60s/it][A
Training...:  21% 535/2609 [31:12<1:26:58,  2.52s/it][A
Training...:  21% 536/2609 [31:14<1:24:05,  2.43s/it][A
Training...:  21% 537/2609 [31:17<1:21:28,  2.36s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:33:36<5:04:31, 9135.91s/it]
Training...:  21% 537/2609 [31:19<1:21:28,  2.36s/it][A
Training...:  21% 538/2609 [31:19<1:23:09,  2.41s/it][A
Training...:  21% 539/2609 [31:21<1:18:45,  2.28s/it][A
Training...:  21% 540/2609 [31:23<1:14:50,  2.17s/it][A
Training...:  21% 541/2609 [31:25<1:11:18,  2.07s/it][A
Training...:  21% 542/2609 [31:27<1:07:45,  1.97s/it][A
Training...:  21% 543/2609 [31:28<1:03:54,  1.86s/it][A
Training...:  21% 544/2609 [31:30<59:57,  1.74s/it]  [A
Training...:  21% 545/2609 [31:31<56:02,  1.63s/it][A
Training...:  21% 546/2609 [31:32<51:48,  1.51s/it][A
Training...:  21% 547/2609 [31:33<47:44,  1.39s/it][A
Training...:  21% 548/2609 [31:34<42:51,  1.25s/it][A
Training...:  21% 549/2609 [31:35<37:46,  1.10s/it][A
Training...:  21% 550/2609 [31:36<31:57,  1.07it/s][A
Training...:  21% 551/2609 [31:43<1:37:36,  2.85s/it][A
Training...:  21% 552/2609 [31:50<2:21:52,  4.14s/it][A
Training...:  21% 553/2609 [31:57<2:46:46,  4.87s/it][A
Training...:  21% 554/2609 [32:03<3:01:21,  5.30s/it][A
Training...:  21% 555/2609 [32:09<3:08:36,  5.51s/it][A
Training...:  21% 556/2609 [32:15<3:10:57,  5.58s/it][A
Training...:  21% 557/2609 [32:20<3:11:46,  5.61s/it][A
Training...:  21% 558/2609 [32:26<3:09:06,  5.53s/it][A
Training...:  21% 559/2609 [32:31<3:05:27,  5.43s/it][A
Training...:  21% 560/2609 [32:36<3:01:26,  5.31s/it][A
Training...:  22% 561/2609 [32:41<2:56:58,  5.18s/it][A
Training...:  22% 562/2609 [32:45<2:51:40,  5.03s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:35:08<5:04:31, 9135.91s/it]
Training...:  22% 562/2609 [32:51<2:51:40,  5.03s/it][A
Training...:  22% 563/2609 [32:51<2:56:04,  5.16s/it][A
Training...:  22% 564/2609 [32:55<2:48:52,  4.95s/it][A
Training...:  22% 565/2609 [33:00<2:43:05,  4.79s/it][A
Training...:  22% 566/2609 [33:04<2:37:06,  4.61s/it][A
Training...:  22% 567/2609 [33:08<2:33:09,  4.50s/it][A
Training...:  22% 568/2609 [33:12<2:28:39,  4.37s/it][A
Training...:  22% 569/2609 [33:16<2:24:05,  4.24s/it][A
Training...:  22% 570/2609 [33:20<2:19:01,  4.09s/it][A
Training...:  22% 571/2609 [33:24<2:15:27,  3.99s/it][A
Training...:  22% 572/2609 [33:27<2:11:08,  3.86s/it][A
Training...:  22% 573/2609 [33:31<2:07:50,  3.77s/it][A
Training...:  22% 574/2609 [33:34<2:04:05,  3.66s/it][A
Training...:  22% 575/2609 [33:38<2:01:06,  3.57s/it][A
Training...:  22% 576/2609 [33:41<1:57:22,  3.46s/it][A
Training...:  22% 577/2609 [33:44<1:54:09,  3.37s/it][A
Training...:  22% 578/2609 [33:47<1:51:03,  3.28s/it][A
Training...:  22% 579/2609 [33:50<1:47:49,  3.19s/it][A
Training...:  22% 580/2609 [33:53<1:44:29,  3.09s/it][A
Training...:  22% 581/2609 [33:56<1:41:22,  3.00s/it][A
Training...:  22% 582/2609 [33:58<1:38:26,  2.91s/it][A
Training...:  22% 583/2609 [34:01<1:35:52,  2.84s/it][A
Training...:  22% 584/2609 [34:04<1:33:00,  2.76s/it][A
Training...:  22% 585/2609 [34:06<1:29:54,  2.67s/it][A
Training...:  22% 586/2609 [34:08<1:27:17,  2.59s/it][A
Training...:  22% 587/2609 [34:11<1:24:26,  2.51s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:36:30<5:04:31, 9135.91s/it]
Training...:  22% 587/2609 [34:13<1:24:26,  2.51s/it][A
Training...:  23% 588/2609 [34:13<1:25:19,  2.53s/it][A
Training...:  23% 589/2609 [34:15<1:20:58,  2.41s/it][A
Training...:  23% 590/2609 [34:17<1:16:52,  2.28s/it][A
Training...:  23% 591/2609 [34:19<1:12:48,  2.16s/it][A
Training...:  23% 592/2609 [34:21<1:09:01,  2.05s/it][A
Training...:  23% 593/2609 [34:23<1:05:21,  1.95s/it][A
Training...:  23% 594/2609 [34:24<1:01:20,  1.83s/it][A
Training...:  23% 595/2609 [34:26<57:23,  1.71s/it]  [A
Training...:  23% 596/2609 [34:27<53:09,  1.58s/it][A
Training...:  23% 597/2609 [34:28<48:59,  1.46s/it][A
Training...:  23% 598/2609 [34:29<44:12,  1.32s/it][A
Training...:  23% 599/2609 [34:30<38:58,  1.16s/it][A
Training...:  23% 600/2609 [34:31<32:54,  1.02it/s][A
Training...:  23% 601/2609 [34:38<1:35:35,  2.86s/it][A
Training...:  23% 602/2609 [34:45<2:18:19,  4.14s/it][A
Training...:  23% 603/2609 [34:52<2:44:03,  4.91s/it][A
Training...:  23% 604/2609 [34:58<2:59:48,  5.38s/it][A
Training...:  23% 605/2609 [35:04<3:07:37,  5.62s/it][A
Training...:  23% 606/2609 [35:10<3:10:36,  5.71s/it][A
Training...:  23% 607/2609 [35:16<3:10:54,  5.72s/it][A
Training...:  23% 608/2609 [35:21<3:07:07,  5.61s/it][A
Training...:  23% 609/2609 [35:27<3:03:18,  5.50s/it][A
Training...:  23% 610/2609 [35:32<2:58:18,  5.35s/it][A
Training...:  23% 611/2609 [35:37<2:53:29,  5.21s/it][A
Training...:  23% 612/2609 [35:41<2:48:15,  5.06s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:38:03<5:04:31, 9135.91s/it]
Training...:  23% 612/2609 [35:47<2:48:15,  5.06s/it][A
Training...:  23% 613/2609 [35:47<2:51:40,  5.16s/it][A
Training...:  24% 614/2609 [35:51<2:43:53,  4.93s/it][A
Training...:  24% 615/2609 [35:55<2:37:21,  4.74s/it][A
Training...:  24% 616/2609 [35:59<2:31:31,  4.56s/it][A
Training...:  24% 617/2609 [36:03<2:26:26,  4.41s/it][A
Training...:  24% 618/2609 [36:07<2:21:13,  4.26s/it][A
Training...:  24% 619/2609 [36:11<2:16:51,  4.13s/it][A
Training...:  24% 620/2609 [36:15<2:12:30,  4.00s/it][A
Training...:  24% 621/2609 [36:19<2:09:01,  3.89s/it][A
Training...:  24% 622/2609 [36:22<2:05:41,  3.80s/it][A
Training...:  24% 623/2609 [36:26<2:02:02,  3.69s/it][A
Training...:  24% 624/2609 [36:29<1:58:19,  3.58s/it][A
Training...:  24% 625/2609 [36:32<1:55:38,  3.50s/it][A
Training...:  24% 626/2609 [36:35<1:52:18,  3.40s/it][A
Training...:  24% 627/2609 [36:38<1:48:55,  3.30s/it][A
Training...:  24% 628/2609 [36:41<1:46:37,  3.23s/it][A
Training...:  24% 629/2609 [36:44<1:44:03,  3.15s/it][A
Training...:  24% 630/2609 [36:47<1:41:08,  3.07s/it][A
Training...:  24% 631/2609 [36:50<1:39:05,  3.01s/it][A
Training...:  24% 632/2609 [36:53<1:35:29,  2.90s/it][A
Training...:  24% 633/2609 [36:55<1:32:21,  2.80s/it][A
Training...:  24% 634/2609 [36:58<1:29:20,  2.71s/it][A
Training...:  24% 635/2609 [37:00<1:26:17,  2.62s/it][A
Training...:  24% 636/2609 [37:03<1:23:17,  2.53s/it][A
Training...:  24% 637/2609 [37:05<1:20:15,  2.44s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:39:24<5:04:31, 9135.91s/it]
Training...:  24% 637/2609 [37:07<1:20:15,  2.44s/it][A
Training...:  24% 638/2609 [37:07<1:21:35,  2.48s/it][A
Training...:  24% 639/2609 [37:10<1:17:04,  2.35s/it][A
Training...:  25% 640/2609 [37:11<1:13:19,  2.23s/it][A
Training...:  25% 641/2609 [37:13<1:09:36,  2.12s/it][A
Training...:  25% 642/2609 [37:15<1:05:53,  2.01s/it][A
Training...:  25% 643/2609 [37:17<1:02:37,  1.91s/it][A
Training...:  25% 644/2609 [37:18<58:53,  1.80s/it]  [A
Training...:  25% 645/2609 [37:20<55:13,  1.69s/it][A
Training...:  25% 646/2609 [37:21<51:29,  1.57s/it][A
Training...:  25% 647/2609 [37:22<47:30,  1.45s/it][A
Training...:  25% 648/2609 [37:23<43:15,  1.32s/it][A
Training...:  25% 649/2609 [37:24<38:26,  1.18s/it][A
Training...:  25% 650/2609 [37:25<32:17,  1.01it/s][A
Training...:  25% 651/2609 [37:32<1:33:19,  2.86s/it][A
Training...:  25% 652/2609 [37:39<2:17:53,  4.23s/it][A
Training...:  25% 653/2609 [37:46<2:40:16,  4.92s/it][A
Training...:  25% 654/2609 [37:52<2:53:15,  5.32s/it][A
Training...:  25% 655/2609 [37:58<3:00:15,  5.54s/it][A
Training...:  25% 656/2609 [38:04<3:02:17,  5.60s/it][A
Training...:  25% 657/2609 [38:09<3:01:19,  5.57s/it][A
Training...:  25% 658/2609 [38:15<2:58:52,  5.50s/it][A
Training...:  25% 659/2609 [38:20<2:55:05,  5.39s/it][A
Training...:  25% 660/2609 [38:25<2:49:30,  5.22s/it][A
Training...:  25% 661/2609 [38:29<2:45:14,  5.09s/it][A
Training...:  25% 662/2609 [38:34<2:40:53,  4.96s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:40:56<5:04:31, 9135.91s/it]
Training...:  25% 662/2609 [38:39<2:40:53,  4.96s/it][A
Training...:  25% 663/2609 [38:39<2:43:41,  5.05s/it][A
Training...:  25% 664/2609 [38:44<2:36:58,  4.84s/it][A
Training...:  25% 665/2609 [38:48<2:30:32,  4.65s/it][A
Training...:  26% 666/2609 [38:52<2:24:31,  4.46s/it][A
Training...:  26% 667/2609 [38:56<2:19:47,  4.32s/it][A
Training...:  26% 668/2609 [39:00<2:15:08,  4.18s/it][A
Training...:  26% 669/2609 [39:04<2:11:48,  4.08s/it][A
Training...:  26% 670/2609 [39:07<2:08:54,  3.99s/it][A
Training...:  26% 671/2609 [39:11<2:04:44,  3.86s/it][A
Training...:  26% 672/2609 [39:14<2:00:20,  3.73s/it][A
Training...:  26% 673/2609 [39:18<1:57:00,  3.63s/it][A
Training...:  26% 674/2609 [39:21<1:53:20,  3.51s/it][A
Training...:  26% 675/2609 [39:24<1:50:16,  3.42s/it][A
Training...:  26% 676/2609 [39:27<1:46:32,  3.31s/it][A
Training...:  26% 677/2609 [39:30<1:43:24,  3.21s/it][A
Training...:  26% 678/2609 [39:33<1:40:19,  3.12s/it][A
Training...:  26% 679/2609 [39:36<1:37:43,  3.04s/it][A
Training...:  26% 680/2609 [39:39<1:34:56,  2.95s/it][A
Training...:  26% 681/2609 [39:41<1:32:11,  2.87s/it][A
Training...:  26% 682/2609 [39:44<1:29:32,  2.79s/it][A
Training...:  26% 683/2609 [39:47<1:27:07,  2.71s/it][A
Training...:  26% 684/2609 [39:49<1:24:24,  2.63s/it][A
Training...:  26% 685/2609 [39:51<1:21:35,  2.54s/it][A
Training...:  26% 686/2609 [39:54<1:18:24,  2.45s/it][A
Training...:  26% 687/2609 [39:56<1:15:10,  2.35s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:42:15<5:04:31, 9135.91s/it]
Training...:  26% 687/2609 [39:58<1:15:10,  2.35s/it][A
Training...:  26% 688/2609 [39:58<1:16:16,  2.38s/it][A
Training...:  26% 689/2609 [40:00<1:12:15,  2.26s/it][A
Training...:  26% 690/2609 [40:02<1:08:08,  2.13s/it][A
Training...:  26% 691/2609 [40:04<1:04:38,  2.02s/it][A
Training...:  27% 692/2609 [40:05<1:01:40,  1.93s/it][A
Training...:  27% 693/2609 [40:07<58:29,  1.83s/it]  [A
Training...:  27% 694/2609 [40:09<58:30,  1.83s/it][A
Training...:  27% 695/2609 [40:10<54:37,  1.71s/it][A
Training...:  27% 696/2609 [40:12<50:10,  1.57s/it][A
Training...:  27% 697/2609 [40:13<45:55,  1.44s/it][A
Training...:  27% 698/2609 [40:14<41:21,  1.30s/it][A
Training...:  27% 699/2609 [40:14<36:20,  1.14s/it][A
Training...:  27% 700/2609 [40:15<30:59,  1.03it/s][A
Training...:  27% 701/2609 [40:22<1:30:03,  2.83s/it][A
Training...:  27% 702/2609 [40:29<2:10:26,  4.10s/it][A
Training...:  27% 703/2609 [40:36<2:33:30,  4.83s/it][A
Training...:  27% 704/2609 [40:42<2:47:33,  5.28s/it][A
Training...:  27% 705/2609 [40:48<2:53:44,  5.47s/it][A
Training...:  27% 706/2609 [40:54<2:56:40,  5.57s/it][A
Training...:  27% 707/2609 [41:00<2:58:28,  5.63s/it][A
Training...:  27% 708/2609 [41:05<2:55:13,  5.53s/it][A
Training...:  27% 709/2609 [41:10<2:51:29,  5.42s/it][A
Training...:  27% 710/2609 [41:15<2:46:20,  5.26s/it][A
Training...:  27% 711/2609 [41:20<2:42:13,  5.13s/it][A
Training...:  27% 712/2609 [41:24<2:37:07,  4.97s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:43:46<5:04:31, 9135.91s/it]
Training...:  27% 712/2609 [41:30<2:37:07,  4.97s/it][A
Training...:  27% 713/2609 [41:30<2:39:46,  5.06s/it][A
Training...:  27% 714/2609 [41:34<2:33:10,  4.85s/it][A
Training...:  27% 715/2609 [41:38<2:27:30,  4.67s/it][A
Training...:  27% 716/2609 [41:42<2:21:45,  4.49s/it][A
Training...:  27% 717/2609 [41:46<2:17:24,  4.36s/it][A
Training...:  28% 718/2609 [41:50<2:12:46,  4.21s/it][A
Training...:  28% 719/2609 [41:54<2:09:53,  4.12s/it][A
Training...:  28% 720/2609 [41:58<2:05:34,  3.99s/it][A
Training...:  28% 721/2609 [42:01<2:02:06,  3.88s/it][A
Training...:  28% 722/2609 [42:05<1:58:35,  3.77s/it][A
Training...:  28% 723/2609 [42:08<1:55:19,  3.67s/it][A
Training...:  28% 724/2609 [42:12<1:51:58,  3.56s/it][A
Training...:  28% 725/2609 [42:15<1:49:02,  3.47s/it][A
Training...:  28% 726/2609 [42:18<1:45:48,  3.37s/it][A
Training...:  28% 727/2609 [42:21<1:42:43,  3.27s/it][A
Training...:  28% 728/2609 [42:24<1:39:40,  3.18s/it][A
Training...:  28% 729/2609 [42:27<1:36:54,  3.09s/it][A
Training...:  28% 730/2609 [42:30<1:34:05,  3.00s/it][A
Training...:  28% 731/2609 [42:32<1:31:06,  2.91s/it][A
Training...:  28% 732/2609 [42:35<1:28:10,  2.82s/it][A
Training...:  28% 733/2609 [42:38<1:25:26,  2.73s/it][A
Training...:  28% 734/2609 [42:40<1:22:41,  2.65s/it][A
Training...:  28% 735/2609 [42:42<1:19:58,  2.56s/it][A
Training...:  28% 736/2609 [42:45<1:17:43,  2.49s/it][A
Training...:  28% 737/2609 [42:47<1:15:10,  2.41s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:45:06<5:04:31, 9135.91s/it]
Training...:  28% 737/2609 [42:49<1:15:10,  2.41s/it][A
Training...:  28% 738/2609 [42:49<1:15:53,  2.43s/it][A
Training...:  28% 739/2609 [42:51<1:11:58,  2.31s/it][A
Training...:  28% 740/2609 [42:53<1:07:49,  2.18s/it][A
Training...:  28% 741/2609 [42:55<1:04:09,  2.06s/it][A
Training...:  28% 742/2609 [42:57<1:00:45,  1.95s/it][A
Training...:  28% 743/2609 [42:58<57:20,  1.84s/it]  [A
Training...:  29% 744/2609 [43:00<53:58,  1.74s/it][A
Training...:  29% 745/2609 [43:01<50:43,  1.63s/it][A
Training...:  29% 746/2609 [43:03<47:21,  1.53s/it][A
Training...:  29% 747/2609 [43:04<43:42,  1.41s/it][A
Training...:  29% 748/2609 [43:05<39:23,  1.27s/it][A
Training...:  29% 749/2609 [43:05<34:44,  1.12s/it][A
Training...:  29% 750/2609 [43:06<29:26,  1.05it/s][A
Training...:  29% 751/2609 [43:13<1:27:39,  2.83s/it][A
Training...:  29% 752/2609 [43:20<2:07:02,  4.10s/it][A
Training...:  29% 753/2609 [43:27<2:28:58,  4.82s/it][A
Training...:  29% 754/2609 [43:33<2:42:02,  5.24s/it][A
Training...:  29% 755/2609 [43:39<2:48:01,  5.44s/it][A
Training...:  29% 756/2609 [43:44<2:49:06,  5.48s/it][A
Training...:  29% 757/2609 [43:50<2:49:03,  5.48s/it][A
Training...:  29% 758/2609 [43:55<2:45:41,  5.37s/it][A
Training...:  29% 759/2609 [44:00<2:42:39,  5.28s/it][A
Training...:  29% 760/2609 [44:05<2:38:51,  5.16s/it][A
Training...:  29% 761/2609 [44:10<2:35:00,  5.03s/it][A
Training...:  29% 762/2609 [44:14<2:30:35,  4.89s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:46:36<5:04:31, 9135.91s/it]
Training...:  29% 762/2609 [44:19<2:30:35,  4.89s/it][A
Training...:  29% 763/2609 [44:19<2:32:30,  4.96s/it][A
Training...:  29% 764/2609 [44:24<2:26:23,  4.76s/it][A
Training...:  29% 765/2609 [44:28<2:21:28,  4.60s/it][A
Training...:  29% 766/2609 [44:32<2:16:01,  4.43s/it][A
Training...:  29% 767/2609 [44:36<2:12:04,  4.30s/it][A
Training...:  29% 768/2609 [44:40<2:09:16,  4.21s/it][A
Training...:  29% 769/2609 [44:44<2:06:32,  4.13s/it][A
Training...:  30% 770/2609 [44:48<2:02:22,  3.99s/it][A
Training...:  30% 771/2609 [44:51<1:59:10,  3.89s/it][A
Training...:  30% 772/2609 [44:55<1:55:16,  3.76s/it][A
Training...:  30% 773/2609 [44:58<1:51:54,  3.66s/it][A
Training...:  30% 774/2609 [45:01<1:48:56,  3.56s/it][A
Training...:  30% 775/2609 [45:05<1:45:54,  3.46s/it][A
Training...:  30% 776/2609 [45:08<1:42:22,  3.35s/it][A
Training...:  30% 777/2609 [45:11<1:40:09,  3.28s/it][A
Training...:  30% 778/2609 [45:14<1:36:43,  3.17s/it][A
Training...:  30% 779/2609 [45:17<1:33:56,  3.08s/it][A
Training...:  30% 780/2609 [45:19<1:31:36,  3.01s/it][A
Training...:  30% 781/2609 [45:22<1:28:49,  2.92s/it][A
Training...:  30% 782/2609 [45:25<1:25:45,  2.82s/it][A
Training...:  30% 783/2609 [45:27<1:23:11,  2.73s/it][A
Training...:  30% 784/2609 [45:30<1:20:30,  2.65s/it][A
Training...:  30% 785/2609 [45:32<1:18:29,  2.58s/it][A
Training...:  30% 786/2609 [45:34<1:15:42,  2.49s/it][A
Training...:  30% 787/2609 [45:37<1:13:13,  2.41s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:47:56<5:04:31, 9135.91s/it]
Training...:  30% 787/2609 [45:39<1:13:13,  2.41s/it][A
Training...:  30% 788/2609 [45:39<1:14:12,  2.44s/it][A
Training...:  30% 789/2609 [45:41<1:10:20,  2.32s/it][A
Training...:  30% 790/2609 [45:43<1:06:43,  2.20s/it][A
Training...:  30% 791/2609 [45:45<1:03:15,  2.09s/it][A
Training...:  30% 792/2609 [45:47<1:00:09,  1.99s/it][A
Training...:  30% 793/2609 [45:48<57:05,  1.89s/it]  [A
Training...:  30% 794/2609 [45:50<53:49,  1.78s/it][A
Training...:  30% 795/2609 [45:51<50:12,  1.66s/it][A
Training...:  31% 796/2609 [45:53<46:48,  1.55s/it][A
Training...:  31% 797/2609 [45:54<43:13,  1.43s/it][A
Training...:  31% 798/2609 [45:55<39:17,  1.30s/it][A
Training...:  31% 799/2609 [45:56<35:05,  1.16s/it][A
Training...:  31% 800/2609 [45:56<29:49,  1.01it/s][A
Training...:  31% 801/2609 [46:03<1:26:14,  2.86s/it][A
Training...:  31% 802/2609 [46:11<2:05:18,  4.16s/it][A
Training...:  31% 803/2609 [46:17<2:27:46,  4.91s/it][A
Training...:  31% 804/2609 [46:24<2:40:31,  5.34s/it][A
Training...:  31% 805/2609 [46:30<2:46:14,  5.53s/it][A
Training...:  31% 806/2609 [46:35<2:46:41,  5.55s/it][A
Training...:  31% 807/2609 [46:41<2:46:23,  5.54s/it][A
Training...:  31% 808/2609 [46:46<2:43:33,  5.45s/it][A
Training...:  31% 809/2609 [46:51<2:41:09,  5.37s/it][A
Training...:  31% 810/2609 [46:56<2:36:19,  5.21s/it][A
Training...:  31% 811/2609 [47:01<2:33:40,  5.13s/it][A
Training...:  31% 812/2609 [47:05<2:28:34,  4.96s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:49:27<5:04:31, 9135.91s/it]
Training...:  31% 812/2609 [47:11<2:28:34,  4.96s/it][A
Training...:  31% 813/2609 [47:11<2:30:50,  5.04s/it][A
Training...:  31% 814/2609 [47:15<2:25:58,  4.88s/it][A
Training...:  31% 815/2609 [47:20<2:21:25,  4.73s/it][A
Training...:  31% 816/2609 [47:24<2:15:24,  4.53s/it][A
Training...:  31% 817/2609 [47:28<2:10:40,  4.38s/it][A
Training...:  31% 818/2609 [47:31<2:05:34,  4.21s/it][A
Training...:  31% 819/2609 [47:35<2:01:20,  4.07s/it][A
Training...:  31% 820/2609 [47:39<1:58:00,  3.96s/it][A
Training...:  31% 821/2609 [47:43<1:54:58,  3.86s/it][A
Training...:  32% 822/2609 [47:46<1:52:07,  3.76s/it][A
Training...:  32% 823/2609 [47:49<1:49:02,  3.66s/it][A
Training...:  32% 824/2609 [47:53<1:45:35,  3.55s/it][A
Training...:  32% 825/2609 [47:56<1:42:43,  3.45s/it][A
Training...:  32% 826/2609 [47:59<1:39:52,  3.36s/it][A
Training...:  32% 827/2609 [48:02<1:36:46,  3.26s/it][A
Training...:  32% 828/2609 [48:05<1:33:46,  3.16s/it][A
Training...:  32% 829/2609 [48:08<1:30:53,  3.06s/it][A
Training...:  32% 830/2609 [48:11<1:28:11,  2.97s/it][A
Training...:  32% 831/2609 [48:13<1:25:18,  2.88s/it][A
Training...:  32% 832/2609 [48:16<1:23:12,  2.81s/it][A
Training...:  32% 833/2609 [48:19<1:20:44,  2.73s/it][A
Training...:  32% 834/2609 [48:21<1:18:05,  2.64s/it][A
Training...:  32% 835/2609 [48:23<1:15:59,  2.57s/it][A
Training...:  32% 836/2609 [48:26<1:13:41,  2.49s/it][A
Training...:  32% 837/2609 [48:28<1:11:25,  2.42s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:50:47<5:04:31, 9135.91s/it]
Training...:  32% 837/2609 [48:30<1:11:25,  2.42s/it][A
Training...:  32% 838/2609 [48:30<1:12:29,  2.46s/it][A
Training...:  32% 839/2609 [48:33<1:08:41,  2.33s/it][A
Training...:  32% 840/2609 [48:35<1:05:34,  2.22s/it][A
Training...:  32% 841/2609 [48:36<1:02:21,  2.12s/it][A
Training...:  32% 842/2609 [48:38<59:12,  2.01s/it]  [A
Training...:  32% 843/2609 [48:40<56:07,  1.91s/it][A
Training...:  32% 844/2609 [48:41<52:53,  1.80s/it][A
Training...:  32% 845/2609 [48:43<49:43,  1.69s/it][A
Training...:  32% 846/2609 [48:44<45:57,  1.56s/it][A
Training...:  32% 847/2609 [48:45<42:28,  1.45s/it][A
Training...:  33% 848/2609 [48:46<38:27,  1.31s/it][A
Training...:  33% 849/2609 [48:47<34:00,  1.16s/it][A
Training...:  33% 850/2609 [48:48<28:39,  1.02it/s][A
Training...:  33% 851/2609 [48:55<1:22:46,  2.83s/it][A
Training...:  33% 852/2609 [49:02<2:00:28,  4.11s/it][A
Training...:  33% 853/2609 [49:09<2:22:56,  4.88s/it][A
Training...:  33% 854/2609 [49:15<2:36:16,  5.34s/it][A
Training...:  33% 855/2609 [49:21<2:43:18,  5.59s/it][A
Training...:  33% 856/2609 [49:27<2:45:01,  5.65s/it][A
Training...:  33% 857/2609 [49:32<2:44:13,  5.62s/it][A
Training...:  33% 858/2609 [49:38<2:41:19,  5.53s/it][A
Training...:  33% 859/2609 [49:43<2:38:06,  5.42s/it][A
Training...:  33% 860/2609 [49:48<2:33:39,  5.27s/it][A
Training...:  33% 861/2609 [49:53<2:33:26,  5.27s/it][A
Training...:  33% 862/2609 [49:58<2:31:51,  5.22s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:52:20<5:04:31, 9135.91s/it]
Training...:  33% 862/2609 [50:04<2:31:51,  5.22s/it][A
Training...:  33% 863/2609 [50:04<2:34:40,  5.32s/it][A
Training...:  33% 864/2609 [50:08<2:27:21,  5.07s/it][A
Training...:  33% 865/2609 [50:12<2:20:21,  4.83s/it][A
Training...:  33% 866/2609 [50:17<2:13:34,  4.60s/it][A
Training...:  33% 867/2609 [50:21<2:08:27,  4.42s/it][A
Training...:  33% 868/2609 [50:24<2:03:51,  4.27s/it][A
Training...:  33% 869/2609 [50:28<1:59:52,  4.13s/it][A
Training...:  33% 870/2609 [50:32<1:55:53,  4.00s/it][A
Training...:  33% 871/2609 [50:36<1:53:11,  3.91s/it][A
Training...:  33% 872/2609 [50:39<1:49:54,  3.80s/it][A
Training...:  33% 873/2609 [50:43<1:46:52,  3.69s/it][A
Training...:  33% 874/2609 [50:46<1:43:26,  3.58s/it][A
Training...:  34% 875/2609 [50:49<1:40:48,  3.49s/it][A
Training...:  34% 876/2609 [50:52<1:37:35,  3.38s/it][A
Training...:  34% 877/2609 [50:55<1:35:01,  3.29s/it][A
Training...:  34% 878/2609 [50:58<1:32:37,  3.21s/it][A
Training...:  34% 879/2609 [51:01<1:30:03,  3.12s/it][A
Training...:  34% 880/2609 [51:04<1:27:28,  3.04s/it][A
Training...:  34% 881/2609 [51:07<1:24:38,  2.94s/it][A
Training...:  34% 882/2609 [51:10<1:21:44,  2.84s/it][A
Training...:  34% 883/2609 [51:12<1:19:14,  2.75s/it][A
Training...:  34% 884/2609 [51:15<1:16:38,  2.67s/it][A
Training...:  34% 885/2609 [51:17<1:14:01,  2.58s/it][A
Training...:  34% 886/2609 [51:19<1:11:36,  2.49s/it][A
Training...:  34% 887/2609 [51:21<1:09:26,  2.42s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:53:41<5:04:31, 9135.91s/it]
Training...:  34% 887/2609 [51:24<1:09:26,  2.42s/it][A
Training...:  34% 888/2609 [51:24<1:10:16,  2.45s/it][A
Training...:  34% 889/2609 [51:26<1:06:18,  2.31s/it][A
Training...:  34% 890/2609 [51:28<1:02:47,  2.19s/it][A
Training...:  34% 891/2609 [51:30<59:22,  2.07s/it]  [A
Training...:  34% 892/2609 [51:31<56:23,  1.97s/it][A
Training...:  34% 893/2609 [51:33<53:09,  1.86s/it][A
Training...:  34% 894/2609 [51:35<50:03,  1.75s/it][A
Training...:  34% 895/2609 [51:36<46:37,  1.63s/it][A
Training...:  34% 896/2609 [51:37<43:29,  1.52s/it][A
Training...:  34% 897/2609 [51:38<40:04,  1.40s/it][A
Training...:  34% 898/2609 [51:39<36:13,  1.27s/it][A
Training...:  34% 899/2609 [51:40<32:19,  1.13s/it][A
Training...:  34% 900/2609 [51:41<27:22,  1.04it/s][A
Training...:  35% 901/2609 [51:48<1:21:35,  2.87s/it][A
Training...:  35% 902/2609 [51:55<1:58:44,  4.17s/it][A
Training...:  35% 903/2609 [52:02<2:20:20,  4.94s/it][A
Training...:  35% 904/2609 [52:08<2:32:57,  5.38s/it][A
Training...:  35% 905/2609 [52:14<2:38:19,  5.57s/it][A
Training...:  35% 906/2609 [52:20<2:38:39,  5.59s/it][A
Training...:  35% 907/2609 [52:26<2:39:08,  5.61s/it][A
Training...:  35% 908/2609 [52:31<2:37:19,  5.55s/it][A
Training...:  35% 909/2609 [52:36<2:33:51,  5.43s/it][A
Training...:  35% 910/2609 [52:41<2:29:44,  5.29s/it][A
Training...:  35% 911/2609 [52:46<2:27:17,  5.20s/it][A
Training...:  35% 912/2609 [52:51<2:23:23,  5.07s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:55:13<5:04:31, 9135.91s/it]
Training...:  35% 912/2609 [52:56<2:23:23,  5.07s/it][A
Training...:  35% 913/2609 [52:56<2:25:56,  5.16s/it][A
Training...:  35% 914/2609 [53:01<2:19:38,  4.94s/it][A
Training...:  35% 915/2609 [53:05<2:14:38,  4.77s/it][A
Training...:  35% 916/2609 [53:09<2:09:51,  4.60s/it][A
Training...:  35% 917/2609 [53:13<2:05:43,  4.46s/it][A
Training...:  35% 918/2609 [53:17<2:01:10,  4.30s/it][A
Training...:  35% 919/2609 [53:21<1:57:35,  4.17s/it][A
Training...:  35% 920/2609 [53:25<1:53:49,  4.04s/it][A
Training...:  35% 921/2609 [53:29<1:50:39,  3.93s/it][A
Training...:  35% 922/2609 [53:32<1:47:04,  3.81s/it][A
Training...:  35% 923/2609 [53:36<1:44:01,  3.70s/it][A
Training...:  35% 924/2609 [53:39<1:41:01,  3.60s/it][A
Training...:  35% 925/2609 [53:42<1:38:40,  3.52s/it][A
Training...:  35% 926/2609 [53:45<1:35:42,  3.41s/it][A
Training...:  36% 927/2609 [53:49<1:32:49,  3.31s/it][A
Training...:  36% 928/2609 [53:52<1:30:09,  3.22s/it][A
Training...:  36% 929/2609 [53:54<1:27:51,  3.14s/it][A
Training...:  36% 930/2609 [53:57<1:25:35,  3.06s/it][A
Training...:  36% 931/2609 [54:00<1:23:08,  2.97s/it][A
Training...:  36% 932/2609 [54:03<1:20:38,  2.89s/it][A
Training...:  36% 933/2609 [54:05<1:18:14,  2.80s/it][A
Training...:  36% 934/2609 [54:08<1:16:00,  2.72s/it][A
Training...:  36% 935/2609 [54:10<1:13:42,  2.64s/it][A
Training...:  36% 936/2609 [54:13<1:11:23,  2.56s/it][A
Training...:  36% 937/2609 [54:15<1:09:12,  2.48s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:56:34<5:04:31, 9135.91s/it]
Training...:  36% 937/2609 [54:18<1:09:12,  2.48s/it][A
Training...:  36% 938/2609 [54:18<1:09:42,  2.50s/it][A
Training...:  36% 939/2609 [54:20<1:06:05,  2.37s/it][A
Training...:  36% 940/2609 [54:22<1:02:35,  2.25s/it][A
Training...:  36% 941/2609 [54:24<59:28,  2.14s/it]  [A
Training...:  36% 942/2609 [54:25<56:10,  2.02s/it][A
Training...:  36% 943/2609 [54:27<53:25,  1.92s/it][A
Training...:  36% 944/2609 [54:29<50:14,  1.81s/it][A
Training...:  36% 945/2609 [54:30<47:13,  1.70s/it][A
Training...:  36% 946/2609 [54:31<44:02,  1.59s/it][A
Training...:  36% 947/2609 [54:32<40:49,  1.47s/it][A
Training...:  36% 948/2609 [54:34<37:16,  1.35s/it][A
Training...:  36% 949/2609 [54:34<33:04,  1.20s/it][A
Training...:  36% 950/2609 [54:35<27:48,  1.01s/it][A
Training...:  36% 951/2609 [54:42<1:19:12,  2.87s/it][A
Training...:  36% 952/2609 [54:49<1:54:48,  4.16s/it][A
Training...:  37% 953/2609 [54:56<2:14:21,  4.87s/it][A
Training...:  37% 954/2609 [55:02<2:25:32,  5.28s/it][A
Training...:  37% 955/2609 [55:08<2:31:04,  5.48s/it][A
Training...:  37% 956/2609 [55:14<2:32:20,  5.53s/it][A
Training...:  37% 957/2609 [55:19<2:31:57,  5.52s/it][A
Training...:  37% 958/2609 [55:24<2:29:22,  5.43s/it][A
Training...:  37% 959/2609 [55:30<2:27:04,  5.35s/it][A
Training...:  37% 960/2609 [55:34<2:23:23,  5.22s/it][A
Training...:  37% 961/2609 [55:39<2:20:44,  5.12s/it][A
Training...:  37% 962/2609 [55:44<2:16:32,  4.97s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:58:06<5:04:31, 9135.91s/it]
Training...:  37% 962/2609 [55:49<2:16:32,  4.97s/it][A
Training...:  37% 963/2609 [55:49<2:18:45,  5.06s/it][A
Training...:  37% 964/2609 [55:54<2:12:59,  4.85s/it][A
Training...:  37% 965/2609 [55:58<2:08:13,  4.68s/it][A
Training...:  37% 966/2609 [56:02<2:03:39,  4.52s/it][A
Training...:  37% 967/2609 [56:06<1:59:47,  4.38s/it][A
Training...:  37% 968/2609 [56:10<1:55:57,  4.24s/it][A
Training...:  37% 969/2609 [56:14<1:52:56,  4.13s/it][A
Training...:  37% 970/2609 [56:18<1:49:18,  4.00s/it][A
Training...:  37% 971/2609 [56:21<1:46:09,  3.89s/it][A
Training...:  37% 972/2609 [56:25<1:42:31,  3.76s/it][A
Training...:  37% 973/2609 [56:28<1:40:06,  3.67s/it][A
Training...:  37% 974/2609 [56:32<1:37:46,  3.59s/it][A
Training...:  37% 975/2609 [56:35<1:35:45,  3.52s/it][A
Training...:  37% 976/2609 [56:38<1:32:40,  3.41s/it][A
Training...:  37% 977/2609 [56:41<1:30:02,  3.31s/it][A
Training...:  37% 978/2609 [56:44<1:27:20,  3.21s/it][A
Training...:  38% 979/2609 [56:47<1:25:12,  3.14s/it][A
Training...:  38% 980/2609 [56:50<1:22:29,  3.04s/it][A
Training...:  38% 981/2609 [56:53<1:20:18,  2.96s/it][A
Training...:  38% 982/2609 [56:55<1:17:41,  2.86s/it][A
Training...:  38% 983/2609 [56:58<1:15:17,  2.78s/it][A
Training...:  38% 984/2609 [57:00<1:12:27,  2.68s/it][A
Training...:  38% 985/2609 [57:03<1:10:07,  2.59s/it][A
Training...:  38% 986/2609 [57:05<1:07:32,  2.50s/it][A
Training...:  38% 987/2609 [57:07<1:05:09,  2.41s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [46:59:26<5:04:31, 9135.91s/it]
Training...:  38% 987/2609 [57:10<1:05:09,  2.41s/it][A
Training...:  38% 988/2609 [57:10<1:05:42,  2.43s/it][A
Training...:  38% 989/2609 [57:12<1:02:20,  2.31s/it][A
Training...:  38% 990/2609 [57:14<58:57,  2.18s/it]  [A
Training...:  38% 991/2609 [57:15<55:49,  2.07s/it][A
Training...:  38% 992/2609 [57:17<52:37,  1.95s/it][A
Training...:  38% 993/2609 [57:19<49:33,  1.84s/it][A
Training...:  38% 994/2609 [57:20<46:27,  1.73s/it][A
Training...:  38% 995/2609 [57:21<43:21,  1.61s/it][A
Training...:  38% 996/2609 [57:23<40:30,  1.51s/it][A
Training...:  38% 997/2609 [57:24<37:17,  1.39s/it][A
Training...:  38% 998/2609 [57:25<33:30,  1.25s/it][A
Training...:  38% 999/2609 [57:25<29:34,  1.10s/it][A
Training...:  38% 1000/2609 [57:26<25:05,  1.07it/s][A
Training...:  38% 1001/2609 [57:33<1:14:21,  2.77s/it][A
Training...:  38% 1002/2609 [57:40<1:49:16,  4.08s/it][A
Training...:  38% 1003/2609 [57:47<2:08:37,  4.81s/it][A
Training...:  38% 1004/2609 [57:53<2:19:27,  5.21s/it][A
Training...:  39% 1005/2609 [57:59<2:24:36,  5.41s/it][A
Training...:  39% 1006/2609 [58:04<2:26:24,  5.48s/it][A
Training...:  39% 1007/2609 [58:10<2:26:03,  5.47s/it][A
Training...:  39% 1008/2609 [58:15<2:23:59,  5.40s/it][A
Training...:  39% 1009/2609 [58:20<2:21:05,  5.29s/it][A
Training...:  39% 1010/2609 [58:25<2:17:10,  5.15s/it][A
Training...:  39% 1011/2609 [58:30<2:13:35,  5.02s/it][A
Training...:  39% 1012/2609 [58:34<2:09:43,  4.87s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:00:56<5:04:31, 9135.91s/it]
Training...:  39% 1012/2609 [58:39<2:09:43,  4.87s/it][A
Training...:  39% 1013/2609 [58:39<2:12:53,  5.00s/it][A
Training...:  39% 1014/2609 [58:44<2:07:51,  4.81s/it][A
Training...:  39% 1015/2609 [58:48<2:03:19,  4.64s/it][A
Training...:  39% 1016/2609 [58:52<1:58:37,  4.47s/it][A
Training...:  39% 1017/2609 [58:56<1:55:03,  4.34s/it][A
Training...:  39% 1018/2609 [59:00<1:52:14,  4.23s/it][A
Training...:  39% 1019/2609 [59:04<1:49:52,  4.15s/it][A
Training...:  39% 1020/2609 [59:08<1:46:26,  4.02s/it][A
Training...:  39% 1021/2609 [59:11<1:42:42,  3.88s/it][A
Training...:  39% 1022/2609 [59:15<1:39:14,  3.75s/it][A
Training...:  39% 1023/2609 [59:18<1:36:21,  3.65s/it][A
Training...:  39% 1024/2609 [59:22<1:33:18,  3.53s/it][A
Training...:  39% 1025/2609 [59:25<1:30:17,  3.42s/it][A
Training...:  39% 1026/2609 [59:28<1:27:50,  3.33s/it][A
Training...:  39% 1027/2609 [59:31<1:25:20,  3.24s/it][A
Training...:  39% 1028/2609 [59:34<1:23:03,  3.15s/it][A
Training...:  39% 1029/2609 [59:37<1:20:33,  3.06s/it][A
Training...:  39% 1030/2609 [59:39<1:17:57,  2.96s/it][A
Training...:  40% 1031/2609 [59:42<1:15:17,  2.86s/it][A
Training...:  40% 1032/2609 [59:45<1:12:45,  2.77s/it][A
Training...:  40% 1033/2609 [59:47<1:10:21,  2.68s/it][A
Training...:  40% 1034/2609 [59:49<1:07:53,  2.59s/it][A
Training...:  40% 1035/2609 [59:52<1:05:59,  2.52s/it][A
Training...:  40% 1036/2609 [59:54<1:03:37,  2.43s/it][A
Training...:  40% 1037/2609 [59:56<1:01:07,  2.33s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:02:15<5:04:31, 9135.91s/it]
Training...:  40% 1037/2609 [59:59<1:01:07,  2.33s/it][A
Training...:  40% 1038/2609 [59:59<1:02:06,  2.37s/it][A
Training...:  40% 1039/2609 [1:00:01<58:58,  2.25s/it][A
Training...:  40% 1040/2609 [1:00:02<56:00,  2.14s/it][A
Training...:  40% 1041/2609 [1:00:04<53:01,  2.03s/it][A
Training...:  40% 1042/2609 [1:00:06<50:05,  1.92s/it][A
Training...:  40% 1043/2609 [1:00:07<47:06,  1.80s/it][A
Training...:  40% 1044/2609 [1:00:09<44:22,  1.70s/it][A
Training...:  40% 1045/2609 [1:00:10<41:27,  1.59s/it][A
Training...:  40% 1046/2609 [1:00:11<38:35,  1.48s/it][A
Training...:  40% 1047/2609 [1:00:12<35:46,  1.37s/it][A
Training...:  40% 1048/2609 [1:00:13<32:23,  1.24s/it][A
Training...:  40% 1049/2609 [1:00:14<28:40,  1.10s/it][A
Training...:  40% 1050/2609 [1:00:15<24:06,  1.08it/s][A
Training...:  40% 1051/2609 [1:00:22<1:11:47,  2.76s/it][A
Training...:  40% 1052/2609 [1:00:29<1:45:02,  4.05s/it][A
Training...:  40% 1053/2609 [1:00:35<2:04:30,  4.80s/it][A
Training...:  40% 1054/2609 [1:00:42<2:15:25,  5.23s/it][A
Training...:  40% 1055/2609 [1:00:47<2:20:03,  5.41s/it][A
Training...:  40% 1056/2609 [1:00:53<2:21:41,  5.47s/it][A
Training...:  41% 1057/2609 [1:00:59<2:21:35,  5.47s/it][A
Training...:  41% 1058/2609 [1:01:04<2:19:27,  5.40s/it][A
Training...:  41% 1059/2609 [1:01:09<2:17:06,  5.31s/it][A
Training...:  41% 1060/2609 [1:01:14<2:13:24,  5.17s/it][A
Training...:  41% 1061/2609 [1:01:19<2:10:50,  5.07s/it][A
Training...:  41% 1062/2609 [1:01:23<2:07:43,  4.95s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:03:45<5:04:31, 9135.91s/it]
Training...:  41% 1062/2609 [1:01:28<2:07:43,  4.95s/it][A
Training...:  41% 1063/2609 [1:01:28<2:10:13,  5.05s/it][A
Training...:  41% 1064/2609 [1:01:33<2:05:05,  4.86s/it][A
Training...:  41% 1065/2609 [1:01:37<2:00:33,  4.68s/it][A
Training...:  41% 1066/2609 [1:01:41<1:56:03,  4.51s/it][A
Training...:  41% 1067/2609 [1:01:45<1:52:27,  4.38s/it][A
Training...:  41% 1068/2609 [1:01:49<1:48:49,  4.24s/it][A
Training...:  41% 1069/2609 [1:01:53<1:45:33,  4.11s/it][A
Training...:  41% 1070/2609 [1:01:57<1:42:21,  3.99s/it][A
Training...:  41% 1071/2609 [1:02:00<1:40:02,  3.90s/it][A
Training...:  41% 1072/2609 [1:02:04<1:37:27,  3.80s/it][A
Training...:  41% 1073/2609 [1:02:08<1:34:57,  3.71s/it][A
Training...:  41% 1074/2609 [1:02:11<1:32:27,  3.61s/it][A
Training...:  41% 1075/2609 [1:02:14<1:30:05,  3.52s/it][A
Training...:  41% 1076/2609 [1:02:17<1:27:02,  3.41s/it][A
Training...:  41% 1077/2609 [1:02:20<1:24:21,  3.30s/it][A
Training...:  41% 1078/2609 [1:02:23<1:22:09,  3.22s/it][A
Training...:  41% 1079/2609 [1:02:26<1:19:34,  3.12s/it][A
Training...:  41% 1080/2609 [1:02:29<1:17:12,  3.03s/it][A
Training...:  41% 1081/2609 [1:02:32<1:15:00,  2.95s/it][A
Training...:  41% 1082/2609 [1:02:35<1:12:54,  2.86s/it][A
Training...:  42% 1083/2609 [1:02:37<1:10:42,  2.78s/it][A
Training...:  42% 1084/2609 [1:02:40<1:08:23,  2.69s/it][A
Training...:  42% 1085/2609 [1:02:42<1:06:12,  2.61s/it][A
Training...:  42% 1086/2609 [1:02:44<1:04:07,  2.53s/it][A
Training...:  42% 1087/2609 [1:02:47<1:01:53,  2.44s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:05:06<5:04:31, 9135.91s/it]
Training...:  42% 1087/2609 [1:02:49<1:01:53,  2.44s/it][A
Training...:  42% 1088/2609 [1:02:49<1:02:51,  2.48s/it][A
Training...:  42% 1089/2609 [1:02:51<59:29,  2.35s/it]  [A
Training...:  42% 1090/2609 [1:02:53<56:20,  2.23s/it][A
Training...:  42% 1091/2609 [1:02:55<53:35,  2.12s/it][A
Training...:  42% 1092/2609 [1:02:57<50:53,  2.01s/it][A
Training...:  42% 1093/2609 [1:02:59<48:15,  1.91s/it][A
Training...:  42% 1094/2609 [1:03:00<45:23,  1.80s/it][A
Training...:  42% 1095/2609 [1:03:01<42:25,  1.68s/it][A
Training...:  42% 1096/2609 [1:03:03<39:17,  1.56s/it][A
Training...:  42% 1097/2609 [1:03:04<36:12,  1.44s/it][A
Training...:  42% 1098/2609 [1:03:05<32:46,  1.30s/it][A
Training...:  42% 1099/2609 [1:03:06<28:55,  1.15s/it][A
Training...:  42% 1100/2609 [1:03:06<24:18,  1.03it/s][A
Training...:  42% 1101/2609 [1:03:13<1:10:28,  2.80s/it][A
Training...:  42% 1102/2609 [1:03:20<1:42:22,  4.08s/it][A
Training...:  42% 1103/2609 [1:03:27<2:00:57,  4.82s/it][A
Training...:  42% 1104/2609 [1:03:33<2:12:28,  5.28s/it][A
Training...:  42% 1105/2609 [1:03:39<2:17:36,  5.49s/it][A
Training...:  42% 1106/2609 [1:03:45<2:20:03,  5.59s/it][A
Training...:  42% 1107/2609 [1:03:51<2:19:51,  5.59s/it][A
Training...:  42% 1108/2609 [1:03:56<2:17:46,  5.51s/it][A
Training...:  43% 1109/2609 [1:04:01<2:15:06,  5.40s/it][A
Training...:  43% 1110/2609 [1:04:06<2:11:16,  5.25s/it][A
Training...:  43% 1111/2609 [1:04:11<2:07:46,  5.12s/it][A
Training...:  43% 1112/2609 [1:04:15<2:03:50,  4.96s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:06:37<5:04:31, 9135.91s/it]
Training...:  43% 1112/2609 [1:04:21<2:03:50,  4.96s/it][A
Training...:  43% 1113/2609 [1:04:21<2:06:22,  5.07s/it][A
Training...:  43% 1114/2609 [1:04:25<2:00:58,  4.86s/it][A
Training...:  43% 1115/2609 [1:04:29<1:57:01,  4.70s/it][A
Training...:  43% 1116/2609 [1:04:34<1:53:15,  4.55s/it][A
Training...:  43% 1117/2609 [1:04:38<1:50:39,  4.45s/it][A
Training...:  43% 1118/2609 [1:04:42<1:46:41,  4.29s/it][A
Training...:  43% 1119/2609 [1:04:46<1:43:02,  4.15s/it][A
Training...:  43% 1120/2609 [1:04:49<1:39:37,  4.01s/it][A
Training...:  43% 1121/2609 [1:04:53<1:36:28,  3.89s/it][A
Training...:  43% 1122/2609 [1:04:56<1:33:44,  3.78s/it][A
Training...:  43% 1123/2609 [1:05:00<1:31:09,  3.68s/it][A
Training...:  43% 1124/2609 [1:05:03<1:28:32,  3.58s/it][A
Training...:  43% 1125/2609 [1:05:06<1:26:05,  3.48s/it][A
Training...:  43% 1126/2609 [1:05:10<1:23:45,  3.39s/it][A
Training...:  43% 1127/2609 [1:05:13<1:21:14,  3.29s/it][A
Training...:  43% 1128/2609 [1:05:16<1:18:59,  3.20s/it][A
Training...:  43% 1129/2609 [1:05:19<1:16:59,  3.12s/it][A
Training...:  43% 1130/2609 [1:05:21<1:14:58,  3.04s/it][A
Training...:  43% 1131/2609 [1:05:24<1:12:52,  2.96s/it][A
Training...:  43% 1132/2609 [1:05:27<1:10:16,  2.85s/it][A
Training...:  43% 1133/2609 [1:05:29<1:08:02,  2.77s/it][A
Training...:  43% 1134/2609 [1:05:32<1:05:54,  2.68s/it][A
Training...:  44% 1135/2609 [1:05:34<1:03:33,  2.59s/it][A
Training...:  44% 1136/2609 [1:05:37<1:01:28,  2.50s/it][A
Training...:  44% 1137/2609 [1:05:39<59:33,  2.43s/it]  [A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:07:58<5:04:31, 9135.91s/it]
Training...:  44% 1137/2609 [1:05:41<59:33,  2.43s/it][A
Training...:  44% 1138/2609 [1:05:41<1:00:01,  2.45s/it][A
Training...:  44% 1139/2609 [1:05:43<56:52,  2.32s/it]  [A
Training...:  44% 1140/2609 [1:05:45<54:05,  2.21s/it][A
Training...:  44% 1141/2609 [1:05:47<51:31,  2.11s/it][A
Training...:  44% 1142/2609 [1:05:49<48:46,  2.00s/it][A
Training...:  44% 1143/2609 [1:05:51<46:24,  1.90s/it][A
Training...:  44% 1144/2609 [1:05:52<43:41,  1.79s/it][A
Training...:  44% 1145/2609 [1:05:54<40:57,  1.68s/it][A
Training...:  44% 1146/2609 [1:05:55<37:59,  1.56s/it][A
Training...:  44% 1147/2609 [1:05:56<35:13,  1.45s/it][A
Training...:  44% 1148/2609 [1:05:57<31:56,  1.31s/it][A
Training...:  44% 1149/2609 [1:05:58<28:20,  1.16s/it][A
Training...:  44% 1150/2609 [1:05:58<24:03,  1.01it/s][A
Training...:  44% 1151/2609 [1:06:06<1:09:35,  2.86s/it][A
Training...:  44% 1152/2609 [1:06:13<1:40:10,  4.13s/it][A
Training...:  44% 1153/2609 [1:06:19<1:58:08,  4.87s/it][A
Training...:  44% 1154/2609 [1:06:26<2:08:16,  5.29s/it][A
Training...:  44% 1155/2609 [1:06:32<2:14:04,  5.53s/it][A
Training...:  44% 1156/2609 [1:06:37<2:15:51,  5.61s/it][A
Training...:  44% 1157/2609 [1:06:43<2:17:06,  5.67s/it][A
Training...:  44% 1158/2609 [1:06:49<2:16:20,  5.64s/it][A
Training...:  44% 1159/2609 [1:06:54<2:12:57,  5.50s/it][A
Training...:  44% 1160/2609 [1:06:59<2:08:27,  5.32s/it][A
Training...:  44% 1161/2609 [1:07:04<2:04:49,  5.17s/it][A
Training...:  45% 1162/2609 [1:07:08<2:00:35,  5.00s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:09:30<5:04:31, 9135.91s/it]
Training...:  45% 1162/2609 [1:07:14<2:00:35,  5.00s/it][A
Training...:  45% 1163/2609 [1:07:14<2:02:55,  5.10s/it][A
Training...:  45% 1164/2609 [1:07:18<1:57:57,  4.90s/it][A
Training...:  45% 1165/2609 [1:07:22<1:53:19,  4.71s/it][A
Training...:  45% 1166/2609 [1:07:27<1:49:26,  4.55s/it][A
Training...:  45% 1167/2609 [1:07:31<1:45:39,  4.40s/it][A
Training...:  45% 1168/2609 [1:07:34<1:41:57,  4.25s/it][A
Training...:  45% 1169/2609 [1:07:38<1:38:57,  4.12s/it][A
Training...:  45% 1170/2609 [1:07:42<1:35:58,  4.00s/it][A
Training...:  45% 1171/2609 [1:07:46<1:33:20,  3.89s/it][A
Training...:  45% 1172/2609 [1:07:49<1:30:20,  3.77s/it][A
Training...:  45% 1173/2609 [1:07:53<1:28:01,  3.68s/it][A
Training...:  45% 1174/2609 [1:07:56<1:25:33,  3.58s/it][A
Training...:  45% 1175/2609 [1:07:59<1:23:11,  3.48s/it][A
Training...:  45% 1176/2609 [1:08:02<1:20:58,  3.39s/it][A
Training...:  45% 1177/2609 [1:08:05<1:18:45,  3.30s/it][A
Training...:  45% 1178/2609 [1:08:08<1:16:29,  3.21s/it][A
Training...:  45% 1179/2609 [1:08:11<1:14:33,  3.13s/it][A
Training...:  45% 1180/2609 [1:08:14<1:12:38,  3.05s/it][A
Training...:  45% 1181/2609 [1:08:17<1:10:39,  2.97s/it][A
Training...:  45% 1182/2609 [1:08:20<1:08:34,  2.88s/it][A
Training...:  45% 1183/2609 [1:08:22<1:06:29,  2.80s/it][A
Training...:  45% 1184/2609 [1:08:25<1:04:05,  2.70s/it][A
Training...:  45% 1185/2609 [1:08:27<1:02:27,  2.63s/it][A
Training...:  45% 1186/2609 [1:08:30<1:00:04,  2.53s/it][A
Training...:  45% 1187/2609 [1:08:32<58:10,  2.45s/it]  [A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:10:51<5:04:31, 9135.91s/it]
Training...:  45% 1187/2609 [1:08:34<58:10,  2.45s/it][A
Training...:  46% 1188/2609 [1:08:34<58:48,  2.48s/it][A
Training...:  46% 1189/2609 [1:08:36<55:47,  2.36s/it][A
Training...:  46% 1190/2609 [1:08:38<52:57,  2.24s/it][A
Training...:  46% 1191/2609 [1:08:40<50:18,  2.13s/it][A
Training...:  46% 1192/2609 [1:08:42<47:54,  2.03s/it][A
Training...:  46% 1193/2609 [1:08:44<45:25,  1.92s/it][A
Training...:  46% 1194/2609 [1:08:45<42:49,  1.82s/it][A
Training...:  46% 1195/2609 [1:08:47<40:22,  1.71s/it][A
Training...:  46% 1196/2609 [1:08:48<37:32,  1.59s/it][A
Training...:  46% 1197/2609 [1:08:49<34:41,  1.47s/it][A
Training...:  46% 1198/2609 [1:08:50<31:13,  1.33s/it][A
Training...:  46% 1199/2609 [1:08:51<27:31,  1.17s/it][A
Training...:  46% 1200/2609 [1:08:52<23:22,  1.00it/s][A
Training...:  46% 1201/2609 [1:08:59<1:08:12,  2.91s/it][A
Training...:  46% 1202/2609 [1:09:06<1:38:26,  4.20s/it][A
Training...:  46% 1203/2609 [1:09:13<1:55:16,  4.92s/it][A
Training...:  46% 1204/2609 [1:09:19<2:05:00,  5.34s/it][A
Training...:  46% 1205/2609 [1:09:25<2:09:50,  5.55s/it][A
Training...:  46% 1206/2609 [1:09:31<2:10:34,  5.58s/it][A
Training...:  46% 1207/2609 [1:09:36<2:10:23,  5.58s/it][A
Training...:  46% 1208/2609 [1:09:42<2:08:20,  5.50s/it][A
Training...:  46% 1209/2609 [1:09:47<2:06:11,  5.41s/it][A
Training...:  46% 1210/2609 [1:09:52<2:03:00,  5.28s/it][A
Training...:  46% 1211/2609 [1:09:57<2:00:21,  5.17s/it][A
Training...:  46% 1212/2609 [1:10:01<1:56:15,  4.99s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:12:23<5:04:31, 9135.91s/it]
Training...:  46% 1212/2609 [1:10:07<1:56:15,  4.99s/it][A
Training...:  46% 1213/2609 [1:10:07<1:58:14,  5.08s/it][A
Training...:  47% 1214/2609 [1:10:11<1:53:31,  4.88s/it][A
Training...:  47% 1215/2609 [1:10:16<1:49:40,  4.72s/it][A
Training...:  47% 1216/2609 [1:10:20<1:46:08,  4.57s/it][A
Training...:  47% 1217/2609 [1:10:24<1:42:55,  4.44s/it][A
Training...:  47% 1218/2609 [1:10:28<1:40:00,  4.31s/it][A
Training...:  47% 1219/2609 [1:10:32<1:37:21,  4.20s/it][A
Training...:  47% 1220/2609 [1:10:36<1:34:49,  4.10s/it][A
Training...:  47% 1221/2609 [1:10:39<1:32:27,  4.00s/it][A
Training...:  47% 1222/2609 [1:10:43<1:29:52,  3.89s/it][A
Training...:  47% 1223/2609 [1:10:47<1:27:38,  3.79s/it][A
Training...:  47% 1224/2609 [1:10:50<1:25:01,  3.68s/it][A
Training...:  47% 1225/2609 [1:10:54<1:23:33,  3.62s/it][A
Training...:  47% 1226/2609 [1:10:57<1:20:51,  3.51s/it][A
Training...:  47% 1227/2609 [1:11:00<1:18:27,  3.41s/it][A
Training...:  47% 1228/2609 [1:11:03<1:16:00,  3.30s/it][A
Training...:  47% 1229/2609 [1:11:06<1:13:33,  3.20s/it][A
Training...:  47% 1230/2609 [1:11:09<1:11:09,  3.10s/it][A
Training...:  47% 1231/2609 [1:11:12<1:09:09,  3.01s/it][A
Training...:  47% 1232/2609 [1:11:14<1:06:44,  2.91s/it][A
Training...:  47% 1233/2609 [1:11:17<1:04:47,  2.82s/it][A
Training...:  47% 1234/2609 [1:11:19<1:02:27,  2.73s/it][A
Training...:  47% 1235/2609 [1:11:22<1:00:27,  2.64s/it][A
Training...:  47% 1236/2609 [1:11:24<58:15,  2.55s/it]  [A
Training...:  47% 1237/2609 [1:11:26<56:08,  2.46s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:13:46<5:04:31, 9135.91s/it]
Training...:  47% 1237/2609 [1:11:29<56:08,  2.46s/it][A
Training...:  47% 1238/2609 [1:11:29<56:51,  2.49s/it][A
Training...:  47% 1239/2609 [1:11:31<53:51,  2.36s/it][A
Training...:  48% 1240/2609 [1:11:33<51:02,  2.24s/it][A
Training...:  48% 1241/2609 [1:11:35<48:17,  2.12s/it][A
Training...:  48% 1242/2609 [1:11:37<45:42,  2.01s/it][A
Training...:  48% 1243/2609 [1:11:38<43:40,  1.92s/it][A
Training...:  48% 1244/2609 [1:11:40<41:11,  1.81s/it][A
Training...:  48% 1245/2609 [1:11:41<38:43,  1.70s/it][A
Training...:  48% 1246/2609 [1:11:43<35:56,  1.58s/it][A
Training...:  48% 1247/2609 [1:11:44<33:08,  1.46s/it][A
Training...:  48% 1248/2609 [1:11:45<30:06,  1.33s/it][A
Training...:  48% 1249/2609 [1:11:46<26:46,  1.18s/it][A
Training...:  48% 1250/2609 [1:11:46<22:35,  1.00it/s][A
Training...:  48% 1251/2609 [1:11:53<1:04:26,  2.85s/it][A
Training...:  48% 1252/2609 [1:12:01<1:33:27,  4.13s/it][A
Training...:  48% 1253/2609 [1:12:07<1:50:44,  4.90s/it][A
Training...:  48% 1254/2609 [1:12:14<2:00:24,  5.33s/it][A
Training...:  48% 1255/2609 [1:12:20<2:04:54,  5.54s/it][A
Training...:  48% 1256/2609 [1:12:25<2:06:06,  5.59s/it][A
Training...:  48% 1257/2609 [1:12:31<2:06:07,  5.60s/it][A
Training...:  48% 1258/2609 [1:12:36<2:04:01,  5.51s/it][A
Training...:  48% 1259/2609 [1:12:41<2:01:31,  5.40s/it][A
Training...:  48% 1260/2609 [1:12:46<1:58:37,  5.28s/it][A
Training...:  48% 1261/2609 [1:12:51<1:55:52,  5.16s/it][A
Training...:  48% 1262/2609 [1:12:56<1:53:07,  5.04s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:15:18<5:04:31, 9135.91s/it]
Training...:  48% 1262/2609 [1:13:01<1:53:07,  5.04s/it][A
Training...:  48% 1263/2609 [1:13:01<1:56:02,  5.17s/it][A
Training...:  48% 1264/2609 [1:13:06<1:51:54,  4.99s/it][A
Training...:  48% 1265/2609 [1:13:10<1:47:51,  4.82s/it][A
Training...:  49% 1266/2609 [1:13:15<1:43:36,  4.63s/it][A
Training...:  49% 1267/2609 [1:13:19<1:40:12,  4.48s/it][A
Training...:  49% 1268/2609 [1:13:23<1:36:57,  4.34s/it][A
Training...:  49% 1269/2609 [1:13:27<1:33:51,  4.20s/it][A
Training...:  49% 1270/2609 [1:13:30<1:30:51,  4.07s/it][A
Training...:  49% 1271/2609 [1:13:34<1:28:17,  3.96s/it][A
Training...:  49% 1272/2609 [1:13:38<1:25:12,  3.82s/it][A
Training...:  49% 1273/2609 [1:13:41<1:22:56,  3.72s/it][A
Training...:  49% 1274/2609 [1:13:44<1:20:31,  3.62s/it][A
Training...:  49% 1275/2609 [1:13:48<1:18:20,  3.52s/it][A
Training...:  49% 1276/2609 [1:13:51<1:15:55,  3.42s/it][A
Training...:  49% 1277/2609 [1:13:54<1:14:15,  3.34s/it][A
Training...:  49% 1278/2609 [1:13:57<1:12:08,  3.25s/it][A
Training...:  49% 1279/2609 [1:14:00<1:10:07,  3.16s/it][A
Training...:  49% 1280/2609 [1:14:03<1:08:09,  3.08s/it][A
Training...:  49% 1281/2609 [1:14:06<1:06:13,  2.99s/it][A
Training...:  49% 1282/2609 [1:14:08<1:04:06,  2.90s/it][A
Training...:  49% 1283/2609 [1:14:11<1:02:07,  2.81s/it][A
Training...:  49% 1284/2609 [1:14:14<1:00:02,  2.72s/it][A
Training...:  49% 1285/2609 [1:14:16<58:05,  2.63s/it]  [A
Training...:  49% 1286/2609 [1:14:18<56:10,  2.55s/it][A
Training...:  49% 1287/2609 [1:14:21<54:22,  2.47s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:16:40<5:04:31, 9135.91s/it]
Training...:  49% 1287/2609 [1:14:23<54:22,  2.47s/it][A
Training...:  49% 1288/2609 [1:14:23<55:07,  2.50s/it][A
Training...:  49% 1289/2609 [1:14:25<52:14,  2.37s/it][A
Training...:  49% 1290/2609 [1:14:27<49:21,  2.25s/it][A
Training...:  49% 1291/2609 [1:14:29<46:52,  2.13s/it][A
Training...:  50% 1292/2609 [1:14:31<44:16,  2.02s/it][A
Training...:  50% 1293/2609 [1:14:33<41:56,  1.91s/it][A
Training...:  50% 1294/2609 [1:14:34<39:27,  1.80s/it][A
Training...:  50% 1295/2609 [1:14:36<36:58,  1.69s/it][A
Training...:  50% 1296/2609 [1:14:37<34:24,  1.57s/it][A
Training...:  50% 1297/2609 [1:14:38<31:34,  1.44s/it][A
Training...:  50% 1298/2609 [1:14:39<28:29,  1.30s/it][A
Training...:  50% 1299/2609 [1:14:40<25:10,  1.15s/it][A
Training...:  50% 1300/2609 [1:14:40<21:24,  1.02it/s][A
Training...:  50% 1301/2609 [1:14:47<1:01:53,  2.84s/it][A
Training...:  50% 1302/2609 [1:14:55<1:29:07,  4.09s/it][A
Training...:  50% 1303/2609 [1:15:01<1:45:50,  4.86s/it][A
Training...:  50% 1304/2609 [1:15:08<1:55:48,  5.32s/it][A
Training...:  50% 1305/2609 [1:15:14<2:01:13,  5.58s/it][A
Training...:  50% 1306/2609 [1:15:20<2:02:47,  5.65s/it][A
Training...:  50% 1307/2609 [1:15:25<2:02:26,  5.64s/it][A
Training...:  50% 1308/2609 [1:15:31<2:00:31,  5.56s/it][A
Training...:  50% 1309/2609 [1:15:36<1:58:16,  5.46s/it][A
Training...:  50% 1310/2609 [1:15:41<1:55:52,  5.35s/it][A
Training...:  50% 1311/2609 [1:15:46<1:53:16,  5.24s/it][A
Training...:  50% 1312/2609 [1:15:51<1:49:51,  5.08s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:18:13<5:04:31, 9135.91s/it]
Training...:  50% 1312/2609 [1:15:56<1:49:51,  5.08s/it][A
Training...:  50% 1313/2609 [1:15:56<1:51:33,  5.16s/it][A
Training...:  50% 1314/2609 [1:16:00<1:46:29,  4.93s/it][A
Training...:  50% 1315/2609 [1:16:05<1:42:52,  4.77s/it][A
Training...:  50% 1316/2609 [1:16:09<1:39:04,  4.60s/it][A
Training...:  50% 1317/2609 [1:16:13<1:35:35,  4.44s/it][A
Training...:  51% 1318/2609 [1:16:17<1:31:58,  4.27s/it][A
Training...:  51% 1319/2609 [1:16:21<1:29:39,  4.17s/it][A
Training...:  51% 1320/2609 [1:16:25<1:27:06,  4.05s/it][A
Training...:  51% 1321/2609 [1:16:28<1:24:39,  3.94s/it][A
Training...:  51% 1322/2609 [1:16:32<1:22:22,  3.84s/it][A
Training...:  51% 1323/2609 [1:16:35<1:19:56,  3.73s/it][A
Training...:  51% 1324/2609 [1:16:39<1:17:46,  3.63s/it][A
Training...:  51% 1325/2609 [1:16:42<1:15:30,  3.53s/it][A
Training...:  51% 1326/2609 [1:16:45<1:13:03,  3.42s/it][A
Training...:  51% 1327/2609 [1:16:48<1:11:03,  3.33s/it][A
Training...:  51% 1328/2609 [1:16:51<1:09:30,  3.26s/it][A
Training...:  51% 1329/2609 [1:16:54<1:07:36,  3.17s/it][A
Training...:  51% 1330/2609 [1:16:57<1:05:18,  3.06s/it][A
Training...:  51% 1331/2609 [1:17:00<1:03:38,  2.99s/it][A
Training...:  51% 1332/2609 [1:17:03<1:01:57,  2.91s/it][A
Training...:  51% 1333/2609 [1:17:05<1:00:02,  2.82s/it][A
Training...:  51% 1334/2609 [1:17:08<58:07,  2.74s/it]  [A
Training...:  51% 1335/2609 [1:17:10<56:10,  2.65s/it][A
Training...:  51% 1336/2609 [1:17:13<54:14,  2.56s/it][A
Training...:  51% 1337/2609 [1:17:15<52:09,  2.46s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:19:34<5:04:31, 9135.91s/it]
Training...:  51% 1337/2609 [1:17:17<52:09,  2.46s/it][A
Training...:  51% 1338/2609 [1:17:17<52:35,  2.48s/it][A
Training...:  51% 1339/2609 [1:17:19<49:43,  2.35s/it][A
Training...:  51% 1340/2609 [1:17:21<47:04,  2.23s/it][A
Training...:  51% 1341/2609 [1:17:23<44:36,  2.11s/it][A
Training...:  51% 1342/2609 [1:17:25<42:19,  2.00s/it][A
Training...:  51% 1343/2609 [1:17:27<40:04,  1.90s/it][A
Training...:  52% 1344/2609 [1:17:28<37:37,  1.78s/it][A
Training...:  52% 1345/2609 [1:17:30<35:16,  1.67s/it][A
Training...:  52% 1346/2609 [1:17:31<32:40,  1.55s/it][A
Training...:  52% 1347/2609 [1:17:32<30:12,  1.44s/it][A
Training...:  52% 1348/2609 [1:17:33<27:13,  1.30s/it][A
Training...:  52% 1349/2609 [1:17:34<24:06,  1.15s/it][A
Training...:  52% 1350/2609 [1:17:34<20:17,  1.03it/s][A
Training...:  52% 1351/2609 [1:17:42<1:00:05,  2.87s/it][A
Training...:  52% 1352/2609 [1:17:49<1:26:53,  4.15s/it][A
Training...:  52% 1353/2609 [1:17:55<1:41:38,  4.86s/it][A
Training...:  52% 1354/2609 [1:18:01<1:50:04,  5.26s/it][A
Training...:  52% 1355/2609 [1:18:08<1:54:56,  5.50s/it][A
Training...:  52% 1356/2609 [1:18:13<1:56:25,  5.57s/it][A
Training...:  52% 1357/2609 [1:18:19<1:56:32,  5.58s/it][A
Training...:  52% 1358/2609 [1:18:24<1:54:41,  5.50s/it][A
Training...:  52% 1359/2609 [1:18:29<1:52:34,  5.40s/it][A
Training...:  52% 1360/2609 [1:18:34<1:50:18,  5.30s/it][A
Training...:  52% 1361/2609 [1:18:39<1:47:30,  5.17s/it][A
Training...:  52% 1362/2609 [1:18:44<1:44:38,  5.04s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:21:06<5:04:31, 9135.91s/it]
Training...:  52% 1362/2609 [1:18:49<1:44:38,  5.04s/it][A
Training...:  52% 1363/2609 [1:18:49<1:46:58,  5.15s/it][A
Training...:  52% 1364/2609 [1:18:54<1:42:41,  4.95s/it][A
Training...:  52% 1365/2609 [1:18:58<1:39:19,  4.79s/it][A
Training...:  52% 1366/2609 [1:19:02<1:35:23,  4.60s/it][A
Training...:  52% 1367/2609 [1:19:07<1:32:12,  4.45s/it][A
Training...:  52% 1368/2609 [1:19:11<1:28:55,  4.30s/it][A
Training...:  52% 1369/2609 [1:19:14<1:26:32,  4.19s/it][A
Training...:  53% 1370/2609 [1:19:18<1:23:26,  4.04s/it][A
Training...:  53% 1371/2609 [1:19:22<1:21:57,  3.97s/it][A
Training...:  53% 1372/2609 [1:19:26<1:19:46,  3.87s/it][A
Training...:  53% 1373/2609 [1:19:29<1:17:42,  3.77s/it][A
Training...:  53% 1374/2609 [1:19:32<1:14:55,  3.64s/it][A
Training...:  53% 1375/2609 [1:19:36<1:12:33,  3.53s/it][A
Training...:  53% 1376/2609 [1:19:39<1:10:04,  3.41s/it][A
Training...:  53% 1377/2609 [1:19:42<1:08:05,  3.32s/it][A
Training...:  53% 1378/2609 [1:19:45<1:06:17,  3.23s/it][A
Training...:  53% 1379/2609 [1:19:48<1:04:18,  3.14s/it][A
Training...:  53% 1380/2609 [1:19:51<1:02:09,  3.03s/it][A
Training...:  53% 1381/2609 [1:19:54<1:00:30,  2.96s/it][A
Training...:  53% 1382/2609 [1:19:56<58:32,  2.86s/it]  [A
Training...:  53% 1383/2609 [1:19:59<56:51,  2.78s/it][A
Training...:  53% 1384/2609 [1:20:01<54:56,  2.69s/it][A
Training...:  53% 1385/2609 [1:20:04<53:36,  2.63s/it][A
Training...:  53% 1386/2609 [1:20:06<51:30,  2.53s/it][A
Training...:  53% 1387/2609 [1:20:08<49:44,  2.44s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:22:28<5:04:31, 9135.91s/it]
Training...:  53% 1387/2609 [1:20:11<49:44,  2.44s/it][A
Training...:  53% 1388/2609 [1:20:11<50:28,  2.48s/it][A
Training...:  53% 1389/2609 [1:20:13<47:41,  2.35s/it][A
Training...:  53% 1390/2609 [1:20:15<45:08,  2.22s/it][A
Training...:  53% 1391/2609 [1:20:17<43:01,  2.12s/it][A
Training...:  53% 1392/2609 [1:20:18<40:43,  2.01s/it][A
Training...:  53% 1393/2609 [1:20:20<38:47,  1.91s/it][A
Training...:  53% 1394/2609 [1:20:22<36:31,  1.80s/it][A
Training...:  53% 1395/2609 [1:20:23<34:04,  1.68s/it][A
Training...:  54% 1396/2609 [1:20:24<31:30,  1.56s/it][A
Training...:  54% 1397/2609 [1:20:25<29:03,  1.44s/it][A
Training...:  54% 1398/2609 [1:20:26<26:20,  1.31s/it][A
Training...:  54% 1399/2609 [1:20:27<23:23,  1.16s/it][A
Training...:  54% 1400/2609 [1:20:28<19:44,  1.02it/s][A
Training...:  54% 1401/2609 [1:20:35<56:38,  2.81s/it][A
Training...:  54% 1402/2609 [1:20:42<1:21:46,  4.06s/it][A
Training...:  54% 1403/2609 [1:20:48<1:36:27,  4.80s/it][A
Training...:  54% 1404/2609 [1:20:55<1:44:22,  5.20s/it][A
Training...:  54% 1405/2609 [1:21:00<1:48:45,  5.42s/it][A
Training...:  54% 1406/2609 [1:21:06<1:49:56,  5.48s/it][A
Training...:  54% 1407/2609 [1:21:12<1:50:03,  5.49s/it][A
Training...:  54% 1408/2609 [1:21:17<1:48:33,  5.42s/it][A
Training...:  54% 1409/2609 [1:21:22<1:46:37,  5.33s/it][A
Training...:  54% 1410/2609 [1:21:27<1:44:15,  5.22s/it][A
Training...:  54% 1411/2609 [1:21:32<1:41:49,  5.10s/it][A
Training...:  54% 1412/2609 [1:21:37<1:39:59,  5.01s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:23:59<5:04:31, 9135.91s/it]
Training...:  54% 1412/2609 [1:21:42<1:39:59,  5.01s/it][A
Training...:  54% 1413/2609 [1:21:42<1:42:46,  5.16s/it][A
Training...:  54% 1414/2609 [1:21:46<1:38:05,  4.92s/it][A
Training...:  54% 1415/2609 [1:21:51<1:34:23,  4.74s/it][A
Training...:  54% 1416/2609 [1:21:55<1:30:43,  4.56s/it][A
Training...:  54% 1417/2609 [1:21:59<1:27:51,  4.42s/it][A
Training...:  54% 1418/2609 [1:22:03<1:24:57,  4.28s/it][A
Training...:  54% 1419/2609 [1:22:07<1:22:21,  4.15s/it][A
Training...:  54% 1420/2609 [1:22:11<1:19:32,  4.01s/it][A
Training...:  54% 1421/2609 [1:22:14<1:17:02,  3.89s/it][A
Training...:  55% 1422/2609 [1:22:18<1:14:28,  3.76s/it][A
Training...:  55% 1423/2609 [1:22:21<1:12:23,  3.66s/it][A
Training...:  55% 1424/2609 [1:22:24<1:10:06,  3.55s/it][A
Training...:  55% 1425/2609 [1:22:28<1:08:20,  3.46s/it][A
Training...:  55% 1426/2609 [1:22:31<1:06:36,  3.38s/it][A
Training...:  55% 1427/2609 [1:22:34<1:04:45,  3.29s/it][A
Training...:  55% 1428/2609 [1:22:37<1:02:48,  3.19s/it][A
Training...:  55% 1429/2609 [1:22:40<1:01:06,  3.11s/it][A
Training...:  55% 1430/2609 [1:22:43<59:18,  3.02s/it]  [A
Training...:  55% 1431/2609 [1:22:45<57:42,  2.94s/it][A
Training...:  55% 1432/2609 [1:22:48<55:59,  2.85s/it][A
Training...:  55% 1433/2609 [1:22:50<54:08,  2.76s/it][A
Training...:  55% 1434/2609 [1:22:53<52:12,  2.67s/it][A
Training...:  55% 1435/2609 [1:22:55<50:20,  2.57s/it][A
Training...:  55% 1436/2609 [1:22:58<48:24,  2.48s/it][A
Training...:  55% 1437/2609 [1:23:00<47:09,  2.41s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:25:19<5:04:31, 9135.91s/it]
Training...:  55% 1437/2609 [1:23:02<47:09,  2.41s/it][A
Training...:  55% 1438/2609 [1:23:02<47:51,  2.45s/it][A
Training...:  55% 1439/2609 [1:23:04<45:16,  2.32s/it][A
Training...:  55% 1440/2609 [1:23:06<42:46,  2.20s/it][A
Training...:  55% 1441/2609 [1:23:08<40:31,  2.08s/it][A
Training...:  55% 1442/2609 [1:23:10<38:25,  1.98s/it][A
Training...:  55% 1443/2609 [1:23:11<36:03,  1.86s/it][A
Training...:  55% 1444/2609 [1:23:13<33:53,  1.75s/it][A
Training...:  55% 1445/2609 [1:23:14<31:49,  1.64s/it][A
Training...:  55% 1446/2609 [1:23:16<29:33,  1.52s/it][A
Training...:  55% 1447/2609 [1:23:17<27:15,  1.41s/it][A
Training...:  56% 1448/2609 [1:23:18<24:33,  1.27s/it][A
Training...:  56% 1449/2609 [1:23:18<21:43,  1.12s/it][A
Training...:  56% 1450/2609 [1:23:19<18:17,  1.06it/s][A
Training...:  56% 1451/2609 [1:23:26<54:47,  2.84s/it][A
Training...:  56% 1452/2609 [1:23:33<1:19:13,  4.11s/it][A
Training...:  56% 1453/2609 [1:23:40<1:33:50,  4.87s/it][A
Training...:  56% 1454/2609 [1:23:46<1:42:53,  5.35s/it][A
Training...:  56% 1455/2609 [1:23:53<1:48:23,  5.64s/it][A
Training...:  56% 1456/2609 [1:23:58<1:49:22,  5.69s/it][A
Training...:  56% 1457/2609 [1:24:04<1:49:08,  5.68s/it][A
Training...:  56% 1458/2609 [1:24:09<1:46:38,  5.56s/it][A
Training...:  56% 1459/2609 [1:24:15<1:44:28,  5.45s/it][A
Training...:  56% 1460/2609 [1:24:19<1:41:07,  5.28s/it][A
Training...:  56% 1461/2609 [1:24:24<1:38:31,  5.15s/it][A
Training...:  56% 1462/2609 [1:24:29<1:35:22,  4.99s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:26:51<5:04:31, 9135.91s/it]
Training...:  56% 1462/2609 [1:24:34<1:35:22,  4.99s/it][A
Training...:  56% 1463/2609 [1:24:34<1:37:03,  5.08s/it][A
Training...:  56% 1464/2609 [1:24:39<1:32:40,  4.86s/it][A
Training...:  56% 1465/2609 [1:24:43<1:29:32,  4.70s/it][A
Training...:  56% 1466/2609 [1:24:47<1:25:51,  4.51s/it][A
Training...:  56% 1467/2609 [1:24:51<1:23:27,  4.38s/it][A
Training...:  56% 1468/2609 [1:24:55<1:20:28,  4.23s/it][A
Training...:  56% 1469/2609 [1:24:59<1:17:56,  4.10s/it][A
Training...:  56% 1470/2609 [1:25:02<1:15:39,  3.99s/it][A
Training...:  56% 1471/2609 [1:25:06<1:13:24,  3.87s/it][A
Training...:  56% 1472/2609 [1:25:10<1:11:00,  3.75s/it][A
Training...:  56% 1473/2609 [1:25:13<1:09:11,  3.65s/it][A
Training...:  56% 1474/2609 [1:25:16<1:07:01,  3.54s/it][A
Training...:  57% 1475/2609 [1:25:19<1:04:54,  3.43s/it][A
Training...:  57% 1476/2609 [1:25:23<1:03:15,  3.35s/it][A
Training...:  57% 1477/2609 [1:25:26<1:01:24,  3.25s/it][A
Training...:  57% 1478/2609 [1:25:29<59:50,  3.17s/it]  [A
Training...:  57% 1479/2609 [1:25:31<58:15,  3.09s/it][A
Training...:  57% 1480/2609 [1:25:34<56:31,  3.00s/it][A
Training...:  57% 1481/2609 [1:25:37<54:43,  2.91s/it][A
Training...:  57% 1482/2609 [1:25:40<53:08,  2.83s/it][A
Training...:  57% 1483/2609 [1:25:42<51:30,  2.74s/it][A
Training...:  57% 1484/2609 [1:25:45<50:07,  2.67s/it][A
Training...:  57% 1485/2609 [1:25:47<48:24,  2.58s/it][A
Training...:  57% 1486/2609 [1:25:49<46:39,  2.49s/it][A
Training...:  57% 1487/2609 [1:25:52<45:16,  2.42s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:28:11<5:04:31, 9135.91s/it]
Training...:  57% 1487/2609 [1:25:54<45:16,  2.42s/it][A
Training...:  57% 1488/2609 [1:25:54<45:43,  2.45s/it][A
Training...:  57% 1489/2609 [1:25:56<43:03,  2.31s/it][A
Training...:  57% 1490/2609 [1:25:58<40:53,  2.19s/it][A
Training...:  57% 1491/2609 [1:26:00<38:49,  2.08s/it][A
Training...:  57% 1492/2609 [1:26:02<36:46,  1.97s/it][A
Training...:  57% 1493/2609 [1:26:03<34:59,  1.88s/it][A
Training...:  57% 1494/2609 [1:26:05<32:53,  1.77s/it][A
Training...:  57% 1495/2609 [1:26:06<30:49,  1.66s/it][A
Training...:  57% 1496/2609 [1:26:07<28:46,  1.55s/it][A
Training...:  57% 1497/2609 [1:26:09<26:35,  1.43s/it][A
Training...:  57% 1498/2609 [1:26:10<24:01,  1.30s/it][A
Training...:  57% 1499/2609 [1:26:10<21:15,  1.15s/it][A
Training...:  57% 1500/2609 [1:26:11<17:53,  1.03it/s][A
Training...:  58% 1501/2609 [1:26:18<53:11,  2.88s/it][A
Training...:  58% 1502/2609 [1:26:25<1:16:16,  4.13s/it][A
Training...:  58% 1503/2609 [1:26:32<1:30:14,  4.90s/it][A
Training...:  58% 1504/2609 [1:26:38<1:37:45,  5.31s/it][A
Training...:  58% 1505/2609 [1:26:44<1:41:17,  5.50s/it][A
Training...:  58% 1506/2609 [1:26:50<1:42:13,  5.56s/it][A
Training...:  58% 1507/2609 [1:26:56<1:42:39,  5.59s/it][A
Training...:  58% 1508/2609 [1:27:01<1:41:16,  5.52s/it][A
Training...:  58% 1509/2609 [1:27:06<1:39:19,  5.42s/it][A
Training...:  58% 1510/2609 [1:27:11<1:36:45,  5.28s/it][A
Training...:  58% 1511/2609 [1:27:16<1:34:32,  5.17s/it][A
Training...:  58% 1512/2609 [1:27:21<1:32:12,  5.04s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:29:43<5:04:31, 9135.91s/it]
Training...:  58% 1512/2609 [1:27:26<1:32:12,  5.04s/it][A
Training...:  58% 1513/2609 [1:27:26<1:34:08,  5.15s/it][A
Training...:  58% 1514/2609 [1:27:31<1:29:56,  4.93s/it][A
Training...:  58% 1515/2609 [1:27:35<1:26:31,  4.75s/it][A
Training...:  58% 1516/2609 [1:27:39<1:23:44,  4.60s/it][A
Training...:  58% 1517/2609 [1:27:43<1:21:06,  4.46s/it][A
Training...:  58% 1518/2609 [1:27:47<1:18:29,  4.32s/it][A
Training...:  58% 1519/2609 [1:27:51<1:16:49,  4.23s/it][A
Training...:  58% 1520/2609 [1:27:55<1:15:02,  4.13s/it][A
Training...:  58% 1521/2609 [1:27:59<1:12:13,  3.98s/it][A
Training...:  58% 1522/2609 [1:28:02<1:09:37,  3.84s/it][A
Training...:  58% 1523/2609 [1:28:06<1:07:28,  3.73s/it][A
Training...:  58% 1524/2609 [1:28:09<1:05:26,  3.62s/it][A
Training...:  58% 1525/2609 [1:28:13<1:04:06,  3.55s/it][A
Training...:  58% 1526/2609 [1:28:16<1:02:25,  3.46s/it][A
Training...:  59% 1527/2609 [1:28:19<1:00:24,  3.35s/it][A
Training...:  59% 1528/2609 [1:28:22<58:35,  3.25s/it]  [A
Training...:  59% 1529/2609 [1:28:25<56:52,  3.16s/it][A
Training...:  59% 1530/2609 [1:28:28<55:08,  3.07s/it][A
Training...:  59% 1531/2609 [1:28:30<53:39,  2.99s/it][A
Training...:  59% 1532/2609 [1:28:33<51:43,  2.88s/it][A
Training...:  59% 1533/2609 [1:28:36<50:07,  2.80s/it][A
Training...:  59% 1534/2609 [1:28:38<48:26,  2.70s/it][A
Training...:  59% 1535/2609 [1:28:41<47:00,  2.63s/it][A
Training...:  59% 1536/2609 [1:28:43<45:18,  2.53s/it][A
Training...:  59% 1537/2609 [1:28:45<43:59,  2.46s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:31:05<5:04:31, 9135.91s/it]
Training...:  59% 1537/2609 [1:28:48<43:59,  2.46s/it][A
Training...:  59% 1538/2609 [1:28:48<44:33,  2.50s/it][A
Training...:  59% 1539/2609 [1:28:50<42:14,  2.37s/it][A
Training...:  59% 1540/2609 [1:28:52<40:15,  2.26s/it][A
Training...:  59% 1541/2609 [1:28:54<38:10,  2.14s/it][A
Training...:  59% 1542/2609 [1:28:56<36:10,  2.03s/it][A
Training...:  59% 1543/2609 [1:28:57<34:22,  1.93s/it][A
Training...:  59% 1544/2609 [1:28:59<32:39,  1.84s/it][A
Training...:  59% 1545/2609 [1:29:00<30:48,  1.74s/it][A
Training...:  59% 1546/2609 [1:29:02<28:29,  1.61s/it][A
Training...:  59% 1547/2609 [1:29:03<26:22,  1.49s/it][A
Training...:  59% 1548/2609 [1:29:04<23:58,  1.36s/it][A
Training...:  59% 1549/2609 [1:29:05<21:22,  1.21s/it][A
Training...:  59% 1550/2609 [1:29:05<18:09,  1.03s/it][A
Training...:  59% 1551/2609 [1:29:12<50:00,  2.84s/it][A
Training...:  59% 1552/2609 [1:29:20<1:12:33,  4.12s/it][A
Training...:  60% 1553/2609 [1:29:26<1:25:42,  4.87s/it][A
Training...:  60% 1554/2609 [1:29:33<1:33:23,  5.31s/it][A
Training...:  60% 1555/2609 [1:29:39<1:37:35,  5.56s/it][A
Training...:  60% 1556/2609 [1:29:45<1:39:13,  5.65s/it][A
Training...:  60% 1557/2609 [1:29:50<1:39:23,  5.67s/it][A
Training...:  60% 1558/2609 [1:29:56<1:38:02,  5.60s/it][A
Training...:  60% 1559/2609 [1:30:01<1:37:32,  5.57s/it][A
Training...:  60% 1560/2609 [1:30:06<1:35:19,  5.45s/it][A
Training...:  60% 1561/2609 [1:30:11<1:32:33,  5.30s/it][A
Training...:  60% 1562/2609 [1:30:16<1:29:26,  5.13s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:32:38<5:04:31, 9135.91s/it]
Training...:  60% 1562/2609 [1:30:21<1:29:26,  5.13s/it][A
Training...:  60% 1563/2609 [1:30:21<1:30:38,  5.20s/it][A
Training...:  60% 1564/2609 [1:30:26<1:26:26,  4.96s/it][A
Training...:  60% 1565/2609 [1:30:30<1:23:28,  4.80s/it][A
Training...:  60% 1566/2609 [1:30:34<1:20:13,  4.62s/it][A
Training...:  60% 1567/2609 [1:30:39<1:17:20,  4.45s/it][A
Training...:  60% 1568/2609 [1:30:43<1:15:01,  4.32s/it][A
Training...:  60% 1569/2609 [1:30:46<1:13:08,  4.22s/it][A
Training...:  60% 1570/2609 [1:30:50<1:10:50,  4.09s/it][A
Training...:  60% 1571/2609 [1:30:54<1:08:58,  3.99s/it][A
Training...:  60% 1572/2609 [1:30:58<1:06:53,  3.87s/it][A
Training...:  60% 1573/2609 [1:31:01<1:05:01,  3.77s/it][A
Training...:  60% 1574/2609 [1:31:05<1:03:06,  3.66s/it][A
Training...:  60% 1575/2609 [1:31:08<1:01:09,  3.55s/it][A
Training...:  60% 1576/2609 [1:31:11<59:09,  3.44s/it]  [A
Training...:  60% 1577/2609 [1:31:14<57:17,  3.33s/it][A
Training...:  60% 1578/2609 [1:31:17<55:23,  3.22s/it][A
Training...:  61% 1579/2609 [1:31:20<53:48,  3.13s/it][A
Training...:  61% 1580/2609 [1:31:23<52:11,  3.04s/it][A
Training...:  61% 1581/2609 [1:31:26<50:37,  2.95s/it][A
Training...:  61% 1582/2609 [1:31:28<48:53,  2.86s/it][A
Training...:  61% 1583/2609 [1:31:31<47:23,  2.77s/it][A
Training...:  61% 1584/2609 [1:31:33<45:49,  2.68s/it][A
Training...:  61% 1585/2609 [1:31:36<44:20,  2.60s/it][A
Training...:  61% 1586/2609 [1:31:38<42:42,  2.50s/it][A
Training...:  61% 1587/2609 [1:31:40<41:21,  2.43s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:33:59<5:04:31, 9135.91s/it]
Training...:  61% 1587/2609 [1:31:43<41:21,  2.43s/it][A
Training...:  61% 1588/2609 [1:31:43<41:47,  2.46s/it][A
Training...:  61% 1589/2609 [1:31:45<39:38,  2.33s/it][A
Training...:  61% 1590/2609 [1:31:47<37:35,  2.21s/it][A
Training...:  61% 1591/2609 [1:31:49<35:35,  2.10s/it][A
Training...:  61% 1592/2609 [1:31:50<33:50,  2.00s/it][A
Training...:  61% 1593/2609 [1:31:52<32:12,  1.90s/it][A
Training...:  61% 1594/2609 [1:31:54<30:19,  1.79s/it][A
Training...:  61% 1595/2609 [1:31:55<28:34,  1.69s/it][A
Training...:  61% 1596/2609 [1:31:56<26:36,  1.58s/it][A
Training...:  61% 1597/2609 [1:31:57<24:36,  1.46s/it][A
Training...:  61% 1598/2609 [1:31:58<22:23,  1.33s/it][A
Training...:  61% 1599/2609 [1:31:59<20:00,  1.19s/it][A
Training...:  61% 1600/2609 [1:32:00<16:55,  1.01s/it][A
Training...:  61% 1601/2609 [1:32:07<47:47,  2.84s/it][A
Training...:  61% 1602/2609 [1:32:14<1:08:43,  4.10s/it][A
Training...:  61% 1603/2609 [1:32:21<1:22:09,  4.90s/it][A
Training...:  61% 1604/2609 [1:32:27<1:30:01,  5.37s/it][A
Training...:  62% 1605/2609 [1:32:33<1:33:19,  5.58s/it][A
Training...:  62% 1606/2609 [1:32:39<1:33:58,  5.62s/it][A
Training...:  62% 1607/2609 [1:32:45<1:33:59,  5.63s/it][A
Training...:  62% 1608/2609 [1:32:50<1:31:54,  5.51s/it][A
Training...:  62% 1609/2609 [1:32:55<1:29:57,  5.40s/it][A
Training...:  62% 1610/2609 [1:33:00<1:27:20,  5.25s/it][A
Training...:  62% 1611/2609 [1:33:05<1:25:04,  5.11s/it][A
Training...:  62% 1612/2609 [1:33:09<1:22:41,  4.98s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:35:32<5:04:31, 9135.91s/it]
Training...:  62% 1612/2609 [1:33:15<1:22:41,  4.98s/it][A
Training...:  62% 1613/2609 [1:33:15<1:24:24,  5.08s/it][A
Training...:  62% 1614/2609 [1:33:19<1:20:39,  4.86s/it][A
Training...:  62% 1615/2609 [1:33:23<1:17:35,  4.68s/it][A
Training...:  62% 1616/2609 [1:33:28<1:14:48,  4.52s/it][A
Training...:  62% 1617/2609 [1:33:32<1:12:08,  4.36s/it][A
Training...:  62% 1618/2609 [1:33:35<1:09:50,  4.23s/it][A
Training...:  62% 1619/2609 [1:33:39<1:07:48,  4.11s/it][A
Training...:  62% 1620/2609 [1:33:43<1:05:26,  3.97s/it][A
Training...:  62% 1621/2609 [1:33:47<1:03:26,  3.85s/it][A
Training...:  62% 1622/2609 [1:33:50<1:01:22,  3.73s/it][A
Training...:  62% 1623/2609 [1:33:53<59:41,  3.63s/it]  [A
Training...:  62% 1624/2609 [1:33:57<57:52,  3.53s/it][A
Training...:  62% 1625/2609 [1:34:00<56:23,  3.44s/it][A
Training...:  62% 1626/2609 [1:34:03<54:46,  3.34s/it][A
Training...:  62% 1627/2609 [1:34:06<53:39,  3.28s/it][A
Training...:  62% 1628/2609 [1:34:09<51:58,  3.18s/it][A
Training...:  62% 1629/2609 [1:34:12<50:35,  3.10s/it][A
Training...:  62% 1630/2609 [1:34:15<49:14,  3.02s/it][A
Training...:  63% 1631/2609 [1:34:18<47:40,  2.92s/it][A
Training...:  63% 1632/2609 [1:34:20<46:12,  2.84s/it][A
Training...:  63% 1633/2609 [1:34:23<44:47,  2.75s/it][A
Training...:  63% 1634/2609 [1:34:25<43:23,  2.67s/it][A
Training...:  63% 1635/2609 [1:34:28<41:54,  2.58s/it][A
Training...:  63% 1636/2609 [1:34:30<40:18,  2.49s/it][A
Training...:  63% 1637/2609 [1:34:32<39:01,  2.41s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:36:51<5:04:31, 9135.91s/it]
Training...:  63% 1637/2609 [1:34:35<39:01,  2.41s/it][A
Training...:  63% 1638/2609 [1:34:35<39:29,  2.44s/it][A
Training...:  63% 1639/2609 [1:34:37<37:24,  2.31s/it][A
Training...:  63% 1640/2609 [1:34:39<35:33,  2.20s/it][A
Training...:  63% 1641/2609 [1:34:40<33:31,  2.08s/it][A
Training...:  63% 1642/2609 [1:34:42<31:42,  1.97s/it][A
Training...:  63% 1643/2609 [1:34:44<29:51,  1.85s/it][A
Training...:  63% 1644/2609 [1:34:45<27:53,  1.73s/it][A
Training...:  63% 1645/2609 [1:34:46<26:02,  1.62s/it][A
Training...:  63% 1646/2609 [1:34:48<24:08,  1.50s/it][A
Training...:  63% 1647/2609 [1:34:49<22:15,  1.39s/it][A
Training...:  63% 1648/2609 [1:34:50<20:18,  1.27s/it][A
Training...:  63% 1649/2609 [1:34:51<18:07,  1.13s/it][A
Training...:  63% 1650/2609 [1:34:51<15:18,  1.04it/s][A
Training...:  63% 1651/2609 [1:34:58<45:11,  2.83s/it][A
Training...:  63% 1652/2609 [1:35:05<1:05:41,  4.12s/it][A
Training...:  63% 1653/2609 [1:35:12<1:16:57,  4.83s/it][A
Training...:  63% 1654/2609 [1:35:18<1:22:41,  5.20s/it][A
Training...:  63% 1655/2609 [1:35:24<1:25:50,  5.40s/it][A
Training...:  63% 1656/2609 [1:35:29<1:26:26,  5.44s/it][A
Training...:  64% 1657/2609 [1:35:35<1:26:17,  5.44s/it][A
Training...:  64% 1658/2609 [1:35:40<1:25:02,  5.37s/it][A
Training...:  64% 1659/2609 [1:35:45<1:24:11,  5.32s/it][A
Training...:  64% 1660/2609 [1:35:50<1:21:55,  5.18s/it][A
Training...:  64% 1661/2609 [1:35:55<1:20:14,  5.08s/it][A
Training...:  64% 1662/2609 [1:36:00<1:17:56,  4.94s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:38:22<5:04:31, 9135.91s/it]
Training...:  64% 1662/2609 [1:36:05<1:17:56,  4.94s/it][A
Training...:  64% 1663/2609 [1:36:05<1:19:33,  5.05s/it][A
Training...:  64% 1664/2609 [1:36:09<1:16:01,  4.83s/it][A
Training...:  64% 1665/2609 [1:36:13<1:13:11,  4.65s/it][A
Training...:  64% 1666/2609 [1:36:18<1:10:43,  4.50s/it][A
Training...:  64% 1667/2609 [1:36:22<1:08:36,  4.37s/it][A
Training...:  64% 1668/2609 [1:36:25<1:06:04,  4.21s/it][A
Training...:  64% 1669/2609 [1:36:29<1:03:58,  4.08s/it][A
Training...:  64% 1670/2609 [1:36:33<1:01:51,  3.95s/it][A
Training...:  64% 1671/2609 [1:36:36<59:58,  3.84s/it]  [A
Training...:  64% 1672/2609 [1:36:40<58:17,  3.73s/it][A
Training...:  64% 1673/2609 [1:36:43<56:54,  3.65s/it][A
Training...:  64% 1674/2609 [1:36:47<55:39,  3.57s/it][A
Training...:  64% 1675/2609 [1:36:50<54:01,  3.47s/it][A
Training...:  64% 1676/2609 [1:36:53<52:12,  3.36s/it][A
Training...:  64% 1677/2609 [1:36:56<50:42,  3.26s/it][A
Training...:  64% 1678/2609 [1:36:59<49:02,  3.16s/it][A
Training...:  64% 1679/2609 [1:37:02<47:35,  3.07s/it][A
Training...:  64% 1680/2609 [1:37:05<46:07,  2.98s/it][A
Training...:  64% 1681/2609 [1:37:07<44:40,  2.89s/it][A
Training...:  64% 1682/2609 [1:37:10<43:20,  2.81s/it][A
Training...:  65% 1683/2609 [1:37:13<41:56,  2.72s/it][A
Training...:  65% 1684/2609 [1:37:15<40:38,  2.64s/it][A
Training...:  65% 1685/2609 [1:37:17<39:32,  2.57s/it][A
Training...:  65% 1686/2609 [1:37:20<38:10,  2.48s/it][A
Training...:  65% 1687/2609 [1:37:22<37:07,  2.42s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:39:41<5:04:31, 9135.91s/it]
Training...:  65% 1687/2609 [1:37:24<37:07,  2.42s/it][A
Training...:  65% 1688/2609 [1:37:24<37:46,  2.46s/it][A
Training...:  65% 1689/2609 [1:37:27<35:47,  2.33s/it][A
Training...:  65% 1690/2609 [1:37:28<33:55,  2.21s/it][A
Training...:  65% 1691/2609 [1:37:30<32:16,  2.11s/it][A
Training...:  65% 1692/2609 [1:37:32<30:41,  2.01s/it][A
Training...:  65% 1693/2609 [1:37:34<29:01,  1.90s/it][A
Training...:  65% 1694/2609 [1:37:35<27:15,  1.79s/it][A
Training...:  65% 1695/2609 [1:37:37<25:36,  1.68s/it][A
Training...:  65% 1696/2609 [1:37:38<23:51,  1.57s/it][A
Training...:  65% 1697/2609 [1:37:39<22:05,  1.45s/it][A
Training...:  65% 1698/2609 [1:37:40<20:05,  1.32s/it][A
Training...:  65% 1699/2609 [1:37:41<17:53,  1.18s/it][A
Training...:  65% 1700/2609 [1:37:42<15:15,  1.01s/it][A
Training...:  65% 1701/2609 [1:37:49<43:22,  2.87s/it][A
Training...:  65% 1702/2609 [1:37:56<1:02:43,  4.15s/it][A
Training...:  65% 1703/2609 [1:38:03<1:14:27,  4.93s/it][A
Training...:  65% 1704/2609 [1:38:09<1:20:47,  5.36s/it][A
Training...:  65% 1705/2609 [1:38:15<1:24:13,  5.59s/it][A
Training...:  65% 1706/2609 [1:38:21<1:25:23,  5.67s/it][A
Training...:  65% 1707/2609 [1:38:27<1:25:18,  5.68s/it][A
Training...:  65% 1708/2609 [1:38:32<1:23:54,  5.59s/it][A
Training...:  66% 1709/2609 [1:38:37<1:22:13,  5.48s/it][A
Training...:  66% 1710/2609 [1:38:43<1:20:36,  5.38s/it][A
Training...:  66% 1711/2609 [1:38:48<1:19:09,  5.29s/it][A
Training...:  66% 1712/2609 [1:38:53<1:17:42,  5.20s/it][A                                                                                                                                                                   
                                                        [AStep... (46975 | Loss: 0.003082399722188711, Learning Rate: 6.113129529694561e-06, Gradient Norm: 0.20795413851737976)
Step... (47000 | Loss: 0.001721906941384077, Learning Rate: 6.062626653147163e-06, Gradient Norm: 0.14183007180690765)
Step... (47025 | Loss: 0.001974357757717371, Learning Rate: 6.012123776599765e-06, Gradient Norm: 0.12690389156341553)
Step... (47050 | Loss: 0.0015978419687598944, Learning Rate: 5.961614533589454e-06, Gradient Norm: 0.24881285429000854)
Step... (47075 | Loss: 0.0057052066549658775, Learning Rate: 5.911111657042056e-06, Gradient Norm: 0.3217851519584656)
Step... (47100 | Loss: 0.000895684352144599, Learning Rate: 5.860608780494658e-06, Gradient Norm: 0.08516494184732437)
Step... (47125 | Loss: 0.0017101395642384887, Learning Rate: 5.810099537484348e-06, Gradient Norm: 0.23193451762199402)
Step... (47150 | Loss: 0.0011907605221495032, Learning Rate: 5.75959666093695e-06, Gradient Norm: 0.17431694269180298)
Step... (47175 | Loss: 0.002516024047508836, Learning Rate: 5.709093784389552e-06, Gradient Norm: 0.13243845105171204)
Step... (47200 | Loss: 0.0009065904887393117, Learning Rate: 5.658584541379241e-06, Gradient Norm: 0.1239829957485199)
Step... (47225 | Loss: 0.007814091630280018, Learning Rate: 5.608081664831843e-06, Gradient Norm: 0.3231947720050812)
Step... (47250 | Loss: 0.0012667793780565262, Learning Rate: 5.557578788284445e-06, Gradient Norm: 0.15625756978988647)
Step... (47275 | Loss: 0.001356318243779242, Learning Rate: 5.507069545274135e-06, Gradient Norm: 0.07942400872707367)
Step... (47300 | Loss: 0.0022202162072062492, Learning Rate: 5.456566668726737e-06, Gradient Norm: 0.3524666428565979)
Step... (47325 | Loss: 0.003986728377640247, Learning Rate: 5.406063792179339e-06, Gradient Norm: 0.18427807092666626)
Step... (47350 | Loss: 0.0005364540847949684, Learning Rate: 5.355554549169028e-06, Gradient Norm: 0.0807567834854126)
Step... (47375 | Loss: 0.002960251411423087, Learning Rate: 5.30505167262163e-06, Gradient Norm: 0.17329765856266022)
Step... (47400 | Loss: 0.00044280881411395967, Learning Rate: 5.254548796074232e-06, Gradient Norm: 0.030795400962233543)
Step... (47425 | Loss: 0.0027259651105850935, Learning Rate: 5.204039553063922e-06, Gradient Norm: 0.17732077836990356)
Step... (47450 | Loss: 0.0029786042869091034, Learning Rate: 5.153536676516524e-06, Gradient Norm: 0.32517191767692566)
Step... (47475 | Loss: 0.002416124800220132, Learning Rate: 5.1030337999691255e-06, Gradient Norm: 0.1510475128889084)
Step... (47500 | Loss: 0.00036768135032616556, Learning Rate: 5.052524556958815e-06, Gradient Norm: 0.059855856001377106)
Step... (47525 | Loss: 0.002076605334877968, Learning Rate: 5.002021680411417e-06, Gradient Norm: 0.26000452041625977)
Step... (47550 | Loss: 0.0038007383700460196, Learning Rate: 4.9515128921484575e-06, Gradient Norm: 0.4576118290424347)
Step... (47575 | Loss: 0.0031605465337634087, Learning Rate: 4.9010095608537085e-06, Gradient Norm: 0.21044518053531647)
Step... (47600 | Loss: 0.001833595335483551, Learning Rate: 4.8505066843063105e-06, Gradient Norm: 0.2508077025413513)
Step... (47625 | Loss: 0.002563945949077606, Learning Rate: 4.799997896043351e-06, Gradient Norm: 0.21168436110019684)
Step... (47650 | Loss: 0.0008979488047771156, Learning Rate: 4.749494564748602e-06, Gradient Norm: 0.1045890748500824)
Step... (47675 | Loss: 0.0021486449986696243, Learning Rate: 4.698991688201204e-06, Gradient Norm: 0.203740194439888)
Step... (47700 | Loss: 0.000843954156152904, Learning Rate: 4.648482899938244e-06, Gradient Norm: 0.07921512424945831)
Step... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:41:15<5:04:31, 9135.91s/it]
Training...:  66% 1712/2609 [1:38:58<1:17:42,  5.20s/it][A
Training...:  66% 1713/2609 [1:38:58<1:18:36,  5.26s/it][AStep... (47725 | Loss: 0.0021282085217535496, Learning Rate: 4.5979795686434954e-06, Gradient Norm: 0.14068278670310974)
Step... (47750 | Loss: 0.0003533812123350799, Learning Rate: 4.547476692096097e-06, Gradient Norm: 0.042386699467897415)
Step... (47775 | Loss: 0.001757964608259499, Learning Rate: 4.496967903833138e-06, Gradient Norm: 0.12820029258728027)
Step... (47800 | Loss: 0.0021265228278934956, Learning Rate: 4.446464572538389e-06, Gradient Norm: 0.2191077023744583)
Step... (47825 | Loss: 0.0029547237791121006, Learning Rate: 4.395961695990991e-06, Gradient Norm: 0.1826711893081665)
Step... (47850 | Loss: 0.0008169824141077697, Learning Rate: 4.34545245298068e-06, Gradient Norm: 0.08136691898107529)
Step... (47875 | Loss: 0.002400592202320695, Learning Rate: 4.294949576433282e-06, Gradient Norm: 0.16954773664474487)
Step... (47900 | Loss: 0.0003116801963187754, Learning Rate: 4.244446699885884e-06, Gradient Norm: 0.026174720376729965)
Step... (47925 | Loss: 0.005492076277732849, Learning Rate: 4.193937456875574e-06, Gradient Norm: 0.2329784631729126)
Step... (47950 | Loss: 0.0004672322247643024, Learning Rate: 4.143434580328176e-06, Gradient Norm: 0.07771874219179153)
Step... (47975 | Loss: 0.002331564901396632, Learning Rate: 4.092931703780778e-06, Gradient Norm: 0.15624083578586578)
Step... (48000 | Loss: 0.0015666460385546088, Learning Rate: 4.042422460770467e-06, Gradient Norm: 0.2574005722999573)
Step... (48025 | Loss: 0.0023667425848543644, Learning Rate: 3.991919584223069e-06, Gradient Norm: 0.16388845443725586)
Step... (48050 | Loss: 0.0005390348960645497, Learning Rate: 3.941416707675671e-06, Gradient Norm: 0.052792780101299286)
Step... (48075 | Loss: 0.005483743268996477, Learning Rate: 3.890907464665361e-06, Gradient Norm: 0.22008153796195984)
Step... (48100 | Loss: 0.0003725567366927862, Learning Rate: 3.840404588117963e-06, Gradient Norm: 0.0445532500743866)
Step... (48125 | Loss: 0.005811404902487993, Learning Rate: 3.7899017115705647e-06, Gradient Norm: 0.2736835479736328)
Step... (48150 | Loss: 0.0012852720683440566, Learning Rate: 3.7393926959339296e-06, Gradient Norm: 0.2283301055431366)
Step... (48175 | Loss: 0.002136476570740342, Learning Rate: 3.688889592012856e-06, Gradient Norm: 0.2676626443862915)
Step... (48200 | Loss: 0.0007938841008581221, Learning Rate: 3.638386715465458e-06, Gradient Norm: 0.08803310245275497)
Step... (48225 | Loss: 0.004455882590264082, Learning Rate: 3.587877699828823e-06, Gradient Norm: 0.3422901928424835)
Step... (48250 | Loss: 0.00018902595911640674, Learning Rate: 3.5373745959077496e-06, Gradient Norm: 0.015182345174252987)
Step... (48275 | Loss: 0.002482329262420535, Learning Rate: 3.4868717193603516e-06, Gradient Norm: 0.13983018696308136)
Step... (48300 | Loss: 0.0011711877305060625, Learning Rate: 3.4363627037237165e-06, Gradient Norm: 0.13999293744564056)
Step... (48325 | Loss: 0.004897333215922117, Learning Rate: 3.385859599802643e-06, Gradient Norm: 0.3577899634838104)
Step... (48350 | Loss: 0.0010050899581983685, Learning Rate: 3.335356723255245e-06, Gradient Norm: 0.17381130158901215)
Step... (48375 | Loss: 0.005261983256787062, Learning Rate: 3.28484770761861e-06, Gradient Norm: 0.24817587435245514)
Step... (48400 | Loss: 0.001259618322364986, Learning Rate: 3.2343446036975365e-06, Gradient Norm: 0.15589971840381622)
Step... (48425 | Loss: 0.0025003934279084206, Learning Rate: 3.1838417271501385e-06, Gradient Norm: 0.1707615703344345)
Step... (48450 | Loss: 0.0015597351593896747, Learning Rate: 3.1333327115135035e-06, Gradient Norm: 0.189094677567482)
Step... (48475 | Loss: 0.0011411536252126098, Learning Rate: 3.08282960759243e-06, Gradient Norm: 0.08399131149053574)
Step... (48500 | Loss: 0.00023456830240320414, Learning Rate: 3.032326731045032e-06, Gradient Norm: 0.01600942760705948)
Step... (48525 | Loss: 0.0075476584024727345, Learning Rate: 2.981817715408397e-06, Gradient Norm: 0.3758162558078766)
Step... (48550 | Loss: 0.00037144182715564966, Learning Rate: 2.9313146114873234e-06, Gradient Norm: 0.03052714839577675)
Step... (48575 | Loss: 0.002440432086586952, Learning Rate: 2.8808055958506884e-06, Gradient Norm: 0.19459770619869232)
Step... (48600 | Loss: 0.0003290784661658108, Learning Rate: 2.8303027193032904e-06, Gradient Norm: 0.01807863637804985)
Step... (48625 | Loss: 0.0021423916332423687, Learning Rate: 2.779799615382217e-06, Gradient Norm: 0.18876805901527405)
Step... (48650 | Loss: 0.0035002464428544044, Learning Rate: 2.729290599745582e-06, Gradient Norm: 0.3135879933834076)

Training...:  66% 1714/2609 [1:39:03<1:15:42,  5.08s/it][A
Training...:  66% 1715/2609 [1:39:07<1:12:39,  4.88s/it][A
Training...:  66% 1716/2609 [1:39:11<1:09:13,  4.65s/it][A
Training...:  66% 1717/2609 [1:39:15<1:06:43,  4.49s/it][A
Training...:  66% 1718/2609 [1:39:19<1:04:14,  4.33s/it][A
Training...:  66% 1719/2609 [1:39:23<1:02:08,  4.19s/it][A
Training...:  66% 1720/2609 [1:39:27<1:00:02,  4.05s/it][A
Training...:  66% 1721/2609 [1:39:31<58:12,  3.93s/it]  [A
Training...:  66% 1722/2609 [1:39:34<56:35,  3.83s/it][A
Training...:  66% 1723/2609 [1:39:38<54:51,  3.71s/it][A
Training...:  66% 1724/2609 [1:39:41<53:04,  3.60s/it][A
Training...:  66% 1725/2609 [1:39:44<51:38,  3.51s/it][A
Training...:  66% 1726/2609 [1:39:47<50:03,  3.40s/it][A
Training...:  66% 1727/2609 [1:39:50<48:53,  3.33s/it][A
Training...:  66% 1728/2609 [1:39:54<47:39,  3.25s/it][A
Training...:  66% 1729/2609 [1:39:57<46:26,  3.17s/it][A
Training...:  66% 1730/2609 [1:39:59<45:04,  3.08s/it][A
Training...:  66% 1731/2609 [1:40:02<43:50,  3.00s/it][A
Training...:  66% 1732/2609 [1:40:05<42:19,  2.90s/it][A
Training...:  66% 1733/2609 [1:40:07<40:59,  2.81s/it][A
Training...:  66% 1734/2609 [1:40:10<39:24,  2.70s/it][A
Training...:  67% 1735/2609 [1:40:12<37:53,  2.60s/it][A
Training...:  67% 1736/2609 [1:40:15<36:30,  2.51s/it][A
Training...:  67% 1737/2609 [1:40:17<35:17,  2.43s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:42:36<5:04:31, 9135.91s/it]
Training...:  67% 1737/2609 [1:40:19<35:17,  2.43s/it][A
Training...:  67% 1738/2609 [1:40:19<35:44,  2.46s/it][A
Training...:  67% 1739/2609 [1:40:21<34:08,  2.35s/it][A
Training...:  67% 1740/2609 [1:40:23<32:26,  2.24s/it][A
Training...:  67% 1741/2609 [1:40:25<30:51,  2.13s/it][A
Training...:  67% 1742/2609 [1:40:27<29:10,  2.02s/it][A
Training...:  67% 1743/2609 [1:40:29<27:37,  1.91s/it][A
Training...:  67% 1744/2609 [1:40:30<26:00,  1.80s/it][A
Training...:  67% 1745/2609 [1:40:32<24:29,  1.70s/it][A
Training...:  67% 1746/2609 [1:40:33<22:50,  1.59s/it][A
Training...:  67% 1747/2609 [1:40:34<21:08,  1.47s/it][A
Training...:  67% 1748/2609 [1:40:35<19:12,  1.34s/it][A
Training...:  67% 1749/2609 [1:40:36<17:01,  1.19s/it][A
Training...:  67% 1750/2609 [1:40:37<14:22,  1.00s/it][A
Training...:  67% 1751/2609 [1:40:44<41:10,  2.88s/it][A
Training...:  67% 1752/2609 [1:40:51<58:58,  4.13s/it][A
Training...:  67% 1753/2609 [1:40:58<1:10:28,  4.94s/it][A
Training...:  67% 1754/2609 [1:41:04<1:16:41,  5.38s/it][A
Training...:  67% 1755/2609 [1:41:10<1:19:21,  5.58s/it][A
Training...:  67% 1756/2609 [1:41:16<1:20:00,  5.63s/it][A
Training...:  67% 1757/2609 [1:41:22<1:19:39,  5.61s/it][A
Training...:  67% 1758/2609 [1:41:27<1:18:19,  5.52s/it][A
Training...:  67% 1759/2609 [1:41:32<1:16:59,  5.43s/it][A
Training...:  67% 1760/2609 [1:41:37<1:14:52,  5.29s/it][A
Training...:  67% 1761/2609 [1:41:42<1:13:06,  5.17s/it][A
Training...:  68% 1762/2609 [1:41:47<1:10:54,  5.02s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:44:09<5:04:31, 9135.91s/it]
Training...:  68% 1762/2609 [1:41:52<1:10:54,  5.02s/it][A
Training...:  68% 1763/2609 [1:41:52<1:12:20,  5.13s/it][A
Training...:  68% 1764/2609 [1:41:56<1:09:14,  4.92s/it][A
Training...:  68% 1765/2609 [1:42:01<1:06:54,  4.76s/it][A
Training...:  68% 1766/2609 [1:42:05<1:04:25,  4.59s/it][A
Training...:  68% 1767/2609 [1:42:09<1:02:23,  4.45s/it][A
Training...:  68% 1768/2609 [1:42:13<1:00:15,  4.30s/it][A
Training...:  68% 1769/2609 [1:42:17<58:37,  4.19s/it]  [A
Training...:  68% 1770/2609 [1:42:21<56:51,  4.07s/it][A
Training...:  68% 1771/2609 [1:42:25<55:15,  3.96s/it][A
Training...:  68% 1772/2609 [1:42:28<53:23,  3.83s/it][A
Training...:  68% 1773/2609 [1:42:32<52:09,  3.74s/it][A
Training...:  68% 1774/2609 [1:42:35<50:20,  3.62s/it][A
Training...:  68% 1775/2609 [1:42:38<49:04,  3.53s/it][A
Training...:  68% 1776/2609 [1:42:41<47:33,  3.43s/it][A
Training...:  68% 1777/2609 [1:42:45<46:19,  3.34s/it][A
Training...:  68% 1778/2609 [1:42:48<45:16,  3.27s/it][A
Training...:  68% 1779/2609 [1:42:51<43:59,  3.18s/it][A
Training...:  68% 1780/2609 [1:42:53<42:32,  3.08s/it][A
Training...:  68% 1781/2609 [1:42:56<41:26,  3.00s/it][A
Training...:  68% 1782/2609 [1:42:59<39:53,  2.89s/it][A
Training...:  68% 1783/2609 [1:43:02<38:54,  2.83s/it][A
Training...:  68% 1784/2609 [1:43:04<37:31,  2.73s/it][A
Training...:  68% 1785/2609 [1:43:07<36:16,  2.64s/it][A
Training...:  68% 1786/2609 [1:43:09<35:12,  2.57s/it][A
Training...:  68% 1787/2609 [1:43:11<34:00,  2.48s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:45:30<5:04:31, 9135.91s/it]
Training...:  68% 1787/2609 [1:43:14<34:00,  2.48s/it][A
Training...:  69% 1788/2609 [1:43:14<34:11,  2.50s/it][A
Training...:  69% 1789/2609 [1:43:16<32:37,  2.39s/it][A
Training...:  69% 1790/2609 [1:43:18<30:53,  2.26s/it][A
Training...:  69% 1791/2609 [1:43:20<29:27,  2.16s/it][A
Training...:  69% 1792/2609 [1:43:22<27:59,  2.06s/it][A
Training...:  69% 1793/2609 [1:43:23<26:29,  1.95s/it][A
Training...:  69% 1794/2609 [1:43:25<24:52,  1.83s/it][A
Training...:  69% 1795/2609 [1:43:26<23:14,  1.71s/it][A
Training...:  69% 1796/2609 [1:43:28<21:25,  1.58s/it][A
Training...:  69% 1797/2609 [1:43:29<19:41,  1.45s/it][A
Training...:  69% 1798/2609 [1:43:30<17:46,  1.32s/it][A
Training...:  69% 1799/2609 [1:43:31<15:39,  1.16s/it][A
Training...:  69% 1800/2609 [1:43:31<13:03,  1.03it/s][A
Training...:  69% 1801/2609 [1:43:38<38:41,  2.87s/it][A
Training...:  69% 1802/2609 [1:43:45<55:24,  4.12s/it][A
Training...:  69% 1803/2609 [1:43:52<1:04:51,  4.83s/it][A
Training...:  69% 1804/2609 [1:43:58<1:09:58,  5.22s/it][A
Training...:  69% 1805/2609 [1:44:04<1:13:11,  5.46s/it][A
Training...:  69% 1806/2609 [1:44:10<1:13:54,  5.52s/it][A
Training...:  69% 1807/2609 [1:44:15<1:13:50,  5.52s/it][A
Training...:  69% 1808/2609 [1:44:20<1:12:26,  5.43s/it][A
Training...:  69% 1809/2609 [1:44:26<1:11:07,  5.33s/it][A
Training...:  69% 1810/2609 [1:44:30<1:09:12,  5.20s/it][A
Training...:  69% 1811/2609 [1:44:35<1:07:18,  5.06s/it][A
Training...:  69% 1812/2609 [1:44:40<1:05:30,  4.93s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:47:02<5:04:31, 9135.91s/it]
Training...:  69% 1812/2609 [1:44:45<1:05:30,  4.93s/it][A
Training...:  69% 1813/2609 [1:44:45<1:06:46,  5.03s/it][A
Training...:  70% 1814/2609 [1:44:49<1:03:51,  4.82s/it][A
Training...:  70% 1815/2609 [1:44:54<1:01:32,  4.65s/it][A
Training...:  70% 1816/2609 [1:44:58<59:30,  4.50s/it]  [A
Training...:  70% 1817/2609 [1:45:02<57:38,  4.37s/it][A
Training...:  70% 1818/2609 [1:45:06<55:43,  4.23s/it][A
Training...:  70% 1819/2609 [1:45:10<54:03,  4.11s/it][A
Training...:  70% 1820/2609 [1:45:13<52:44,  4.01s/it][A
Training...:  70% 1821/2609 [1:45:17<51:32,  3.92s/it][A
Training...:  70% 1822/2609 [1:45:21<49:52,  3.80s/it][A
Training...:  70% 1823/2609 [1:45:24<48:41,  3.72s/it][A
Training...:  70% 1824/2609 [1:45:27<47:10,  3.61s/it][A
Training...:  70% 1825/2609 [1:45:31<45:50,  3.51s/it][A
Training...:  70% 1826/2609 [1:45:34<44:28,  3.41s/it][A
Training...:  70% 1827/2609 [1:45:37<43:34,  3.34s/it][A
Training...:  70% 1828/2609 [1:45:40<42:35,  3.27s/it][A
Training...:  70% 1829/2609 [1:45:43<41:27,  3.19s/it][A
Training...:  70% 1830/2609 [1:45:46<40:05,  3.09s/it][A
Training...:  70% 1831/2609 [1:45:49<38:44,  2.99s/it][A
Training...:  70% 1832/2609 [1:45:51<37:19,  2.88s/it][A
Training...:  70% 1833/2609 [1:45:54<36:03,  2.79s/it][A
Training...:  70% 1834/2609 [1:45:56<34:40,  2.68s/it][A
Training...:  70% 1835/2609 [1:45:59<33:37,  2.61s/it][A
Training...:  70% 1836/2609 [1:46:01<32:23,  2.51s/it][A
Training...:  70% 1837/2609 [1:46:03<31:18,  2.43s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:48:23<5:04:31, 9135.91s/it]
Training...:  70% 1837/2609 [1:46:06<31:18,  2.43s/it][A
Training...:  70% 1838/2609 [1:46:06<31:34,  2.46s/it][A
Training...:  70% 1839/2609 [1:46:08<29:51,  2.33s/it][A
Training...:  71% 1840/2609 [1:46:10<28:14,  2.20s/it][A
Training...:  71% 1841/2609 [1:46:12<26:51,  2.10s/it][A
Training...:  71% 1842/2609 [1:46:13<25:18,  1.98s/it][A
Training...:  71% 1843/2609 [1:46:15<23:54,  1.87s/it][A
Training...:  71% 1844/2609 [1:46:17<22:29,  1.76s/it][A
Training...:  71% 1845/2609 [1:46:18<20:59,  1.65s/it][A
Training...:  71% 1846/2609 [1:46:19<19:30,  1.53s/it][A
Training...:  71% 1847/2609 [1:46:20<17:58,  1.42s/it][A
Training...:  71% 1848/2609 [1:46:21<16:17,  1.28s/it][A
Training...:  71% 1849/2609 [1:46:22<14:31,  1.15s/it][A
Training...:  71% 1850/2609 [1:46:23<12:20,  1.03it/s][A
Training...:  71% 1851/2609 [1:46:30<35:52,  2.84s/it][A
Training...:  71% 1852/2609 [1:46:37<52:07,  4.13s/it][A
Training...:  71% 1853/2609 [1:46:44<1:01:43,  4.90s/it][A
Training...:  71% 1854/2609 [1:46:50<1:07:02,  5.33s/it][A
Training...:  71% 1855/2609 [1:46:56<1:09:48,  5.56s/it][A
Training...:  71% 1856/2609 [1:47:02<1:10:28,  5.62s/it][A
Training...:  71% 1857/2609 [1:47:08<1:10:16,  5.61s/it][A
Training...:  71% 1858/2609 [1:47:13<1:08:59,  5.51s/it][A
Training...:  71% 1859/2609 [1:47:18<1:07:40,  5.41s/it][A
Training...:  71% 1860/2609 [1:47:23<1:05:54,  5.28s/it][A
Training...:  71% 1861/2609 [1:47:28<1:04:23,  5.17s/it][A
Training...:  71% 1862/2609 [1:47:33<1:02:43,  5.04s/it][A                                                                                                                                                                   
                                                        [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:49:55<5:04:31, 9135.91s/it]
Training...:  71% 1862/2609 [1:47:38<1:02:43,  5.04s/it][A
Training...:  71% 1863/2609 [1:47:38<1:04:02,  5.15s/it][A
Training...:  71% 1864/2609 [1:47:43<1:01:36,  4.96s/it][A
Training...:  71% 1865/2609 [1:47:47<59:19,  4.78s/it]  [A
Training...:  72% 1866/2609 [1:47:51<57:08,  4.61s/it][A
Training...:  72% 1867/2609 [1:47:55<55:05,  4.46s/it][A
Training...:  72% 1868/2609 [1:47:59<53:16,  4.31s/it][A
Training...:  72% 1869/2609 [1:48:03<51:41,  4.19s/it][A
Training...:  72% 1870/2609 [1:48:07<49:52,  4.05s/it][A
Training...:  72% 1871/2609 [1:48:11<48:29,  3.94s/it][A
Training...:  72% 1872/2609 [1:48:14<47:08,  3.84s/it][A
Training...:  72% 1873/2609 [1:48:18<46:12,  3.77s/it][A
Training...:  72% 1874/2609 [1:48:21<44:58,  3.67s/it][A
Training...:  72% 1875/2609 [1:48:24<43:33,  3.56s/it][A
Training...:  72% 1876/2609 [1:48:28<42:04,  3.44s/it][A
Training...:  72% 1877/2609 [1:48:31<40:42,  3.34s/it][A
Training...:  72% 1878/2609 [1:48:34<39:15,  3.22s/it][A
Training...:  72% 1879/2609 [1:48:37<37:58,  3.12s/it][A
Training...:  72% 1880/2609 [1:48:39<36:44,  3.02s/it][A
Training...:  72% 1881/2609 [1:48:42<35:32,  2.93s/it][A
Training...:  72% 1882/2609 [1:48:45<34:16,  2.83s/it][A
Training...:  72% 1883/2609 [1:48:47<33:12,  2.74s/it][A
Training...:  72% 1884/2609 [1:48:50<32:03,  2.65s/it][A
Training...:  72% 1885/2609 [1:48:52<31:03,  2.57s/it][A
Training...:  72% 1886/2609 [1:48:54<29:53,  2.48s/it][A
Training...:  72% 1887/2609 [1:48:56<28:49,  2.39s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:51:16<5:04:31, 9135.91s/it]
Training...:  72% 1887/2609 [1:48:59<28:49,  2.39s/it][A
Training...:  72% 1888/2609 [1:48:59<29:07,  2.42s/it][A
Training...:  72% 1889/2609 [1:49:01<27:34,  2.30s/it][A
Training...:  72% 1890/2609 [1:49:03<26:03,  2.17s/it][A
Training...:  72% 1891/2609 [1:49:05<24:42,  2.06s/it][A
Training...:  73% 1892/2609 [1:49:06<23:20,  1.95s/it][A
Training...:  73% 1893/2609 [1:49:08<21:58,  1.84s/it][A
Training...:  73% 1894/2609 [1:49:09<20:42,  1.74s/it][A
Training...:  73% 1895/2609 [1:49:11<19:19,  1.62s/it][A
Training...:  73% 1896/2609 [1:49:12<17:53,  1.51s/it][A
Training...:  73% 1897/2609 [1:49:13<16:34,  1.40s/it][A
Training...:  73% 1898/2609 [1:49:14<15:02,  1.27s/it][A
Training...:  73% 1899/2609 [1:49:15<13:16,  1.12s/it][A
Training...:  73% 1900/2609 [1:49:15<11:08,  1.06it/s][A
Training...:  73% 1901/2609 [1:49:23<33:11,  2.81s/it][A
Training...:  73% 1902/2609 [1:49:30<47:51,  4.06s/it][A
Training...:  73% 1903/2609 [1:49:36<56:22,  4.79s/it][A
Training...:  73% 1904/2609 [1:49:42<1:01:06,  5.20s/it][A
Training...:  73% 1905/2609 [1:49:48<1:04:06,  5.46s/it][A
Training...:  73% 1906/2609 [1:49:54<1:05:04,  5.55s/it][A
Training...:  73% 1907/2609 [1:50:00<1:04:51,  5.54s/it][A
Training...:  73% 1908/2609 [1:50:05<1:03:38,  5.45s/it][A
Training...:  73% 1909/2609 [1:50:10<1:02:33,  5.36s/it][A
Training...:  73% 1910/2609 [1:50:15<1:01:00,  5.24s/it][A
Training...:  73% 1911/2609 [1:50:20<59:38,  5.13s/it]  [A
Training...:  73% 1912/2609 [1:50:25<58:19,  5.02s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:52:47<5:04:31, 9135.91s/it]
Training...:  73% 1912/2609 [1:50:30<58:19,  5.02s/it][A
Training...:  73% 1913/2609 [1:50:30<59:45,  5.15s/it][A
Training...:  73% 1914/2609 [1:50:34<57:07,  4.93s/it][A
Training...:  73% 1915/2609 [1:50:39<54:48,  4.74s/it][A
Training...:  73% 1916/2609 [1:50:43<52:43,  4.57s/it][A
Training...:  73% 1917/2609 [1:50:47<50:51,  4.41s/it][A
Training...:  74% 1918/2609 [1:50:51<49:10,  4.27s/it][A
Training...:  74% 1919/2609 [1:50:55<47:36,  4.14s/it][A
Training...:  74% 1920/2609 [1:50:58<46:00,  4.01s/it][A
Training...:  74% 1921/2609 [1:51:02<44:41,  3.90s/it][A
Training...:  74% 1922/2609 [1:51:06<43:29,  3.80s/it][A
Training...:  74% 1923/2609 [1:51:09<42:09,  3.69s/it][A
Training...:  74% 1924/2609 [1:51:12<40:54,  3.58s/it][A
Training...:  74% 1925/2609 [1:51:16<39:46,  3.49s/it][A
Training...:  74% 1926/2609 [1:51:19<38:32,  3.39s/it][A
Training...:  74% 1927/2609 [1:51:22<37:30,  3.30s/it][A
Training...:  74% 1928/2609 [1:51:25<36:31,  3.22s/it][A
Training...:  74% 1929/2609 [1:51:28<35:27,  3.13s/it][A
Training...:  74% 1930/2609 [1:51:31<34:18,  3.03s/it][A
Training...:  74% 1931/2609 [1:51:33<33:17,  2.95s/it][A
Training...:  74% 1932/2609 [1:51:36<32:24,  2.87s/it][A
Training...:  74% 1933/2609 [1:51:39<31:19,  2.78s/it][A
Training...:  74% 1934/2609 [1:51:41<30:16,  2.69s/it][A
Training...:  74% 1935/2609 [1:51:44<29:17,  2.61s/it][A
Training...:  74% 1936/2609 [1:51:46<28:19,  2.52s/it][A
Training...:  74% 1937/2609 [1:51:48<27:29,  2.45s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:54:08<5:04:31, 9135.91s/it]
Training...:  74% 1937/2609 [1:51:51<27:29,  2.45s/it][A
Training...:  74% 1938/2609 [1:51:51<27:55,  2.50s/it][A
Training...:  74% 1939/2609 [1:51:53<26:29,  2.37s/it][A
Training...:  74% 1940/2609 [1:51:55<25:11,  2.26s/it][A
Training...:  74% 1941/2609 [1:51:57<23:59,  2.15s/it][A
Training...:  74% 1942/2609 [1:51:59<22:46,  2.05s/it][A
Training...:  74% 1943/2609 [1:52:00<21:36,  1.95s/it][A
Training...:  75% 1944/2609 [1:52:02<20:19,  1.83s/it][A
Training...:  75% 1945/2609 [1:52:03<19:07,  1.73s/it][A
Training...:  75% 1946/2609 [1:52:05<17:40,  1.60s/it][A
Training...:  75% 1947/2609 [1:52:06<16:11,  1.47s/it][A
Training...:  75% 1948/2609 [1:52:07<15:47,  1.43s/it][A
Training...:  75% 1949/2609 [1:52:08<13:47,  1.25s/it][A
Training...:  75% 1950/2609 [1:52:09<11:31,  1.05s/it][A
Training...:  75% 1951/2609 [1:52:16<31:32,  2.88s/it][A
Training...:  75% 1952/2609 [1:52:23<45:46,  4.18s/it][A
Training...:  75% 1953/2609 [1:52:30<53:40,  4.91s/it][A
Training...:  75% 1954/2609 [1:52:36<58:22,  5.35s/it][A
Training...:  75% 1955/2609 [1:52:42<1:00:07,  5.52s/it][A
Training...:  75% 1956/2609 [1:52:47<1:00:23,  5.55s/it][A
Training...:  75% 1957/2609 [1:52:53<1:00:13,  5.54s/it][A
Training...:  75% 1958/2609 [1:52:58<59:05,  5.45s/it]  [A
Training...:  75% 1959/2609 [1:53:03<58:29,  5.40s/it][A
Training...:  75% 1960/2609 [1:53:08<56:49,  5.25s/it][A
Training...:  75% 1961/2609 [1:53:13<55:26,  5.13s/it][A
Training...:  75% 1962/2609 [1:53:18<53:33,  4.97s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:55:40<5:04:31, 9135.91s/it]
Training...:  75% 1962/2609 [1:53:23<53:33,  4.97s/it][A
Training...:  75% 1963/2609 [1:53:23<54:54,  5.10s/it][A
Training...:  75% 1964/2609 [1:53:28<52:25,  4.88s/it][A
Training...:  75% 1965/2609 [1:53:32<50:23,  4.70s/it][A
Training...:  75% 1966/2609 [1:53:36<48:23,  4.52s/it][A
Training...:  75% 1967/2609 [1:53:40<46:45,  4.37s/it][A
Training...:  75% 1968/2609 [1:53:44<45:10,  4.23s/it][A
Training...:  75% 1969/2609 [1:53:48<43:51,  4.11s/it][A
Training...:  76% 1970/2609 [1:53:51<42:29,  3.99s/it][A
Training...:  76% 1971/2609 [1:53:55<41:18,  3.88s/it][A
Training...:  76% 1972/2609 [1:53:59<39:57,  3.76s/it][A
Training...:  76% 1973/2609 [1:54:02<39:16,  3.70s/it][A
Training...:  76% 1974/2609 [1:54:06<38:10,  3.61s/it][A
Training...:  76% 1975/2609 [1:54:09<36:54,  3.49s/it][A
Training...:  76% 1976/2609 [1:54:12<35:40,  3.38s/it][A
Training...:  76% 1977/2609 [1:54:15<34:35,  3.28s/it][A
Training...:  76% 1978/2609 [1:54:18<33:24,  3.18s/it][A
Training...:  76% 1979/2609 [1:54:21<32:29,  3.09s/it][A
Training...:  76% 1980/2609 [1:54:24<31:29,  3.00s/it][A
Training...:  76% 1981/2609 [1:54:26<30:35,  2.92s/it][A
Training...:  76% 1982/2609 [1:54:29<29:36,  2.83s/it][A
Training...:  76% 1983/2609 [1:54:31<28:40,  2.75s/it][A
Training...:  76% 1984/2609 [1:54:34<27:41,  2.66s/it][A
Training...:  76% 1985/2609 [1:54:36<26:51,  2.58s/it][A
Training...:  76% 1986/2609 [1:54:39<25:55,  2.50s/it][A
Training...:  76% 1987/2609 [1:54:41<25:17,  2.44s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:57:00<5:04:31, 9135.91s/it]
Training...:  76% 1987/2609 [1:54:43<25:17,  2.44s/it][A
Training...:  76% 1988/2609 [1:54:43<25:40,  2.48s/it][A
Training...:  76% 1989/2609 [1:54:46<24:34,  2.38s/it][A
Training...:  76% 1990/2609 [1:54:48<23:20,  2.26s/it][A
Training...:  76% 1991/2609 [1:54:50<22:12,  2.16s/it][A
Training...:  76% 1992/2609 [1:54:51<21:03,  2.05s/it][A
Training...:  76% 1993/2609 [1:54:53<19:59,  1.95s/it][A
Training...:  76% 1994/2609 [1:54:55<18:46,  1.83s/it][A
Training...:  76% 1995/2609 [1:54:56<17:36,  1.72s/it][A
Training...:  77% 1996/2609 [1:54:57<16:20,  1.60s/it][A
Training...:  77% 1997/2609 [1:54:59<15:01,  1.47s/it][A
Training...:  77% 1998/2609 [1:55:00<13:39,  1.34s/it][A
Training...:  77% 1999/2609 [1:55:00<12:05,  1.19s/it][A
Training...:  77% 2000/2609 [1:55:01<10:12,  1.01s/it][A
Training...:  77% 2001/2609 [1:55:08<29:08,  2.88s/it][A
Training...:  77% 2002/2609 [1:55:15<41:58,  4.15s/it][A
Training...:  77% 2003/2609 [1:55:22<49:14,  4.87s/it][A
Training...:  77% 2004/2609 [1:55:28<53:19,  5.29s/it][A
Training...:  77% 2005/2609 [1:55:34<55:27,  5.51s/it][A
Training...:  77% 2006/2609 [1:55:40<56:03,  5.58s/it][A
Training...:  77% 2007/2609 [1:55:46<56:09,  5.60s/it][A
Training...:  77% 2008/2609 [1:55:51<55:17,  5.52s/it][A
Training...:  77% 2009/2609 [1:55:56<54:09,  5.42s/it][A
Training...:  77% 2010/2609 [1:56:01<52:44,  5.28s/it][A
Training...:  77% 2011/2609 [1:56:06<51:24,  5.16s/it][A
Training...:  77% 2012/2609 [1:56:11<50:01,  5.03s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:58:33<5:04:31, 9135.91s/it]
Training...:  77% 2012/2609 [1:56:16<50:01,  5.03s/it][A
Training...:  77% 2013/2609 [1:56:16<50:43,  5.11s/it][A
Training...:  77% 2014/2609 [1:56:20<48:28,  4.89s/it][A
Training...:  77% 2015/2609 [1:56:25<46:32,  4.70s/it][A
Training...:  77% 2016/2609 [1:56:29<44:44,  4.53s/it][A
Training...:  77% 2017/2609 [1:56:33<43:02,  4.36s/it][A
Training...:  77% 2018/2609 [1:56:37<41:33,  4.22s/it][A
Training...:  77% 2019/2609 [1:56:40<40:22,  4.11s/it][A
Training...:  77% 2020/2609 [1:56:44<39:10,  3.99s/it][A
Training...:  77% 2021/2609 [1:56:48<38:03,  3.88s/it][A
Training...:  78% 2022/2609 [1:56:51<36:56,  3.78s/it][A
Training...:  78% 2023/2609 [1:56:55<35:56,  3.68s/it][A
Training...:  78% 2024/2609 [1:56:58<34:47,  3.57s/it][A
Training...:  78% 2025/2609 [1:57:01<33:42,  3.46s/it][A
Training...:  78% 2026/2609 [1:57:04<32:37,  3.36s/it][A
Training...:  78% 2027/2609 [1:57:07<31:36,  3.26s/it][A
Training...:  78% 2028/2609 [1:57:10<30:34,  3.16s/it][A
Training...:  78% 2029/2609 [1:57:13<29:46,  3.08s/it][A
Training...:  78% 2030/2609 [1:57:16<28:53,  2.99s/it][A
Training...:  78% 2031/2609 [1:57:19<28:07,  2.92s/it][A
Training...:  78% 2032/2609 [1:57:21<27:13,  2.83s/it][A
Training...:  78% 2033/2609 [1:57:24<26:16,  2.74s/it][A
Training...:  78% 2034/2609 [1:57:26<25:20,  2.64s/it][A
Training...:  78% 2035/2609 [1:57:29<24:29,  2.56s/it][A
Training...:  78% 2036/2609 [1:57:31<23:34,  2.47s/it][A
Training...:  78% 2037/2609 [1:57:33<22:43,  2.38s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [47:59:52<5:04:31, 9135.91s/it]
Training...:  78% 2037/2609 [1:57:36<22:43,  2.38s/it][A
Training...:  78% 2038/2609 [1:57:36<23:03,  2.42s/it][A
Training...:  78% 2039/2609 [1:57:38<21:47,  2.29s/it][A
Training...:  78% 2040/2609 [1:57:40<20:35,  2.17s/it][A
Training...:  78% 2041/2609 [1:57:41<19:32,  2.06s/it][A
Training...:  78% 2042/2609 [1:57:43<18:34,  1.97s/it][A
Training...:  78% 2043/2609 [1:57:45<17:36,  1.87s/it][A
Training...:  78% 2044/2609 [1:57:46<16:38,  1.77s/it][A
Training...:  78% 2045/2609 [1:57:48<15:43,  1.67s/it][A
Training...:  78% 2046/2609 [1:57:49<14:54,  1.59s/it][A
Training...:  78% 2047/2609 [1:57:50<13:43,  1.46s/it][A
Training...:  78% 2048/2609 [1:57:51<12:25,  1.33s/it][A
Training...:  79% 2049/2609 [1:57:52<11:03,  1.18s/it][A
Training...:  79% 2050/2609 [1:57:53<09:21,  1.00s/it][A
Training...:  79% 2051/2609 [1:58:00<26:20,  2.83s/it][A
Training...:  79% 2052/2609 [1:58:07<38:12,  4.12s/it][A
Training...:  79% 2053/2609 [1:58:14<45:12,  4.88s/it][A
Training...:  79% 2054/2609 [1:58:20<49:04,  5.31s/it][A
Training...:  79% 2055/2609 [1:58:26<50:44,  5.50s/it][A
Training...:  79% 2056/2609 [1:58:32<51:11,  5.55s/it][A
Training...:  79% 2057/2609 [1:58:37<51:06,  5.56s/it][A
Training...:  79% 2058/2609 [1:58:42<50:18,  5.48s/it][A
Training...:  79% 2059/2609 [1:58:48<49:28,  5.40s/it][A
Training...:  79% 2060/2609 [1:58:53<48:16,  5.28s/it][A
Training...:  79% 2061/2609 [1:58:57<47:09,  5.16s/it][A
Training...:  79% 2062/2609 [1:59:02<45:53,  5.03s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [48:01:24<5:04:31, 9135.91s/it]
Training...:  79% 2062/2609 [1:59:08<45:53,  5.03s/it][A
Training...:  79% 2063/2609 [1:59:08<46:42,  5.13s/it][A
Training...:  79% 2064/2609 [1:59:12<45:09,  4.97s/it][A
Training...:  79% 2065/2609 [1:59:17<43:59,  4.85s/it][A
Training...:  79% 2066/2609 [1:59:21<42:17,  4.67s/it][A
Training...:  79% 2067/2609 [1:59:25<40:40,  4.50s/it][A
Training...:  79% 2068/2609 [1:59:29<38:54,  4.31s/it][A
Training...:  79% 2069/2609 [1:59:33<37:44,  4.19s/it][A
Training...:  79% 2070/2609 [1:59:37<36:15,  4.04s/it][A
Training...:  79% 2071/2609 [1:59:40<35:04,  3.91s/it][A
Training...:  79% 2072/2609 [1:59:44<33:52,  3.79s/it][A
Training...:  79% 2073/2609 [1:59:47<32:47,  3.67s/it][A
Training...:  79% 2074/2609 [1:59:50<31:44,  3.56s/it][A
Training...:  80% 2075/2609 [1:59:54<30:53,  3.47s/it][A
Training...:  80% 2076/2609 [1:59:57<29:56,  3.37s/it][A
Training...:  80% 2077/2609 [2:00:00<28:58,  3.27s/it][A
Training...:  80% 2078/2609 [2:00:03<28:07,  3.18s/it][A
Training...:  80% 2079/2609 [2:00:06<27:14,  3.08s/it][A
Training...:  80% 2080/2609 [2:00:08<26:23,  2.99s/it][A
Training...:  80% 2081/2609 [2:00:11<25:38,  2.91s/it][A
Training...:  80% 2082/2609 [2:00:14<24:46,  2.82s/it][A
Training...:  80% 2083/2609 [2:00:16<23:57,  2.73s/it][A
Training...:  80% 2084/2609 [2:00:19<23:07,  2.64s/it][A
Training...:  80% 2085/2609 [2:00:21<22:23,  2.56s/it][A
Training...:  80% 2086/2609 [2:00:23<21:31,  2.47s/it][A
Training...:  80% 2087/2609 [2:00:26<20:39,  2.37s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [48:02:45<5:04:31, 9135.91s/it]
Training...:  80% 2087/2609 [2:00:28<20:39,  2.37s/it][A
Training...:  80% 2088/2609 [2:00:28<20:53,  2.41s/it][A
Training...:  80% 2089/2609 [2:00:30<19:52,  2.29s/it][A
Training...:  80% 2090/2609 [2:00:32<18:49,  2.18s/it][A
Training...:  80% 2091/2609 [2:00:34<17:53,  2.07s/it][A
Training...:  80% 2092/2609 [2:00:36<17:06,  1.98s/it][A
Training...:  80% 2093/2609 [2:00:37<16:16,  1.89s/it][A
Training...:  80% 2094/2609 [2:00:39<15:19,  1.78s/it][A
Training...:  80% 2095/2609 [2:00:40<14:23,  1.68s/it][A
Training...:  80% 2096/2609 [2:00:41<13:26,  1.57s/it][A
Training...:  80% 2097/2609 [2:00:43<12:18,  1.44s/it][A
Training...:  80% 2098/2609 [2:00:44<11:03,  1.30s/it][A
Training...:  80% 2099/2609 [2:00:44<09:44,  1.15s/it][A
Training...:  80% 2100/2609 [2:00:45<08:12,  1.03it/s][A
Training...:  81% 2101/2609 [2:00:52<23:43,  2.80s/it][A
Training...:  81% 2102/2609 [2:00:59<34:08,  4.04s/it][A
Training...:  81% 2103/2609 [2:01:05<40:02,  4.75s/it][A
Training...:  81% 2104/2609 [2:01:11<43:22,  5.15s/it][A
Training...:  81% 2105/2609 [2:01:17<45:28,  5.41s/it][A
Training...:  81% 2106/2609 [2:01:23<46:37,  5.56s/it][A
Training...:  81% 2107/2609 [2:01:29<46:29,  5.56s/it][A
Training...:  81% 2108/2609 [2:01:34<45:38,  5.47s/it][A
Training...:  81% 2109/2609 [2:01:39<44:55,  5.39s/it][A
Training...:  81% 2110/2609 [2:01:44<43:48,  5.27s/it][A
Training...:  81% 2111/2609 [2:01:49<42:39,  5.14s/it][A
Training...:  81% 2112/2609 [2:01:54<41:30,  5.01s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [48:04:16<5:04:31, 9135.91s/it]
Training...:  81% 2112/2609 [2:01:59<41:30,  5.01s/it][A
Training...:  81% 2113/2609 [2:01:59<42:20,  5.12s/it][A
Training...:  81% 2114/2609 [2:02:04<40:29,  4.91s/it][A
Training...:  81% 2115/2609 [2:02:08<39:00,  4.74s/it][A
Training...:  81% 2116/2609 [2:02:12<37:30,  4.57s/it][A
Training...:  81% 2117/2609 [2:02:16<36:13,  4.42s/it][A
Training...:  81% 2118/2609 [2:02:20<34:53,  4.26s/it][A
Training...:  81% 2119/2609 [2:02:24<33:57,  4.16s/it][A
Training...:  81% 2120/2609 [2:02:28<32:42,  4.01s/it][A
Training...:  81% 2121/2609 [2:02:31<31:44,  3.90s/it][A
Training...:  81% 2122/2609 [2:02:35<30:41,  3.78s/it][A
Training...:  81% 2123/2609 [2:02:38<29:44,  3.67s/it][A
Training...:  81% 2124/2609 [2:02:42<28:50,  3.57s/it][A
Training...:  81% 2125/2609 [2:02:45<27:55,  3.46s/it][A
Training...:  81% 2126/2609 [2:02:48<27:09,  3.37s/it][A
Training...:  82% 2127/2609 [2:02:51<26:20,  3.28s/it][A
Training...:  82% 2128/2609 [2:02:54<25:27,  3.18s/it][A
Training...:  82% 2129/2609 [2:02:57<24:44,  3.09s/it][A
Training...:  82% 2130/2609 [2:03:00<24:03,  3.01s/it][A
Training...:  82% 2131/2609 [2:03:03<23:21,  2.93s/it][A
Training...:  82% 2132/2609 [2:03:05<22:47,  2.87s/it][A
Training...:  82% 2133/2609 [2:03:08<22:03,  2.78s/it][A
Training...:  82% 2134/2609 [2:03:10<21:20,  2.70s/it][A
Training...:  82% 2135/2609 [2:03:13<20:35,  2.61s/it][A
Training...:  82% 2136/2609 [2:03:15<19:48,  2.51s/it][A
Training...:  82% 2137/2609 [2:03:17<19:05,  2.43s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [48:05:36<5:04:31, 9135.91s/it]
Training...:  82% 2137/2609 [2:03:20<19:05,  2.43s/it][A
Training...:  82% 2138/2609 [2:03:20<19:16,  2.45s/it][A
Training...:  82% 2139/2609 [2:03:22<18:08,  2.32s/it][A
Training...:  82% 2140/2609 [2:03:24<17:16,  2.21s/it][A
Training...:  82% 2141/2609 [2:03:26<16:20,  2.09s/it][A
Training...:  82% 2142/2609 [2:03:27<15:26,  1.99s/it][A
Training...:  82% 2143/2609 [2:03:29<14:32,  1.87s/it][A
Training...:  82% 2144/2609 [2:03:30<13:37,  1.76s/it][A
Training...:  82% 2145/2609 [2:03:32<12:41,  1.64s/it][A
Training...:  82% 2146/2609 [2:03:33<11:47,  1.53s/it][A
Training...:  82% 2147/2609 [2:03:34<10:52,  1.41s/it][A
Training...:  82% 2148/2609 [2:03:35<09:45,  1.27s/it][A
Training...:  82% 2149/2609 [2:03:36<08:35,  1.12s/it][A
Training...:  82% 2150/2609 [2:03:36<07:16,  1.05it/s][A
Training...:  82% 2151/2609 [2:03:44<21:22,  2.80s/it][A
Training...:  82% 2152/2609 [2:03:51<31:14,  4.10s/it][A
Training...:  83% 2153/2609 [2:03:57<36:42,  4.83s/it][A
Training...:  83% 2154/2609 [2:04:03<39:53,  5.26s/it][A
Training...:  83% 2155/2609 [2:04:09<41:30,  5.49s/it][A
Training...:  83% 2156/2609 [2:04:15<41:59,  5.56s/it][A
Training...:  83% 2157/2609 [2:04:21<42:03,  5.58s/it][A
Training...:  83% 2158/2609 [2:04:26<41:19,  5.50s/it][A
Training...:  83% 2159/2609 [2:04:31<40:40,  5.42s/it][A
Training...:  83% 2160/2609 [2:04:36<39:35,  5.29s/it][A
Training...:  83% 2161/2609 [2:04:41<38:36,  5.17s/it][A
Training...:  83% 2162/2609 [2:04:46<37:20,  5.01s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [48:07:08<5:04:31, 9135.91s/it]
Training...:  83% 2162/2609 [2:04:51<37:20,  5.01s/it][A
Training...:  83% 2163/2609 [2:04:51<38:07,  5.13s/it][A
Training...:  83% 2164/2609 [2:04:56<36:46,  4.96s/it][A
Training...:  83% 2165/2609 [2:05:00<35:25,  4.79s/it][A
Training...:  83% 2166/2609 [2:05:04<33:56,  4.60s/it][A
Training...:  83% 2167/2609 [2:05:09<32:47,  4.45s/it][A
Training...:  83% 2168/2609 [2:05:12<31:31,  4.29s/it][A
Training...:  83% 2169/2609 [2:05:16<30:37,  4.18s/it][A
Training...:  83% 2170/2609 [2:05:20<29:30,  4.03s/it][A
Training...:  83% 2171/2609 [2:05:24<28:38,  3.92s/it][A
Training...:  83% 2172/2609 [2:05:27<27:41,  3.80s/it][A
Training...:  83% 2173/2609 [2:05:31<26:55,  3.70s/it][A
Training...:  83% 2174/2609 [2:05:34<26:10,  3.61s/it][A
Training...:  83% 2175/2609 [2:05:38<25:43,  3.56s/it][A
Training...:  83% 2176/2609 [2:05:41<24:55,  3.45s/it][A
Training...:  83% 2177/2609 [2:05:44<24:15,  3.37s/it][A
Training...:  83% 2178/2609 [2:05:47<23:25,  3.26s/it][A
Training...:  84% 2179/2609 [2:05:50<22:47,  3.18s/it][A
Training...:  84% 2180/2609 [2:05:53<22:08,  3.10s/it][A
Training...:  84% 2181/2609 [2:05:56<21:34,  3.02s/it][A
Training...:  84% 2182/2609 [2:05:58<20:51,  2.93s/it][A
Training...:  84% 2183/2609 [2:06:01<20:15,  2.85s/it][A
Training...:  84% 2184/2609 [2:06:04<19:25,  2.74s/it][A
Training...:  84% 2185/2609 [2:06:06<18:44,  2.65s/it][A
Training...:  84% 2186/2609 [2:06:08<18:02,  2.56s/it][A
Training...:  84% 2187/2609 [2:06:11<17:22,  2.47s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [48:08:30<5:04:31, 9135.91s/it]
Training...:  84% 2187/2609 [2:06:13<17:22,  2.47s/it][A
Training...:  84% 2188/2609 [2:06:13<17:33,  2.50s/it][A
Training...:  84% 2189/2609 [2:06:15<16:36,  2.37s/it][A
Training...:  84% 2190/2609 [2:06:17<15:48,  2.26s/it][A
Training...:  84% 2191/2609 [2:06:19<15:00,  2.16s/it][A
Training...:  84% 2192/2609 [2:06:21<14:14,  2.05s/it][A
Training...:  84% 2193/2609 [2:06:23<13:28,  1.94s/it][A
Training...:  84% 2194/2609 [2:06:24<12:42,  1.84s/it][A
Training...:  84% 2195/2609 [2:06:26<11:57,  1.73s/it][A
Training...:  84% 2196/2609 [2:06:27<11:05,  1.61s/it][A
Training...:  84% 2197/2609 [2:06:28<10:11,  1.48s/it][A
Training...:  84% 2198/2609 [2:06:29<09:15,  1.35s/it][A
Training...:  84% 2199/2609 [2:06:30<08:12,  1.20s/it][A
Training...:  84% 2200/2609 [2:06:31<06:57,  1.02s/it][A
Training...:  84% 2201/2609 [2:06:38<19:34,  2.88s/it][A
Training...:  84% 2202/2609 [2:06:45<28:09,  4.15s/it][A
Training...:  84% 2203/2609 [2:06:52<33:24,  4.94s/it][A
Training...:  84% 2204/2609 [2:06:58<36:42,  5.44s/it][A
Training...:  85% 2205/2609 [2:07:05<38:03,  5.65s/it][A
Training...:  85% 2206/2609 [2:07:10<38:06,  5.67s/it][A
Training...:  85% 2207/2609 [2:07:16<37:53,  5.66s/it][A
Training...:  85% 2208/2609 [2:07:21<36:59,  5.54s/it][A
Training...:  85% 2209/2609 [2:07:26<36:18,  5.45s/it][A
Training...:  85% 2210/2609 [2:07:31<35:13,  5.30s/it][A
Training...:  85% 2211/2609 [2:07:36<34:15,  5.16s/it][A
Training...:  85% 2212/2609 [2:07:41<33:08,  5.01s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [48:10:03<5:04:31, 9135.91s/it]
Training...:  85% 2212/2609 [2:07:46<33:08,  5.01s/it][A
Training...:  85% 2213/2609 [2:07:46<33:38,  5.10s/it][A
Training...:  85% 2214/2609 [2:07:51<32:04,  4.87s/it][A
Training...:  85% 2215/2609 [2:07:55<30:51,  4.70s/it][A
Training...:  85% 2216/2609 [2:07:59<29:39,  4.53s/it][A
Training...:  85% 2217/2609 [2:08:03<28:37,  4.38s/it][A
Training...:  85% 2218/2609 [2:08:07<27:35,  4.23s/it][A
Training...:  85% 2219/2609 [2:08:11<26:45,  4.12s/it][A
Training...:  85% 2220/2609 [2:08:14<25:45,  3.97s/it][A
Training...:  85% 2221/2609 [2:08:18<24:56,  3.86s/it][A
Training...:  85% 2222/2609 [2:08:21<24:05,  3.74s/it][A
Training...:  85% 2223/2609 [2:08:25<23:19,  3.63s/it][A
Training...:  85% 2224/2609 [2:08:28<22:33,  3.52s/it][A
Training...:  85% 2225/2609 [2:08:31<21:50,  3.41s/it][A
Training...:  85% 2226/2609 [2:08:34<21:14,  3.33s/it][A
Training...:  85% 2227/2609 [2:08:37<20:39,  3.24s/it][A
Training...:  85% 2228/2609 [2:08:40<20:04,  3.16s/it][A
Training...:  85% 2229/2609 [2:08:43<19:27,  3.07s/it][A
Training...:  85% 2230/2609 [2:08:46<18:46,  2.97s/it][A
Training...:  86% 2231/2609 [2:08:49<18:07,  2.88s/it][A
Training...:  86% 2232/2609 [2:08:51<17:30,  2.79s/it][A
Training...:  86% 2233/2609 [2:08:54<16:55,  2.70s/it][A
Training...:  86% 2234/2609 [2:08:56<16:16,  2.60s/it][A
Training...:  86% 2235/2609 [2:08:58<15:46,  2.53s/it][A
Training...:  86% 2236/2609 [2:09:01<15:11,  2.44s/it][A
Training...:  86% 2237/2609 [2:09:03<14:35,  2.35s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [48:11:22<5:04:31, 9135.91s/it]
Training...:  86% 2237/2609 [2:09:05<14:35,  2.35s/it][A
Training...:  86% 2238/2609 [2:09:05<14:50,  2.40s/it][A
Training...:  86% 2239/2609 [2:09:07<14:02,  2.28s/it][A
Training...:  86% 2240/2609 [2:09:09<13:18,  2.16s/it][A
Training...:  86% 2241/2609 [2:09:11<12:38,  2.06s/it][A
Training...:  86% 2242/2609 [2:09:13<11:58,  1.96s/it][A
Training...:  86% 2243/2609 [2:09:14<11:15,  1.85s/it][A
Training...:  86% 2244/2609 [2:09:16<10:30,  1.73s/it][A
Training...:  86% 2245/2609 [2:09:17<09:45,  1.61s/it][A
Training...:  86% 2246/2609 [2:09:18<09:00,  1.49s/it][A
Training...:  86% 2247/2609 [2:09:19<08:14,  1.37s/it][A
Training...:  86% 2248/2609 [2:09:20<07:23,  1.23s/it][A
Training...:  86% 2249/2609 [2:09:21<06:32,  1.09s/it][A
Training...:  86% 2250/2609 [2:09:22<05:30,  1.09it/s][A
Training...:  86% 2251/2609 [2:09:29<16:49,  2.82s/it][A
Training...:  86% 2252/2609 [2:09:36<24:28,  4.11s/it][A
Training...:  86% 2253/2609 [2:09:43<29:17,  4.94s/it][A
Training...:  86% 2254/2609 [2:09:49<32:12,  5.44s/it][A
Training...:  86% 2255/2609 [2:09:56<33:15,  5.64s/it][A
Training...:  86% 2256/2609 [2:10:01<33:20,  5.67s/it][A
Training...:  87% 2257/2609 [2:10:07<32:59,  5.62s/it][A
Training...:  87% 2258/2609 [2:10:12<32:08,  5.49s/it][A
Training...:  87% 2259/2609 [2:10:17<31:28,  5.40s/it][A
Training...:  87% 2260/2609 [2:10:22<30:33,  5.25s/it][A
Training...:  87% 2261/2609 [2:10:27<29:35,  5.10s/it][A
Training...:  87% 2262/2609 [2:10:31<28:38,  4.95s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [48:12:53<5:04:31, 9135.91s/it]
Training...:  87% 2262/2609 [2:10:37<28:38,  4.95s/it][A
Training...:  87% 2263/2609 [2:10:37<29:03,  5.04s/it][A
Training...:  87% 2264/2609 [2:10:41<27:44,  4.83s/it][A
Training...:  87% 2265/2609 [2:10:45<26:43,  4.66s/it][A
Training...:  87% 2266/2609 [2:10:49<25:41,  4.49s/it][A
Training...:  87% 2267/2609 [2:10:53<24:49,  4.36s/it][A
Training...:  87% 2268/2609 [2:10:57<23:59,  4.22s/it][A
Training...:  87% 2269/2609 [2:11:01<23:19,  4.12s/it][A
Training...:  87% 2270/2609 [2:11:05<22:35,  4.00s/it][A
Training...:  87% 2271/2609 [2:11:09<22:02,  3.91s/it][A
Training...:  87% 2272/2609 [2:11:12<21:19,  3.80s/it][A
Training...:  87% 2273/2609 [2:11:16<20:49,  3.72s/it][A
Training...:  87% 2274/2609 [2:11:19<20:20,  3.64s/it][A
Training...:  87% 2275/2609 [2:11:23<19:46,  3.55s/it][A
Training...:  87% 2276/2609 [2:11:26<19:04,  3.44s/it][A
Training...:  87% 2277/2609 [2:11:29<18:26,  3.33s/it][A
Training...:  87% 2278/2609 [2:11:32<17:50,  3.23s/it][A
Training...:  87% 2279/2609 [2:11:35<17:12,  3.13s/it][A
Training...:  87% 2280/2609 [2:11:37<16:34,  3.02s/it][A
Training...:  87% 2281/2609 [2:11:40<15:57,  2.92s/it][A
Training...:  87% 2282/2609 [2:11:43<15:24,  2.83s/it][A
Training...:  88% 2283/2609 [2:11:45<14:56,  2.75s/it][A
Training...:  88% 2284/2609 [2:11:48<14:21,  2.65s/it][A
Training...:  88% 2285/2609 [2:11:50<13:56,  2.58s/it][A
Training...:  88% 2286/2609 [2:11:52<13:20,  2.48s/it][A
Training...:  88% 2287/2609 [2:11:54<12:43,  2.37s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [48:14:14<5:04:31, 9135.91s/it]
Training...:  88% 2287/2609 [2:11:57<12:43,  2.37s/it][A
Training...:  88% 2288/2609 [2:11:57<12:55,  2.42s/it][A
Training...:  88% 2289/2609 [2:11:59<12:09,  2.28s/it][A
Training...:  88% 2290/2609 [2:12:01<11:28,  2.16s/it][A
Training...:  88% 2291/2609 [2:12:03<10:53,  2.06s/it][A
Training...:  88% 2292/2609 [2:12:04<10:16,  1.95s/it][A
Training...:  88% 2293/2609 [2:12:06<09:39,  1.83s/it][A
Training...:  88% 2294/2609 [2:12:07<09:04,  1.73s/it][A
Training...:  88% 2295/2609 [2:12:09<08:28,  1.62s/it][A
Training...:  88% 2296/2609 [2:12:10<07:50,  1.50s/it][A
Training...:  88% 2297/2609 [2:12:11<07:12,  1.39s/it][A
Training...:  88% 2298/2609 [2:12:12<06:28,  1.25s/it][A
Training...:  88% 2299/2609 [2:12:13<05:43,  1.11s/it][A
Training...:  88% 2300/2609 [2:12:13<04:48,  1.07it/s][A
Training...:  88% 2301/2609 [2:12:21<14:33,  2.84s/it][A
Training...:  88% 2302/2609 [2:12:28<21:05,  4.12s/it][A
Training...:  88% 2303/2609 [2:12:34<25:00,  4.90s/it][A
Training...:  88% 2304/2609 [2:12:41<27:17,  5.37s/it][A
Training...:  88% 2305/2609 [2:12:47<28:13,  5.57s/it][A
Training...:  88% 2306/2609 [2:12:53<28:28,  5.64s/it][A
Training...:  88% 2307/2609 [2:12:58<28:16,  5.62s/it][A
Training...:  88% 2308/2609 [2:13:04<27:51,  5.55s/it][A
Training...:  89% 2309/2609 [2:13:09<27:16,  5.45s/it][A
Training...:  89% 2310/2609 [2:13:14<26:38,  5.35s/it][A
Training...:  89% 2311/2609 [2:13:19<25:57,  5.23s/it][A
Training...:  89% 2312/2609 [2:13:24<25:02,  5.06s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [48:15:46<5:04:31, 9135.91s/it]
Training...:  89% 2312/2609 [2:13:29<25:02,  5.06s/it][A
Training...:  89% 2313/2609 [2:13:29<25:23,  5.15s/it][A
Training...:  89% 2314/2609 [2:13:33<24:11,  4.92s/it][A
Training...:  89% 2315/2609 [2:13:38<23:13,  4.74s/it][A
Training...:  89% 2316/2609 [2:13:42<22:24,  4.59s/it][A
Training...:  89% 2317/2609 [2:13:46<21:50,  4.49s/it][A
Training...:  89% 2318/2609 [2:13:50<21:04,  4.35s/it][A
Training...:  89% 2319/2609 [2:13:54<20:18,  4.20s/it][A
Training...:  89% 2320/2609 [2:13:58<19:31,  4.05s/it][A
Training...:  89% 2321/2609 [2:14:02<18:58,  3.95s/it][A
Training...:  89% 2322/2609 [2:14:05<18:23,  3.84s/it][A
Training...:  89% 2323/2609 [2:14:09<17:48,  3.74s/it][A
Training...:  89% 2324/2609 [2:14:12<17:11,  3.62s/it][A
Training...:  89% 2325/2609 [2:14:15<16:42,  3.53s/it][A
Training...:  89% 2326/2609 [2:14:18<16:07,  3.42s/it][A
Training...:  89% 2327/2609 [2:14:22<15:39,  3.33s/it][A
Training...:  89% 2328/2609 [2:14:25<15:09,  3.24s/it][A
Training...:  89% 2329/2609 [2:14:28<14:42,  3.15s/it][A
Training...:  89% 2330/2609 [2:14:30<14:12,  3.06s/it][A
Training...:  89% 2331/2609 [2:14:33<13:51,  2.99s/it][A
Training...:  89% 2332/2609 [2:14:36<13:24,  2.90s/it][A
Training...:  89% 2333/2609 [2:14:39<12:56,  2.81s/it][A
Training...:  89% 2334/2609 [2:14:41<12:26,  2.72s/it][A
Training...:  89% 2335/2609 [2:14:43<12:00,  2.63s/it][A
Training...:  90% 2336/2609 [2:14:46<11:30,  2.53s/it][A
Training...:  90% 2337/2609 [2:14:48<11:03,  2.44s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [48:17:07<5:04:31, 9135.91s/it]
Training...:  90% 2337/2609 [2:14:51<11:03,  2.44s/it][A
Training...:  90% 2338/2609 [2:14:51<11:10,  2.47s/it][A
Training...:  90% 2339/2609 [2:14:53<10:32,  2.34s/it][A
Training...:  90% 2340/2609 [2:14:55<09:59,  2.23s/it][A
Training...:  90% 2341/2609 [2:14:56<09:29,  2.12s/it][A
Training...:  90% 2342/2609 [2:14:58<08:56,  2.01s/it][A
Training...:  90% 2343/2609 [2:15:00<08:27,  1.91s/it][A
Training...:  90% 2344/2609 [2:15:01<07:58,  1.81s/it][A
Training...:  90% 2345/2609 [2:15:03<07:27,  1.69s/it][A
Training...:  90% 2346/2609 [2:15:04<06:54,  1.58s/it][A
Training...:  90% 2347/2609 [2:15:05<06:21,  1.46s/it][A
Training...:  90% 2348/2609 [2:15:06<05:43,  1.32s/it][A
Training...:  90% 2349/2609 [2:15:07<05:05,  1.17s/it][A
Training...:  90% 2350/2609 [2:15:08<04:18,  1.00it/s][A
Training...:  90% 2351/2609 [2:15:15<12:18,  2.86s/it][A
Training...:  90% 2352/2609 [2:15:22<17:53,  4.18s/it][A
Training...:  90% 2353/2609 [2:15:29<21:03,  4.93s/it][A
Training...:  90% 2354/2609 [2:15:35<22:47,  5.36s/it][A
Training...:  90% 2355/2609 [2:15:41<23:31,  5.56s/it][A
Training...:  90% 2356/2609 [2:15:47<23:37,  5.60s/it][A
Training...:  90% 2357/2609 [2:15:53<23:34,  5.61s/it][A
Training...:  90% 2358/2609 [2:15:58<23:13,  5.55s/it][A
Training...:  90% 2359/2609 [2:16:03<22:39,  5.44s/it][A
Training...:  90% 2360/2609 [2:16:08<21:54,  5.28s/it][A
Training...:  90% 2361/2609 [2:16:13<21:12,  5.13s/it][A
Training...:  91% 2362/2609 [2:16:17<20:28,  4.97s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [48:18:39<5:04:31, 9135.91s/it]
Training...:  91% 2362/2609 [2:16:23<20:28,  4.97s/it][A
Training...:  91% 2363/2609 [2:16:23<20:46,  5.07s/it][A
Training...:  91% 2364/2609 [2:16:27<19:47,  4.85s/it][A
Training...:  91% 2365/2609 [2:16:31<18:58,  4.67s/it][A
Training...:  91% 2366/2609 [2:16:35<18:11,  4.49s/it][A
Training...:  91% 2367/2609 [2:16:39<17:34,  4.36s/it][A
Training...:  91% 2368/2609 [2:16:43<16:57,  4.22s/it][A
Training...:  91% 2369/2609 [2:16:47<16:24,  4.10s/it][A
Training...:  91% 2370/2609 [2:16:51<15:49,  3.97s/it][A
Training...:  91% 2371/2609 [2:16:54<15:18,  3.86s/it][A
Training...:  91% 2372/2609 [2:16:58<14:46,  3.74s/it][A
Training...:  91% 2373/2609 [2:17:01<14:15,  3.63s/it][A
Training...:  91% 2374/2609 [2:17:05<13:44,  3.51s/it][A
Training...:  91% 2375/2609 [2:17:08<13:17,  3.41s/it][A
Training...:  91% 2376/2609 [2:17:11<12:53,  3.32s/it][A
Training...:  91% 2377/2609 [2:17:14<12:28,  3.23s/it][A
Training...:  91% 2378/2609 [2:17:17<12:04,  3.13s/it][A
Training...:  91% 2379/2609 [2:17:20<11:41,  3.05s/it][A
Training...:  91% 2380/2609 [2:17:22<11:17,  2.96s/it][A
Training...:  91% 2381/2609 [2:17:25<10:57,  2.88s/it][A
Training...:  91% 2382/2609 [2:17:28<10:35,  2.80s/it][A
Training...:  91% 2383/2609 [2:17:30<10:17,  2.73s/it][A
Training...:  91% 2384/2609 [2:17:33<09:55,  2.65s/it][A
Training...:  91% 2385/2609 [2:17:35<09:35,  2.57s/it][A
Training...:  91% 2386/2609 [2:17:37<09:13,  2.48s/it][A
Training...:  91% 2387/2609 [2:17:40<08:54,  2.41s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [48:19:59<5:04:31, 9135.91s/it]
Training...:  91% 2387/2609 [2:17:42<08:54,  2.41s/it][A
Training...:  92% 2388/2609 [2:17:42<08:59,  2.44s/it][A
Training...:  92% 2389/2609 [2:17:44<08:29,  2.32s/it][A
Training...:  92% 2390/2609 [2:17:46<08:00,  2.19s/it][A
Training...:  92% 2391/2609 [2:17:48<07:35,  2.09s/it][A
Training...:  92% 2392/2609 [2:17:50<07:12,  1.99s/it][A
Training...:  92% 2393/2609 [2:17:51<06:50,  1.90s/it][A
Training...:  92% 2394/2609 [2:17:53<06:24,  1.79s/it][A
Training...:  92% 2395/2609 [2:17:54<06:01,  1.69s/it][A
Training...:  92% 2396/2609 [2:17:56<05:35,  1.57s/it][A
Training...:  92% 2397/2609 [2:17:57<05:09,  1.46s/it][A
Training...:  92% 2398/2609 [2:17:58<04:40,  1.33s/it][A
Training...:  92% 2399/2609 [2:17:59<04:07,  1.18s/it][A
Training...:  92% 2400/2609 [2:17:59<03:27,  1.01it/s][A
Training...:  92% 2401/2609 [2:18:07<10:02,  2.90s/it][A
Training...:  92% 2402/2609 [2:18:14<14:16,  4.14s/it][A
Training...:  92% 2403/2609 [2:18:20<16:42,  4.86s/it][A
Training...:  92% 2404/2609 [2:18:26<18:02,  5.28s/it][A
Training...:  92% 2405/2609 [2:18:32<18:41,  5.50s/it][A
Training...:  92% 2406/2609 [2:18:38<18:46,  5.55s/it][A
Training...:  92% 2407/2609 [2:18:44<18:41,  5.55s/it][A
Training...:  92% 2408/2609 [2:18:49<18:20,  5.48s/it][A
Training...:  92% 2409/2609 [2:18:54<17:59,  5.40s/it][A
Training...:  92% 2410/2609 [2:18:59<17:33,  5.30s/it][A
Training...:  92% 2411/2609 [2:19:04<17:07,  5.19s/it][A
Training...:  92% 2412/2609 [2:19:09<16:34,  5.05s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [48:21:31<5:04:31, 9135.91s/it]
Training...:  92% 2412/2609 [2:19:14<16:34,  5.05s/it][A
Training...:  92% 2413/2609 [2:19:14<16:52,  5.17s/it][A
Training...:  93% 2414/2609 [2:19:19<16:01,  4.93s/it][A
Training...:  93% 2415/2609 [2:19:23<15:26,  4.78s/it][A
Training...:  93% 2416/2609 [2:19:27<14:53,  4.63s/it][A
Training...:  93% 2417/2609 [2:19:31<14:18,  4.47s/it][A
Training...:  93% 2418/2609 [2:19:35<13:42,  4.30s/it][A
Training...:  93% 2419/2609 [2:19:39<13:10,  4.16s/it][A
Training...:  93% 2420/2609 [2:19:43<12:42,  4.03s/it][A
Training...:  93% 2421/2609 [2:19:47<12:14,  3.91s/it][A
Training...:  93% 2422/2609 [2:19:50<11:49,  3.79s/it][A
Training...:  93% 2423/2609 [2:19:53<11:23,  3.67s/it][A
Training...:  93% 2424/2609 [2:19:57<11:01,  3.57s/it][A
Training...:  93% 2425/2609 [2:20:00<10:41,  3.49s/it][A
Training...:  93% 2426/2609 [2:20:03<10:22,  3.40s/it][A
Training...:  93% 2427/2609 [2:20:06<10:00,  3.30s/it][A
Training...:  93% 2428/2609 [2:20:09<09:38,  3.20s/it][A
Training...:  93% 2429/2609 [2:20:12<09:19,  3.11s/it][A
Training...:  93% 2430/2609 [2:20:15<08:59,  3.02s/it][A
Training...:  93% 2431/2609 [2:20:18<08:43,  2.94s/it][A
Training...:  93% 2432/2609 [2:20:20<08:24,  2.85s/it][A
Training...:  93% 2433/2609 [2:20:23<08:08,  2.77s/it][A
Training...:  93% 2434/2609 [2:20:25<07:48,  2.67s/it][A
Training...:  93% 2435/2609 [2:20:28<07:30,  2.59s/it][A
Training...:  93% 2436/2609 [2:20:30<07:13,  2.51s/it][A
Training...:  93% 2437/2609 [2:20:32<06:59,  2.44s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [48:22:52<5:04:31, 9135.91s/it]
Training...:  93% 2437/2609 [2:20:35<06:59,  2.44s/it][A
Training...:  93% 2438/2609 [2:20:35<07:02,  2.47s/it][A
Training...:  93% 2439/2609 [2:20:37<06:37,  2.34s/it][A
Training...:  94% 2440/2609 [2:20:39<06:14,  2.21s/it][A
Training...:  94% 2441/2609 [2:20:41<05:53,  2.10s/it][A
Training...:  94% 2442/2609 [2:20:43<05:35,  2.01s/it][A
Training...:  94% 2443/2609 [2:20:44<05:16,  1.91s/it][A
Training...:  94% 2444/2609 [2:20:46<04:56,  1.80s/it][A
Training...:  94% 2445/2609 [2:20:47<04:37,  1.69s/it][A
Training...:  94% 2446/2609 [2:20:49<04:15,  1.57s/it][A
Training...:  94% 2447/2609 [2:20:50<03:53,  1.44s/it][A
Training...:  94% 2448/2609 [2:20:51<03:29,  1.30s/it][A
Training...:  94% 2449/2609 [2:20:51<03:05,  1.16s/it][A
Training...:  94% 2450/2609 [2:20:52<02:35,  1.02it/s][A
Training...:  94% 2451/2609 [2:20:59<07:24,  2.81s/it][A
Training...:  94% 2452/2609 [2:21:06<10:45,  4.11s/it][A
Training...:  94% 2453/2609 [2:21:13<12:35,  4.84s/it][A
Training...:  94% 2454/2609 [2:21:19<13:32,  5.24s/it][A
Training...:  94% 2455/2609 [2:21:25<14:02,  5.47s/it][A
Training...:  94% 2456/2609 [2:21:31<14:03,  5.51s/it][A
Training...:  94% 2457/2609 [2:21:36<13:55,  5.50s/it][A
Training...:  94% 2458/2609 [2:21:41<13:41,  5.44s/it][A
Training...:  94% 2459/2609 [2:21:47<13:26,  5.38s/it][A
Training...:  94% 2460/2609 [2:21:52<13:01,  5.25s/it][A
Training...:  94% 2461/2609 [2:21:56<12:37,  5.12s/it][A
Training...:  94% 2462/2609 [2:22:01<12:11,  4.98s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [48:24:23<5:04:31, 9135.91s/it]
Training...:  94% 2462/2609 [2:22:06<12:11,  4.98s/it][A
Training...:  94% 2463/2609 [2:22:06<12:19,  5.07s/it][A
Training...:  94% 2464/2609 [2:22:11<11:42,  4.85s/it][A
Training...:  94% 2465/2609 [2:22:15<11:10,  4.66s/it][A
Training...:  95% 2466/2609 [2:22:19<10:39,  4.47s/it][A
Training...:  95% 2467/2609 [2:22:23<10:14,  4.32s/it][A
Training...:  95% 2468/2609 [2:22:27<09:50,  4.19s/it][A
Training...:  95% 2469/2609 [2:22:31<09:29,  4.07s/it][A
Training...:  95% 2470/2609 [2:22:34<09:13,  3.98s/it][A
Training...:  95% 2471/2609 [2:22:38<08:57,  3.89s/it][A
Training...:  95% 2472/2609 [2:22:42<08:43,  3.82s/it][A
Training...:  95% 2473/2609 [2:22:45<08:26,  3.72s/it][A
Training...:  95% 2474/2609 [2:22:48<08:05,  3.60s/it][A
Training...:  95% 2475/2609 [2:22:52<07:50,  3.51s/it][A
Training...:  95% 2476/2609 [2:22:55<07:32,  3.40s/it][A
Training...:  95% 2477/2609 [2:22:58<07:19,  3.33s/it][A
Training...:  95% 2478/2609 [2:23:01<07:09,  3.28s/it][A
Training...:  95% 2479/2609 [2:23:04<06:52,  3.17s/it][A
Training...:  95% 2480/2609 [2:23:07<06:34,  3.06s/it][A
Training...:  95% 2481/2609 [2:23:10<06:20,  2.97s/it][A
Training...:  95% 2482/2609 [2:23:12<06:05,  2.88s/it][A
Training...:  95% 2483/2609 [2:23:15<05:53,  2.80s/it][A
Training...:  95% 2484/2609 [2:23:17<05:38,  2.71s/it][A
Training...:  95% 2485/2609 [2:23:20<05:23,  2.61s/it][A
Training...:  95% 2486/2609 [2:23:22<05:09,  2.52s/it][A
Training...:  95% 2487/2609 [2:23:24<04:56,  2.43s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [48:25:44<5:04:31, 9135.91s/it]
Training...:  95% 2487/2609 [2:23:27<04:56,  2.43s/it][A
Training...:  95% 2488/2609 [2:23:27<04:58,  2.47s/it][A
Training...:  95% 2489/2609 [2:23:29<04:41,  2.34s/it][A
Training...:  95% 2490/2609 [2:23:31<04:26,  2.24s/it][A
Training...:  95% 2491/2609 [2:23:33<04:11,  2.13s/it][A
Training...:  96% 2492/2609 [2:23:35<03:56,  2.02s/it][A
Training...:  96% 2493/2609 [2:23:36<03:43,  1.93s/it][A
Training...:  96% 2494/2609 [2:23:38<03:29,  1.82s/it][A
Training...:  96% 2495/2609 [2:23:39<03:16,  1.72s/it][A
Training...:  96% 2496/2609 [2:23:41<03:01,  1.60s/it][A
Training...:  96% 2497/2609 [2:23:42<02:46,  1.49s/it][A
Training...:  96% 2498/2609 [2:23:43<02:30,  1.35s/it][A
Training...:  96% 2499/2609 [2:23:44<02:12,  1.20s/it][A
Training...:  96% 2500/2609 [2:23:44<01:50,  1.01s/it][A
Training...:  96% 2501/2609 [2:23:52<05:07,  2.84s/it][A
Training...:  96% 2502/2609 [2:23:59<07:20,  4.11s/it][A
Training...:  96% 2503/2609 [2:24:05<08:35,  4.86s/it][A
Training...:  96% 2504/2609 [2:24:11<09:14,  5.28s/it][A
Training...:  96% 2505/2609 [2:24:17<09:32,  5.51s/it][A
Training...:  96% 2506/2609 [2:24:23<09:33,  5.57s/it][A
Training...:  96% 2507/2609 [2:24:29<09:29,  5.58s/it][A
Training...:  96% 2508/2609 [2:24:34<09:15,  5.50s/it][A
Training...:  96% 2509/2609 [2:24:39<09:00,  5.41s/it][A
Training...:  96% 2510/2609 [2:24:44<08:45,  5.31s/it][A
Training...:  96% 2511/2609 [2:24:49<08:30,  5.20s/it][A
Training...:  96% 2512/2609 [2:24:54<08:16,  5.11s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [48:27:16<5:04:31, 9135.91s/it]
Training...:  96% 2512/2609 [2:25:00<08:16,  5.11s/it][A
Training...:  96% 2513/2609 [2:25:00<08:19,  5.20s/it][A
Training...:  96% 2514/2609 [2:25:04<07:50,  4.96s/it][A
Training...:  96% 2515/2609 [2:25:08<07:29,  4.78s/it][A
Training...:  96% 2516/2609 [2:25:13<07:06,  4.59s/it][A
Training...:  96% 2517/2609 [2:25:17<06:48,  4.44s/it][A
Training...:  97% 2518/2609 [2:25:21<06:32,  4.31s/it][A
Training...:  97% 2519/2609 [2:25:25<06:17,  4.19s/it][A
Training...:  97% 2520/2609 [2:25:28<06:01,  4.06s/it][A
Training...:  97% 2521/2609 [2:25:32<05:47,  3.95s/it][A
Training...:  97% 2522/2609 [2:25:36<05:33,  3.84s/it][A
Training...:  97% 2523/2609 [2:25:39<05:20,  3.72s/it][A
Training...:  97% 2524/2609 [2:25:42<05:08,  3.63s/it][A
Training...:  97% 2525/2609 [2:25:46<04:56,  3.53s/it][A
Training...:  97% 2526/2609 [2:25:49<04:44,  3.43s/it][A
Training...:  97% 2527/2609 [2:25:52<04:34,  3.35s/it][A
Training...:  97% 2528/2609 [2:25:55<04:23,  3.25s/it][A
Training...:  97% 2529/2609 [2:25:58<04:14,  3.18s/it][A
Training...:  97% 2530/2609 [2:26:01<04:04,  3.10s/it][A
Training...:  97% 2531/2609 [2:26:04<03:55,  3.03s/it][A
Training...:  97% 2532/2609 [2:26:07<03:45,  2.92s/it][A
Training...:  97% 2533/2609 [2:26:09<03:35,  2.83s/it][A
Training...:  97% 2534/2609 [2:26:12<03:24,  2.73s/it][A
Training...:  97% 2535/2609 [2:26:14<03:15,  2.64s/it][A
Training...:  97% 2536/2609 [2:26:17<03:06,  2.55s/it][A
Training...:  97% 2537/2609 [2:26:19<02:58,  2.47s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [48:28:38<5:04:31, 9135.91s/it]
Training...:  97% 2537/2609 [2:26:21<02:58,  2.47s/it][A
Training...:  97% 2538/2609 [2:26:21<02:58,  2.51s/it][A
Training...:  97% 2539/2609 [2:26:23<02:46,  2.37s/it][A
Training...:  97% 2540/2609 [2:26:25<02:36,  2.26s/it][A
Training...:  97% 2541/2609 [2:26:27<02:26,  2.15s/it][A
Training...:  97% 2542/2609 [2:26:29<02:16,  2.04s/it][A
Training...:  97% 2543/2609 [2:26:31<02:07,  1.93s/it][A
Training...:  98% 2544/2609 [2:26:32<01:58,  1.83s/it][A
Training...:  98% 2545/2609 [2:26:34<01:50,  1.72s/it][A
Training...:  98% 2546/2609 [2:26:35<01:41,  1.61s/it][A
Training...:  98% 2547/2609 [2:26:36<01:32,  1.49s/it][A
Training...:  98% 2548/2609 [2:26:37<01:22,  1.36s/it][A
Training...:  98% 2549/2609 [2:26:38<01:12,  1.21s/it][A
Training...:  98% 2550/2609 [2:26:39<01:00,  1.02s/it][A
Training...:  98% 2551/2609 [2:26:46<02:47,  2.88s/it][A
Training...:  98% 2552/2609 [2:26:53<03:56,  4.15s/it][A
Training...:  98% 2553/2609 [2:27:00<04:38,  4.98s/it][A
Training...:  98% 2554/2609 [2:27:06<04:54,  5.36s/it][A
Training...:  98% 2555/2609 [2:27:12<04:59,  5.54s/it][A
Training...:  98% 2556/2609 [2:27:18<04:57,  5.61s/it][A
Training...:  98% 2557/2609 [2:27:24<04:51,  5.61s/it][A
Training...:  98% 2558/2609 [2:27:29<04:41,  5.52s/it][A
Training...:  98% 2559/2609 [2:27:34<04:31,  5.43s/it][A
Training...:  98% 2560/2609 [2:27:39<04:18,  5.27s/it][A
Training...:  98% 2561/2609 [2:27:44<04:07,  5.16s/it][A
Training...:  98% 2562/2609 [2:27:49<03:55,  5.00s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [48:30:11<5:04:31, 9135.91s/it]
Training...:  98% 2562/2609 [2:27:54<03:55,  5.00s/it][A
Training...:  98% 2563/2609 [2:27:54<03:54,  5.11s/it][A
Training...:  98% 2564/2609 [2:27:58<03:39,  4.87s/it][A
Training...:  98% 2565/2609 [2:28:03<03:25,  4.68s/it][A
Training...:  98% 2566/2609 [2:28:07<03:14,  4.52s/it][A
Training...:  98% 2567/2609 [2:28:11<03:03,  4.37s/it][A
Training...:  98% 2568/2609 [2:28:15<02:53,  4.24s/it][A
Training...:  98% 2569/2609 [2:28:19<02:44,  4.12s/it][A
Training...:  99% 2570/2609 [2:28:22<02:35,  4.00s/it][A
Training...:  99% 2571/2609 [2:28:26<02:27,  3.89s/it][A
Training...:  99% 2572/2609 [2:28:29<02:20,  3.79s/it][A
Training...:  99% 2573/2609 [2:28:33<02:12,  3.68s/it][A
Training...:  99% 2574/2609 [2:28:36<02:05,  3.58s/it][A
Training...:  99% 2575/2609 [2:28:40<01:59,  3.50s/it][A
Training...:  99% 2576/2609 [2:28:43<01:52,  3.42s/it][A
Training...:  99% 2577/2609 [2:28:46<01:46,  3.33s/it][A
Training...:  99% 2578/2609 [2:28:49<01:40,  3.24s/it][A
Training...:  99% 2579/2609 [2:28:52<01:34,  3.15s/it][A
Training...:  99% 2580/2609 [2:28:55<01:28,  3.06s/it][A
Training...:  99% 2581/2609 [2:28:57<01:23,  2.97s/it][A
Training...:  99% 2582/2609 [2:29:00<01:17,  2.87s/it][A
Training...:  99% 2583/2609 [2:29:03<01:12,  2.79s/it][A
Training...:  99% 2584/2609 [2:29:05<01:07,  2.70s/it][A
Training...:  99% 2585/2609 [2:29:08<01:02,  2.62s/it][A
Training...:  99% 2586/2609 [2:29:10<00:57,  2.52s/it][A
Training...:  99% 2587/2609 [2:29:12<00:53,  2.44s/it][A                                                                                                                                                                   
                                                      [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  90% 18/20 [48:31:31<5:04:31, 9135.91s/it]
Training...:  99% 2587/2609 [2:29:15<00:53,  2.44s/it][A
Training...:  99% 2588/2609 [2:29:15<00:51,  2.46s/it][A
Training...:  99% 2589/2609 [2:29:17<00:46,  2.33s/it][A
Training...:  99% 2590/2609 [2:29:19<00:42,  2.21s/it][A
Training...:  99% 2591/2609 [2:29:21<00:37,  2.11s/it][A
Training...:  99% 2592/2609 [2:29:22<00:33,  2.00s/it][A
Training...:  99% 2593/2609 [2:29:24<00:30,  1.92s/it][A
Training...:  99% 2594/2609 [2:29:26<00:27,  1.81s/it][A
Training...:  99% 2595/2609 [2:29:27<00:23,  1.70s/it][A
Training...: 100% 2596/2609 [2:29:28<00:20,  1.59s/it][A
Training...: 100% 2597/2609 [2:29:29<00:17,  1.47s/it][A
Training...: 100% 2598/2609 [2:29:31<00:14,  1.33s/it][A
Training...: 100% 2599/2609 [2:29:31<00:11,  1.17s/it][A
Training...: 100% 2600/2609 [2:29:32<00:08,  1.01it/s][A
Training...: 100% 2601/2609 [2:29:38<00:20,  2.62s/it][A
Training...: 100% 2602/2609 [2:29:43<00:23,  3.36s/it][A
Training...: 100% 2603/2609 [2:29:48<00:21,  3.64s/it][A
Training...: 100% 2604/2609 [2:29:51<00:18,  3.66s/it][A
Training...: 100% 2605/2609 [2:29:55<00:14,  3.57s/it][A
Training...: 100% 2606/2609 [2:29:58<00:10,  3.35s/it][A
Training...: 100% 2607/2609 [2:30:00<00:06,  3.07s/it][A
Training...: 100% 2608/2609 [2:30:02<00:02,  2.76s/it][A
Training...: 100% 2609/2609 [2:30:04<00:00,  2.37s/it][ATraining...: 100% 2609/2609 [2:30:04<00:00,  3.45s/it]
Step... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  95% 19/20 [48:32:20<2:31:36, 9096.68s/it]
Training...:   0% 0/2609 [00:00<?, ?it/s][AStep... (48675 | Loss: 0.003212145995348692, Learning Rate: 2.678787723198184e-06, Gradient Norm: 0.18658079206943512)
Step... (48700 | Loss: 0.0009975575376302004, Learning Rate: 2.6282846192771103e-06, Gradient Norm: 0.29772424697875977)
Step... (48725 | Loss: 0.0031018038280308247, Learning Rate: 2.5777756036404753e-06, Gradient Norm: 0.1855541616678238)
Step... (48750 | Loss: 0.0010603234404698014, Learning Rate: 2.5272727270930773e-06, Gradient Norm: 0.18769723176956177)
Step... (48775 | Loss: 0.0028437767177820206, Learning Rate: 2.4767696231720038e-06, Gradient Norm: 0.20952880382537842)
Step... (48800 | Loss: 0.0005178824067115784, Learning Rate: 2.4262606075353688e-06, Gradient Norm: 0.11745412647724152)
Step... (48825 | Loss: 0.005234710406512022, Learning Rate: 2.3757577309879707e-06, Gradient Norm: 0.25014689564704895)
Step... (48850 | Loss: 0.001610549516044557, Learning Rate: 2.3252546270668972e-06, Gradient Norm: 0.21820108592510223)
Step... (48875 | Loss: 0.002584025962278247, Learning Rate: 2.2747456114302622e-06, Gradient Norm: 0.13141319155693054)
Step... (48900 | Loss: 0.00035383296199142933, Learning Rate: 2.224242734882864e-06, Gradient Norm: 0.03960082307457924)
Step... (48925 | Loss: 0.003382762661203742, Learning Rate: 2.1737396309617907e-06, Gradient Norm: 0.19364504516124725)
Step... (48950 | Loss: 0.0004834020510315895, Learning Rate: 2.1232306153251557e-06, Gradient Norm: 0.05465889349579811)
Step... (48975 | Loss: 0.007053152658045292, Learning Rate: 2.0727277387777576e-06, Gradient Norm: 0.40690574049949646)
Step... (49000 | Loss: 0.0002048901078524068, Learning Rate: 2.022224634856684e-06, Gradient Norm: 0.01612006686627865)
Step... (49025 | Loss: 0.003217854769900441, Learning Rate: 1.971715619220049e-06, Gradient Norm: 0.190762460231781)
Step... (49050 | Loss: 0.00092619116185233, Learning Rate: 1.9212125152989756e-06, Gradient Norm: 0.10646399110555649)
Step... (49075 | Loss: 0.0020429017022252083, Learning Rate: 1.8707096387515776e-06, Gradient Norm: 0.13275325298309326)
Step... (49100 | Loss: 0.0007943228119984269, Learning Rate: 1.8202006231149426e-06, Gradient Norm: 0.11998128145933151)
Step... (49125 | Loss: 0.0012614710722118616, Learning Rate: 1.7696976328807068e-06, Gradient Norm: 0.08214380592107773)
Step... (49150 | Loss: 0.0009066141792573035, Learning Rate: 1.719194642646471e-06, Gradient Norm: 0.08926717936992645)
Step... (49175 | Loss: 0.0019411799730733037, Learning Rate: 1.668685627009836e-06, Gradient Norm: 0.11990448087453842)
Step... (49200 | Loss: 0.00046879483852535486, Learning Rate: 1.6181826367756003e-06, Gradient Norm: 0.07011482119560242)
Step... (49225 | Loss: 0.0013482181821018457, Learning Rate: 1.5676796465413645e-06, Gradient Norm: 0.17765842378139496)
Step... (49250 | Loss: 0.00099156703799963, Learning Rate: 1.5171706309047295e-06, Gradient Norm: 0.11345573514699936)
Step... (49275 | Loss: 0.002697685034945607, Learning Rate: 1.4666676406704937e-06, Gradient Norm: 0.19629724323749542)
Step... (49300 | Loss: 0.005282010417431593, Learning Rate: 1.416164650436258e-06, Gradient Norm: 0.37392908334732056)
Step... (49325 | Loss: 0.002363399602472782, Learning Rate: 1.365655634799623e-06, Gradient Norm: 0.26880398392677307)
Step... (49350 | Loss: 0.0005132720107212663, Learning Rate: 1.3151526445653872e-06, Gradient Norm: 0.07195401191711426)
Step... (49375 | Loss: 0.004874881356954575, Learning Rate: 1.2646496543311514e-06, Gradient Norm: 0.276624858379364)
Step... (49400 | Loss: 0.0017107587773352861, Learning Rate: 1.2141406386945164e-06, Gradient Norm: 0.1821514368057251)
Step... (49425 | Loss: 0.004144808277487755, Learning Rate: 1.1636376484602806e-06, Gradient Norm: 0.24487532675266266)
Step... (49450 | Loss: 0.0013458388857543468, Learning Rate: 1.1131345445392071e-06, Gradient Norm: 0.1592770665884018)
Step... (49475 | Loss: 0.002676655538380146, Learning Rate: 1.0626256425894098e-06, Gradient Norm: 0.18012958765029907)
Step... (49500 | Loss: 0.0027926082257181406, Learning Rate: 1.012122652355174e-06, Gradient Norm: 0.3306695520877838)
Step... (49525 | Loss: 0.004687915556132793, Learning Rate: 9.616195484341006e-07, Gradient Norm: 0.25704848766326904)
Step... (49550 | Loss: 0.0006876201368868351, Learning Rate: 9.111105896408844e-07, Gradient Norm: 0.15373362600803375)

Training...:   0% 1/2609 [00:07<5:14:13,  7.23s/it][A
Training...:   0% 2/2609 [00:14<5:09:27,  7.12s/it][A
Training...:   0% 3/2609 [00:20<4:57:12,  6.84s/it][A                                                                                                                                                                   
                                                   [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  95% 19/20 [48:32:50<2:31:36, 9096.68s/it]
Training...:   0% 3/2609 [00:28<4:57:12,  6.84s/it][A
Training...:   0% 4/2609 [00:28<5:06:09,  7.05s/it][A
Training...:   0% 5/2609 [00:34<4:51:07,  6.71s/it][A
Training...:   0% 6/2609 [00:40<4:39:18,  6.44s/it][A
Training...:   0% 7/2609 [00:45<4:24:45,  6.11s/it][A
Training...:   0% 8/2609 [00:50<4:13:55,  5.86s/it][A
Training...:   0% 9/2609 [00:55<4:02:32,  5.60s/it][A
Training...:   0% 10/2609 [01:00<3:52:28,  5.37s/it][A
Training...:   0% 11/2609 [01:05<3:43:26,  5.16s/it][A
Training...:   0% 12/2609 [01:10<3:35:45,  4.98s/it][A
Training...:   0% 13/2609 [01:14<3:28:26,  4.82s/it][A
Training...:   1% 14/2609 [01:18<3:22:33,  4.68s/it][A
Training...:   1% 15/2609 [01:23<3:18:20,  4.59s/it][A
Training...:   1% 16/2609 [01:27<3:12:48,  4.46s/it][A
Training...:   1% 17/2609 [01:31<3:07:04,  4.33s/it][A
Training...:   1% 18/2609 [01:35<3:01:13,  4.20s/it][A
Training...:   1% 19/2609 [01:39<2:56:17,  4.08s/it][A
Training...:   1% 20/2609 [01:42<2:49:52,  3.94s/it][A
Training...:   1% 21/2609 [01:46<2:44:17,  3.81s/it][A
Training...:   1% 22/2609 [01:49<2:40:08,  3.71s/it][A
Training...:   1% 23/2609 [01:53<2:36:12,  3.62s/it][A
Training...:   1% 24/2609 [01:56<2:32:13,  3.53s/it][A
Training...:   1% 25/2609 [01:59<2:27:46,  3.43s/it][A
Training...:   1% 26/2609 [02:02<2:23:25,  3.33s/it][A
Training...:   1% 27/2609 [02:05<2:19:09,  3.23s/it][A
Training...:   1% 28/2609 [02:08<2:15:09,  3.14s/it][A                                                                                                                                                                   
                                                    [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  95% 19/20 [48:34:34<2:31:36, 9096.68s/it]
Training...:   1% 28/2609 [02:12<2:15:09,  3.14s/it][A
Training...:   1% 29/2609 [02:12<2:18:05,  3.21s/it][A
Training...:   1% 30/2609 [02:14<2:12:35,  3.08s/it][A
Training...:   1% 31/2609 [02:17<2:07:33,  2.97s/it][A
Training...:   1% 32/2609 [02:20<2:02:53,  2.86s/it][A
Training...:   1% 33/2609 [02:22<1:59:13,  2.78s/it][A
Training...:   1% 34/2609 [02:25<1:54:37,  2.67s/it][A
Training...:   1% 35/2609 [02:27<1:50:55,  2.59s/it][A
Training...:   1% 36/2609 [02:29<1:47:13,  2.50s/it][A
Training...:   1% 37/2609 [02:32<1:43:14,  2.41s/it][A
Training...:   1% 38/2609 [02:34<1:39:02,  2.31s/it][A
Training...:   1% 39/2609 [02:36<1:35:40,  2.23s/it][A
Training...:   2% 40/2609 [02:38<1:31:46,  2.14s/it][A
Training...:   2% 41/2609 [02:39<1:27:19,  2.04s/it][A
Training...:   2% 42/2609 [02:41<1:23:28,  1.95s/it][A
Training...:   2% 43/2609 [02:43<1:19:25,  1.86s/it][A
Training...:   2% 44/2609 [02:44<1:15:46,  1.77s/it][A
Training...:   2% 45/2609 [02:46<1:11:04,  1.66s/it][A
Training...:   2% 46/2609 [02:47<1:06:58,  1.57s/it][A
Training...:   2% 47/2609 [02:48<1:01:48,  1.45s/it][A
Training...:   2% 48/2609 [02:49<56:12,  1.32s/it]  [A
Training...:   2% 49/2609 [02:50<49:30,  1.16s/it][A
Training...:   2% 50/2609 [02:51<41:30,  1.03it/s][A
Training...:   2% 51/2609 [02:58<2:02:05,  2.86s/it][A
Training...:   2% 52/2609 [03:05<2:55:32,  4.12s/it][A
Training...:   2% 53/2609 [03:12<3:26:57,  4.86s/it][A                                                                                                                                                                   
                                                    [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  95% 19/20 [48:35:41<2:31:36, 9096.68s/it]
Training...:   2% 53/2609 [03:19<3:26:57,  4.86s/it][A
Training...:   2% 54/2609 [03:19<3:57:04,  5.57s/it][A
Training...:   2% 55/2609 [03:25<4:04:04,  5.73s/it][A
Training...:   2% 56/2609 [03:31<4:03:24,  5.72s/it][A
Training...:   2% 57/2609 [03:36<4:00:41,  5.66s/it][A
Training...:   2% 58/2609 [03:41<3:54:35,  5.52s/it][A
Training...:   2% 59/2609 [03:46<3:48:17,  5.37s/it][A
Training...:   2% 60/2609 [03:51<3:44:59,  5.30s/it][A
Training...:   2% 61/2609 [03:56<3:39:28,  5.17s/it][A
Training...:   2% 62/2609 [04:01<3:32:06,  5.00s/it][A
Training...:   2% 63/2609 [04:05<3:25:57,  4.85s/it][A
Training...:   2% 64/2609 [04:10<3:20:45,  4.73s/it][A
Training...:   2% 65/2609 [04:14<3:15:05,  4.60s/it][A
Training...:   3% 66/2609 [04:18<3:09:04,  4.46s/it][A
Training...:   3% 67/2609 [04:22<3:03:51,  4.34s/it][A
Training...:   3% 68/2609 [04:26<2:58:16,  4.21s/it][A
Training...:   3% 69/2609 [04:30<2:53:56,  4.11s/it][A
Training...:   3% 70/2609 [04:34<2:48:13,  3.98s/it][A
Training...:   3% 71/2609 [04:37<2:43:32,  3.87s/it][A
Training...:   3% 72/2609 [04:41<2:38:41,  3.75s/it][A
Training...:   3% 73/2609 [04:44<2:33:58,  3.64s/it][A
Training...:   3% 74/2609 [04:48<2:30:06,  3.55s/it][A
Training...:   3% 75/2609 [04:51<2:26:05,  3.46s/it][A
Training...:   3% 76/2609 [04:54<2:22:01,  3.36s/it][A
Training...:   3% 77/2609 [04:57<2:17:42,  3.26s/it][A
Training...:   3% 78/2609 [05:00<2:14:32,  3.19s/it][A                                                                                                                                                                   
                                                    [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  95% 19/20 [48:37:26<2:31:36, 9096.68s/it]
Training...:   3% 78/2609 [05:04<2:14:32,  3.19s/it][A
Training...:   3% 79/2609 [05:04<2:17:48,  3.27s/it][A
Training...:   3% 80/2609 [05:06<2:11:52,  3.13s/it][A
Training...:   3% 81/2609 [05:09<2:06:49,  3.01s/it][A
Training...:   3% 82/2609 [05:12<2:01:52,  2.89s/it][A
Training...:   3% 83/2609 [05:14<1:57:15,  2.79s/it][A
Training...:   3% 84/2609 [05:17<1:52:27,  2.67s/it][A
Training...:   3% 85/2609 [05:19<1:49:14,  2.60s/it][A
Training...:   3% 86/2609 [05:21<1:45:02,  2.50s/it][A
Training...:   3% 87/2609 [05:23<1:40:53,  2.40s/it][A
Training...:   3% 88/2609 [05:26<1:37:20,  2.32s/it][A
Training...:   3% 89/2609 [05:28<1:33:36,  2.23s/it][A
Training...:   3% 90/2609 [05:30<1:29:17,  2.13s/it][A
Training...:   3% 91/2609 [05:31<1:25:18,  2.03s/it][A
Training...:   4% 92/2609 [05:33<1:21:27,  1.94s/it][A
Training...:   4% 93/2609 [05:35<1:17:23,  1.85s/it][A
Training...:   4% 94/2609 [05:36<1:13:00,  1.74s/it][A
Training...:   4% 95/2609 [05:38<1:08:55,  1.64s/it][A
Training...:   4% 96/2609 [05:39<1:04:23,  1.54s/it][A
Training...:   4% 97/2609 [05:40<59:30,  1.42s/it]  [A
Training...:   4% 98/2609 [05:41<54:26,  1.30s/it][A
Training...:   4% 99/2609 [05:42<48:37,  1.16s/it][A
Training...:   4% 100/2609 [05:42<41:23,  1.01it/s][A
Training...:   4% 101/2609 [05:50<1:59:34,  2.86s/it][A
Training...:   4% 102/2609 [05:57<2:52:16,  4.12s/it][A
Training...:   4% 103/2609 [06:03<3:22:52,  4.86s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  95% 19/20 [48:38:33<2:31:36, 9096.68s/it]
Training...:   4% 103/2609 [06:11<3:22:52,  4.86s/it][A
Training...:   4% 104/2609 [06:11<3:51:38,  5.55s/it][A
Training...:   4% 105/2609 [06:17<3:57:30,  5.69s/it][A
Training...:   4% 106/2609 [06:22<3:59:10,  5.73s/it][A
Training...:   4% 107/2609 [06:28<3:57:01,  5.68s/it][A
Training...:   4% 108/2609 [06:33<3:51:16,  5.55s/it][A
Training...:   4% 109/2609 [06:38<3:45:47,  5.42s/it][A
Training...:   4% 110/2609 [06:43<3:42:36,  5.34s/it][A
Training...:   4% 111/2609 [06:48<3:38:48,  5.26s/it][A
Training...:   4% 112/2609 [06:53<3:33:45,  5.14s/it][A
Training...:   4% 113/2609 [06:58<3:29:22,  5.03s/it][A
Training...:   4% 114/2609 [07:03<3:23:31,  4.89s/it][A
Training...:   4% 115/2609 [07:07<3:18:40,  4.78s/it][A
Training...:   4% 116/2609 [07:11<3:12:07,  4.62s/it][A
Training...:   4% 117/2609 [07:16<3:07:22,  4.51s/it][A
Training...:   5% 118/2609 [07:20<2:59:35,  4.33s/it][A
Training...:   5% 119/2609 [07:23<2:53:39,  4.18s/it][A
Training...:   5% 120/2609 [07:27<2:48:37,  4.06s/it][A
Training...:   5% 121/2609 [07:31<2:43:02,  3.93s/it][A
Training...:   5% 122/2609 [07:34<2:37:29,  3.80s/it][A
Training...:   5% 123/2609 [07:38<2:32:55,  3.69s/it][A
Training...:   5% 124/2609 [07:41<2:27:56,  3.57s/it][A
Training...:   5% 125/2609 [07:44<2:23:20,  3.46s/it][A
Training...:   5% 126/2609 [07:47<2:19:15,  3.37s/it][A
Training...:   5% 127/2609 [07:51<2:15:22,  3.27s/it][A
Training...:   5% 128/2609 [07:53<2:11:26,  3.18s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  95% 19/20 [48:40:19<2:31:36, 9096.68s/it]
Training...:   5% 128/2609 [07:57<2:11:26,  3.18s/it][A
Training...:   5% 129/2609 [07:57<2:14:49,  3.26s/it][A
Training...:   5% 130/2609 [08:00<2:08:54,  3.12s/it][A
Training...:   5% 131/2609 [08:02<2:04:30,  3.01s/it][A
Training...:   5% 132/2609 [08:05<2:00:07,  2.91s/it][A
Training...:   5% 133/2609 [08:08<1:56:03,  2.81s/it][A
Training...:   5% 134/2609 [08:10<1:51:50,  2.71s/it][A
Training...:   5% 135/2609 [08:13<1:48:10,  2.62s/it][A
Training...:   5% 136/2609 [08:15<1:43:56,  2.52s/it][A
Training...:   5% 137/2609 [08:17<1:39:38,  2.42s/it][A
Training...:   5% 138/2609 [08:19<1:35:20,  2.32s/it][A
Training...:   5% 139/2609 [08:21<1:31:33,  2.22s/it][A
Training...:   5% 140/2609 [08:23<1:27:14,  2.12s/it][A
Training...:   5% 141/2609 [08:25<1:23:15,  2.02s/it][A
Training...:   5% 142/2609 [08:27<1:19:40,  1.94s/it][A
Training...:   5% 143/2609 [08:28<1:15:52,  1.85s/it][A
Training...:   6% 144/2609 [08:30<1:11:38,  1.74s/it][A
Training...:   6% 145/2609 [08:31<1:07:48,  1.65s/it][A
Training...:   6% 146/2609 [08:32<1:03:32,  1.55s/it][A
Training...:   6% 147/2609 [08:34<58:47,  1.43s/it]  [A
Training...:   6% 148/2609 [08:35<53:47,  1.31s/it][A
Training...:   6% 149/2609 [08:36<48:07,  1.17s/it][A
Training...:   6% 150/2609 [08:36<41:00,  1.00s/it][A
Training...:   6% 151/2609 [08:43<1:57:54,  2.88s/it][A
Training...:   6% 152/2609 [08:50<2:48:02,  4.10s/it][A
Training...:   6% 153/2609 [08:57<3:17:12,  4.82s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  95% 19/20 [48:41:26<2:31:36, 9096.68s/it]
Training...:   6% 153/2609 [09:04<3:17:12,  4.82s/it][A
Training...:   6% 154/2609 [09:04<3:46:48,  5.54s/it][A
Training...:   6% 155/2609 [09:10<3:51:43,  5.67s/it][A
Training...:   6% 156/2609 [09:16<3:52:16,  5.68s/it][A
Training...:   6% 157/2609 [09:21<3:51:16,  5.66s/it][A
Training...:   6% 158/2609 [09:27<3:48:54,  5.60s/it][A
Training...:   6% 159/2609 [09:32<3:44:27,  5.50s/it][A
Training...:   6% 160/2609 [09:37<3:38:13,  5.35s/it][A
Training...:   6% 161/2609 [09:42<3:32:13,  5.20s/it][A
Training...:   6% 162/2609 [09:47<3:26:20,  5.06s/it][A
Training...:   6% 163/2609 [09:51<3:20:14,  4.91s/it][A
Training...:   6% 164/2609 [09:56<3:13:10,  4.74s/it][A
Training...:   6% 165/2609 [10:00<3:07:57,  4.61s/it][A
Training...:   6% 166/2609 [10:04<3:03:01,  4.49s/it][A
Training...:   6% 167/2609 [10:08<2:58:22,  4.38s/it][A
Training...:   6% 168/2609 [10:12<2:53:44,  4.27s/it][A
Training...:   6% 169/2609 [10:16<2:48:58,  4.16s/it][A
Training...:   7% 170/2609 [10:20<2:43:11,  4.01s/it][A
Training...:   7% 171/2609 [10:23<2:38:45,  3.91s/it][A
Training...:   7% 172/2609 [10:27<2:34:24,  3.80s/it][A
Training...:   7% 173/2609 [10:31<2:31:08,  3.72s/it][A
Training...:   7% 174/2609 [10:34<2:28:36,  3.66s/it][A
Training...:   7% 175/2609 [10:37<2:23:37,  3.54s/it][A
Training...:   7% 176/2609 [10:40<2:18:53,  3.43s/it][A
Training...:   7% 177/2609 [10:44<2:14:37,  3.32s/it][A
Training...:   7% 178/2609 [10:47<2:10:39,  3.22s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  95% 19/20 [48:43:12<2:31:36, 9096.68s/it]
Training...:   7% 178/2609 [10:50<2:10:39,  3.22s/it][A
Training...:   7% 179/2609 [10:50<2:12:58,  3.28s/it][A
Training...:   7% 180/2609 [10:53<2:07:39,  3.15s/it][A
Training...:   7% 181/2609 [10:56<2:02:41,  3.03s/it][A
Training...:   7% 182/2609 [10:58<1:58:03,  2.92s/it][A
Training...:   7% 183/2609 [11:01<1:53:42,  2.81s/it][A
Training...:   7% 184/2609 [11:03<1:50:02,  2.72s/it][A
Training...:   7% 185/2609 [11:06<1:46:01,  2.62s/it][A
Training...:   7% 186/2609 [11:08<1:42:14,  2.53s/it][A
Training...:   7% 187/2609 [11:10<1:38:54,  2.45s/it][A
Training...:   7% 188/2609 [11:12<1:35:09,  2.36s/it][A
Training...:   7% 189/2609 [11:14<1:31:33,  2.27s/it][A
Training...:   7% 190/2609 [11:16<1:27:45,  2.18s/it][A
Training...:   7% 191/2609 [11:18<1:23:53,  2.08s/it][A
Training...:   7% 192/2609 [11:20<1:20:06,  1.99s/it][A
Training...:   7% 193/2609 [11:22<1:16:18,  1.90s/it][A
Training...:   7% 194/2609 [11:23<1:12:01,  1.79s/it][A
Training...:   7% 195/2609 [11:25<1:07:34,  1.68s/it][A
Training...:   8% 196/2609 [11:26<1:02:35,  1.56s/it][A
Training...:   8% 197/2609 [11:27<57:50,  1.44s/it]  [A
Training...:   8% 198/2609 [11:28<52:10,  1.30s/it][A
Training...:   8% 199/2609 [11:29<46:25,  1.16s/it][A
Training...:   8% 200/2609 [11:30<39:17,  1.02it/s][A
Training...:   8% 201/2609 [11:37<1:53:00,  2.82s/it][A
Training...:   8% 202/2609 [11:44<2:44:29,  4.10s/it][A
Training...:   8% 203/2609 [11:50<3:15:12,  4.87s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  95% 19/20 [48:44:20<2:31:36, 9096.68s/it]
Training...:   8% 203/2609 [11:58<3:15:12,  4.87s/it][A
Training...:   8% 204/2609 [11:58<3:45:51,  5.63s/it][A
Training...:   8% 205/2609 [12:04<3:51:18,  5.77s/it][A
Training...:   8% 206/2609 [12:10<3:51:29,  5.78s/it][A
Training...:   8% 207/2609 [12:15<3:50:16,  5.75s/it][A
Training...:   8% 208/2609 [12:21<3:45:24,  5.63s/it][A
Training...:   8% 209/2609 [12:26<3:40:50,  5.52s/it][A
Training...:   8% 210/2609 [12:31<3:36:51,  5.42s/it][A
Training...:   8% 211/2609 [12:36<3:31:37,  5.30s/it][A
Training...:   8% 212/2609 [12:41<3:24:34,  5.12s/it][A
Training...:   8% 213/2609 [12:46<3:19:07,  4.99s/it][A
Training...:   8% 214/2609 [12:50<3:12:45,  4.83s/it][A
Training...:   8% 215/2609 [12:54<3:07:44,  4.71s/it][A
Training...:   8% 216/2609 [12:59<3:02:25,  4.57s/it][A
Training...:   8% 217/2609 [13:03<2:57:47,  4.46s/it][A
Training...:   8% 218/2609 [13:07<2:54:20,  4.37s/it][A
Training...:   8% 219/2609 [13:11<2:50:08,  4.27s/it][A
Training...:   8% 220/2609 [13:15<2:44:58,  4.14s/it][A
Training...:   8% 221/2609 [13:19<2:40:16,  4.03s/it][A
Training...:   9% 222/2609 [13:22<2:35:15,  3.90s/it][A
Training...:   9% 223/2609 [13:26<2:30:52,  3.79s/it][A
Training...:   9% 224/2609 [13:29<2:27:05,  3.70s/it][A
Training...:   9% 225/2609 [13:33<2:23:02,  3.60s/it][A
Training...:   9% 226/2609 [13:36<2:19:04,  3.50s/it][A
Training...:   9% 227/2609 [13:39<2:15:35,  3.42s/it][A
Training...:   9% 228/2609 [13:42<2:11:51,  3.32s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  95% 19/20 [48:46:08<2:31:36, 9096.68s/it]
Training...:   9% 228/2609 [13:46<2:11:51,  3.32s/it][A
Training...:   9% 229/2609 [13:46<2:14:41,  3.40s/it][A
Training...:   9% 230/2609 [13:49<2:08:56,  3.25s/it][A
Training...:   9% 231/2609 [13:52<2:03:52,  3.13s/it][A
Training...:   9% 232/2609 [13:54<1:59:07,  3.01s/it][A
Training...:   9% 233/2609 [13:57<1:54:20,  2.89s/it][A
Training...:   9% 234/2609 [13:59<1:49:56,  2.78s/it][A
Training...:   9% 235/2609 [14:02<1:45:51,  2.68s/it][A
Training...:   9% 236/2609 [14:04<1:42:10,  2.58s/it][A
Training...:   9% 237/2609 [14:07<1:38:53,  2.50s/it][A
Training...:   9% 238/2609 [14:09<1:35:16,  2.41s/it][A
Training...:   9% 239/2609 [14:11<1:31:28,  2.32s/it][A
Training...:   9% 240/2609 [14:13<1:27:43,  2.22s/it][A
Training...:   9% 241/2609 [14:15<1:24:04,  2.13s/it][A
Training...:   9% 242/2609 [14:17<1:20:18,  2.04s/it][A
Training...:   9% 243/2609 [14:18<1:16:27,  1.94s/it][A
Training...:   9% 244/2609 [14:20<1:11:48,  1.82s/it][A
Training...:   9% 245/2609 [14:21<1:07:30,  1.71s/it][A
Training...:   9% 246/2609 [14:23<1:02:50,  1.60s/it][A
Training...:   9% 247/2609 [14:24<58:17,  1.48s/it]  [A
Training...:  10% 248/2609 [14:25<52:56,  1.35s/it][A
Training...:  10% 249/2609 [14:26<46:52,  1.19s/it][A
Training...:  10% 250/2609 [14:26<39:51,  1.01s/it][A
Training...:  10% 251/2609 [14:33<1:52:08,  2.85s/it][A
Training...:  10% 252/2609 [14:40<2:40:50,  4.09s/it][A
Training...:  10% 253/2609 [14:47<3:12:19,  4.90s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  95% 19/20 [48:47:17<2:31:36, 9096.68s/it]
Training...:  10% 253/2609 [14:55<3:12:19,  4.90s/it][A
Training...:  10% 254/2609 [14:55<3:42:07,  5.66s/it][A
Training...:  10% 255/2609 [15:01<3:46:28,  5.77s/it][A
Training...:  10% 256/2609 [15:07<3:46:57,  5.79s/it][A
Training...:  10% 257/2609 [15:12<3:44:13,  5.72s/it][A
Training...:  10% 258/2609 [15:17<3:38:41,  5.58s/it][A
Training...:  10% 259/2609 [15:22<3:33:21,  5.45s/it][A
Training...:  10% 260/2609 [15:27<3:26:50,  5.28s/it][A
Training...:  10% 261/2609 [15:32<3:20:34,  5.13s/it][A
Training...:  10% 262/2609 [15:37<3:14:44,  4.98s/it][A
Training...:  10% 263/2609 [15:41<3:09:56,  4.86s/it][A
Training...:  10% 264/2609 [15:46<3:04:11,  4.71s/it][A
Training...:  10% 265/2609 [15:50<2:59:04,  4.58s/it][A
Training...:  10% 266/2609 [15:54<2:53:40,  4.45s/it][A
Training...:  10% 267/2609 [15:58<2:48:59,  4.33s/it][A
Training...:  10% 268/2609 [16:02<2:44:41,  4.22s/it][A
Training...:  10% 269/2609 [16:06<2:40:01,  4.10s/it][A
Training...:  10% 270/2609 [16:10<2:36:46,  4.02s/it][A
Training...:  10% 271/2609 [16:14<2:32:51,  3.92s/it][A
Training...:  10% 272/2609 [16:17<2:28:14,  3.81s/it][A
Training...:  10% 273/2609 [16:21<2:24:13,  3.70s/it][A
Training...:  11% 274/2609 [16:24<2:19:40,  3.59s/it][A
Training...:  11% 275/2609 [16:27<2:15:50,  3.49s/it][A
Training...:  11% 276/2609 [16:30<2:11:22,  3.38s/it][A
Training...:  11% 277/2609 [16:33<2:07:50,  3.29s/it][A
Training...:  11% 278/2609 [16:36<2:04:19,  3.20s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  95% 19/20 [48:49:02<2:31:36, 9096.68s/it]
Training...:  11% 278/2609 [16:40<2:04:19,  3.20s/it][A
Training...:  11% 279/2609 [16:40<2:07:40,  3.29s/it][A
Training...:  11% 280/2609 [16:43<2:01:56,  3.14s/it][A
Training...:  11% 281/2609 [16:45<1:56:18,  3.00s/it][A
Training...:  11% 282/2609 [16:48<1:51:26,  2.87s/it][A
Training...:  11% 283/2609 [16:50<1:47:20,  2.77s/it][A
Training...:  11% 284/2609 [16:53<1:43:21,  2.67s/it][A
Training...:  11% 285/2609 [16:55<1:40:01,  2.58s/it][A
Training...:  11% 286/2609 [16:57<1:36:15,  2.49s/it][A
Training...:  11% 287/2609 [17:00<1:32:18,  2.39s/it][A
Training...:  11% 288/2609 [17:02<1:28:16,  2.28s/it][A
Training...:  11% 289/2609 [17:04<1:24:41,  2.19s/it][A
Training...:  11% 290/2609 [17:05<1:20:57,  2.09s/it][A
Training...:  11% 291/2609 [17:07<1:16:59,  1.99s/it][A
Training...:  11% 292/2609 [17:09<1:13:32,  1.90s/it][A
Training...:  11% 293/2609 [17:10<1:09:20,  1.80s/it][A
Training...:  11% 294/2609 [17:12<1:05:08,  1.69s/it][A
Training...:  11% 295/2609 [17:13<1:01:03,  1.58s/it][A
Training...:  11% 296/2609 [17:14<56:51,  1.47s/it]  [A
Training...:  11% 297/2609 [17:16<52:42,  1.37s/it][A
Training...:  11% 298/2609 [17:17<47:28,  1.23s/it][A
Training...:  11% 299/2609 [17:17<42:11,  1.10s/it][A
Training...:  11% 300/2609 [17:18<35:48,  1.07it/s][A
Training...:  12% 301/2609 [17:25<1:47:10,  2.79s/it][A
Training...:  12% 302/2609 [17:32<2:38:11,  4.11s/it][A
Training...:  12% 303/2609 [17:39<3:07:44,  4.89s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  95% 19/20 [48:50:08<2:31:36, 9096.68s/it]
Training...:  12% 303/2609 [17:46<3:07:44,  4.89s/it][A
Training...:  12% 304/2609 [17:46<3:35:02,  5.60s/it][A
Training...:  12% 305/2609 [17:52<3:38:16,  5.68s/it][A
Training...:  12% 306/2609 [17:58<3:39:00,  5.71s/it][A
Training...:  12% 307/2609 [18:03<3:37:16,  5.66s/it][A
Training...:  12% 308/2609 [18:09<3:33:12,  5.56s/it][A
Training...:  12% 309/2609 [18:14<3:28:07,  5.43s/it][A
Training...:  12% 310/2609 [18:19<3:22:23,  5.28s/it][A
Training...:  12% 311/2609 [18:24<3:17:21,  5.15s/it][A
Training...:  12% 312/2609 [18:28<3:11:38,  5.01s/it][A
Training...:  12% 313/2609 [18:33<3:06:22,  4.87s/it][A
Training...:  12% 314/2609 [18:37<3:01:24,  4.74s/it][A
Training...:  12% 315/2609 [18:42<2:56:32,  4.62s/it][A
Training...:  12% 316/2609 [18:46<2:51:14,  4.48s/it][A
Training...:  12% 317/2609 [18:50<2:46:16,  4.35s/it][A
Training...:  12% 318/2609 [18:54<2:41:18,  4.22s/it][A
Training...:  12% 319/2609 [18:58<2:36:47,  4.11s/it][A
Training...:  12% 320/2609 [19:01<2:32:13,  3.99s/it][A
Training...:  12% 321/2609 [19:05<2:27:40,  3.87s/it][A
Training...:  12% 322/2609 [19:08<2:23:10,  3.76s/it][A
Training...:  12% 323/2609 [19:12<2:19:10,  3.65s/it][A
Training...:  12% 324/2609 [19:15<2:14:43,  3.54s/it][A
Training...:  12% 325/2609 [19:18<2:10:55,  3.44s/it][A
Training...:  12% 326/2609 [19:21<2:07:12,  3.34s/it][A
Training...:  13% 327/2609 [19:24<2:04:07,  3.26s/it][A
Training...:  13% 328/2609 [19:27<2:01:06,  3.19s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  95% 19/20 [48:51:53<2:31:36, 9096.68s/it]
Training...:  13% 328/2609 [19:31<2:01:06,  3.19s/it][A
Training...:  13% 329/2609 [19:31<2:03:36,  3.25s/it][A
Training...:  13% 330/2609 [19:34<1:57:55,  3.10s/it][A
Training...:  13% 331/2609 [19:36<1:52:58,  2.98s/it][A
Training...:  13% 332/2609 [19:39<1:48:28,  2.86s/it][A
Training...:  13% 333/2609 [19:41<1:44:47,  2.76s/it][A
Training...:  13% 334/2609 [19:44<1:40:55,  2.66s/it][A
Training...:  13% 335/2609 [19:46<1:37:40,  2.58s/it][A
Training...:  13% 336/2609 [19:48<1:34:08,  2.48s/it][A
Training...:  13% 337/2609 [19:51<1:30:48,  2.40s/it][A
Training...:  13% 338/2609 [19:53<1:27:14,  2.30s/it][A
Training...:  13% 339/2609 [19:55<1:23:47,  2.21s/it][A
Training...:  13% 340/2609 [19:57<1:20:18,  2.12s/it][A
Training...:  13% 341/2609 [19:58<1:16:52,  2.03s/it][A
Training...:  13% 342/2609 [20:00<1:13:17,  1.94s/it][A
Training...:  13% 343/2609 [20:02<1:09:44,  1.85s/it][A
Training...:  13% 344/2609 [20:03<1:05:56,  1.75s/it][A
Training...:  13% 345/2609 [20:05<1:01:35,  1.63s/it][A
Training...:  13% 346/2609 [20:06<57:03,  1.51s/it]  [A
Training...:  13% 347/2609 [20:07<52:32,  1.39s/it][A
Training...:  13% 348/2609 [20:08<47:31,  1.26s/it][A
Training...:  13% 349/2609 [20:09<42:09,  1.12s/it][A
Training...:  13% 350/2609 [20:09<35:34,  1.06it/s][A
Training...:  13% 351/2609 [20:16<1:45:44,  2.81s/it][A
Training...:  13% 352/2609 [20:24<2:34:35,  4.11s/it][A
Training...:  14% 353/2609 [20:30<3:02:37,  4.86s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  95% 19/20 [48:52:59<2:31:36, 9096.68s/it]
Training...:  14% 353/2609 [20:37<3:02:37,  4.86s/it][A
Training...:  14% 354/2609 [20:37<3:29:07,  5.56s/it][A
Training...:  14% 355/2609 [20:43<3:33:27,  5.68s/it][A
Training...:  14% 356/2609 [20:49<3:35:49,  5.75s/it][A
Training...:  14% 357/2609 [20:55<3:35:04,  5.73s/it][A
Training...:  14% 358/2609 [21:00<3:31:07,  5.63s/it][A
Training...:  14% 359/2609 [21:06<3:26:56,  5.52s/it][A
Training...:  14% 360/2609 [21:11<3:21:29,  5.38s/it][A
Training...:  14% 361/2609 [21:16<3:15:53,  5.23s/it][A
Training...:  14% 362/2609 [21:20<3:09:33,  5.06s/it][A
Training...:  14% 363/2609 [21:25<3:05:49,  4.96s/it][A
Training...:  14% 364/2609 [21:29<3:00:14,  4.82s/it][A
Training...:  14% 365/2609 [21:34<2:54:17,  4.66s/it][A
Training...:  14% 366/2609 [21:38<2:48:49,  4.52s/it][A
Training...:  14% 367/2609 [21:42<2:44:53,  4.41s/it][A
Training...:  14% 368/2609 [21:46<2:40:02,  4.28s/it][A
Training...:  14% 369/2609 [21:50<2:35:31,  4.17s/it][A
Training...:  14% 370/2609 [21:54<2:30:50,  4.04s/it][A
Training...:  14% 371/2609 [21:57<2:26:22,  3.92s/it][A
Training...:  14% 372/2609 [22:01<2:21:56,  3.81s/it][A
Training...:  14% 373/2609 [22:04<2:18:12,  3.71s/it][A
Training...:  14% 374/2609 [22:08<2:14:36,  3.61s/it][A
Training...:  14% 375/2609 [22:11<2:11:24,  3.53s/it][A
Training...:  14% 376/2609 [22:14<2:07:45,  3.43s/it][A
Training...:  14% 377/2609 [22:17<2:04:18,  3.34s/it][A
Training...:  14% 378/2609 [22:20<2:00:55,  3.25s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  95% 19/20 [48:54:46<2:31:36, 9096.68s/it]
Training...:  14% 378/2609 [22:24<2:00:55,  3.25s/it][A
Training...:  15% 379/2609 [22:24<2:03:23,  3.32s/it][A
Training...:  15% 380/2609 [22:27<1:58:44,  3.20s/it][A
Training...:  15% 381/2609 [22:30<1:54:08,  3.07s/it][A
Training...:  15% 382/2609 [22:32<1:50:04,  2.97s/it][A
Training...:  15% 383/2609 [22:35<1:46:24,  2.87s/it][A
Training...:  15% 384/2609 [22:38<1:42:43,  2.77s/it][A
Training...:  15% 385/2609 [22:40<1:39:09,  2.68s/it][A
Training...:  15% 386/2609 [22:42<1:36:09,  2.60s/it][A
Training...:  15% 387/2609 [22:45<1:32:26,  2.50s/it][A
Training...:  15% 388/2609 [22:47<1:29:34,  2.42s/it][A
Training...:  15% 389/2609 [22:49<1:26:34,  2.34s/it][A
Training...:  15% 390/2609 [22:51<1:23:07,  2.25s/it][A
Training...:  15% 391/2609 [22:53<1:19:39,  2.15s/it][A
Training...:  15% 392/2609 [22:55<1:15:49,  2.05s/it][A
Training...:  15% 393/2609 [22:57<1:12:23,  1.96s/it][A
Training...:  15% 394/2609 [22:58<1:08:17,  1.85s/it][A
Training...:  15% 395/2609 [23:00<1:04:05,  1.74s/it][A
Training...:  15% 396/2609 [23:01<59:34,  1.62s/it]  [A
Training...:  15% 397/2609 [23:02<54:51,  1.49s/it][A
Training...:  15% 398/2609 [23:03<49:47,  1.35s/it][A
Training...:  15% 399/2609 [23:04<43:50,  1.19s/it][A
Training...:  15% 400/2609 [23:05<36:44,  1.00it/s][A
Training...:  15% 401/2609 [23:12<1:46:11,  2.89s/it][A
Training...:  15% 402/2609 [23:19<2:31:56,  4.13s/it][A
Training...:  15% 403/2609 [23:25<2:58:49,  4.86s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  95% 19/20 [48:55:55<2:31:36, 9096.68s/it]
Training...:  15% 403/2609 [23:33<2:58:49,  4.86s/it][A
Training...:  15% 404/2609 [23:33<3:24:19,  5.56s/it][A
Training...:  16% 405/2609 [23:39<3:27:49,  5.66s/it][A
Training...:  16% 406/2609 [23:44<3:28:46,  5.69s/it][A
Training...:  16% 407/2609 [23:50<3:29:48,  5.72s/it][A
Training...:  16% 408/2609 [23:56<3:26:38,  5.63s/it][A
Training...:  16% 409/2609 [24:01<3:21:16,  5.49s/it][A
Training...:  16% 410/2609 [24:06<3:15:52,  5.34s/it][A
Training...:  16% 411/2609 [24:11<3:10:55,  5.21s/it][A
Training...:  16% 412/2609 [24:15<3:06:06,  5.08s/it][A
Training...:  16% 413/2609 [24:20<3:01:46,  4.97s/it][A
Training...:  16% 414/2609 [24:25<2:56:30,  4.82s/it][A
Training...:  16% 415/2609 [24:29<2:50:48,  4.67s/it][A
Training...:  16% 416/2609 [24:33<2:44:53,  4.51s/it][A
Training...:  16% 417/2609 [24:37<2:40:16,  4.39s/it][A
Training...:  16% 418/2609 [24:41<2:35:41,  4.26s/it][A
Training...:  16% 419/2609 [24:45<2:31:34,  4.15s/it][A
Training...:  16% 420/2609 [24:49<2:27:34,  4.04s/it][A
Training...:  16% 421/2609 [24:53<2:24:06,  3.95s/it][A
Training...:  16% 422/2609 [24:56<2:20:11,  3.85s/it][A
Training...:  16% 423/2609 [25:00<2:16:33,  3.75s/it][A
Training...:  16% 424/2609 [25:03<2:12:54,  3.65s/it][A
Training...:  16% 425/2609 [25:06<2:09:24,  3.56s/it][A
Training...:  16% 426/2609 [25:10<2:06:06,  3.47s/it][A
Training...:  16% 427/2609 [25:13<2:02:36,  3.37s/it][A
Training...:  16% 428/2609 [25:16<1:58:37,  3.26s/it][A                                                                                                                                                                   
                                                     [AStep... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |):  95% 19/20 [48:57:41<2:31:36, 9096.68s/it]
Training...:  16% 428/2609 [25:19<1:58:37,  3.26s/it][ATraining...:  16% 428/2609 [25:19<2:09:04,  3.55s/it]
Step... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |): 100% 20/20 [48:57:41<00:00, 6822.19s/it]  Step... (40000/50000 | Eval Loss: 1.1137199401855469 | Eval wer: 0.13657344556068424 | Eval cer: 0.08558659650208945 |): 100% 20/20 [48:57:41<00:00, 8813.09s/it]
run_flax_speech_recognition_seq2seq.py:1425: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  params = jax.device_get(jax.tree_map(lambda x: x[0], state.params))
Configuration saved in /home/sanchitgandhi/train-flax-wav2vec2-2-bart-large-voxpopuli-black-box/flax-wav2vec2-2-bart-large-voxpopuli-black-box/config.json
Model weights saved in /home/sanchitgandhi/train-flax-wav2vec2-2-bart-large-voxpopuli-black-box/flax-wav2vec2-2-bart-large-voxpopuli-black-box/flax_model.msgpack
tokenizer config file saved in ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/tokenizer_config.json
Special tokens file saved in ./flax-wav2vec2-2-bart-large-voxpopuli-black-box/special_tokens_map.json
Step... (49575 | Loss: 0.005743039771914482, Learning Rate: 8.606075994066487e-07, Gradient Norm: 0.21916016936302185)
Step... (49600 | Loss: 0.0012971417745575309, Learning Rate: 8.100986406134325e-07, Gradient Norm: 0.20109227299690247)
Step... (49625 | Loss: 0.003069020574912429, Learning Rate: 7.595955935357779e-07, Gradient Norm: 0.2021375298500061)
Step... (49650 | Loss: 0.0004256892134435475, Learning Rate: 7.090926033015421e-07, Gradient Norm: 0.02944963052868843)
Step... (49675 | Loss: 0.0038489236030727625, Learning Rate: 6.58583644508326e-07, Gradient Norm: 0.18664279580116272)
Step... (49700 | Loss: 0.008858670480549335, Learning Rate: 6.080805974306713e-07, Gradient Norm: 0.757690966129303)
Step... (49725 | Loss: 0.008349067531526089, Learning Rate: 5.575776071964356e-07, Gradient Norm: 0.29605963826179504)
Step... (49750 | Loss: 0.0003696644271258265, Learning Rate: 5.070686484032194e-07, Gradient Norm: 0.024383241310715675)
Step... (49775 | Loss: 0.0025711385533213615, Learning Rate: 4.565656013255648e-07, Gradient Norm: 0.12804046273231506)
Step... (49800 | Loss: 0.0006972631090320647, Learning Rate: 4.060625826696196e-07, Gradient Norm: 0.1140567883849144)
Step... (49825 | Loss: 0.0026824073866009712, Learning Rate: 3.5555362387640344e-07, Gradient Norm: 0.14313550293445587)
Step... (49850 | Loss: 0.0007147733122110367, Learning Rate: 3.0505060522045824e-07, Gradient Norm: 0.07749231159687042)
Step... (49875 | Loss: 0.002275872742757201, Learning Rate: 2.5454758656451304e-07, Gradient Norm: 0.14104275405406952)
Step... (49900 | Loss: 0.0008543015574105084, Learning Rate: 2.0403861356044217e-07, Gradient Norm: 0.11411039531230927)
Step... (49925 | Loss: 0.009485402144491673, Learning Rate: 1.5353559490449697e-07, Gradient Norm: 0.2875169813632965)
Step... (49950 | Loss: 0.0004782330070156604, Learning Rate: 1.0303258335397913e-07, Gradient Norm: 0.03317965194582939)
Step... (49975 | Loss: 0.006106225773692131, Learning Rate: 5.252361034990827e-08, Gradient Norm: 0.20424112677574158)
Step... (50000 | Loss: 0.002108575776219368, Learning Rate: 2.0205974671227978e-09, Gradient Norm: 0.47358718514442444)


Evaluating ...:   0% 0/220 [00:00<?, ?it/s][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   0% 1/220 [00:27<1:41:14, 27.74s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   1% 2/220 [00:50<1:30:53, 25.02s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   1% 3/220 [01:12<1:25:33, 23.66s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   2% 4/220 [01:34<1:22:24, 22.89s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:   2% 5/220 [01:37<56:09, 15.67s/it]  [A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   3% 6/220 [01:57<1:01:38, 17.28s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:   3% 7/220 [02:00<44:19, 12.49s/it]  [A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   4% 8/220 [02:21<54:03, 15.30s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   4% 9/220 [02:41<58:31, 16.64s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:   5% 10/220 [02:44<43:28, 12.42s/it][A[A

Evaluating ...:   5% 11/220 [02:46<32:24,  9.31s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   5% 12/220 [03:06<42:57, 12.39s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:   6% 13/220 [03:08<32:15,  9.35s/it][A[A

Evaluating ...:   6% 14/220 [03:11<25:19,  7.38s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   7% 15/220 [03:30<37:41, 11.03s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:   7% 16/220 [03:33<28:34,  8.41s/it][A[A

Evaluating ...:   8% 17/220 [03:35<22:06,  6.54s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:   8% 18/220 [03:55<35:58, 10.68s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:   9% 19/220 [03:58<27:37,  8.24s/it][A[A

Evaluating ...:   9% 20/220 [04:00<21:42,  6.51s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:  10% 21/220 [04:20<34:40, 10.45s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:  10% 22/220 [04:23<27:19,  8.28s/it][A[A

Evaluating ...:  10% 23/220 [04:26<21:53,  6.67s/it][A[A

Evaluating ...:  11% 24/220 [04:29<17:49,  5.45s/it][A[A

Evaluating ...:  11% 25/220 [04:32<15:29,  4.77s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:  12% 26/220 [04:52<30:37,  9.47s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:  12% 27/220 [04:55<23:38,  7.35s/it][A[A

Evaluating ...:  13% 28/220 [04:57<19:04,  5.96s/it][A[A

Evaluating ...:  13% 29/220 [05:00<15:50,  4.98s/it][A[A

Evaluating ...:  14% 30/220 [05:03<13:52,  4.38s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:  14% 31/220 [05:23<28:27,  9.03s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:  15% 32/220 [05:26<22:21,  7.13s/it][A[A

Evaluating ...:  15% 33/220 [05:28<18:00,  5.78s/it][A[A

Evaluating ...:  15% 34/220 [05:31<15:22,  4.96s/it][A[A

Evaluating ...:  16% 35/220 [05:34<13:31,  4.38s/it][A[A

Evaluating ...:  16% 36/220 [05:37<11:54,  3.89s/it][A[A

Evaluating ...:  17% 37/220 [05:40<10:50,  3.55s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:  17% 38/220 [06:00<25:57,  8.56s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:  18% 39/220 [06:02<20:05,  6.66s/it][A[A

Evaluating ...:  18% 40/220 [06:05<16:16,  5.43s/it][A[A

Evaluating ...:  19% 41/220 [06:07<13:44,  4.61s/it][A[A

Evaluating ...:  19% 42/220 [06:10<12:04,  4.07s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:  20% 43/220 [06:30<25:51,  8.77s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:  20% 44/220 [06:32<20:05,  6.85s/it][A[A

Evaluating ...:  20% 45/220 [06:35<16:24,  5.63s/it][A[A

Evaluating ...:  21% 46/220 [06:38<13:42,  4.73s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:  21% 47/220 [06:56<25:39,  8.90s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:  22% 48/220 [06:59<20:19,  7.09s/it][A[A

Evaluating ...:  22% 49/220 [07:02<16:25,  5.76s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:  23% 50/220 [07:19<26:21,  9.30s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:  23% 51/220 [07:23<21:39,  7.69s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:  24% 52/220 [07:45<33:15, 11.88s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:  24% 53/220 [07:48<25:41,  9.23s/it][A[A

Evaluating ...:  25% 54/220 [07:51<19:59,  7.23s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:  25% 55/220 [08:11<30:45, 11.19s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:  25% 56/220 [08:14<23:26,  8.58s/it][A[A

Evaluating ...:  26% 57/220 [08:17<18:57,  6.98s/it][A[A

Evaluating ...:  26% 58/220 [08:20<15:29,  5.74s/it][A[A

Evaluating ...:  27% 59/220 [08:22<12:42,  4.74s/it][A[A

Evaluating ...:  27% 60/220 [08:25<10:57,  4.11s/it][A[A

Evaluating ...:  28% 61/220 [08:27<09:29,  3.58s/it][A[A

Evaluating ...:  28% 62/220 [08:29<08:06,  3.08s/it][A[A

Evaluating ...:  29% 63/220 [08:31<07:26,  2.84s/it][A[A

Evaluating ...:  29% 64/220 [08:34<07:22,  2.84s/it][A[A

Evaluating ...:  30% 65/220 [08:37<07:20,  2.84s/it][A[A

Evaluating ...:  30% 66/220 [08:40<07:18,  2.85s/it][A[A

Evaluating ...:  30% 67/220 [08:43<07:29,  2.94s/it][A[A

Evaluating ...:  31% 68/220 [08:46<07:19,  2.89s/it][A[A

Evaluating ...:  31% 69/220 [08:48<07:06,  2.83s/it][A[A

Evaluating ...:  32% 70/220 [08:51<06:32,  2.62s/it][A[A

Evaluating ...:  32% 71/220 [08:53<06:26,  2.59s/it][A[A

Evaluating ...:  33% 72/220 [08:55<06:15,  2.54s/it][A[A

Evaluating ...:  33% 73/220 [08:58<05:57,  2.43s/it][A[A

Evaluating ...:  34% 74/220 [09:01<06:24,  2.63s/it][A[A

Evaluating ...:  34% 75/220 [09:03<06:27,  2.67s/it][A[A

Evaluating ...:  35% 76/220 [09:06<06:21,  2.65s/it][A[A

Evaluating ...:  35% 77/220 [09:09<06:23,  2.69s/it][A[A

Evaluating ...:  35% 78/220 [09:11<05:43,  2.42s/it][A[A

Evaluating ...:  36% 79/220 [09:13<05:39,  2.41s/it][A[A

Evaluating ...:  36% 80/220 [09:16<05:55,  2.54s/it][A[A

Evaluating ...:  37% 81/220 [09:18<05:49,  2.51s/it][A[A

Evaluating ...:  37% 82/220 [09:22<06:16,  2.73s/it][A[A

Evaluating ...:  38% 83/220 [09:24<06:13,  2.73s/it][A[A

Evaluating ...:  38% 84/220 [09:27<06:29,  2.86s/it][A[A

Evaluating ...:  39% 85/220 [09:29<05:49,  2.59s/it][A[A

Evaluating ...:  39% 86/220 [09:32<05:56,  2.66s/it][A[A

Evaluating ...:  40% 87/220 [09:35<06:12,  2.80s/it][A[A

Evaluating ...:  40% 88/220 [09:38<05:52,  2.67s/it][A[A

Evaluating ...:  40% 89/220 [09:41<06:04,  2.78s/it][A[A

Evaluating ...:  41% 90/220 [09:44<06:00,  2.77s/it][A[A

Evaluating ...:  41% 91/220 [09:46<05:40,  2.64s/it][A[A

Evaluating ...:  42% 92/220 [09:49<05:45,  2.70s/it][A[A

Evaluating ...:  42% 93/220 [09:51<05:42,  2.70s/it][A[A

Evaluating ...:  43% 94/220 [09:54<05:19,  2.53s/it][A[A

Evaluating ...:  43% 95/220 [09:56<05:20,  2.57s/it][A[A

Evaluating ...:  44% 96/220 [09:59<05:16,  2.56s/it][A[A

Evaluating ...:  44% 97/220 [10:02<05:22,  2.62s/it][A[A

Evaluating ...:  45% 98/220 [10:04<05:21,  2.63s/it][A[A

Evaluating ...:  45% 99/220 [10:07<05:18,  2.63s/it][A[A

Evaluating ...:  45% 100/220 [10:10<05:20,  2.67s/it][A[A

Evaluating ...:  46% 101/220 [10:13<05:33,  2.80s/it][A[A

Evaluating ...:  46% 102/220 [10:15<05:20,  2.72s/it][A[A

Evaluating ...:  47% 103/220 [10:18<05:13,  2.68s/it][A[A

Evaluating ...:  47% 104/220 [10:21<05:22,  2.78s/it][A[A

Evaluating ...:  48% 105/220 [10:24<05:19,  2.78s/it][A[A

Evaluating ...:  48% 106/220 [10:27<05:30,  2.90s/it][A[A

Evaluating ...:  49% 107/220 [10:30<05:33,  2.95s/it][A[A

Evaluating ...:  49% 108/220 [10:32<05:14,  2.81s/it][A[A

Evaluating ...:  50% 109/220 [10:35<05:03,  2.73s/it][A[A

Evaluating ...:  50% 110/220 [10:37<04:51,  2.65s/it][A[A

Evaluating ...:  50% 111/220 [10:40<04:54,  2.70s/it][A[A

Evaluating ...:  51% 112/220 [10:42<04:38,  2.58s/it][A[A

Evaluating ...:  51% 113/220 [10:45<04:26,  2.49s/it][A[A

Evaluating ...:  52% 114/220 [10:47<04:26,  2.51s/it][A[A

Evaluating ...:  52% 115/220 [10:50<04:21,  2.49s/it][A[A

Evaluating ...:  53% 116/220 [10:53<04:32,  2.62s/it][A[A

Evaluating ...:  53% 117/220 [10:55<04:18,  2.51s/it][A[A

Evaluating ...:  54% 118/220 [10:58<04:23,  2.59s/it][A[A

Evaluating ...:  54% 119/220 [11:00<04:09,  2.47s/it][A[A

Evaluating ...:  55% 120/220 [11:02<04:11,  2.52s/it][A[A

Evaluating ...:  55% 121/220 [11:05<04:22,  2.65s/it][A[A

Evaluating ...:  55% 122/220 [11:08<04:28,  2.74s/it][A[A

Evaluating ...:  56% 123/220 [11:11<04:19,  2.67s/it][A[A

Evaluating ...:  56% 124/220 [11:14<04:22,  2.74s/it][A[A

Evaluating ...:  57% 125/220 [11:16<04:13,  2.66s/it][A[A

Evaluating ...:  57% 126/220 [11:19<04:02,  2.58s/it][A[A

Evaluating ...:  58% 127/220 [11:21<03:56,  2.54s/it][A[A

Evaluating ...:  58% 128/220 [11:23<03:37,  2.37s/it][A[A

Evaluating ...:  59% 129/220 [11:26<03:44,  2.47s/it][A[A

Evaluating ...:  59% 130/220 [11:29<03:58,  2.65s/it][A[A

Evaluating ...:  60% 131/220 [11:32<03:55,  2.65s/it][A[A

Evaluating ...:  60% 132/220 [11:35<04:04,  2.78s/it][A[A

Evaluating ...:  60% 133/220 [11:37<03:51,  2.66s/it][A[A

Evaluating ...:  61% 134/220 [11:40<03:57,  2.76s/it][A[A

Evaluating ...:  61% 135/220 [11:43<03:52,  2.74s/it][A[A

Evaluating ...:  62% 136/220 [11:45<03:47,  2.71s/it][A[A

Evaluating ...:  62% 137/220 [11:48<03:39,  2.65s/it][A[A

Evaluating ...:  63% 138/220 [11:50<03:35,  2.63s/it][A[A

Evaluating ...:  63% 139/220 [11:53<03:29,  2.58s/it][A[A

Evaluating ...:  64% 140/220 [11:56<03:30,  2.63s/it][A[A

Evaluating ...:  64% 141/220 [11:58<03:25,  2.60s/it][A[A

Evaluating ...:  65% 142/220 [12:01<03:32,  2.72s/it][A[A

Evaluating ...:  65% 143/220 [12:04<03:26,  2.68s/it][A[A

Evaluating ...:  65% 144/220 [12:06<03:25,  2.71s/it][A[A

Evaluating ...:  66% 145/220 [12:09<03:23,  2.71s/it][A[A

Evaluating ...:  66% 146/220 [12:12<03:26,  2.79s/it][A[A

Evaluating ...:  67% 147/220 [12:15<03:22,  2.77s/it][A[A

Evaluating ...:  67% 148/220 [12:17<03:15,  2.71s/it][A[A

Evaluating ...:  68% 149/220 [12:20<03:17,  2.78s/it][A[A

Evaluating ...:  68% 150/220 [12:23<03:15,  2.80s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:  69% 151/220 [12:46<10:00,  8.70s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:  69% 152/220 [12:48<07:50,  6.91s/it][A[A

Evaluating ...:  70% 153/220 [12:51<06:17,  5.63s/it][A[A

Evaluating ...:  70% 154/220 [12:54<05:16,  4.80s/it][A[A

Evaluating ...:  70% 155/220 [12:56<04:23,  4.06s/it][A[A

Evaluating ...:  71% 156/220 [12:59<03:49,  3.58s/it][A[A

Evaluating ...:  71% 157/220 [13:02<03:31,  3.35s/it][A[A

Evaluating ...:  72% 158/220 [13:04<03:11,  3.09s/it][A[A

Evaluating ...:  72% 159/220 [13:07<03:00,  2.96s/it][A[A

Evaluating ...:  73% 160/220 [13:09<02:46,  2.77s/it][A[A

Evaluating ...:  73% 161/220 [13:11<02:37,  2.67s/it][A[A

Evaluating ...:  74% 162/220 [13:14<02:32,  2.63s/it][A[A

Evaluating ...:  74% 163/220 [13:17<02:29,  2.62s/it][A[A

Evaluating ...:  75% 164/220 [13:19<02:17,  2.45s/it][A[A

Evaluating ...:  75% 165/220 [13:21<02:20,  2.55s/it][A[A

Evaluating ...:  75% 166/220 [13:24<02:18,  2.56s/it][A[A

Evaluating ...:  76% 167/220 [13:27<02:17,  2.60s/it][A[A

Evaluating ...:  76% 168/220 [13:30<02:20,  2.71s/it][A[A

Evaluating ...:  77% 169/220 [13:32<02:15,  2.65s/it][A[A

Evaluating ...:  77% 170/220 [13:36<02:22,  2.84s/it][A[A

Evaluating ...:  78% 171/220 [13:38<02:16,  2.79s/it][A[A

Evaluating ...:  78% 172/220 [13:41<02:16,  2.84s/it][A[A

Evaluating ...:  79% 173/220 [13:44<02:09,  2.76s/it][A[A

Evaluating ...:  79% 174/220 [13:47<02:09,  2.80s/it][A[A

Evaluating ...:  80% 175/220 [13:49<02:04,  2.77s/it][A[A

Evaluating ...:  80% 176/220 [13:52<02:05,  2.85s/it][A[A

Evaluating ...:  80% 177/220 [13:55<02:00,  2.79s/it][A[A

Evaluating ...:  81% 178/220 [13:58<02:02,  2.92s/it][A[A

Evaluating ...:  81% 179/220 [14:01<01:54,  2.80s/it][A[A

Evaluating ...:  82% 180/220 [14:04<01:53,  2.84s/it][A[A

Evaluating ...:  82% 181/220 [14:06<01:49,  2.80s/it][A[A

Evaluating ...:  83% 182/220 [14:09<01:42,  2.69s/it][A[A

Evaluating ...:  83% 183/220 [14:12<01:44,  2.81s/it][A[A

Evaluating ...:  84% 184/220 [14:15<01:39,  2.77s/it][A[A

Evaluating ...:  84% 185/220 [14:17<01:34,  2.70s/it][A[A

Evaluating ...:  85% 186/220 [14:20<01:36,  2.85s/it][A[A

Evaluating ...:  85% 187/220 [14:23<01:37,  2.94s/it][A[A

Evaluating ...:  85% 188/220 [14:27<01:35,  2.98s/it][A[A

Evaluating ...:  86% 189/220 [14:29<01:29,  2.90s/it][A[A

Evaluating ...:  86% 190/220 [14:32<01:28,  2.96s/it][A[A

Evaluating ...:  87% 191/220 [14:35<01:24,  2.92s/it][A[A

Evaluating ...:  87% 192/220 [14:38<01:17,  2.77s/it][A[A

Evaluating ...:  88% 193/220 [14:40<01:13,  2.73s/it][A[A

Evaluating ...:  88% 194/220 [14:43<01:10,  2.73s/it][A[A

Evaluating ...:  89% 195/220 [14:45<01:06,  2.66s/it][A[A

Evaluating ...:  89% 196/220 [14:48<01:01,  2.56s/it][A[A

Evaluating ...:  90% 197/220 [14:50<00:57,  2.52s/it][A[A

Evaluating ...:  90% 198/220 [14:53<00:56,  2.55s/it][A[A

Evaluating ...:  90% 199/220 [14:55<00:49,  2.35s/it][A[A

Evaluating ...:  91% 200/220 [14:57<00:48,  2.43s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Evaluating ...:  91% 201/220 [15:22<02:50,  8.99s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Evaluating ...:  92% 202/220 [15:24<02:07,  7.07s/it][A[A

Evaluating ...:  92% 203/220 [15:27<01:39,  5.83s/it][A[A

Evaluating ...:  93% 204/220 [15:30<01:18,  4.93s/it][A[A

Evaluating ...:  93% 205/220 [15:32<01:02,  4.18s/it][A[A

Evaluating ...:  94% 206/220 [15:36<00:55,  3.93s/it][A[A

Evaluating ...:  94% 207/220 [15:38<00:45,  3.49s/it][A[A

Evaluating ...:  95% 208/220 [15:41<00:39,  3.27s/it][A[A

Evaluating ...:  95% 209/220 [15:44<00:35,  3.22s/it][A[A

Evaluating ...:  95% 210/220 [15:47<00:32,  3.20s/it][A[A

Evaluating ...:  96% 211/220 [15:50<00:26,  2.99s/it][A[A

Evaluating ...:  96% 212/220 [15:53<00:23,  2.95s/it][A[A

Evaluating ...:  97% 213/220 [15:56<00:20,  2.94s/it][A[A

Evaluating ...:  97% 214/220 [15:58<00:16,  2.77s/it][A[A

Evaluating ...:  98% 215/220 [16:01<00:13,  2.77s/it][A[A

Evaluating ...:  98% 216/220 [16:03<00:10,  2.75s/it][A[A

Evaluating ...:  99% 217/220 [16:06<00:07,  2.59s/it][A[A

Evaluating ...:  99% 218/220 [16:08<00:05,  2.54s/it][A[A

Evaluating ...: 100% 219/220 [16:10<00:02,  2.48s/it][A[A

Evaluating ...: 100% 220/220 [16:13<00:00,  2.61s/it][A[AEvaluating ...: 100% 220/220 [16:13<00:00,  4.43s/it]Step... (50000/50000 | Eval Loss: 1.2166588306427002 | Eval wer: 0.13503484478233324 | Eval cer: 0.08610509209100758 |)

/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:51: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  device_metrics = jax.tree_map(lambda x: x[0], device_metrics)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:45: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(stack_args, *forest)
run_flax_speech_recognition_seq2seq.py:1392: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  eval_metrics = jax.tree_map(jnp.mean, eval_metrics)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)


Predicting test...:   0% 0/231 [00:00<?, ?it/s][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Predicting test...:   0% 1/231 [01:04<4:08:37, 64.86s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Predicting test...:   1% 2/231 [01:07<1:48:46, 28.50s/it][A[A

Predicting test...:   1% 3/231 [01:10<1:03:07, 16.61s/it][A[A

Predicting test...:   2% 4/231 [01:12<41:55, 11.08s/it]  [A[A

Predicting test...:   2% 5/231 [01:15<30:24,  8.07s/it][A[A

Predicting test...:   3% 6/231 [01:18<23:03,  6.15s/it][A[A

Predicting test...:   3% 7/231 [01:20<18:15,  4.89s/it][A[A

Predicting test...:   3% 8/231 [01:23<15:30,  4.17s/it][A[A

Predicting test...:   4% 9/231 [01:26<14:33,  3.93s/it][A[A

Predicting test...:   4% 10/231 [01:28<12:20,  3.35s/it][A[A

Predicting test...:   5% 11/231 [01:31<11:19,  3.09s/it][A[A

Predicting test...:   5% 12/231 [01:33<10:23,  2.84s/it][A[A

Predicting test...:   6% 13/231 [01:35<09:49,  2.71s/it][A[A

Predicting test...:   6% 14/231 [01:37<09:20,  2.58s/it][A[A

Predicting test...:   6% 15/231 [01:41<09:48,  2.73s/it][A[A

Predicting test...:   7% 16/231 [01:43<09:56,  2.77s/it][A[A

Predicting test...:   7% 17/231 [01:47<10:27,  2.93s/it][A[A

Predicting test...:   8% 18/231 [01:50<10:37,  2.99s/it][A[A

Predicting test...:   8% 19/231 [01:52<09:41,  2.74s/it][A[A

Predicting test...:   9% 20/231 [01:55<09:45,  2.77s/it][A[A

Predicting test...:   9% 21/231 [01:58<10:06,  2.89s/it][A[A

Predicting test...:  10% 22/231 [02:01<10:03,  2.89s/it][A[A

Predicting test...:  10% 23/231 [02:04<09:47,  2.82s/it][A[A

Predicting test...:  10% 24/231 [02:06<09:36,  2.78s/it][A[A

Predicting test...:  11% 25/231 [02:09<09:10,  2.67s/it][A[A

Predicting test...:  11% 26/231 [02:12<09:21,  2.74s/it][A[A

Predicting test...:  12% 27/231 [02:14<09:14,  2.72s/it][A[A

Predicting test...:  12% 28/231 [02:17<08:57,  2.65s/it][A[A

Predicting test...:  13% 29/231 [02:20<09:03,  2.69s/it][A[A

Predicting test...:  13% 30/231 [02:22<09:04,  2.71s/it][A[A

Predicting test...:  13% 31/231 [02:25<08:56,  2.68s/it][A[A

Predicting test...:  14% 32/231 [02:27<08:48,  2.66s/it][A[A

Predicting test...:  14% 33/231 [02:30<08:31,  2.58s/it][A[A

Predicting test...:  15% 34/231 [02:33<08:56,  2.72s/it][A[A

Predicting test...:  15% 35/231 [02:36<08:49,  2.70s/it][A[A

Predicting test...:  16% 36/231 [02:38<08:48,  2.71s/it][A[A

Predicting test...:  16% 37/231 [02:41<08:20,  2.58s/it][A[A

Predicting test...:  16% 38/231 [02:43<08:17,  2.58s/it][A[A

Predicting test...:  17% 39/231 [02:46<08:21,  2.61s/it][A[A

Predicting test...:  17% 40/231 [02:49<08:25,  2.65s/it][A[A

Predicting test...:  18% 41/231 [02:52<08:39,  2.73s/it][A[A

Predicting test...:  18% 42/231 [02:54<08:47,  2.79s/it][A[A

Predicting test...:  19% 43/231 [02:57<08:17,  2.65s/it][A[A

Predicting test...:  19% 44/231 [02:59<08:14,  2.64s/it][A[A

Predicting test...:  19% 45/231 [03:02<08:08,  2.62s/it][A[A

Predicting test...:  20% 46/231 [03:05<08:09,  2.65s/it][A[A

Predicting test...:  20% 47/231 [03:07<08:12,  2.68s/it][A[A

Predicting test...:  21% 48/231 [03:10<08:02,  2.64s/it][A[A

Predicting test...:  21% 49/231 [03:13<07:58,  2.63s/it][A[A

Predicting test...:  22% 50/231 [03:15<07:56,  2.63s/it][A[A

Predicting test...:  22% 51/231 [03:19<08:47,  2.93s/it][A[A

Predicting test...:  23% 52/231 [03:22<08:40,  2.91s/it][A[A

Predicting test...:  23% 53/231 [03:24<08:20,  2.81s/it][A[A

Predicting test...:  23% 54/231 [03:27<07:56,  2.69s/it][A[A

Predicting test...:  24% 55/231 [03:29<07:52,  2.69s/it][A[A

Predicting test...:  24% 56/231 [03:32<07:57,  2.73s/it][A[A

Predicting test...:  25% 57/231 [03:35<07:53,  2.72s/it][A[A

Predicting test...:  25% 58/231 [03:37<07:35,  2.64s/it][A[A

Predicting test...:  26% 59/231 [03:40<07:46,  2.71s/it][A[A

Predicting test...:  26% 60/231 [03:43<07:36,  2.67s/it][A[A

Predicting test...:  26% 61/231 [03:45<07:20,  2.59s/it][A[A

Predicting test...:  27% 62/231 [03:48<07:05,  2.52s/it][A[A

Predicting test...:  27% 63/231 [03:50<06:53,  2.46s/it][A[A

Predicting test...:  28% 64/231 [03:53<07:08,  2.57s/it][A[A

Predicting test...:  28% 65/231 [03:56<07:46,  2.81s/it][A[A

Predicting test...:  29% 66/231 [03:58<07:18,  2.66s/it][A[A

Predicting test...:  29% 67/231 [04:02<07:41,  2.81s/it][A[A

Predicting test...:  29% 68/231 [04:04<07:19,  2.70s/it][A[A

Predicting test...:  30% 69/231 [04:07<07:26,  2.75s/it][A[A

Predicting test...:  30% 70/231 [04:09<07:04,  2.64s/it][A[A

Predicting test...:  31% 71/231 [04:12<07:01,  2.63s/it][A[A

Predicting test...:  31% 72/231 [04:15<07:21,  2.77s/it][A[A

Predicting test...:  32% 73/231 [04:18<07:23,  2.81s/it][A[A

Predicting test...:  32% 74/231 [04:21<07:18,  2.79s/it][A[A

Predicting test...:  32% 75/231 [04:23<06:51,  2.64s/it][A[A

Predicting test...:  33% 76/231 [04:25<06:31,  2.53s/it][A[A

Predicting test...:  33% 77/231 [04:28<06:32,  2.55s/it][A[A

Predicting test...:  34% 78/231 [04:30<06:22,  2.50s/it][A[A

Predicting test...:  34% 79/231 [04:33<06:29,  2.56s/it][A[A

Predicting test...:  35% 80/231 [04:36<06:38,  2.64s/it][A[A

Predicting test...:  35% 81/231 [04:38<06:41,  2.68s/it][A[A

Predicting test...:  35% 82/231 [04:41<06:41,  2.70s/it][A[A

Predicting test...:  36% 83/231 [04:44<06:39,  2.70s/it][A[A

Predicting test...:  36% 84/231 [04:46<06:31,  2.66s/it][A[A

Predicting test...:  37% 85/231 [04:50<06:48,  2.80s/it][A[A

Predicting test...:  37% 86/231 [04:52<06:34,  2.72s/it][A[A

Predicting test...:  38% 87/231 [04:55<06:29,  2.71s/it][A[A

Predicting test...:  38% 88/231 [04:58<06:29,  2.72s/it][A[A

Predicting test...:  39% 89/231 [05:00<06:26,  2.72s/it][A[A

Predicting test...:  39% 90/231 [05:03<06:20,  2.70s/it][A[A

Predicting test...:  39% 91/231 [05:06<06:23,  2.74s/it][A[A

Predicting test...:  40% 92/231 [05:08<06:21,  2.74s/it][A[A

Predicting test...:  40% 93/231 [05:11<06:08,  2.67s/it][A[A

Predicting test...:  41% 94/231 [05:13<05:50,  2.56s/it][A[A

Predicting test...:  41% 95/231 [05:15<05:28,  2.42s/it][A[A

Predicting test...:  42% 96/231 [05:18<05:35,  2.48s/it][A[A

Predicting test...:  42% 97/231 [05:21<05:38,  2.53s/it][A[A

Predicting test...:  42% 98/231 [05:23<05:19,  2.40s/it][A[A

Predicting test...:  43% 99/231 [05:25<05:14,  2.38s/it][A[A

Predicting test...:  43% 100/231 [05:28<05:24,  2.48s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Predicting test...:  44% 101/231 [06:35<47:31, 21.93s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Predicting test...:  44% 102/231 [06:38<35:01, 16.29s/it][A[A

Predicting test...:  45% 103/231 [06:41<26:14, 12.30s/it][A[A

Predicting test...:  45% 104/231 [06:44<20:08,  9.51s/it][A[A

Predicting test...:  45% 105/231 [06:47<15:29,  7.38s/it][A[A

Predicting test...:  46% 106/231 [06:50<12:34,  6.04s/it][A[A

Predicting test...:  46% 107/231 [06:52<10:09,  4.91s/it][A[A

Predicting test...:  47% 108/231 [06:55<08:42,  4.25s/it][A[A

Predicting test...:  47% 109/231 [06:57<07:43,  3.80s/it][A[A

Predicting test...:  48% 110/231 [07:00<07:07,  3.53s/it][A[A

Predicting test...:  48% 111/231 [07:02<06:16,  3.14s/it][A[A

Predicting test...:  48% 112/231 [07:05<05:38,  2.85s/it][A[A

Predicting test...:  49% 113/231 [07:07<05:27,  2.78s/it][A[A

Predicting test...:  49% 114/231 [07:10<05:29,  2.81s/it][A[A

Predicting test...:  50% 115/231 [07:13<05:14,  2.71s/it][A[A

Predicting test...:  50% 116/231 [07:15<05:10,  2.70s/it][A[A

Predicting test...:  51% 117/231 [07:18<05:04,  2.67s/it][A[A

Predicting test...:  51% 118/231 [07:21<05:15,  2.79s/it][A[A

Predicting test...:  52% 119/231 [07:23<05:01,  2.69s/it][A[A

Predicting test...:  52% 120/231 [07:26<05:11,  2.80s/it][A[A

Predicting test...:  52% 121/231 [07:29<05:03,  2.76s/it][A[A

Predicting test...:  53% 122/231 [07:32<04:52,  2.69s/it][A[A

Predicting test...:  53% 123/231 [07:35<05:08,  2.86s/it][A[A

Predicting test...:  54% 124/231 [07:38<05:10,  2.90s/it][A[A

Predicting test...:  54% 125/231 [07:41<05:12,  2.95s/it][A[A

Predicting test...:  55% 126/231 [07:43<04:50,  2.76s/it][A[A

Predicting test...:  55% 127/231 [07:46<04:54,  2.83s/it][A[A

Predicting test...:  55% 128/231 [07:49<04:39,  2.71s/it][A[A

Predicting test...:  56% 129/231 [07:51<04:38,  2.73s/it][A[A

Predicting test...:  56% 130/231 [07:55<04:47,  2.85s/it][A[A

Predicting test...:  57% 131/231 [07:57<04:23,  2.64s/it][A[A

Predicting test...:  57% 132/231 [08:00<04:26,  2.69s/it][A[A

Predicting test...:  58% 133/231 [08:02<04:24,  2.70s/it][A[A

Predicting test...:  58% 134/231 [08:05<04:20,  2.68s/it][A[A

Predicting test...:  58% 135/231 [08:08<04:20,  2.71s/it][A[A

Predicting test...:  59% 136/231 [08:10<04:12,  2.66s/it][A[A

Predicting test...:  59% 137/231 [08:13<04:05,  2.61s/it][A[A

Predicting test...:  60% 138/231 [08:15<04:05,  2.64s/it][A[A

Predicting test...:  60% 139/231 [08:18<03:58,  2.59s/it][A[A

Predicting test...:  61% 140/231 [08:20<03:50,  2.53s/it][A[A

Predicting test...:  61% 141/231 [08:23<03:54,  2.61s/it][A[A

Predicting test...:  61% 142/231 [08:26<03:58,  2.68s/it][A[A

Predicting test...:  62% 143/231 [08:29<03:54,  2.66s/it][A[A

Predicting test...:  62% 144/231 [08:31<03:56,  2.72s/it][A[A

Predicting test...:  63% 145/231 [08:34<03:50,  2.67s/it][A[A

Predicting test...:  63% 146/231 [08:37<03:52,  2.73s/it][A[A

Predicting test...:  64% 147/231 [08:39<03:39,  2.61s/it][A[A

Predicting test...:  64% 148/231 [08:42<03:43,  2.69s/it][A[A

Predicting test...:  65% 149/231 [08:45<03:40,  2.69s/it][A[A

Predicting test...:  65% 150/231 [08:47<03:35,  2.66s/it][A[A

Predicting test...:  65% 151/231 [08:51<03:45,  2.82s/it][A[A

Predicting test...:  66% 152/231 [08:53<03:46,  2.87s/it][A[A

Predicting test...:  66% 153/231 [08:56<03:43,  2.86s/it][A[A

Predicting test...:  67% 154/231 [08:59<03:40,  2.87s/it][A[A

Predicting test...:  67% 155/231 [09:02<03:30,  2.77s/it][A[A

Predicting test...:  68% 156/231 [09:05<03:34,  2.86s/it][A[A

Predicting test...:  68% 157/231 [09:08<03:31,  2.86s/it][A[A

Predicting test...:  68% 158/231 [09:11<03:30,  2.88s/it][A[A

Predicting test...:  69% 159/231 [09:14<03:30,  2.92s/it][A[A

Predicting test...:  69% 160/231 [09:16<03:12,  2.71s/it][A[A

Predicting test...:  70% 161/231 [09:19<03:17,  2.82s/it][A[A

Predicting test...:  70% 162/231 [09:21<03:01,  2.63s/it][A[A

Predicting test...:  71% 163/231 [09:24<02:59,  2.64s/it][A[A

Predicting test...:  71% 164/231 [09:26<02:58,  2.66s/it][A[A

Predicting test...:  71% 165/231 [09:28<02:39,  2.42s/it][A[A

Predicting test...:  72% 166/231 [09:31<02:33,  2.36s/it][A[A

Predicting test...:  72% 167/231 [09:33<02:38,  2.48s/it][A[A

Predicting test...:  73% 168/231 [09:36<02:31,  2.40s/it][A[A

Predicting test...:  73% 169/231 [09:38<02:31,  2.45s/it][A[A

Predicting test...:  74% 170/231 [09:40<02:22,  2.34s/it][A[A

Predicting test...:  74% 171/231 [09:43<02:27,  2.46s/it][A[A

Predicting test...:  74% 172/231 [09:45<02:23,  2.43s/it][A[A

Predicting test...:  75% 173/231 [09:48<02:27,  2.55s/it][A[A

Predicting test...:  75% 174/231 [09:51<02:30,  2.64s/it][A[A

Predicting test...:  76% 175/231 [09:53<02:18,  2.47s/it][A[A

Predicting test...:  76% 176/231 [09:56<02:21,  2.58s/it][A[A

Predicting test...:  77% 177/231 [09:59<02:24,  2.67s/it][A[A

Predicting test...:  77% 178/231 [10:02<02:25,  2.74s/it][A[A

Predicting test...:  77% 179/231 [10:04<02:23,  2.75s/it][A[A

Predicting test...:  78% 180/231 [10:07<02:18,  2.71s/it][A[A

Predicting test...:  78% 181/231 [10:09<02:09,  2.59s/it][A[A

Predicting test...:  79% 182/231 [10:12<02:13,  2.73s/it][A[A

Predicting test...:  79% 183/231 [10:15<02:15,  2.83s/it][A[A

Predicting test...:  80% 184/231 [10:18<02:10,  2.77s/it][A[A

Predicting test...:  80% 185/231 [10:20<02:01,  2.65s/it][A[A

Predicting test...:  81% 186/231 [10:23<02:01,  2.70s/it][A[A

Predicting test...:  81% 187/231 [10:26<01:57,  2.66s/it][A[A

Predicting test...:  81% 188/231 [10:29<01:59,  2.79s/it][A[A

Predicting test...:  82% 189/231 [10:31<01:52,  2.67s/it][A[A

Predicting test...:  82% 190/231 [10:34<01:54,  2.80s/it][A[A

Predicting test...:  83% 191/231 [10:37<01:49,  2.73s/it][A[A

Predicting test...:  83% 192/231 [10:40<01:44,  2.69s/it][A[A

Predicting test...:  84% 193/231 [10:42<01:39,  2.61s/it][A[A

Predicting test...:  84% 194/231 [10:45<01:34,  2.56s/it][A[A

Predicting test...:  84% 195/231 [10:47<01:31,  2.54s/it][A[A

Predicting test...:  85% 196/231 [10:50<01:32,  2.64s/it][A[A

Predicting test...:  85% 197/231 [10:52<01:27,  2.57s/it][A[A

Predicting test...:  86% 198/231 [10:54<01:21,  2.46s/it][A[A

Predicting test...:  86% 199/231 [10:57<01:20,  2.51s/it][A[A

Predicting test...:  87% 200/231 [11:00<01:17,  2.51s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
run_flax_speech_recognition_seq2seq.py:1308: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  loss = jax.tree_map(lambda l: l / total_samples, loss)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:112: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  scopes, treedef = jax.tree_flatten(scope_tree)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/lift.py:729: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  lengths = set(jax.tree_leaves(lengths))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:134: FutureWarning: jax.tree_flatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_flatten instead.
  in_avals, in_tree = jax.tree_flatten(input_avals)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/linen/transforms.py:249: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  jax.tree_leaves(tree)))
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/core/axes_scan.py:146: FutureWarning: jax.tree_unflatten is deprecated, and will be removed in a future release. Use jax.tree_util.tree_unflatten instead.
  broadcast_in, constants_out = jax.tree_unflatten(out_tree(), out_flat)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1127: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  cache = jax.tree_map(
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1038: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(gather_fn, nested)
/home/sanchitgandhi/seq2seq-speech/models/modeling_flax_speech_encoder_decoder.py:1213: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  model_outputs["past_key_values"] = jax.tree_map(lambda x: flatten_beam_dim(x), next_cache)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:321: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return out if static_return else jax.tree_map(unpad, out)


Predicting test...:  87% 201/231 [12:21<13:09, 26.30s/it][A[A/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:291: FutureWarning: jax.tree_leaves is deprecated, and will be removed in a future release. Use jax.tree_util.tree_leaves instead.
  batch_sizes |= {t.shape[0] for t in jax.tree_leaves(a)}
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/jax_utils.py:312: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(pad, tree)


Predicting test...:  87% 202/231 [12:25<09:20, 19.34s/it][A[A

Predicting test...:  88% 203/231 [12:28<06:47, 14.56s/it][A[A

Predicting test...:  88% 204/231 [12:30<04:54, 10.90s/it][A[A

Predicting test...:  89% 205/231 [12:33<03:40,  8.47s/it][A[A

Predicting test...:  89% 206/231 [12:36<02:53,  6.94s/it][A[A

Predicting test...:  90% 207/231 [12:39<02:15,  5.64s/it][A[A

Predicting test...:  90% 208/231 [12:41<01:46,  4.64s/it][A[A

Predicting test...:  90% 209/231 [12:44<01:27,  3.96s/it][A[A

Predicting test...:  91% 210/231 [12:46<01:14,  3.53s/it][A[A

Predicting test...:  91% 211/231 [12:49<01:07,  3.35s/it][A[A

Predicting test...:  92% 212/231 [12:52<01:00,  3.17s/it][A[A

Predicting test...:  92% 213/231 [12:54<00:53,  2.97s/it][A[A

Predicting test...:  93% 214/231 [12:56<00:44,  2.61s/it][A[A

Predicting test...:  93% 215/231 [12:59<00:41,  2.61s/it][A[A

Predicting test...:  94% 216/231 [13:01<00:39,  2.61s/it][A[A

Predicting test...:  94% 217/231 [13:05<00:38,  2.76s/it][A[A

Predicting test...:  94% 218/231 [13:08<00:37,  2.85s/it][A[A

Predicting test...:  95% 219/231 [13:10<00:33,  2.82s/it][A[A

Predicting test...:  95% 220/231 [13:13<00:29,  2.72s/it][A[A

Predicting test...:  96% 221/231 [13:16<00:27,  2.70s/it][A[A

Predicting test...:  96% 222/231 [13:18<00:24,  2.74s/it][A[A

Predicting test...:  97% 223/231 [13:21<00:21,  2.73s/it][A[A

Predicting test...:  97% 224/231 [13:24<00:18,  2.68s/it][A[A

Predicting test...:  97% 225/231 [13:26<00:16,  2.72s/it][A[A

Predicting test...:  98% 226/231 [13:29<00:13,  2.73s/it][A[A

Predicting test...:  98% 227/231 [13:31<00:09,  2.44s/it][A[A

Predicting test...:  99% 228/231 [13:34<00:07,  2.50s/it][A[A

Predicting test...:  99% 229/231 [13:36<00:05,  2.50s/it][A[A

Predicting test...: 100% 230/231 [13:38<00:02,  2.42s/it][A[A

Predicting test...: 100% 231/231 [13:41<00:00,  2.52s/it][A[APredicting test...: 100% 231/231 [13:41<00:00,  3.56s/it]Step... (50000/50000 | test Loss: 1.1658456325531006 | test wer: 0.1288926945783947 | test cer: 0.08149103721816817 |)

/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:51: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  device_metrics = jax.tree_map(lambda x: x[0], device_metrics)
/home/sanchitgandhi/hf/lib/python3.8/site-packages/flax/training/common_utils.py:45: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(stack_args, *forest)
run_flax_speech_recognition_seq2seq.py:1541: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  pred_metrics = jax.tree_map(jnp.mean, pred_metrics)
run_flax_speech_recognition_seq2seq.py:336: FutureWarning: jax.tree_map is deprecated, and will be removed in a future release. Use jax.tree_util.tree_map instead.
  return jax.tree_map(lambda x: x.astype(jnp.float32) if x.dtype == jnp.bfloat16 else x, t)
wandb: Waiting for W&B process to finish... (success).
wandb: - 13.569 MB of 13.569 MB uploaded (0.000 MB deduped)wandb: \ 13.569 MB of 13.569 MB uploaded (0.000 MB deduped)wandb: | 13.569 MB of 13.569 MB uploaded (0.000 MB deduped)wandb: / 13.569 MB of 14.077 MB uploaded (0.000 MB deduped)wandb: - 13.569 MB of 14.077 MB uploaded (0.000 MB deduped)wandb: \ 14.077 MB of 14.077 MB uploaded (0.000 MB deduped)wandb: | 14.077 MB of 14.077 MB uploaded (0.000 MB deduped)wandb: / 14.077 MB of 14.077 MB uploaded (0.000 MB deduped)wandb: - 14.077 MB of 14.077 MB uploaded (0.000 MB deduped)wandb: \ 14.077 MB of 14.077 MB uploaded (0.000 MB deduped)wandb: | 14.077 MB of 14.077 MB uploaded (0.000 MB deduped)wandb: / 14.077 MB of 14.077 MB uploaded (0.000 MB deduped)wandb: - 14.077 MB of 14.077 MB uploaded (0.000 MB deduped)wandb: \ 14.077 MB of 14.077 MB uploaded (0.000 MB deduped)wandb:                                                                                
wandb: 
wandb: Run history:
wandb:                 eval/cer █▁█▂▃
wandb:                eval/loss ▁▂▅▇█
wandb:                 eval/wer ▁▅█▆▅
wandb:                 test/cer ▁
wandb:                test/loss ▁
wandb:                 test/wer ▁
wandb:  train/decoder_grad_norm █▄▂▂▂▂▂▂▂▂▁▁▂▂▂▁▁▁▁▂▁▁▂▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁
wandb: train/decoder_param_norm ▃▃▁▁▁▂▂▃▃▄▄▅▅▅▆▆▆▆▇▇▇▇▇▇████████████████
wandb:  train/encoder_grad_norm ▆█▄▂▂▃▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▂▁▂▁▂▁▁▂▁▁▁▁▁▁
wandb: train/encoder_param_norm ▁▂▂▃▃▃▄▄▄▅▅▅▆▆▆▆▇▇▇▇▇▇▇█████████████████
wandb:          train/grad_norm █▅▃▃▂▂▂▂▂▂▂▂▂▂▂▂▂▁▂▂▁▁▂▂▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁
wandb:      train/learning_rate ▇███▇▇▇▇▇▇▆▆▆▆▆▅▅▅▅▅▄▄▄▄▄▄▃▃▃▃▃▂▂▂▂▂▂▁▁▁
wandb:               train/loss █▃▂▂▂▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁
wandb:         train/param_norm ▁▁▁▂▂▃▃▃▄▄▅▅▅▆▆▆▆▇▇▇▇▇▇▇████████████████
wandb: 
wandb: Run summary:
wandb:                 eval/cer 0.08611
wandb:                eval/loss 1.21666
wandb:                 eval/wer 0.13503
wandb:                 test/cer 0.08149
wandb:                test/loss 1.16585
wandb:                 test/wer 0.12889
wandb:  train/decoder_grad_norm 0.362
wandb: train/decoder_param_norm 1062.31226
wandb:  train/encoder_grad_norm 0.30535
wandb: train/encoder_param_norm 2323.63452
wandb:          train/grad_norm 0.47359
wandb:      train/learning_rate 0.0
wandb:               train/loss 0.00211
wandb:         train/param_norm 2554.95312
wandb: 
wandb: Synced flax-wav2vec2-2-bart-large-voxpopuli-black-box: https://wandb.ai/sanchit-gandhi/voxpopuli/runs/q13mjl8e
wandb: Synced 5 W&B file(s), 10 media file(s), 10 artifact file(s) and 0 other file(s)
wandb: Find logs at: ./wandb/run-20220908_090454-q13mjl8e/logs