2023-05-13 15:32:42,395 - INFO - allennlp.common.params - random_seed = 13370
2023-05-13 15:32:42,395 - INFO - allennlp.common.params - numpy_seed = 1337
2023-05-13 15:32:42,395 - INFO - allennlp.common.params - pytorch_seed = 133
2023-05-13 15:32:42,396 - INFO - allennlp.common.checks - Pytorch version: 1.11.0+cu102
2023-05-13 15:32:42,396 - INFO - allennlp.common.params - type = default
2023-05-13 15:32:42,397 - INFO - allennlp.common.params - dataset_reader.type = seq2rel
2023-05-13 15:32:42,397 - INFO - allennlp.common.params - dataset_reader.max_instances = None
2023-05-13 15:32:42,397 - INFO - allennlp.common.params - dataset_reader.manual_distributed_sharding = False
2023-05-13 15:32:42,397 - INFO - allennlp.common.params - dataset_reader.manual_multiprocess_sharding = False
2023-05-13 15:32:42,397 - INFO - allennlp.common.params - dataset_reader.target_namespace = target_tokens
2023-05-13 15:32:42,398 - INFO - allennlp.common.params - dataset_reader.source_tokenizer.type = pretrained_transformer
2023-05-13 15:32:42,398 - INFO - allennlp.common.params - dataset_reader.source_tokenizer.model_name = microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltext
2023-05-13 15:32:42,398 - INFO - allennlp.common.params - dataset_reader.source_tokenizer.add_special_tokens = True
2023-05-13 15:32:42,398 - INFO - allennlp.common.params - dataset_reader.source_tokenizer.max_length = 512
2023-05-13 15:32:42,398 - INFO - allennlp.common.params - dataset_reader.source_tokenizer.tokenizer_kwargs.additional_special_tokens = ['@ARG@', '@TRIGGER@']
2023-05-13 15:32:42,399 - INFO - allennlp.common.params - dataset_reader.source_tokenizer.tokenizer_kwargs.do_lower_case = True
2023-05-13 15:32:42,399 - INFO - allennlp.common.params - dataset_reader.source_tokenizer.verification_tokens = None
2023-05-13 15:32:48,173 - INFO - allennlp.common.params - dataset_reader.target_tokenizer.type = pretrained_transformer
2023-05-13 15:32:48,174 - INFO - allennlp.common.params - dataset_reader.target_tokenizer.model_name = microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltext
2023-05-13 15:32:48,174 - INFO - allennlp.common.params - dataset_reader.target_tokenizer.add_special_tokens = False
2023-05-13 15:32:48,174 - INFO - allennlp.common.params - dataset_reader.target_tokenizer.max_length = None
2023-05-13 15:32:48,174 - INFO - allennlp.common.params - dataset_reader.target_tokenizer.tokenizer_kwargs.additional_special_tokens = ['@ARG@', '@TRIGGER@', '@OSP@', '@start@', '@end@', ';']
2023-05-13 15:32:48,174 - INFO - allennlp.common.params - dataset_reader.target_tokenizer.tokenizer_kwargs.do_lower_case = True
2023-05-13 15:32:48,174 - INFO - allennlp.common.params - dataset_reader.target_tokenizer.verification_tokens = None
2023-05-13 15:32:55,200 - INFO - allennlp.common.params - dataset_reader.source_token_indexers.tokens.type = pretrained_transformer
2023-05-13 15:32:55,200 - INFO - allennlp.common.params - dataset_reader.source_token_indexers.tokens.token_min_padding_length = 0
2023-05-13 15:32:55,201 - INFO - allennlp.common.params - dataset_reader.source_token_indexers.tokens.model_name = microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltext
2023-05-13 15:32:55,201 - INFO - allennlp.common.params - dataset_reader.source_token_indexers.tokens.namespace = tags
2023-05-13 15:32:55,201 - INFO - allennlp.common.params - dataset_reader.source_token_indexers.tokens.max_length = None
2023-05-13 15:32:55,201 - INFO - allennlp.common.params - dataset_reader.source_token_indexers.tokens.tokenizer_kwargs.additional_special_tokens = ['@ARG@', '@TRIGGER@']
2023-05-13 15:32:55,201 - INFO - allennlp.common.params - dataset_reader.source_token_indexers.tokens.tokenizer_kwargs.do_lower_case = True
2023-05-13 15:32:55,202 - INFO - allennlp.common.params - dataset_reader.max_length = 512
2023-05-13 15:32:55,202 - INFO - allennlp.common.params - train_data_path = ../granular/train_transform.tsv
2023-05-13 15:32:55,203 - INFO - allennlp.common.params - datasets_for_vocab_creation = None
2023-05-13 15:32:55,203 - INFO - allennlp.common.params - validation_dataset_reader = None
2023-05-13 15:32:55,203 - INFO - allennlp.common.params - validation_data_path = ../granular/dev_transform.tsv
2023-05-13 15:32:55,203 - INFO - allennlp.common.params - test_data_path = None
2023-05-13 15:32:55,203 - INFO - allennlp.common.params - evaluate_on_test = False
2023-05-13 15:32:55,203 - INFO - allennlp.common.params - batch_weight_key = 
2023-05-13 15:32:55,203 - INFO - allennlp.common.params - data_loader.type = multiprocess
2023-05-13 15:32:55,204 - INFO - allennlp.common.params - data_loader.batch_size = None
2023-05-13 15:32:55,204 - INFO - allennlp.common.params - data_loader.drop_last = False
2023-05-13 15:32:55,204 - INFO - allennlp.common.params - data_loader.shuffle = False
2023-05-13 15:32:55,204 - INFO - allennlp.common.params - data_loader.batch_sampler.type = bucket
2023-05-13 15:32:55,204 - INFO - allennlp.common.params - data_loader.batch_sampler.batch_size = 4
2023-05-13 15:32:55,204 - INFO - allennlp.common.params - data_loader.batch_sampler.sorting_keys = ['source_tokens']
2023-05-13 15:32:55,205 - INFO - allennlp.common.params - data_loader.batch_sampler.padding_noise = 0.1
2023-05-13 15:32:55,205 - INFO - allennlp.common.params - data_loader.batch_sampler.drop_last = False
2023-05-13 15:32:55,205 - INFO - allennlp.common.params - data_loader.batch_sampler.shuffle = True
2023-05-13 15:32:55,205 - INFO - allennlp.common.params - data_loader.batches_per_epoch = None
2023-05-13 15:32:55,205 - INFO - allennlp.common.params - data_loader.num_workers = 0
2023-05-13 15:32:55,205 - INFO - allennlp.common.params - data_loader.max_instances_in_memory = None
2023-05-13 15:32:55,205 - INFO - allennlp.common.params - data_loader.start_method = fork
2023-05-13 15:32:55,205 - INFO - allennlp.common.params - data_loader.cuda_device = None
2023-05-13 15:32:55,205 - INFO - allennlp.common.params - data_loader.quiet = False
2023-05-13 15:32:55,205 - INFO - allennlp.common.params - data_loader.collate_fn = <allennlp.data.data_loaders.data_collator.DefaultDataCollator object at 0x7f57313cfc10>
2023-05-13 15:32:55,206 - INFO - tqdm - loading instances: 0it [00:00, ?it/s]
2023-05-13 15:32:55,206 - INFO - seq2rel.dataset_reader - Reading instances from lines in file at: ../granular/train_transform.tsv
2023-05-13 15:32:59,867 - INFO - allennlp.common.params - validation_data_loader.type = multiprocess
2023-05-13 15:32:59,867 - INFO - allennlp.common.params - validation_data_loader.batch_size = None
2023-05-13 15:32:59,867 - INFO - allennlp.common.params - validation_data_loader.drop_last = False
2023-05-13 15:32:59,868 - INFO - allennlp.common.params - validation_data_loader.shuffle = False
2023-05-13 15:32:59,868 - INFO - allennlp.common.params - validation_data_loader.batch_sampler.type = bucket
2023-05-13 15:32:59,868 - INFO - allennlp.common.params - validation_data_loader.batch_sampler.batch_size = 128
2023-05-13 15:32:59,868 - INFO - allennlp.common.params - validation_data_loader.batch_sampler.sorting_keys = ['source_tokens']
2023-05-13 15:32:59,868 - INFO - allennlp.common.params - validation_data_loader.batch_sampler.padding_noise = 0
2023-05-13 15:32:59,868 - INFO - allennlp.common.params - validation_data_loader.batch_sampler.drop_last = False
2023-05-13 15:32:59,868 - INFO - allennlp.common.params - validation_data_loader.batch_sampler.shuffle = True
2023-05-13 15:32:59,869 - INFO - allennlp.common.params - validation_data_loader.batches_per_epoch = None
2023-05-13 15:32:59,869 - INFO - allennlp.common.params - validation_data_loader.num_workers = 0
2023-05-13 15:32:59,869 - INFO - allennlp.common.params - validation_data_loader.max_instances_in_memory = None
2023-05-13 15:32:59,869 - INFO - allennlp.common.params - validation_data_loader.start_method = fork
2023-05-13 15:32:59,869 - INFO - allennlp.common.params - validation_data_loader.cuda_device = None
2023-05-13 15:32:59,869 - INFO - allennlp.common.params - validation_data_loader.quiet = False
2023-05-13 15:32:59,869 - INFO - allennlp.common.params - validation_data_loader.collate_fn = <allennlp.data.data_loaders.data_collator.DefaultDataCollator object at 0x7f57313cfc10>
2023-05-13 15:32:59,869 - INFO - tqdm - loading instances: 0it [00:00, ?it/s]
2023-05-13 15:32:59,870 - INFO - seq2rel.dataset_reader - Reading instances from lines in file at: ../granular/dev_transform.tsv
2023-05-13 15:33:01,994 - INFO - allennlp.common.params - vocabulary.type = from_instances
2023-05-13 15:33:01,994 - INFO - allennlp.common.params - vocabulary.min_count = None
2023-05-13 15:33:01,995 - INFO - allennlp.common.params - vocabulary.non_padded_namespaces = ('*tags', '*labels')
2023-05-13 15:33:01,995 - INFO - allennlp.common.params - vocabulary.pretrained_files = None
2023-05-13 15:33:01,995 - INFO - allennlp.common.params - vocabulary.only_include_pretrained_words = False
2023-05-13 15:33:01,995 - INFO - allennlp.common.params - vocabulary.min_pretrained_embeddings = None
2023-05-13 15:33:01,995 - INFO - allennlp.common.params - vocabulary.padding_token = @@PADDING@@
2023-05-13 15:33:01,996 - INFO - allennlp.common.params - vocabulary.oov_token = @@UNKNOWN@@
2023-05-13 15:33:01,996 - INFO - allennlp.data.vocabulary - Fitting token dictionary from dataset.
2023-05-13 15:33:01,996 - INFO - tqdm - building vocab: 0it [00:00, ?it/s]
2023-05-13 15:33:02,129 - INFO - allennlp.common.params - model.type = copynet_seq2rel
2023-05-13 15:33:02,130 - INFO - allennlp.common.params - model.regularizer = None
2023-05-13 15:33:02,130 - INFO - allennlp.common.params - model.source_embedder.type = basic
2023-05-13 15:33:02,130 - INFO - allennlp.common.params - model.source_embedder.token_embedders.tokens.type = pretrained_transformer
2023-05-13 15:33:02,131 - INFO - allennlp.common.params - model.source_embedder.token_embedders.tokens.model_name = microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltext
2023-05-13 15:33:02,131 - INFO - allennlp.common.params - model.source_embedder.token_embedders.tokens.max_length = None
2023-05-13 15:33:02,131 - INFO - allennlp.common.params - model.source_embedder.token_embedders.tokens.sub_module = None
2023-05-13 15:33:02,131 - INFO - allennlp.common.params - model.source_embedder.token_embedders.tokens.train_parameters = True
2023-05-13 15:33:02,131 - INFO - allennlp.common.params - model.source_embedder.token_embedders.tokens.eval_mode = False
2023-05-13 15:33:02,131 - INFO - allennlp.common.params - model.source_embedder.token_embedders.tokens.last_layer_only = True
2023-05-13 15:33:02,131 - INFO - allennlp.common.params - model.source_embedder.token_embedders.tokens.override_weights_file = None
2023-05-13 15:33:02,131 - INFO - allennlp.common.params - model.source_embedder.token_embedders.tokens.override_weights_strip_prefix = None
2023-05-13 15:33:02,132 - INFO - allennlp.common.params - model.source_embedder.token_embedders.tokens.reinit_modules = 2
2023-05-13 15:33:02,132 - INFO - allennlp.common.params - model.source_embedder.token_embedders.tokens.load_weights = True
2023-05-13 15:33:02,132 - INFO - allennlp.common.params - model.source_embedder.token_embedders.tokens.gradient_checkpointing = None
2023-05-13 15:33:02,132 - INFO - allennlp.common.params - model.source_embedder.token_embedders.tokens.tokenizer_kwargs.additional_special_tokens = ['@ARG@', '@TRIGGER@']
2023-05-13 15:33:02,132 - INFO - allennlp.common.params - model.source_embedder.token_embedders.tokens.tokenizer_kwargs.do_lower_case = True
2023-05-13 15:33:02,132 - INFO - allennlp.common.params - model.source_embedder.token_embedders.tokens.transformer_kwargs = None
2023-05-13 15:33:12,743 - INFO - allennlp.common.params - model.encoder = None
2023-05-13 15:33:12,744 - INFO - allennlp.common.params - model.label_smoothing = None
2023-05-13 15:33:12,744 - INFO - allennlp.common.params - model.target_embedding_dim = 256
2023-05-13 15:33:12,744 - INFO - allennlp.common.params - model.scheduled_sampling_ratio = 0.0
2023-05-13 15:33:12,744 - INFO - allennlp.common.params - model.copy_token = @COPY@
2023-05-13 15:33:12,744 - INFO - allennlp.common.params - model.target_namespace = target_tokens
2023-05-13 15:33:12,744 - INFO - allennlp.common.params - model.tensor_based_metric = None
2023-05-13 15:33:12,744 - INFO - allennlp.common.params - model.token_based_metric = None
2023-05-13 15:33:12,744 - INFO - allennlp.common.params - model.initializer = <allennlp.nn.initializers.InitializerApplicator object at 0x7f571cca0250>
2023-05-13 15:33:12,745 - INFO - allennlp.common.params - model.target_tokenizer.type = pretrained_transformer
2023-05-13 15:33:12,745 - INFO - allennlp.common.params - model.target_tokenizer.model_name = microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltext
2023-05-13 15:33:12,745 - INFO - allennlp.common.params - model.target_tokenizer.add_special_tokens = False
2023-05-13 15:33:12,745 - INFO - allennlp.common.params - model.target_tokenizer.max_length = None
2023-05-13 15:33:12,745 - INFO - allennlp.common.params - model.target_tokenizer.tokenizer_kwargs.additional_special_tokens = ['@ARG@', '@TRIGGER@', '@OSP@', '@start@', '@end@', ';']
2023-05-13 15:33:12,745 - INFO - allennlp.common.params - model.target_tokenizer.tokenizer_kwargs.do_lower_case = True
2023-05-13 15:33:12,745 - INFO - allennlp.common.params - model.target_tokenizer.verification_tokens = None
2023-05-13 15:33:12,746 - INFO - allennlp.common.params - model.dropout = 0.1
2023-05-13 15:33:12,746 - INFO - allennlp.common.params - model.weight_dropout = 0.5
2023-05-13 15:33:12,747 - INFO - allennlp.common.params - model.sequence_based_metrics.0.type = f1_seq2rel
2023-05-13 15:33:12,747 - INFO - allennlp.common.params - model.sequence_based_metrics.0.labels = ['OSP']
2023-05-13 15:33:12,747 - INFO - allennlp.common.params - model.sequence_based_metrics.0.threshold = None
2023-05-13 15:33:12,747 - INFO - allennlp.common.params - model.sequence_based_metrics.0.ordered_ents = False
2023-05-13 15:33:12,747 - INFO - allennlp.common.params - model.sequence_based_metrics.0.remove_duplicate_ents = True
2023-05-13 15:33:12,747 - INFO - allennlp.common.params - model.sequence_based_metrics.0.average = micro
2023-05-13 15:33:12,747 - INFO - allennlp.common.params - model.init_decoder_state_strategy = mean
2023-05-13 15:33:12,748 - INFO - allennlp.common.params - model.attention.type = multihead_attention
2023-05-13 15:33:12,748 - INFO - allennlp.common.params - model.attention.normalize = True
2023-05-13 15:33:12,748 - INFO - allennlp.common.params - model.attention.num_heads = 6
2023-05-13 15:33:12,815 - INFO - allennlp.common.params - model.beam_search.type = beam_search
2023-05-13 15:33:12,815 - INFO - allennlp.common.params - model.beam_search.max_steps = 96
2023-05-13 15:33:12,815 - INFO - allennlp.common.params - model.beam_search.beam_size = 1
2023-05-13 15:33:12,815 - INFO - allennlp.common.params - model.beam_search.per_node_beam_size = None
2023-05-13 15:33:12,815 - INFO - allennlp.common.params - model.beam_search.sampler = None
2023-05-13 15:33:12,815 - INFO - allennlp.common.params - model.beam_search.min_steps = None
2023-05-13 15:33:12,816 - INFO - allennlp.common.params - model.beam_search.final_sequence_scorer.type = length-normalized-sequence-log-prob
2023-05-13 15:33:12,816 - INFO - allennlp.common.params - model.beam_search.final_sequence_scorer.length_penalty = 1
2023-05-13 15:33:12,816 - INFO - allennlp.common.params - model.beam_search.constraints = None
2023-05-13 15:33:12,816 - INFO - allennlp.nn.initializers - Initializing parameters
2023-05-13 15:33:12,817 - INFO - allennlp.nn.initializers - Done initializing parameters; the following parameters are using their default initialization from their code
2023-05-13 15:33:12,817 - INFO - allennlp.nn.initializers -    _attention._multihead_attn.in_proj_bias
2023-05-13 15:33:12,817 - INFO - allennlp.nn.initializers -    _attention._multihead_attn.in_proj_weight
2023-05-13 15:33:12,817 - INFO - allennlp.nn.initializers -    _attention._multihead_attn.out_proj.bias
2023-05-13 15:33:12,817 - INFO - allennlp.nn.initializers -    _attention._multihead_attn.out_proj.weight
2023-05-13 15:33:12,817 - INFO - allennlp.nn.initializers -    _decoder_cell.bias_hh
2023-05-13 15:33:12,817 - INFO - allennlp.nn.initializers -    _decoder_cell.bias_ih
2023-05-13 15:33:12,817 - INFO - allennlp.nn.initializers -    _decoder_cell.weight_hh
2023-05-13 15:33:12,817 - INFO - allennlp.nn.initializers -    _decoder_cell.weight_ih
2023-05-13 15:33:12,817 - INFO - allennlp.nn.initializers -    _input_projection_layer.bias
2023-05-13 15:33:12,817 - INFO - allennlp.nn.initializers -    _input_projection_layer.weight
2023-05-13 15:33:12,818 - INFO - allennlp.nn.initializers -    _output_copying_layer.bias
2023-05-13 15:33:12,818 - INFO - allennlp.nn.initializers -    _output_copying_layer.weight
2023-05-13 15:33:12,818 - INFO - allennlp.nn.initializers -    _output_generation_layer.bias
2023-05-13 15:33:12,818 - INFO - allennlp.nn.initializers -    _output_generation_layer.weight
2023-05-13 15:33:12,818 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.embeddings.LayerNorm.bias
2023-05-13 15:33:12,818 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.embeddings.LayerNorm.weight
2023-05-13 15:33:12,818 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.embeddings.position_embeddings.weight
2023-05-13 15:33:12,818 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.embeddings.token_type_embeddings.weight
2023-05-13 15:33:12,818 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.embeddings.word_embeddings.weight
2023-05-13 15:33:12,818 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.output.LayerNorm.bias
2023-05-13 15:33:12,818 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.output.LayerNorm.weight
2023-05-13 15:33:12,818 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.output.dense.bias
2023-05-13 15:33:12,818 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.output.dense.weight
2023-05-13 15:33:12,818 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.self.key.bias
2023-05-13 15:33:12,818 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.self.key.weight
2023-05-13 15:33:12,818 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.self.query.bias
2023-05-13 15:33:12,818 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.self.query.weight
2023-05-13 15:33:12,818 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.self.value.bias
2023-05-13 15:33:12,818 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.self.value.weight
2023-05-13 15:33:12,818 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.intermediate.dense.bias
2023-05-13 15:33:12,819 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.intermediate.dense.weight
2023-05-13 15:33:12,819 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.output.LayerNorm.bias
2023-05-13 15:33:12,819 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.output.LayerNorm.weight
2023-05-13 15:33:12,819 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.output.dense.bias
2023-05-13 15:33:12,819 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.output.dense.weight
2023-05-13 15:33:12,819 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.output.LayerNorm.bias
2023-05-13 15:33:12,819 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.output.LayerNorm.weight
2023-05-13 15:33:12,819 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.output.dense.bias
2023-05-13 15:33:12,819 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.output.dense.weight
2023-05-13 15:33:12,819 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.self.key.bias
2023-05-13 15:33:12,819 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.self.key.weight
2023-05-13 15:33:12,819 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.self.query.bias
2023-05-13 15:33:12,819 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.self.query.weight
2023-05-13 15:33:12,819 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.self.value.bias
2023-05-13 15:33:12,819 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.self.value.weight
2023-05-13 15:33:12,819 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.intermediate.dense.bias
2023-05-13 15:33:12,819 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.intermediate.dense.weight
2023-05-13 15:33:12,819 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.output.LayerNorm.bias
2023-05-13 15:33:12,819 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.output.LayerNorm.weight
2023-05-13 15:33:12,819 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.output.dense.bias
2023-05-13 15:33:12,819 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.output.dense.weight
2023-05-13 15:33:12,820 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.output.LayerNorm.bias
2023-05-13 15:33:12,820 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.output.LayerNorm.weight
2023-05-13 15:33:12,820 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.output.dense.bias
2023-05-13 15:33:12,820 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.output.dense.weight
2023-05-13 15:33:12,820 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.self.key.bias
2023-05-13 15:33:12,820 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.self.key.weight
2023-05-13 15:33:12,820 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.self.query.bias
2023-05-13 15:33:12,820 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.self.query.weight
2023-05-13 15:33:12,820 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.self.value.bias
2023-05-13 15:33:12,820 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.self.value.weight
2023-05-13 15:33:12,820 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.intermediate.dense.bias
2023-05-13 15:33:12,820 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.intermediate.dense.weight
2023-05-13 15:33:12,820 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.output.LayerNorm.bias
2023-05-13 15:33:12,820 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.output.LayerNorm.weight
2023-05-13 15:33:12,820 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.output.dense.bias
2023-05-13 15:33:12,821 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.output.dense.weight
2023-05-13 15:33:12,821 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.output.LayerNorm.bias
2023-05-13 15:33:12,821 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.output.LayerNorm.weight
2023-05-13 15:33:12,821 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.output.dense.bias
2023-05-13 15:33:12,821 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.output.dense.weight
2023-05-13 15:33:12,821 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.self.key.bias
2023-05-13 15:33:12,821 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.self.key.weight
2023-05-13 15:33:12,821 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.self.query.bias
2023-05-13 15:33:12,821 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.self.query.weight
2023-05-13 15:33:12,821 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.self.value.bias
2023-05-13 15:33:12,821 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.self.value.weight
2023-05-13 15:33:12,821 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.intermediate.dense.bias
2023-05-13 15:33:12,821 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.intermediate.dense.weight
2023-05-13 15:33:12,821 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.output.LayerNorm.bias
2023-05-13 15:33:12,821 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.output.LayerNorm.weight
2023-05-13 15:33:12,821 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.output.dense.bias
2023-05-13 15:33:12,821 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.output.dense.weight
2023-05-13 15:33:12,821 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.output.LayerNorm.bias
2023-05-13 15:33:12,821 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.output.LayerNorm.weight
2023-05-13 15:33:12,822 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.output.dense.bias
2023-05-13 15:33:12,822 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.output.dense.weight
2023-05-13 15:33:12,822 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.self.key.bias
2023-05-13 15:33:12,822 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.self.key.weight
2023-05-13 15:33:12,822 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.self.query.bias
2023-05-13 15:33:12,822 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.self.query.weight
2023-05-13 15:33:12,822 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.self.value.bias
2023-05-13 15:33:12,822 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.self.value.weight
2023-05-13 15:33:12,822 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.intermediate.dense.bias
2023-05-13 15:33:12,822 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.intermediate.dense.weight
2023-05-13 15:33:12,822 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.output.LayerNorm.bias
2023-05-13 15:33:12,822 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.output.LayerNorm.weight
2023-05-13 15:33:12,822 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.output.dense.bias
2023-05-13 15:33:12,822 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.output.dense.weight
2023-05-13 15:33:12,830 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.output.LayerNorm.bias
2023-05-13 15:33:12,830 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.output.LayerNorm.weight
2023-05-13 15:33:12,830 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.output.dense.bias
2023-05-13 15:33:12,830 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.output.dense.weight
2023-05-13 15:33:12,830 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.self.key.bias
2023-05-13 15:33:12,830 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.self.key.weight
2023-05-13 15:33:12,830 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.self.query.bias
2023-05-13 15:33:12,830 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.self.query.weight
2023-05-13 15:33:12,830 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.self.value.bias
2023-05-13 15:33:12,830 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.self.value.weight
2023-05-13 15:33:12,830 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.intermediate.dense.bias
2023-05-13 15:33:12,830 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.intermediate.dense.weight
2023-05-13 15:33:12,830 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.output.LayerNorm.bias
2023-05-13 15:33:12,831 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.output.LayerNorm.weight
2023-05-13 15:33:12,831 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.output.dense.bias
2023-05-13 15:33:12,831 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.output.dense.weight
2023-05-13 15:33:12,831 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.output.LayerNorm.bias
2023-05-13 15:33:12,831 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.output.LayerNorm.weight
2023-05-13 15:33:12,831 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.output.dense.bias
2023-05-13 15:33:12,831 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.output.dense.weight
2023-05-13 15:33:12,831 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.self.key.bias
2023-05-13 15:33:12,831 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.self.key.weight
2023-05-13 15:33:12,831 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.self.query.bias
2023-05-13 15:33:12,831 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.self.query.weight
2023-05-13 15:33:12,831 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.self.value.bias
2023-05-13 15:33:12,831 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.self.value.weight
2023-05-13 15:33:12,831 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.intermediate.dense.bias
2023-05-13 15:33:12,832 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.intermediate.dense.weight
2023-05-13 15:33:12,832 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.output.LayerNorm.bias
2023-05-13 15:33:12,832 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.output.LayerNorm.weight
2023-05-13 15:33:12,832 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.output.dense.bias
2023-05-13 15:33:12,832 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.output.dense.weight
2023-05-13 15:33:12,832 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.output.LayerNorm.bias
2023-05-13 15:33:12,832 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.output.LayerNorm.weight
2023-05-13 15:33:12,832 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.output.dense.bias
2023-05-13 15:33:12,832 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.output.dense.weight
2023-05-13 15:33:12,832 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.self.key.bias
2023-05-13 15:33:12,832 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.self.key.weight
2023-05-13 15:33:12,832 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.self.query.bias
2023-05-13 15:33:12,832 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.self.query.weight
2023-05-13 15:33:12,833 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.self.value.bias
2023-05-13 15:33:12,833 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.self.value.weight
2023-05-13 15:33:12,833 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.intermediate.dense.bias
2023-05-13 15:33:12,833 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.intermediate.dense.weight
2023-05-13 15:33:12,833 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.output.LayerNorm.bias
2023-05-13 15:33:12,833 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.output.LayerNorm.weight
2023-05-13 15:33:12,833 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.output.dense.bias
2023-05-13 15:33:12,833 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.output.dense.weight
2023-05-13 15:33:12,833 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.output.LayerNorm.bias
2023-05-13 15:33:12,833 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.output.LayerNorm.weight
2023-05-13 15:33:12,833 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.output.dense.bias
2023-05-13 15:33:12,833 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.output.dense.weight
2023-05-13 15:33:12,833 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.self.key.bias
2023-05-13 15:33:12,833 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.self.key.weight
2023-05-13 15:33:12,833 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.self.query.bias
2023-05-13 15:33:12,834 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.self.query.weight
2023-05-13 15:33:12,834 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.self.value.bias
2023-05-13 15:33:12,834 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.self.value.weight
2023-05-13 15:33:12,834 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.intermediate.dense.bias
2023-05-13 15:33:12,834 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.intermediate.dense.weight
2023-05-13 15:33:12,834 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.output.LayerNorm.bias
2023-05-13 15:33:12,834 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.output.LayerNorm.weight
2023-05-13 15:33:12,834 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.output.dense.bias
2023-05-13 15:33:12,834 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.output.dense.weight
2023-05-13 15:33:12,834 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.output.LayerNorm.bias
2023-05-13 15:33:12,834 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.output.LayerNorm.weight
2023-05-13 15:33:12,834 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.output.dense.bias
2023-05-13 15:33:12,834 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.output.dense.weight
2023-05-13 15:33:12,834 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.self.key.bias
2023-05-13 15:33:12,834 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.self.key.weight
2023-05-13 15:33:12,835 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.self.query.bias
2023-05-13 15:33:12,835 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.self.query.weight
2023-05-13 15:33:12,835 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.self.value.bias
2023-05-13 15:33:12,835 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.self.value.weight
2023-05-13 15:33:12,835 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.intermediate.dense.bias
2023-05-13 15:33:12,835 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.intermediate.dense.weight
2023-05-13 15:33:12,835 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.output.LayerNorm.bias
2023-05-13 15:33:12,835 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.output.LayerNorm.weight
2023-05-13 15:33:12,835 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.output.dense.bias
2023-05-13 15:33:12,835 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.output.dense.weight
2023-05-13 15:33:12,835 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.output.LayerNorm.bias
2023-05-13 15:33:12,835 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.output.LayerNorm.weight
2023-05-13 15:33:12,835 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.output.dense.bias
2023-05-13 15:33:12,835 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.output.dense.weight
2023-05-13 15:33:12,835 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.self.key.bias
2023-05-13 15:33:12,835 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.self.key.weight
2023-05-13 15:33:12,835 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.self.query.bias
2023-05-13 15:33:12,835 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.self.query.weight
2023-05-13 15:33:12,835 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.self.value.bias
2023-05-13 15:33:12,835 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.self.value.weight
2023-05-13 15:33:12,836 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.intermediate.dense.bias
2023-05-13 15:33:12,836 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.intermediate.dense.weight
2023-05-13 15:33:12,836 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.output.LayerNorm.bias
2023-05-13 15:33:12,836 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.output.LayerNorm.weight
2023-05-13 15:33:12,836 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.output.dense.bias
2023-05-13 15:33:12,836 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.output.dense.weight
2023-05-13 15:33:12,836 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.output.LayerNorm.bias
2023-05-13 15:33:12,836 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.output.LayerNorm.weight
2023-05-13 15:33:12,836 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.output.dense.bias
2023-05-13 15:33:12,836 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.output.dense.weight
2023-05-13 15:33:12,836 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.self.key.bias
2023-05-13 15:33:12,836 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.self.key.weight
2023-05-13 15:33:12,836 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.self.query.bias
2023-05-13 15:33:12,836 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.self.query.weight
2023-05-13 15:33:12,836 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.self.value.bias
2023-05-13 15:33:12,836 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.self.value.weight
2023-05-13 15:33:12,836 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.intermediate.dense.bias
2023-05-13 15:33:12,836 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.intermediate.dense.weight
2023-05-13 15:33:12,836 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.output.LayerNorm.bias
2023-05-13 15:33:12,836 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.output.LayerNorm.weight
2023-05-13 15:33:12,837 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.output.dense.bias
2023-05-13 15:33:12,837 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.output.dense.weight
2023-05-13 15:33:12,837 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.pooler.dense.bias
2023-05-13 15:33:12,837 - INFO - allennlp.nn.initializers -    _source_embedder.token_embedder_tokens.transformer_model.pooler.dense.weight
2023-05-13 15:33:12,837 - INFO - allennlp.nn.initializers -    _target_embedder.weight
2023-05-13 15:33:13,241 - INFO - allennlp.common.params - trainer.type = gradient_descent
2023-05-13 15:33:13,241 - INFO - allennlp.common.params - trainer.cuda_device = None
2023-05-13 15:33:13,241 - INFO - allennlp.common.params - trainer.distributed = False
2023-05-13 15:33:13,241 - INFO - allennlp.common.params - trainer.world_size = 1
2023-05-13 15:33:13,242 - INFO - allennlp.common.params - trainer.patience = None
2023-05-13 15:33:13,242 - INFO - allennlp.common.params - trainer.validation_metric = +fscore
2023-05-13 15:33:13,242 - INFO - allennlp.common.params - trainer.num_epochs = 25
2023-05-13 15:33:13,242 - INFO - allennlp.common.params - trainer.grad_norm = 1
2023-05-13 15:33:13,242 - INFO - allennlp.common.params - trainer.grad_clipping = None
2023-05-13 15:33:13,242 - INFO - allennlp.common.params - trainer.num_gradient_accumulation_steps = 1
2023-05-13 15:33:13,242 - INFO - allennlp.common.params - trainer.use_amp = True
2023-05-13 15:33:13,242 - INFO - allennlp.common.params - trainer.no_grad = None
2023-05-13 15:33:13,243 - INFO - allennlp.common.params - trainer.momentum_scheduler = None
2023-05-13 15:33:13,243 - INFO - allennlp.common.params - trainer.moving_average = None
2023-05-13 15:33:13,243 - INFO - allennlp.common.params - trainer.enable_default_callbacks = True
2023-05-13 15:33:13,243 - INFO - allennlp.common.params - trainer.run_confidence_checks = True
2023-05-13 15:33:13,243 - INFO - allennlp.common.params - trainer.grad_scaling = True
2023-05-13 15:33:16,509 - INFO - allennlp.common.params - trainer.optimizer.type = huggingface_adamw
2023-05-13 15:33:16,510 - INFO - allennlp.common.params - trainer.optimizer.lr = 0.0004
2023-05-13 15:33:16,510 - INFO - allennlp.common.params - trainer.optimizer.betas = (0.9, 0.999)
2023-05-13 15:33:16,510 - INFO - allennlp.common.params - trainer.optimizer.eps = 1e-08
2023-05-13 15:33:16,510 - INFO - allennlp.common.params - trainer.optimizer.weight_decay = 0
2023-05-13 15:33:16,510 - INFO - allennlp.common.params - trainer.optimizer.correct_bias = True
2023-05-13 15:33:16,511 - INFO - allennlp.training.optimizers - Done constructing parameter groups.
2023-05-13 15:33:16,511 - INFO - allennlp.training.optimizers - Group 0: ['_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.self.value.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.self.query.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.self.value.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.self.key.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.self.query.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.intermediate.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.self.key.weight', '_source_embedder.token_embedder_tokens.transformer_model.embeddings.word_embeddings.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.self.query.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.self.query.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.self.key.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.self.value.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.self.value.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.self.key.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.intermediate.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.self.query.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.self.query.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.self.query.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.self.value.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.self.query.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.intermediate.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.intermediate.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.self.query.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.self.key.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.intermediate.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.self.key.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.intermediate.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.intermediate.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.self.value.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.self.key.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.self.value.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.intermediate.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.self.query.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.self.key.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.self.value.weight', '_source_embedder.token_embedder_tokens.transformer_model.embeddings.token_type_embeddings.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.intermediate.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.self.value.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.self.value.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.self.key.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.self.key.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.self.key.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.intermediate.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.self.query.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.intermediate.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.pooler.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.self.value.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.self.key.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.intermediate.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.output.dense.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.self.query.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.self.value.weight', '_source_embedder.token_embedder_tokens.transformer_model.embeddings.position_embeddings.weight'], {'lr': 2e-05, 'weight_decay': 0.01}
2023-05-13 15:33:16,511 - INFO - allennlp.training.optimizers - Group 1: ['_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.self.query.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.self.query.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.intermediate.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.self.query.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.intermediate.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.pooler.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.intermediate.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.self.value.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.intermediate.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.self.query.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.self.query.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.self.value.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.self.key.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.self.value.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.self.key.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.self.key.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.self.query.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.intermediate.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.self.query.bias', '_source_embedder.token_embedder_tokens.transformer_model.embeddings.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.self.value.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.self.value.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.self.key.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.intermediate.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.self.key.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.self.query.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.self.value.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.intermediate.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.self.value.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.self.value.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.self.key.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.self.key.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.intermediate.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.self.query.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.self.value.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.self.key.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.self.key.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.self.query.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.intermediate.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.self.value.bias', '_source_embedder.token_embedder_tokens.transformer_model.embeddings.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.intermediate.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.intermediate.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.output.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.intermediate.dense.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.self.query.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.self.key.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.self.query.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.self.value.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.output.LayerNorm.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.self.value.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.self.key.bias', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.output.LayerNorm.weight', '_source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.self.key.bias'], {'lr': 2e-05, 'weight_decay': 0}
2023-05-13 15:33:16,548 - INFO - allennlp.training.optimizers - Group 2: ['_output_generation_layer.bias', '_attention._multihead_attn.out_proj.bias', '_decoder_cell.weight_hh_raw', '_output_copying_layer.bias', '_target_embedder.weight', '_input_projection_layer.weight', '_decoder_cell.module.bias_hh', '_attention._multihead_attn.in_proj_bias', '_output_generation_layer.weight', '_output_copying_layer.weight', '_decoder_cell.module.weight_ih', '_input_projection_layer.bias', '_attention._multihead_attn.out_proj.weight', '_decoder_cell.module.bias_ih', '_attention._multihead_attn.in_proj_weight'], {}
2023-05-13 15:33:16,548 - INFO - allennlp.training.optimizers - Number of trainable parameters: 118547721
2023-05-13 15:33:16,551 - INFO - allennlp.common.util - The following parameters are Frozen (without gradient):
2023-05-13 15:33:16,552 - INFO - allennlp.common.util - The following parameters are Tunable (with gradient):
2023-05-13 15:33:16,552 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.embeddings.word_embeddings.weight
2023-05-13 15:33:16,552 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.embeddings.position_embeddings.weight
2023-05-13 15:33:16,552 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.embeddings.token_type_embeddings.weight
2023-05-13 15:33:16,552 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.embeddings.LayerNorm.weight
2023-05-13 15:33:16,552 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.embeddings.LayerNorm.bias
2023-05-13 15:33:16,552 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.self.query.weight
2023-05-13 15:33:16,552 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.self.query.bias
2023-05-13 15:33:16,552 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.self.key.weight
2023-05-13 15:33:16,552 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.self.key.bias
2023-05-13 15:33:16,552 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.self.value.weight
2023-05-13 15:33:16,552 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.self.value.bias
2023-05-13 15:33:16,552 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.output.dense.weight
2023-05-13 15:33:16,553 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.output.dense.bias
2023-05-13 15:33:16,553 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.output.LayerNorm.weight
2023-05-13 15:33:16,553 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.attention.output.LayerNorm.bias
2023-05-13 15:33:16,553 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.intermediate.dense.weight
2023-05-13 15:33:16,553 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.intermediate.dense.bias
2023-05-13 15:33:16,553 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.output.dense.weight
2023-05-13 15:33:16,553 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.output.dense.bias
2023-05-13 15:33:16,553 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.output.LayerNorm.weight
2023-05-13 15:33:16,553 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.0.output.LayerNorm.bias
2023-05-13 15:33:16,553 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.self.query.weight
2023-05-13 15:33:16,553 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.self.query.bias
2023-05-13 15:33:16,553 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.self.key.weight
2023-05-13 15:33:16,553 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.self.key.bias
2023-05-13 15:33:16,553 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.self.value.weight
2023-05-13 15:33:16,553 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.self.value.bias
2023-05-13 15:33:16,554 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.output.dense.weight
2023-05-13 15:33:16,554 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.output.dense.bias
2023-05-13 15:33:16,554 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.output.LayerNorm.weight
2023-05-13 15:33:16,554 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.attention.output.LayerNorm.bias
2023-05-13 15:33:16,554 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.intermediate.dense.weight
2023-05-13 15:33:16,554 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.intermediate.dense.bias
2023-05-13 15:33:16,554 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.output.dense.weight
2023-05-13 15:33:16,554 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.output.dense.bias
2023-05-13 15:33:16,554 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.output.LayerNorm.weight
2023-05-13 15:33:16,554 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.1.output.LayerNorm.bias
2023-05-13 15:33:16,554 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.self.query.weight
2023-05-13 15:33:16,554 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.self.query.bias
2023-05-13 15:33:16,554 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.self.key.weight
2023-05-13 15:33:16,554 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.self.key.bias
2023-05-13 15:33:16,554 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.self.value.weight
2023-05-13 15:33:16,554 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.self.value.bias
2023-05-13 15:33:16,555 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.output.dense.weight
2023-05-13 15:33:16,555 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.output.dense.bias
2023-05-13 15:33:16,555 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.output.LayerNorm.weight
2023-05-13 15:33:16,555 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.attention.output.LayerNorm.bias
2023-05-13 15:33:16,555 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.intermediate.dense.weight
2023-05-13 15:33:16,555 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.intermediate.dense.bias
2023-05-13 15:33:16,555 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.output.dense.weight
2023-05-13 15:33:16,555 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.output.dense.bias
2023-05-13 15:33:16,555 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.output.LayerNorm.weight
2023-05-13 15:33:16,555 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.2.output.LayerNorm.bias
2023-05-13 15:33:16,555 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.self.query.weight
2023-05-13 15:33:16,555 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.self.query.bias
2023-05-13 15:33:16,555 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.self.key.weight
2023-05-13 15:33:16,555 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.self.key.bias
2023-05-13 15:33:16,555 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.self.value.weight
2023-05-13 15:33:16,555 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.self.value.bias
2023-05-13 15:33:16,555 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.output.dense.weight
2023-05-13 15:33:16,556 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.output.dense.bias
2023-05-13 15:33:16,556 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.output.LayerNorm.weight
2023-05-13 15:33:16,556 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.attention.output.LayerNorm.bias
2023-05-13 15:33:16,556 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.intermediate.dense.weight
2023-05-13 15:33:16,556 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.intermediate.dense.bias
2023-05-13 15:33:16,556 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.output.dense.weight
2023-05-13 15:33:16,556 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.output.dense.bias
2023-05-13 15:33:16,556 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.output.LayerNorm.weight
2023-05-13 15:33:16,556 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.3.output.LayerNorm.bias
2023-05-13 15:33:16,556 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.self.query.weight
2023-05-13 15:33:16,556 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.self.query.bias
2023-05-13 15:33:16,556 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.self.key.weight
2023-05-13 15:33:16,556 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.self.key.bias
2023-05-13 15:33:16,556 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.self.value.weight
2023-05-13 15:33:16,556 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.self.value.bias
2023-05-13 15:33:16,556 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.output.dense.weight
2023-05-13 15:33:16,557 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.output.dense.bias
2023-05-13 15:33:16,557 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.output.LayerNorm.weight
2023-05-13 15:33:16,557 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.attention.output.LayerNorm.bias
2023-05-13 15:33:16,557 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.intermediate.dense.weight
2023-05-13 15:33:16,557 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.intermediate.dense.bias
2023-05-13 15:33:16,557 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.output.dense.weight
2023-05-13 15:33:16,557 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.output.dense.bias
2023-05-13 15:33:16,557 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.output.LayerNorm.weight
2023-05-13 15:33:16,557 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.4.output.LayerNorm.bias
2023-05-13 15:33:16,557 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.self.query.weight
2023-05-13 15:33:16,557 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.self.query.bias
2023-05-13 15:33:16,557 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.self.key.weight
2023-05-13 15:33:16,557 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.self.key.bias
2023-05-13 15:33:16,557 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.self.value.weight
2023-05-13 15:33:16,557 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.self.value.bias
2023-05-13 15:33:16,557 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.output.dense.weight
2023-05-13 15:33:16,557 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.output.dense.bias
2023-05-13 15:33:16,558 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.output.LayerNorm.weight
2023-05-13 15:33:16,558 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.attention.output.LayerNorm.bias
2023-05-13 15:33:16,558 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.intermediate.dense.weight
2023-05-13 15:33:16,558 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.intermediate.dense.bias
2023-05-13 15:33:16,558 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.output.dense.weight
2023-05-13 15:33:16,558 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.output.dense.bias
2023-05-13 15:33:16,558 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.output.LayerNorm.weight
2023-05-13 15:33:16,558 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.5.output.LayerNorm.bias
2023-05-13 15:33:16,558 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.self.query.weight
2023-05-13 15:33:16,558 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.self.query.bias
2023-05-13 15:33:16,558 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.self.key.weight
2023-05-13 15:33:16,558 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.self.key.bias
2023-05-13 15:33:16,558 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.self.value.weight
2023-05-13 15:33:16,558 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.self.value.bias
2023-05-13 15:33:16,558 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.output.dense.weight
2023-05-13 15:33:16,558 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.output.dense.bias
2023-05-13 15:33:16,558 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.output.LayerNorm.weight
2023-05-13 15:33:16,559 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.attention.output.LayerNorm.bias
2023-05-13 15:33:16,559 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.intermediate.dense.weight
2023-05-13 15:33:16,559 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.intermediate.dense.bias
2023-05-13 15:33:16,559 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.output.dense.weight
2023-05-13 15:33:16,559 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.output.dense.bias
2023-05-13 15:33:16,559 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.output.LayerNorm.weight
2023-05-13 15:33:16,559 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.6.output.LayerNorm.bias
2023-05-13 15:33:16,559 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.self.query.weight
2023-05-13 15:33:16,650 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.self.query.bias
2023-05-13 15:33:16,650 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.self.key.weight
2023-05-13 15:33:16,650 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.self.key.bias
2023-05-13 15:33:16,650 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.self.value.weight
2023-05-13 15:33:16,651 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.self.value.bias
2023-05-13 15:33:16,651 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.output.dense.weight
2023-05-13 15:33:16,651 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.output.dense.bias
2023-05-13 15:33:16,651 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.output.LayerNorm.weight
2023-05-13 15:33:16,651 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.attention.output.LayerNorm.bias
2023-05-13 15:33:16,651 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.intermediate.dense.weight
2023-05-13 15:33:16,651 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.intermediate.dense.bias
2023-05-13 15:33:16,651 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.output.dense.weight
2023-05-13 15:33:16,651 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.output.dense.bias
2023-05-13 15:33:16,651 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.output.LayerNorm.weight
2023-05-13 15:33:16,651 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.7.output.LayerNorm.bias
2023-05-13 15:33:16,652 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.self.query.weight
2023-05-13 15:33:16,652 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.self.query.bias
2023-05-13 15:33:16,652 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.self.key.weight
2023-05-13 15:33:16,652 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.self.key.bias
2023-05-13 15:33:16,652 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.self.value.weight
2023-05-13 15:33:16,652 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.self.value.bias
2023-05-13 15:33:16,652 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.output.dense.weight
2023-05-13 15:33:16,652 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.output.dense.bias
2023-05-13 15:33:16,652 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.output.LayerNorm.weight
2023-05-13 15:33:16,652 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.attention.output.LayerNorm.bias
2023-05-13 15:33:16,652 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.intermediate.dense.weight
2023-05-13 15:33:16,653 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.intermediate.dense.bias
2023-05-13 15:33:16,653 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.output.dense.weight
2023-05-13 15:33:16,653 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.output.dense.bias
2023-05-13 15:33:16,653 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.output.LayerNorm.weight
2023-05-13 15:33:16,653 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.8.output.LayerNorm.bias
2023-05-13 15:33:16,653 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.self.query.weight
2023-05-13 15:33:16,653 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.self.query.bias
2023-05-13 15:33:16,653 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.self.key.weight
2023-05-13 15:33:16,653 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.self.key.bias
2023-05-13 15:33:16,653 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.self.value.weight
2023-05-13 15:33:16,653 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.self.value.bias
2023-05-13 15:33:16,653 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.output.dense.weight
2023-05-13 15:33:16,653 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.output.dense.bias
2023-05-13 15:33:16,654 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.output.LayerNorm.weight
2023-05-13 15:33:16,654 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.attention.output.LayerNorm.bias
2023-05-13 15:33:16,654 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.intermediate.dense.weight
2023-05-13 15:33:16,654 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.intermediate.dense.bias
2023-05-13 15:33:16,654 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.output.dense.weight
2023-05-13 15:33:16,654 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.output.dense.bias
2023-05-13 15:33:16,654 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.output.LayerNorm.weight
2023-05-13 15:33:16,654 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.9.output.LayerNorm.bias
2023-05-13 15:33:16,654 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.self.query.weight
2023-05-13 15:33:16,654 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.self.query.bias
2023-05-13 15:33:16,654 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.self.key.weight
2023-05-13 15:33:16,655 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.self.key.bias
2023-05-13 15:33:16,655 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.self.value.weight
2023-05-13 15:33:16,655 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.self.value.bias
2023-05-13 15:33:16,655 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.output.dense.weight
2023-05-13 15:33:16,655 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.output.dense.bias
2023-05-13 15:33:16,655 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.output.LayerNorm.weight
2023-05-13 15:33:16,655 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.attention.output.LayerNorm.bias
2023-05-13 15:33:16,655 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.intermediate.dense.weight
2023-05-13 15:33:16,655 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.intermediate.dense.bias
2023-05-13 15:33:16,655 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.output.dense.weight
2023-05-13 15:33:16,655 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.output.dense.bias
2023-05-13 15:33:16,655 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.output.LayerNorm.weight
2023-05-13 15:33:16,656 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.10.output.LayerNorm.bias
2023-05-13 15:33:16,656 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.self.query.weight
2023-05-13 15:33:16,656 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.self.query.bias
2023-05-13 15:33:16,656 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.self.key.weight
2023-05-13 15:33:16,656 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.self.key.bias
2023-05-13 15:33:16,656 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.self.value.weight
2023-05-13 15:33:16,656 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.self.value.bias
2023-05-13 15:33:16,656 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.output.dense.weight
2023-05-13 15:33:16,656 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.output.dense.bias
2023-05-13 15:33:16,656 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.output.LayerNorm.weight
2023-05-13 15:33:16,656 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.attention.output.LayerNorm.bias
2023-05-13 15:33:16,656 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.intermediate.dense.weight
2023-05-13 15:33:16,656 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.intermediate.dense.bias
2023-05-13 15:33:16,657 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.output.dense.weight
2023-05-13 15:33:16,657 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.output.dense.bias
2023-05-13 15:33:16,657 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.output.LayerNorm.weight
2023-05-13 15:33:16,657 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.encoder.layer.11.output.LayerNorm.bias
2023-05-13 15:33:16,657 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.pooler.dense.weight
2023-05-13 15:33:16,657 - INFO - allennlp.common.util - _source_embedder.token_embedder_tokens.transformer_model.pooler.dense.bias
2023-05-13 15:33:16,657 - INFO - allennlp.common.util - _target_embedder.weight
2023-05-13 15:33:16,657 - INFO - allennlp.common.util - _attention._multihead_attn.in_proj_weight
2023-05-13 15:33:16,657 - INFO - allennlp.common.util - _attention._multihead_attn.in_proj_bias
2023-05-13 15:33:16,657 - INFO - allennlp.common.util - _attention._multihead_attn.out_proj.weight
2023-05-13 15:33:16,657 - INFO - allennlp.common.util - _attention._multihead_attn.out_proj.bias
2023-05-13 15:33:16,657 - INFO - allennlp.common.util - _input_projection_layer.weight
2023-05-13 15:33:16,657 - INFO - allennlp.common.util - _input_projection_layer.bias
2023-05-13 15:33:16,657 - INFO - allennlp.common.util - _decoder_cell.weight_hh_raw
2023-05-13 15:33:16,657 - INFO - allennlp.common.util - _decoder_cell.module.weight_ih
2023-05-13 15:33:16,657 - INFO - allennlp.common.util - _decoder_cell.module.bias_ih
2023-05-13 15:33:16,657 - INFO - allennlp.common.util - _decoder_cell.module.bias_hh
2023-05-13 15:33:16,658 - INFO - allennlp.common.util - _output_generation_layer.weight
2023-05-13 15:33:16,658 - INFO - allennlp.common.util - _output_generation_layer.bias
2023-05-13 15:33:16,658 - INFO - allennlp.common.util - _output_copying_layer.weight
2023-05-13 15:33:16,658 - INFO - allennlp.common.util - _output_copying_layer.bias
2023-05-13 15:33:16,658 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.type = linear_with_warmup
2023-05-13 15:33:16,658 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.warmup_steps = 2906
2023-05-13 15:33:16,658 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.last_epoch = -1
2023-05-13 15:33:16,658 - INFO - allennlp.common.params - trainer.checkpointer.type = default
2023-05-13 15:33:16,659 - INFO - allennlp.common.params - trainer.checkpointer.save_completed_epochs = True
2023-05-13 15:33:16,659 - INFO - allennlp.common.params - trainer.checkpointer.save_every_num_seconds = None
2023-05-13 15:33:16,659 - INFO - allennlp.common.params - trainer.checkpointer.save_every_num_batches = None
2023-05-13 15:33:16,659 - INFO - allennlp.common.params - trainer.checkpointer.keep_most_recent_by_count = 1
2023-05-13 15:33:16,659 - INFO - allennlp.common.params - trainer.checkpointer.keep_most_recent_by_age = None
2023-05-13 15:33:16,659 - INFO - allennlp.common.params - trainer.callbacks.0.type = should_validate_callback
2023-05-13 15:33:16,659 - INFO - allennlp.common.params - trainer.callbacks.0.validation_start = 15
2023-05-13 15:33:16,660 - INFO - allennlp.common.params - trainer.callbacks.0.validation_interval = 1
2023-05-13 15:33:16,660 - WARNING - allennlp.training.gradient_descent_trainer - You provided a validation dataset but patience was set to None, meaning that early stopping is disabled
2023-05-13 15:33:16,661 - INFO - allennlp.training.gradient_descent_trainer - Beginning training.
2023-05-13 15:33:16,662 - INFO - allennlp.training.gradient_descent_trainer - Epoch 0/24
2023-05-13 15:33:16,662 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.3G
2023-05-13 15:33:16,662 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 453M
2023-05-13 15:33:16,663 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 15:33:16,663 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 15:33:16,783 - INFO - allennlp.training.callbacks.console_logger - Batch inputs
2023-05-13 15:33:16,784 - INFO - allennlp.training.callbacks.console_logger - batch_input/source_tokens/tokens/token_ids (Shape: 4 x 83)
tensor([[    2, 23253, 30522,  ...,    18,     3,     0],
        [    2, 13553,  2428,  ...,     0,     0,     0],
        [    2, 16672,  1025,  ...,     0,     0,     0],
        [    2,  5302,    17,  ..., 26979,    18,     3]], device='cuda:0')
2023-05-13 15:33:16,785 - INFO - allennlp.training.callbacks.console_logger - batch_input/source_tokens/tokens/mask (Shape: 4 x 83)
tensor([[ True,  True,  True,  ...,  True,  True, False],
        [ True,  True,  True,  ..., False, False, False],
        [ True,  True,  True,  ..., False, False, False],
        [ True,  True,  True,  ...,  True,  True,  True]], device='cuda:0')
2023-05-13 15:33:16,787 - INFO - allennlp.training.callbacks.console_logger - batch_input/source_tokens/tokens/type_ids (Shape: 4 x 83)
tensor([[0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0]], device='cuda:0')
2023-05-13 15:33:16,789 - INFO - allennlp.training.callbacks.console_logger - batch_input/source_to_target (Shape: 4 x 83)
tensor([[1, 1, 3,  ..., 1, 1, 0],
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 1, 1, 1]], device='cuda:0')
2023-05-13 15:33:16,790 - INFO - allennlp.training.callbacks.console_logger - batch_input/target_tokens/tokens/tokens (Shape: 4 x 2)
tensor([[2, 6],
        [2, 6],
        [2, 6],
        [2, 6]], device='cuda:0')
2023-05-13 15:33:16,791 - INFO - allennlp.training.callbacks.console_logger - batch_input/source_token_ids (Shape: 4 x 83)
tensor([[ 0,  1,  2,  ...,  6, 49,  0],
        [ 0,  1,  2,  ...,  0,  0,  0],
        [ 0,  1,  2,  ...,  0,  0,  0],
        [ 0,  1,  2,  ..., 57, 58, 59]], device='cuda:0')
2023-05-13 15:33:16,793 - INFO - allennlp.training.callbacks.console_logger - batch_input/target_token_ids (Shape: 4 x 2)
tensor([[50, 51],
        [39, 40],
        [49, 50],
        [60, 61]], device='cuda:0')
2023-05-13 15:33:16,794 - INFO - allennlp.training.callbacks.console_logger - Field : "batch_input/metadata" : (Length 4 of type "<class 'dict'>")
2023-05-13 15:33:26,761 - INFO - tqdm - batch_loss: 22.0751, loss: 13.0001 ||:   6%|5         | 64/1163 [00:10<03:36,  5.07it/s]
2023-05-13 15:33:36,821 - INFO - tqdm - batch_loss: 1.7625, loss: 11.5015 ||:  12%|#2        | 140/1163 [00:20<02:02,  8.35it/s]
2023-05-13 15:33:46,936 - INFO - tqdm - batch_loss: 8.3574, loss: 11.3590 ||:  17%|#7        | 201/1163 [00:30<02:18,  6.95it/s]
2023-05-13 15:33:57,017 - INFO - tqdm - batch_loss: 28.9927, loss: 10.0826 ||:  24%|##3       | 277/1163 [00:40<02:44,  5.38it/s]
2023-05-13 15:34:07,119 - INFO - tqdm - batch_loss: 9.8202, loss: 9.8024 ||:  29%|##9       | 340/1163 [00:50<02:01,  6.77it/s]
2023-05-13 15:34:17,238 - INFO - tqdm - batch_loss: 11.5271, loss: 9.1016 ||:  35%|###5      | 408/1163 [01:00<02:15,  5.58it/s]
2023-05-13 15:34:27,387 - INFO - tqdm - batch_loss: 7.2027, loss: 8.6231 ||:  41%|####1     | 480/1163 [01:10<01:28,  7.73it/s]
2023-05-13 15:34:37,404 - INFO - tqdm - batch_loss: 10.3921, loss: 8.1658 ||:  47%|####6     | 544/1163 [01:20<02:01,  5.10it/s]
2023-05-13 15:34:47,524 - INFO - tqdm - batch_loss: 2.4879, loss: 7.8877 ||:  53%|#####3    | 620/1163 [01:30<01:25,  6.32it/s]
2023-05-13 15:34:57,608 - INFO - tqdm - batch_loss: 0.0219, loss: 7.5193 ||:  59%|#####9    | 687/1163 [01:40<01:00,  7.81it/s]
2023-05-13 15:35:07,708 - INFO - tqdm - batch_loss: 1.8938, loss: 7.1715 ||:  66%|######5   | 762/1163 [01:51<01:05,  6.16it/s]
2023-05-13 15:35:17,805 - INFO - tqdm - batch_loss: 0.0029, loss: 6.9154 ||:  71%|#######1  | 830/1163 [02:01<00:38,  8.63it/s]
2023-05-13 15:35:27,904 - INFO - tqdm - batch_loss: 0.0070, loss: 6.7275 ||:  77%|#######7  | 896/1163 [02:11<00:41,  6.50it/s]
2023-05-13 15:35:37,987 - INFO - tqdm - batch_loss: 1.5801, loss: 6.3753 ||:  83%|########3 | 969/1163 [02:21<00:27,  7.07it/s]
2023-05-13 15:35:48,133 - INFO - tqdm - batch_loss: 0.8383, loss: 6.1441 ||:  89%|########9 | 1036/1163 [02:31<00:19,  6.60it/s]
2023-05-13 15:35:58,316 - INFO - tqdm - batch_loss: 1.5910, loss: 5.8352 ||:  96%|#########6| 1117/1163 [02:41<00:06,  6.68it/s]
2023-05-13 15:36:05,705 - INFO - tqdm - batch_loss: 2.2784, loss: 5.7149 ||: 100%|#########9| 1158/1163 [02:49<00:00,  5.30it/s]
2023-05-13 15:36:05,844 - INFO - tqdm - batch_loss: 3.6173, loss: 5.7131 ||: 100%|#########9| 1159/1163 [02:49<00:00,  5.75it/s]
2023-05-13 15:36:06,018 - INFO - tqdm - batch_loss: 3.0704, loss: 5.7108 ||: 100%|#########9| 1160/1163 [02:49<00:00,  5.76it/s]
2023-05-13 15:36:06,252 - INFO - tqdm - batch_loss: 6.7589, loss: 5.7117 ||: 100%|#########9| 1161/1163 [02:49<00:00,  5.21it/s]
2023-05-13 15:36:06,518 - INFO - tqdm - batch_loss: 2.4498, loss: 5.7040 ||: 100%|##########| 1163/1163 [02:49<00:00,  6.08it/s]
2023-05-13 15:36:06,519 - INFO - tqdm - batch_loss: 2.4498, loss: 5.7040 ||: 100%|##########| 1163/1163 [02:49<00:00,  6.85it/s]
2023-05-13 15:36:06,521 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 15:36:06,521 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |   453.306  |       N/A
2023-05-13 15:36:06,521 - INFO - allennlp.training.callbacks.console_logger - loss               |     5.704  |       N/A
2023-05-13 15:36:06,521 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4427.691  |       N/A
2023-05-13 15:36:11,824 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:02:55.162598
2023-05-13 15:36:11,825 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 1:07:56
2023-05-13 15:36:11,825 - INFO - allennlp.training.gradient_descent_trainer - Epoch 1/24
2023-05-13 15:36:11,825 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 15:36:11,826 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 15:36:11,829 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 15:36:11,829 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 15:36:21,927 - INFO - tqdm - batch_loss: 3.1022, loss: 1.9278 ||:   6%|5         | 68/1163 [00:10<03:59,  4.57it/s]
2023-05-13 15:36:31,985 - INFO - tqdm - batch_loss: 3.9886, loss: 2.0158 ||:  12%|#1        | 139/1163 [00:20<02:29,  6.87it/s]
2023-05-13 15:36:42,044 - INFO - tqdm - batch_loss: 2.8147, loss: 1.8155 ||:  17%|#7        | 203/1163 [00:30<02:16,  7.06it/s]
2023-05-13 15:36:52,083 - INFO - tqdm - batch_loss: 1.2734, loss: 1.9126 ||:  24%|##3       | 276/1163 [00:40<02:24,  6.15it/s]
2023-05-13 15:37:02,117 - INFO - tqdm - batch_loss: 0.0053, loss: 2.0287 ||:  29%|##9       | 341/1163 [00:50<01:43,  7.98it/s]
2023-05-13 15:37:12,117 - INFO - tqdm - batch_loss: 2.5151, loss: 1.9266 ||:  35%|###5      | 409/1163 [01:00<02:28,  5.06it/s]
2023-05-13 15:37:22,247 - INFO - tqdm - batch_loss: 2.7551, loss: 1.9363 ||:  41%|####1     | 478/1163 [01:10<01:20,  8.52it/s]
2023-05-13 15:37:32,792 - INFO - tqdm - batch_loss: 0.5965, loss: 1.9136 ||:  46%|####6     | 539/1163 [01:20<03:42,  2.80it/s]
2023-05-13 15:37:42,872 - INFO - tqdm - batch_loss: 2.1789, loss: 1.8849 ||:  52%|#####2    | 610/1163 [01:31<01:11,  7.70it/s]
2023-05-13 15:37:53,022 - INFO - tqdm - batch_loss: 1.6421, loss: 1.8488 ||:  58%|#####8    | 677/1163 [01:41<01:00,  8.03it/s]
2023-05-13 15:38:03,125 - INFO - tqdm - batch_loss: 3.7823, loss: 1.7822 ||:  65%|######4   | 755/1163 [01:51<01:05,  6.20it/s]
2023-05-13 15:38:13,217 - INFO - tqdm - batch_loss: 0.0020, loss: 1.7548 ||:  71%|#######   | 820/1163 [02:01<00:39,  8.75it/s]
2023-05-13 15:38:23,275 - INFO - tqdm - batch_loss: 2.2008, loss: 1.7355 ||:  77%|#######6  | 891/1163 [02:11<00:38,  7.06it/s]
2023-05-13 15:38:33,368 - INFO - tqdm - batch_loss: 0.5050, loss: 1.7332 ||:  83%|########2 | 963/1163 [02:21<00:24,  8.11it/s]
2023-05-13 15:38:43,469 - INFO - tqdm - batch_loss: 1.1960, loss: 1.6841 ||:  89%|########8 | 1030/1163 [02:31<00:22,  5.91it/s]
2023-05-13 15:38:53,502 - INFO - tqdm - batch_loss: 1.3306, loss: 1.6633 ||:  95%|#########5| 1106/1163 [02:41<00:08,  6.90it/s]
2023-05-13 15:39:02,812 - INFO - tqdm - batch_loss: 1.6812, loss: 1.6570 ||: 100%|#########9| 1158/1163 [02:50<00:00,  5.64it/s]
2023-05-13 15:39:02,912 - INFO - tqdm - batch_loss: 0.3756, loss: 1.6559 ||: 100%|#########9| 1159/1163 [02:51<00:00,  6.37it/s]
2023-05-13 15:39:03,020 - INFO - tqdm - batch_loss: 0.0042, loss: 1.6544 ||: 100%|#########9| 1160/1163 [02:51<00:00,  6.95it/s]
2023-05-13 15:39:03,146 - INFO - tqdm - batch_loss: 0.1927, loss: 1.6532 ||: 100%|#########9| 1161/1163 [02:51<00:00,  7.21it/s]
2023-05-13 15:39:03,368 - INFO - tqdm - batch_loss: 0.8270, loss: 1.6511 ||: 100%|##########| 1163/1163 [02:51<00:00,  7.91it/s]
2023-05-13 15:39:03,370 - INFO - tqdm - batch_loss: 0.8270, loss: 1.6511 ||: 100%|##########| 1163/1163 [02:51<00:00,  6.78it/s]
2023-05-13 15:39:03,372 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 15:39:03,372 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2972.189  |       N/A
2023-05-13 15:39:03,372 - INFO - allennlp.training.callbacks.console_logger - loss               |     1.651  |       N/A
2023-05-13 15:39:03,372 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4512.148  |       N/A
2023-05-13 15:39:08,959 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:02:57.133503
2023-05-13 15:39:08,959 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 1:06:27
2023-05-13 15:39:08,959 - INFO - allennlp.training.gradient_descent_trainer - Epoch 2/24
2023-05-13 15:39:08,959 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 15:39:08,959 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 15:39:08,961 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 15:39:08,961 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 15:39:18,971 - INFO - tqdm - batch_loss: 0.0020, loss: 0.9638 ||:   6%|5         | 67/1163 [00:10<02:47,  6.54it/s]
2023-05-13 15:39:28,995 - INFO - tqdm - batch_loss: 0.0026, loss: 0.8696 ||:  13%|#2        | 146/1163 [00:20<01:50,  9.21it/s]
2023-05-13 15:39:39,105 - INFO - tqdm - batch_loss: 0.0228, loss: 0.8725 ||:  18%|#8        | 211/1163 [00:30<01:52,  8.46it/s]
2023-05-13 15:39:49,149 - INFO - tqdm - batch_loss: 0.5112, loss: 0.8596 ||:  24%|##4       | 280/1163 [00:40<02:34,  5.72it/s]
2023-05-13 15:39:59,304 - INFO - tqdm - batch_loss: 4.0485, loss: 0.9190 ||:  30%|##9       | 344/1163 [00:50<01:58,  6.93it/s]
2023-05-13 15:40:09,355 - INFO - tqdm - batch_loss: 0.0131, loss: 0.8956 ||:  36%|###6      | 420/1163 [01:00<02:05,  5.93it/s]
2023-05-13 15:40:19,565 - INFO - tqdm - batch_loss: 3.8358, loss: 0.9005 ||:  42%|####2     | 492/1163 [01:10<01:29,  7.50it/s]
2023-05-13 15:40:29,741 - INFO - tqdm - batch_loss: 2.0694, loss: 0.9236 ||:  48%|####7     | 556/1163 [01:20<01:48,  5.60it/s]
2023-05-13 15:40:39,867 - INFO - tqdm - batch_loss: 0.0614, loss: 0.9419 ||:  54%|#####3    | 628/1163 [01:30<01:26,  6.17it/s]
2023-05-13 15:40:49,930 - INFO - tqdm - batch_loss: 0.5679, loss: 0.9414 ||:  59%|#####8    | 685/1163 [01:40<00:55,  8.54it/s]
2023-05-13 15:40:59,940 - INFO - tqdm - batch_loss: 0.3709, loss: 0.9530 ||:  66%|######5   | 762/1163 [01:50<01:08,  5.88it/s]
2023-05-13 15:41:09,947 - INFO - tqdm - batch_loss: 1.7134, loss: 0.9445 ||:  71%|#######   | 824/1163 [02:00<00:47,  7.15it/s]
2023-05-13 15:41:20,041 - INFO - tqdm - batch_loss: 0.0033, loss: 0.9258 ||:  77%|#######7  | 896/1163 [02:11<00:36,  7.39it/s]
2023-05-13 15:41:30,051 - INFO - tqdm - batch_loss: 0.0887, loss: 0.9268 ||:  83%|########2 | 965/1163 [02:21<00:23,  8.33it/s]
2023-05-13 15:41:40,113 - INFO - tqdm - batch_loss: 0.0039, loss: 0.9172 ||:  89%|########8 | 1035/1163 [02:31<00:19,  6.64it/s]
2023-05-13 15:41:50,198 - INFO - tqdm - batch_loss: 0.0069, loss: 0.9062 ||:  95%|#########5| 1109/1163 [02:41<00:06,  8.01it/s]
2023-05-13 15:41:58,974 - INFO - tqdm - batch_loss: 2.8006, loss: 0.8927 ||: 100%|#########9| 1158/1163 [02:50<00:00,  5.44it/s]
2023-05-13 15:41:59,171 - INFO - tqdm - batch_loss: 3.1582, loss: 0.8946 ||: 100%|#########9| 1159/1163 [02:50<00:00,  5.33it/s]
2023-05-13 15:41:59,314 - INFO - tqdm - batch_loss: 1.3047, loss: 0.8950 ||: 100%|#########9| 1160/1163 [02:50<00:00,  5.74it/s]
2023-05-13 15:41:59,532 - INFO - tqdm - batch_loss: 2.9583, loss: 0.8967 ||: 100%|#########9| 1161/1163 [02:50<00:00,  5.33it/s]
2023-05-13 15:41:59,673 - INFO - tqdm - batch_loss: 2.1014, loss: 0.8978 ||: 100%|#########9| 1162/1163 [02:50<00:00,  5.76it/s]
2023-05-13 15:41:59,851 - INFO - tqdm - batch_loss: 0.9919, loss: 0.8979 ||: 100%|##########| 1163/1163 [02:50<00:00,  5.72it/s]
2023-05-13 15:41:59,852 - INFO - tqdm - batch_loss: 0.9919, loss: 0.8979 ||: 100%|##########| 1163/1163 [02:50<00:00,  6.81it/s]
2023-05-13 15:41:59,854 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 15:41:59,854 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2981.632  |       N/A
2023-05-13 15:41:59,854 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.898  |       N/A
2023-05-13 15:41:59,854 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4520.766  |       N/A
2023-05-13 15:42:09,694 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:03:00.734998
2023-05-13 15:42:09,694 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 1:03:56
2023-05-13 15:42:09,694 - INFO - allennlp.training.gradient_descent_trainer - Epoch 3/24
2023-05-13 15:42:09,695 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 15:42:09,695 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 15:42:09,696 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 15:42:09,697 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 15:42:19,707 - INFO - tqdm - batch_loss: 0.1321, loss: 0.8518 ||:   5%|5         | 60/1163 [00:10<02:07,  8.64it/s]
2023-05-13 15:42:29,915 - INFO - tqdm - batch_loss: 0.0099, loss: 0.7577 ||:  11%|#1        | 131/1163 [00:20<03:18,  5.19it/s]
2023-05-13 15:42:40,103 - INFO - tqdm - batch_loss: 1.2177, loss: 0.8163 ||:  17%|#7        | 201/1163 [00:30<01:55,  8.30it/s]
2023-05-13 15:42:50,154 - INFO - tqdm - batch_loss: 1.4085, loss: 0.7834 ||:  23%|##3       | 269/1163 [00:40<02:50,  5.24it/s]
2023-05-13 15:43:00,167 - INFO - tqdm - batch_loss: 0.0064, loss: 0.8225 ||:  29%|##9       | 340/1163 [00:50<01:53,  7.22it/s]
2023-05-13 15:43:10,207 - INFO - tqdm - batch_loss: 0.0007, loss: 0.8205 ||:  35%|###4      | 403/1163 [01:00<01:54,  6.63it/s]
2023-05-13 15:43:20,280 - INFO - tqdm - batch_loss: 0.6622, loss: 0.7835 ||:  41%|####1     | 480/1163 [01:10<01:42,  6.66it/s]
2023-05-13 15:43:30,392 - INFO - tqdm - batch_loss: 0.9375, loss: 0.7658 ||:  47%|####6     | 546/1163 [01:20<01:32,  6.70it/s]
2023-05-13 15:43:40,452 - INFO - tqdm - batch_loss: 0.0024, loss: 0.7747 ||:  53%|#####3    | 621/1163 [01:30<01:21,  6.67it/s]
2023-05-13 15:43:50,650 - INFO - tqdm - batch_loss: 7.5373, loss: 0.8327 ||:  58%|#####8    | 675/1163 [01:40<02:08,  3.80it/s]
2023-05-13 15:44:00,703 - INFO - tqdm - batch_loss: 1.9389, loss: 0.8549 ||:  63%|######2   | 729/1163 [01:51<00:57,  7.55it/s]
2023-05-13 15:44:10,737 - INFO - tqdm - batch_loss: 0.0432, loss: 0.8849 ||:  67%|######7   | 785/1163 [02:01<00:53,  7.09it/s]
2023-05-13 15:44:20,873 - INFO - tqdm - batch_loss: 0.1694, loss: 0.8780 ||:  73%|#######2  | 844/1163 [02:11<01:03,  5.03it/s]
2023-05-13 15:44:30,946 - INFO - tqdm - batch_loss: 0.0016, loss: 0.8702 ||:  79%|#######8  | 918/1163 [02:21<00:28,  8.69it/s]
2023-05-13 15:44:41,079 - INFO - tqdm - batch_loss: 0.0059, loss: 0.8428 ||:  84%|########4 | 981/1163 [02:31<00:22,  8.05it/s]
2023-05-13 15:44:51,202 - INFO - tqdm - batch_loss: 1.9624, loss: 0.8394 ||:  91%|######### | 1053/1163 [02:41<00:19,  5.61it/s]
2023-05-13 15:45:01,348 - INFO - tqdm - batch_loss: 0.2098, loss: 0.8274 ||:  96%|#########6| 1120/1163 [02:51<00:06,  6.99it/s]
2023-05-13 15:45:06,268 - INFO - tqdm - batch_loss: 0.0022, loss: 0.8217 ||: 100%|#########9| 1158/1163 [02:56<00:00,  8.77it/s]
2023-05-13 15:45:06,480 - INFO - tqdm - batch_loss: 0.0004, loss: 0.8203 ||: 100%|#########9| 1160/1163 [02:56<00:00,  9.02it/s]
2023-05-13 15:45:06,673 - INFO - tqdm - batch_loss: 0.0028, loss: 0.8196 ||: 100%|#########9| 1161/1163 [02:56<00:00,  7.76it/s]
2023-05-13 15:45:06,780 - INFO - tqdm - batch_loss: 0.7839, loss: 0.8196 ||: 100%|#########9| 1162/1163 [02:57<00:00,  8.09it/s]
2023-05-13 15:45:06,952 - INFO - tqdm - batch_loss: 0.0108, loss: 0.8189 ||: 100%|##########| 1163/1163 [02:57<00:00,  7.36it/s]
2023-05-13 15:45:06,954 - INFO - tqdm - batch_loss: 0.0108, loss: 0.8189 ||: 100%|##########| 1163/1163 [02:57<00:00,  6.56it/s]
2023-05-13 15:45:06,957 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 15:45:06,957 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2960.472  |       N/A
2023-05-13 15:45:06,957 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.819  |       N/A
2023-05-13 15:45:06,957 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4521.004  |       N/A
2023-05-13 15:45:12,903 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:03:03.208645
2023-05-13 15:45:12,904 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 1:02:09
2023-05-13 15:45:12,904 - INFO - allennlp.training.gradient_descent_trainer - Epoch 4/24
2023-05-13 15:45:12,904 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 15:45:12,905 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 15:45:12,906 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 15:45:12,906 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 15:45:23,047 - INFO - tqdm - batch_loss: 0.0007, loss: 0.5548 ||:   6%|6         | 73/1163 [00:10<02:05,  8.72it/s]
2023-05-13 15:45:33,103 - INFO - tqdm - batch_loss: 0.0010, loss: 0.6308 ||:  12%|#1        | 137/1163 [00:20<02:02,  8.34it/s]
2023-05-13 15:45:43,215 - INFO - tqdm - batch_loss: 1.5309, loss: 0.6118 ||:  18%|#8        | 211/1163 [00:30<02:12,  7.20it/s]
2023-05-13 15:45:53,362 - INFO - tqdm - batch_loss: 0.0074, loss: 0.5664 ||:  23%|##3       | 273/1163 [00:40<02:26,  6.08it/s]
2023-05-13 15:46:03,457 - INFO - tqdm - batch_loss: 0.0002, loss: 0.5693 ||:  30%|##9       | 345/1163 [00:50<01:56,  7.05it/s]
2023-05-13 15:46:13,560 - INFO - tqdm - batch_loss: 0.0071, loss: 0.5809 ||:  36%|###5      | 414/1163 [01:00<01:44,  7.20it/s]
2023-05-13 15:46:23,642 - INFO - tqdm - batch_loss: 0.0012, loss: 0.6165 ||:  41%|####1     | 479/1163 [01:10<01:52,  6.08it/s]
2023-05-13 15:46:33,782 - INFO - tqdm - batch_loss: 0.0074, loss: 0.6431 ||:  48%|####7     | 553/1163 [01:20<01:15,  8.07it/s]
2023-05-13 15:46:43,901 - INFO - tqdm - batch_loss: 0.0009, loss: 0.6505 ||:  53%|#####2    | 614/1163 [01:30<01:06,  8.23it/s]
2023-05-13 15:46:54,081 - INFO - tqdm - batch_loss: 2.1600, loss: 0.6307 ||:  60%|#####9    | 694/1163 [01:41<01:29,  5.23it/s]
2023-05-13 15:47:04,267 - INFO - tqdm - batch_loss: 0.0001, loss: 0.6158 ||:  65%|######5   | 761/1163 [01:51<00:43,  9.27it/s]
2023-05-13 15:47:14,310 - INFO - tqdm - batch_loss: 0.0009, loss: 0.6149 ||:  72%|#######1  | 832/1163 [02:01<00:49,  6.64it/s]
2023-05-13 15:47:24,349 - INFO - tqdm - batch_loss: 1.7165, loss: 0.6514 ||:  77%|#######6  | 895/1163 [02:11<00:39,  6.76it/s]
2023-05-13 15:47:34,374 - INFO - tqdm - batch_loss: 1.2323, loss: 0.6400 ||:  83%|########3 | 967/1163 [02:21<00:38,  5.10it/s]
2023-05-13 15:47:44,395 - INFO - tqdm - batch_loss: 0.9610, loss: 0.6428 ||:  89%|########9 | 1040/1163 [02:31<00:15,  7.84it/s]
2023-05-13 15:47:54,485 - INFO - tqdm - batch_loss: 1.0679, loss: 0.6326 ||:  95%|#########5| 1105/1163 [02:41<00:08,  7.02it/s]
2023-05-13 15:48:01,760 - INFO - tqdm - batch_loss: 3.1928, loss: 0.6294 ||: 100%|#########9| 1158/1163 [02:48<00:00,  7.48it/s]
2023-05-13 15:48:02,000 - INFO - tqdm - batch_loss: 0.0008, loss: 0.6283 ||: 100%|#########9| 1160/1163 [02:49<00:00,  7.78it/s]
2023-05-13 15:48:02,200 - INFO - tqdm - batch_loss: 0.0026, loss: 0.6272 ||: 100%|#########9| 1162/1163 [02:49<00:00,  8.43it/s]
2023-05-13 15:48:02,330 - INFO - tqdm - batch_loss: 1.3183, loss: 0.6278 ||: 100%|##########| 1163/1163 [02:49<00:00,  8.27it/s]
2023-05-13 15:48:02,331 - INFO - tqdm - batch_loss: 1.3183, loss: 0.6278 ||: 100%|##########| 1163/1163 [02:49<00:00,  6.86it/s]
2023-05-13 15:48:02,333 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 15:48:02,333 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2935.544  |       N/A
2023-05-13 15:48:02,333 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.628  |       N/A
2023-05-13 15:48:02,333 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4521.004  |       N/A
2023-05-13 15:48:08,030 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:02:55.126089
2023-05-13 15:48:08,030 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:59:02
2023-05-13 15:48:08,030 - INFO - allennlp.training.gradient_descent_trainer - Epoch 5/24
2023-05-13 15:48:08,030 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 15:48:08,031 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 15:48:08,032 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 15:48:08,033 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 15:48:18,160 - INFO - tqdm - batch_loss: 0.0001, loss: 0.7271 ||:   6%|6         | 72/1163 [00:10<02:16,  7.97it/s]
2023-05-13 15:48:28,391 - INFO - tqdm - batch_loss: 0.0028, loss: 0.6748 ||:  12%|#2        | 140/1163 [00:20<03:35,  4.75it/s]
2023-05-13 15:48:38,466 - INFO - tqdm - batch_loss: 0.0519, loss: 0.7680 ||:  19%|#8        | 216/1163 [00:30<02:06,  7.49it/s]
2023-05-13 15:48:48,512 - INFO - tqdm - batch_loss: 1.5679, loss: 0.6851 ||:  24%|##4       | 280/1163 [00:40<01:57,  7.53it/s]
2023-05-13 15:48:58,559 - INFO - tqdm - batch_loss: 0.0131, loss: 0.6697 ||:  31%|###       | 357/1163 [00:50<02:05,  6.43it/s]
2023-05-13 15:49:08,721 - INFO - tqdm - batch_loss: 0.0003, loss: 0.6302 ||:  37%|###6      | 426/1163 [01:00<01:48,  6.81it/s]
2023-05-13 15:49:18,881 - INFO - tqdm - batch_loss: 1.0566, loss: 0.6580 ||:  42%|####2     | 491/1163 [01:10<02:08,  5.23it/s]
2023-05-13 15:49:29,067 - INFO - tqdm - batch_loss: 0.0016, loss: 0.6630 ||:  48%|####8     | 559/1163 [01:21<01:09,  8.73it/s]
2023-05-13 15:49:39,171 - INFO - tqdm - batch_loss: 0.2029, loss: 0.6347 ||:  53%|#####3    | 622/1163 [01:31<01:38,  5.51it/s]
2023-05-13 15:49:49,211 - INFO - tqdm - batch_loss: 0.0018, loss: 0.6467 ||:  60%|######    | 698/1163 [01:41<01:05,  7.10it/s]
2023-05-13 15:49:59,421 - INFO - tqdm - batch_loss: 0.0008, loss: 0.6476 ||:  65%|######5   | 759/1163 [01:51<00:48,  8.26it/s]
2023-05-13 15:50:09,438 - INFO - tqdm - batch_loss: 0.7330, loss: 0.6190 ||:  72%|#######1  | 833/1163 [02:01<00:59,  5.57it/s]
2023-05-13 15:50:19,676 - INFO - tqdm - batch_loss: 0.0019, loss: 0.6030 ||:  77%|#######7  | 900/1163 [02:11<00:34,  7.56it/s]
2023-05-13 15:50:29,800 - INFO - tqdm - batch_loss: 0.0004, loss: 0.5872 ||:  83%|########3 | 966/1163 [02:21<00:33,  5.85it/s]
2023-05-13 15:50:39,945 - INFO - tqdm - batch_loss: 1.4379, loss: 0.5834 ||:  89%|########9 | 1040/1163 [02:31<00:17,  7.04it/s]
2023-05-13 15:50:49,960 - INFO - tqdm - batch_loss: 0.3236, loss: 0.5911 ||:  95%|#########5| 1105/1163 [02:41<00:10,  5.77it/s]
2023-05-13 15:50:57,210 - INFO - tqdm - batch_loss: 0.0233, loss: 0.5959 ||: 100%|#########9| 1158/1163 [02:49<00:00,  6.49it/s]
2023-05-13 15:50:57,388 - INFO - tqdm - batch_loss: 1.2748, loss: 0.5965 ||: 100%|#########9| 1159/1163 [02:49<00:00,  6.21it/s]
2023-05-13 15:50:57,493 - INFO - tqdm - batch_loss: 0.0014, loss: 0.5960 ||: 100%|#########9| 1160/1163 [02:49<00:00,  6.91it/s]
2023-05-13 15:50:57,609 - INFO - tqdm - batch_loss: 0.0001, loss: 0.5955 ||: 100%|#########9| 1161/1163 [02:49<00:00,  7.34it/s]
2023-05-13 15:50:57,739 - INFO - tqdm - batch_loss: 0.0160, loss: 0.5950 ||: 100%|#########9| 1162/1163 [02:49<00:00,  7.44it/s]
2023-05-13 15:50:57,842 - INFO - tqdm - batch_loss: 0.0001, loss: 0.5945 ||: 100%|##########| 1163/1163 [02:49<00:00,  8.00it/s]
2023-05-13 15:50:57,843 - INFO - tqdm - batch_loss: 0.0001, loss: 0.5945 ||: 100%|##########| 1163/1163 [02:49<00:00,  6.85it/s]
2023-05-13 15:50:57,844 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 15:50:57,844 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2934.998  |       N/A
2023-05-13 15:50:57,844 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.594  |       N/A
2023-05-13 15:50:57,844 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4521.004  |       N/A
2023-05-13 15:51:03,609 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:02:55.578941
2023-05-13 15:51:03,610 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:56:00
2023-05-13 15:51:03,610 - INFO - allennlp.training.gradient_descent_trainer - Epoch 6/24
2023-05-13 15:51:03,610 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 15:51:03,611 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 15:51:03,612 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 15:51:03,613 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 15:51:13,643 - INFO - tqdm - batch_loss: 1.7388, loss: 0.4483 ||:   6%|5         | 67/1163 [00:10<02:40,  6.85it/s]
2023-05-13 15:51:23,757 - INFO - tqdm - batch_loss: 1.7117, loss: 0.6091 ||:  12%|#1        | 136/1163 [00:20<03:01,  5.67it/s]
2023-05-13 15:51:33,954 - INFO - tqdm - batch_loss: 0.0032, loss: 0.5447 ||:  18%|#7        | 208/1163 [00:30<01:58,  8.07it/s]
2023-05-13 15:51:44,069 - INFO - tqdm - batch_loss: 0.0013, loss: 0.5508 ||:  23%|##3       | 269/1163 [00:40<02:12,  6.74it/s]
2023-05-13 15:51:54,086 - INFO - tqdm - batch_loss: 0.0021, loss: 0.5191 ||:  30%|##9       | 344/1163 [00:50<02:20,  5.85it/s]
2023-05-13 15:52:04,228 - INFO - tqdm - batch_loss: 1.3746, loss: 0.5569 ||:  35%|###5      | 409/1163 [01:00<01:48,  6.92it/s]
2023-05-13 15:52:14,275 - INFO - tqdm - batch_loss: 0.0004, loss: 0.5285 ||:  41%|####1     | 479/1163 [01:10<02:24,  4.74it/s]
2023-05-13 15:52:24,338 - INFO - tqdm - batch_loss: 0.0025, loss: 0.5593 ||:  47%|####7     | 549/1163 [01:20<01:23,  7.39it/s]
2023-05-13 15:52:34,401 - INFO - tqdm - batch_loss: 1.4059, loss: 0.5484 ||:  53%|#####2    | 614/1163 [01:30<02:00,  4.57it/s]
2023-05-13 15:52:44,499 - INFO - tqdm - batch_loss: 0.0000, loss: 0.5341 ||:  59%|#####9    | 689/1163 [01:40<00:55,  8.56it/s]
2023-05-13 15:52:54,528 - INFO - tqdm - batch_loss: 0.0006, loss: 0.5468 ||:  65%|######4   | 751/1163 [01:50<01:03,  6.47it/s]
2023-05-13 15:53:04,593 - INFO - tqdm - batch_loss: 0.0041, loss: 0.5594 ||:  71%|#######   | 825/1163 [02:00<00:52,  6.38it/s]
2023-05-13 15:53:14,607 - INFO - tqdm - batch_loss: 0.0007, loss: 0.5706 ||:  76%|#######6  | 886/1163 [02:10<00:32,  8.56it/s]
2023-05-13 15:53:24,647 - INFO - tqdm - batch_loss: 0.0001, loss: 0.5520 ||:  83%|########2 | 962/1163 [02:21<00:35,  5.68it/s]
2023-05-13 15:53:34,743 - INFO - tqdm - batch_loss: 1.6315, loss: 0.5401 ||:  89%|########8 | 1030/1163 [02:31<00:17,  7.56it/s]
2023-05-13 15:53:44,828 - INFO - tqdm - batch_loss: 6.3714, loss: 0.5514 ||:  94%|#########4| 1097/1163 [02:41<00:16,  4.10it/s]
2023-05-13 15:53:53,570 - INFO - tqdm - batch_loss: 0.0000, loss: 0.5627 ||: 100%|#########9| 1158/1163 [02:49<00:00,  7.58it/s]
2023-05-13 15:53:53,796 - INFO - tqdm - batch_loss: 0.0001, loss: 0.5618 ||: 100%|#########9| 1160/1163 [02:50<00:00,  8.03it/s]
2023-05-13 15:53:53,984 - INFO - tqdm - batch_loss: 0.0004, loss: 0.5608 ||: 100%|#########9| 1162/1163 [02:50<00:00,  8.80it/s]
2023-05-13 15:53:54,083 - INFO - tqdm - batch_loss: 0.0051, loss: 0.5603 ||: 100%|##########| 1163/1163 [02:50<00:00,  6.82it/s]
2023-05-13 15:53:54,084 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 15:53:54,084 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2935.544  |       N/A
2023-05-13 15:53:54,084 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.560  |       N/A
2023-05-13 15:53:54,084 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4521.004  |       N/A
2023-05-13 15:54:01,822 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:02:58.212220
2023-05-13 15:54:01,822 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:53:01
2023-05-13 15:54:01,823 - INFO - allennlp.training.gradient_descent_trainer - Epoch 7/24
2023-05-13 15:54:01,823 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 15:54:01,823 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 15:54:01,825 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 15:54:01,825 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 15:54:11,903 - INFO - tqdm - batch_loss: 1.2019, loss: 0.3721 ||:   6%|6         | 74/1163 [00:10<02:34,  7.04it/s]
2023-05-13 15:54:21,941 - INFO - tqdm - batch_loss: 0.0001, loss: 0.5702 ||:  12%|#1        | 136/1163 [00:20<02:56,  5.82it/s]
2023-05-13 15:54:32,028 - INFO - tqdm - batch_loss: 2.3881, loss: 0.6989 ||:  18%|#7        | 205/1163 [00:30<03:18,  4.82it/s]
2023-05-13 15:54:42,075 - INFO - tqdm - batch_loss: 0.0025, loss: 0.6953 ||:  23%|##3       | 269/1163 [00:40<01:57,  7.59it/s]
2023-05-13 15:54:52,232 - INFO - tqdm - batch_loss: 0.0002, loss: 0.6319 ||:  29%|##9       | 341/1163 [00:50<03:00,  4.56it/s]
2023-05-13 15:55:02,308 - INFO - tqdm - batch_loss: 0.0062, loss: 0.6513 ||:  35%|###4      | 407/1163 [01:00<02:02,  6.15it/s]
2023-05-13 15:55:12,377 - INFO - tqdm - batch_loss: 0.0027, loss: 0.6308 ||:  41%|####      | 473/1163 [01:10<01:46,  6.48it/s]
2023-05-13 15:55:22,609 - INFO - tqdm - batch_loss: 0.0024, loss: 0.6152 ||:  47%|####7     | 547/1163 [01:20<01:23,  7.38it/s]
2023-05-13 15:55:32,751 - INFO - tqdm - batch_loss: 0.0002, loss: 0.5959 ||:  53%|#####2    | 613/1163 [01:30<01:14,  7.34it/s]
2023-05-13 15:55:42,869 - INFO - tqdm - batch_loss: 0.0005, loss: 0.5768 ||:  59%|#####9    | 691/1163 [01:41<01:13,  6.43it/s]
2023-05-13 15:55:52,963 - INFO - tqdm - batch_loss: 0.0008, loss: 0.5970 ||:  65%|######4   | 752/1163 [01:51<00:50,  8.22it/s]
2023-05-13 15:56:03,146 - INFO - tqdm - batch_loss: 2.3033, loss: 0.5900 ||:  70%|#######   | 818/1163 [02:01<01:11,  4.85it/s]
2023-05-13 15:56:13,182 - INFO - tqdm - batch_loss: 0.0002, loss: 0.5649 ||:  77%|#######6  | 890/1163 [02:11<00:32,  8.50it/s]
2023-05-13 15:56:23,202 - INFO - tqdm - batch_loss: 0.0008, loss: 0.5669 ||:  83%|########2 | 960/1163 [02:21<00:41,  4.91it/s]
2023-05-13 15:56:33,361 - INFO - tqdm - batch_loss: 1.9409, loss: 0.5561 ||:  89%|########8 | 1034/1163 [02:31<00:16,  7.73it/s]
2023-05-13 15:56:43,417 - INFO - tqdm - batch_loss: 0.6550, loss: 0.5436 ||:  94%|#########4| 1094/1163 [02:41<00:08,  8.03it/s]
2023-05-13 15:56:51,687 - INFO - tqdm - batch_loss: 0.0020, loss: 0.5399 ||: 100%|#########9| 1158/1163 [02:49<00:00,  7.18it/s]
2023-05-13 15:56:51,857 - INFO - tqdm - batch_loss: 0.0003, loss: 0.5394 ||: 100%|#########9| 1159/1163 [02:50<00:00,  6.75it/s]
2023-05-13 15:56:51,999 - INFO - tqdm - batch_loss: 0.0001, loss: 0.5390 ||: 100%|#########9| 1160/1163 [02:50<00:00,  6.83it/s]
2023-05-13 15:56:52,272 - INFO - tqdm - batch_loss: 0.0018, loss: 0.5383 ||: 100%|#########9| 1162/1163 [02:50<00:00,  7.05it/s]
2023-05-13 15:56:52,367 - INFO - tqdm - batch_loss: 1.1968, loss: 0.5388 ||: 100%|##########| 1163/1163 [02:50<00:00,  6.82it/s]
2023-05-13 15:56:52,368 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 15:56:52,368 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2934.998  |       N/A
2023-05-13 15:56:52,368 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.539  |       N/A
2023-05-13 15:56:52,369 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4521.004  |       N/A
2023-05-13 15:57:02,820 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:03:00.997079
2023-05-13 15:57:02,820 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:50:08
2023-05-13 15:57:02,820 - INFO - allennlp.training.gradient_descent_trainer - Epoch 8/24
2023-05-13 15:57:02,820 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 15:57:02,821 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 15:57:02,822 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 15:57:02,822 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 15:57:12,855 - INFO - tqdm - batch_loss: 0.1027, loss: 0.6887 ||:   6%|5         | 68/1163 [00:10<02:58,  6.14it/s]
2023-05-13 15:57:22,883 - INFO - tqdm - batch_loss: 1.9845, loss: 0.6276 ||:  12%|#1        | 136/1163 [00:20<02:14,  7.62it/s]
2023-05-13 15:57:33,016 - INFO - tqdm - batch_loss: 0.0000, loss: 0.4995 ||:  17%|#7        | 203/1163 [00:30<02:52,  5.58it/s]
2023-05-13 15:57:43,159 - INFO - tqdm - batch_loss: 0.0000, loss: 0.4736 ||:  24%|##3       | 275/1163 [00:40<02:09,  6.88it/s]
2023-05-13 15:57:53,323 - INFO - tqdm - batch_loss: 0.1735, loss: 0.4528 ||:  29%|##9       | 339/1163 [00:50<01:59,  6.88it/s]
2023-05-13 15:58:03,462 - INFO - tqdm - batch_loss: 0.0000, loss: 0.4489 ||:  36%|###5      | 413/1163 [01:00<01:55,  6.47it/s]
2023-05-13 15:58:13,584 - INFO - tqdm - batch_loss: 0.0000, loss: 0.4201 ||:  41%|####1     | 480/1163 [01:10<01:22,  8.30it/s]
2023-05-13 15:58:23,716 - INFO - tqdm - batch_loss: 0.0016, loss: 0.4203 ||:  47%|####7     | 549/1163 [01:20<02:12,  4.64it/s]
2023-05-13 15:58:33,769 - INFO - tqdm - batch_loss: 0.0405, loss: 0.4151 ||:  53%|#####3    | 619/1163 [01:30<01:20,  6.74it/s]
2023-05-13 15:58:43,918 - INFO - tqdm - batch_loss: 1.0922, loss: 0.4000 ||:  59%|#####9    | 689/1163 [01:41<01:16,  6.19it/s]
2023-05-13 15:58:54,097 - INFO - tqdm - batch_loss: 0.0010, loss: 0.3906 ||:  66%|######5   | 766/1163 [01:51<00:50,  7.88it/s]
2023-05-13 15:59:04,182 - INFO - tqdm - batch_loss: 0.0010, loss: 0.3880 ||:  71%|#######1  | 830/1163 [02:01<00:54,  6.13it/s]
2023-05-13 15:59:14,191 - INFO - tqdm - batch_loss: 8.1618, loss: 0.4068 ||:  78%|#######7  | 903/1163 [02:11<00:45,  5.68it/s]
2023-05-13 15:59:24,352 - INFO - tqdm - batch_loss: 0.0006, loss: 0.4172 ||:  83%|########3 | 966/1163 [02:21<00:25,  7.58it/s]
2023-05-13 15:59:34,367 - INFO - tqdm - batch_loss: 0.0001, loss: 0.4116 ||:  89%|########9 | 1038/1163 [02:31<00:15,  7.86it/s]
2023-05-13 15:59:44,540 - INFO - tqdm - batch_loss: 2.1485, loss: 0.4315 ||:  95%|#########5| 1107/1163 [02:41<00:08,  6.83it/s]
2023-05-13 15:59:51,984 - INFO - tqdm - batch_loss: 0.0000, loss: 0.4333 ||: 100%|#########9| 1158/1163 [02:49<00:00,  5.78it/s]
2023-05-13 15:59:52,214 - INFO - tqdm - batch_loss: 0.0069, loss: 0.4329 ||: 100%|#########9| 1159/1163 [02:49<00:00,  5.26it/s]
2023-05-13 15:59:52,326 - INFO - tqdm - batch_loss: 0.0004, loss: 0.4326 ||: 100%|#########9| 1160/1163 [02:49<00:00,  6.00it/s]
2023-05-13 15:59:52,533 - INFO - tqdm - batch_loss: 0.0000, loss: 0.4322 ||: 100%|#########9| 1161/1163 [02:49<00:00,  5.59it/s]
2023-05-13 15:59:52,651 - INFO - tqdm - batch_loss: 2.2003, loss: 0.4337 ||: 100%|#########9| 1162/1163 [02:49<00:00,  6.23it/s]
2023-05-13 15:59:52,841 - INFO - tqdm - batch_loss: 0.0000, loss: 0.4333 ||: 100%|##########| 1163/1163 [02:50<00:00,  5.90it/s]
2023-05-13 15:59:52,843 - INFO - tqdm - batch_loss: 0.0000, loss: 0.4333 ||: 100%|##########| 1163/1163 [02:50<00:00,  6.84it/s]
2023-05-13 15:59:52,845 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 15:59:52,845 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  3001.037  |       N/A
2023-05-13 15:59:52,845 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.433  |       N/A
2023-05-13 15:59:52,845 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4521.004  |       N/A
2023-05-13 16:00:03,290 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:03:00.470288
2023-05-13 16:00:03,291 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:47:17
2023-05-13 16:00:03,291 - INFO - allennlp.training.gradient_descent_trainer - Epoch 9/24
2023-05-13 16:00:03,291 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 16:00:03,291 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 16:00:03,293 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 16:00:03,293 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 16:00:13,369 - INFO - tqdm - batch_loss: 0.0055, loss: 0.6884 ||:   5%|5         | 63/1163 [00:10<03:32,  5.17it/s]
2023-05-13 16:00:23,383 - INFO - tqdm - batch_loss: 0.0001, loss: 0.6140 ||:  12%|#1        | 138/1163 [00:20<02:18,  7.43it/s]
2023-05-13 16:00:33,428 - INFO - tqdm - batch_loss: 0.0003, loss: 0.5652 ||:  17%|#7        | 201/1163 [00:30<02:11,  7.31it/s]
2023-05-13 16:00:43,503 - INFO - tqdm - batch_loss: 0.0065, loss: 0.4630 ||:  23%|##3       | 273/1163 [00:40<02:36,  5.69it/s]
2023-05-13 16:00:53,585 - INFO - tqdm - batch_loss: 0.2724, loss: 0.4683 ||:  29%|##8       | 337/1163 [00:50<01:51,  7.38it/s]
2023-05-13 16:01:03,644 - INFO - tqdm - batch_loss: 0.0000, loss: 0.4572 ||:  35%|###4      | 406/1163 [01:00<02:00,  6.29it/s]
2023-05-13 16:01:13,753 - INFO - tqdm - batch_loss: 0.0001, loss: 0.4654 ||:  41%|####      | 474/1163 [01:10<01:24,  8.13it/s]
2023-05-13 16:01:23,805 - INFO - tqdm - batch_loss: 0.2441, loss: 0.4388 ||:  46%|####6     | 539/1163 [01:20<02:03,  5.04it/s]
2023-05-13 16:01:34,094 - INFO - tqdm - batch_loss: 24.6751, loss: 0.4852 ||:  53%|#####2    | 612/1163 [01:30<01:38,  5.60it/s]
2023-05-13 16:01:44,210 - INFO - tqdm - batch_loss: 0.0001, loss: 0.4554 ||:  58%|#####8    | 678/1163 [01:40<01:02,  7.74it/s]
2023-05-13 16:01:54,249 - INFO - tqdm - batch_loss: 0.0009, loss: 0.4693 ||:  65%|######4   | 755/1163 [01:50<01:04,  6.37it/s]
2023-05-13 16:02:04,271 - INFO - tqdm - batch_loss: 3.7973, loss: 0.4722 ||:  70%|#######   | 816/1163 [02:00<00:51,  6.70it/s]
2023-05-13 16:02:14,476 - INFO - tqdm - batch_loss: 0.0068, loss: 0.4500 ||:  77%|#######6  | 890/1163 [02:11<00:54,  5.00it/s]
2023-05-13 16:02:24,539 - INFO - tqdm - batch_loss: 0.0009, loss: 0.4401 ||:  83%|########2 | 960/1163 [02:21<00:23,  8.54it/s]
2023-05-13 16:02:34,676 - INFO - tqdm - batch_loss: 0.0003, loss: 0.4367 ||:  88%|########8 | 1026/1163 [02:31<00:24,  5.70it/s]
2023-05-13 16:02:44,793 - INFO - tqdm - batch_loss: 1.7678, loss: 0.4235 ||:  95%|#########4| 1103/1163 [02:41<00:07,  8.14it/s]
2023-05-13 16:02:54,475 - INFO - tqdm - batch_loss: 1.7925, loss: 0.4252 ||: 100%|#########9| 1159/1163 [02:51<00:00,  7.57it/s]
2023-05-13 16:02:54,580 - INFO - tqdm - batch_loss: 0.0000, loss: 0.4248 ||: 100%|#########9| 1160/1163 [02:51<00:00,  7.97it/s]
2023-05-13 16:02:54,797 - INFO - tqdm - batch_loss: 2.7110, loss: 0.4264 ||: 100%|#########9| 1162/1163 [02:51<00:00,  8.43it/s]
2023-05-13 16:02:54,959 - INFO - tqdm - batch_loss: 0.0006, loss: 0.4260 ||: 100%|##########| 1163/1163 [02:51<00:00,  7.78it/s]
2023-05-13 16:02:54,961 - INFO - tqdm - batch_loss: 0.0006, loss: 0.4260 ||: 100%|##########| 1163/1163 [02:51<00:00,  6.77it/s]
2023-05-13 16:02:54,963 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 16:02:54,963 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2968.007  |       N/A
2023-05-13 16:02:54,963 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.426  |       N/A
2023-05-13 16:02:54,963 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4521.004  |       N/A
2023-05-13 16:03:07,542 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:03:04.251681
2023-05-13 16:03:07,543 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:44:27
2023-05-13 16:03:07,543 - INFO - allennlp.training.gradient_descent_trainer - Epoch 10/24
2023-05-13 16:03:07,543 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 16:03:07,548 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 16:03:07,549 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 16:03:07,549 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 16:03:17,699 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2338 ||:   6%|5         | 67/1163 [00:10<03:02,  6.01it/s]
2023-05-13 16:03:27,919 - INFO - tqdm - batch_loss: 0.0005, loss: 0.2412 ||:  11%|#         | 126/1163 [00:20<03:15,  5.31it/s]
2023-05-13 16:03:38,013 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1988 ||:  18%|#7        | 206/1163 [00:30<02:01,  7.88it/s]
2023-05-13 16:03:48,102 - INFO - tqdm - batch_loss: 0.0002, loss: 0.2550 ||:  23%|##2       | 265/1163 [00:40<01:54,  7.84it/s]
2023-05-13 16:03:58,163 - INFO - tqdm - batch_loss: 0.0010, loss: 0.2544 ||:  29%|##8       | 337/1163 [00:50<02:06,  6.52it/s]
2023-05-13 16:04:08,236 - INFO - tqdm - batch_loss: 0.0006, loss: 0.2859 ||:  34%|###4      | 401/1163 [01:00<01:35,  7.96it/s]
2023-05-13 16:04:18,292 - INFO - tqdm - batch_loss: 0.0007, loss: 0.2876 ||:  40%|####      | 466/1163 [01:10<01:36,  7.22it/s]
2023-05-13 16:04:28,335 - INFO - tqdm - batch_loss: 0.7189, loss: 0.2897 ||:  47%|####6     | 541/1163 [01:20<01:30,  6.90it/s]
2023-05-13 16:04:38,398 - INFO - tqdm - batch_loss: 7.6967, loss: 0.3028 ||:  52%|#####2    | 606/1163 [01:30<01:49,  5.08it/s]
2023-05-13 16:04:48,488 - INFO - tqdm - batch_loss: 0.0001, loss: 0.3158 ||:  59%|#####8    | 682/1163 [01:40<01:03,  7.57it/s]
2023-05-13 16:04:58,643 - INFO - tqdm - batch_loss: 0.6838, loss: 0.3267 ||:  65%|######4   | 752/1163 [01:51<00:53,  7.64it/s]
2023-05-13 16:05:08,754 - INFO - tqdm - batch_loss: 0.0004, loss: 0.3143 ||:  71%|#######   | 823/1163 [02:01<00:53,  6.31it/s]
2023-05-13 16:05:18,951 - INFO - tqdm - batch_loss: 0.0000, loss: 0.3064 ||:  77%|#######6  | 890/1163 [02:11<00:33,  8.06it/s]
2023-05-13 16:05:29,068 - INFO - tqdm - batch_loss: 0.3256, loss: 0.3049 ||:  83%|########2 | 960/1163 [02:21<00:41,  4.94it/s]
2023-05-13 16:05:39,151 - INFO - tqdm - batch_loss: 1.1842, loss: 0.3222 ||:  89%|########8 | 1034/1163 [02:31<00:17,  7.44it/s]
2023-05-13 16:05:49,216 - INFO - tqdm - batch_loss: 1.0719, loss: 0.3313 ||:  94%|#########4| 1095/1163 [02:41<00:12,  5.29it/s]
2023-05-13 16:05:57,829 - INFO - tqdm - batch_loss: 1.3395, loss: 0.3246 ||: 100%|#########9| 1158/1163 [02:50<00:00,  6.94it/s]
2023-05-13 16:05:57,948 - INFO - tqdm - batch_loss: 0.2997, loss: 0.3246 ||: 100%|#########9| 1159/1163 [02:50<00:00,  7.23it/s]
2023-05-13 16:05:58,135 - INFO - tqdm - batch_loss: 0.0001, loss: 0.3240 ||: 100%|#########9| 1161/1163 [02:50<00:00,  8.29it/s]
2023-05-13 16:05:58,360 - INFO - tqdm - batch_loss: 0.0370, loss: 0.3235 ||: 100%|##########| 1163/1163 [02:50<00:00,  8.49it/s]
2023-05-13 16:05:58,362 - INFO - tqdm - batch_loss: 0.0370, loss: 0.3235 ||: 100%|##########| 1163/1163 [02:50<00:00,  6.81it/s]
2023-05-13 16:05:58,363 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 16:05:58,364 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2938.032  |       N/A
2023-05-13 16:05:58,364 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.324  |       N/A
2023-05-13 16:05:58,364 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4521.004  |       N/A
2023-05-13 16:06:09,908 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:03:02.364773
2023-05-13 16:06:09,908 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:41:36
2023-05-13 16:06:09,908 - INFO - allennlp.training.gradient_descent_trainer - Epoch 11/24
2023-05-13 16:06:09,908 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 16:06:09,909 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 16:06:09,910 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 16:06:09,910 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 16:06:19,925 - INFO - tqdm - batch_loss: 0.0001, loss: 0.6903 ||:   6%|6         | 70/1163 [00:10<02:58,  6.12it/s]
2023-05-13 16:06:29,983 - INFO - tqdm - batch_loss: 0.1486, loss: 0.5818 ||:  12%|#1        | 139/1163 [00:20<02:16,  7.50it/s]
2023-05-13 16:06:40,178 - INFO - tqdm - batch_loss: 0.0005, loss: 0.4726 ||:  17%|#7        | 202/1163 [00:30<03:36,  4.44it/s]
2023-05-13 16:06:50,355 - INFO - tqdm - batch_loss: 1.7188, loss: 0.3929 ||:  24%|##3       | 278/1163 [00:40<02:00,  7.35it/s]
2023-05-13 16:07:00,489 - INFO - tqdm - batch_loss: 0.0005, loss: 0.3744 ||:  29%|##9       | 340/1163 [00:50<01:56,  7.04it/s]
2023-05-13 16:07:10,636 - INFO - tqdm - batch_loss: 1.5825, loss: 0.3845 ||:  36%|###5      | 413/1163 [01:00<02:10,  5.74it/s]
2023-05-13 16:07:20,817 - INFO - tqdm - batch_loss: 3.5484, loss: 0.3665 ||:  41%|####1     | 479/1163 [01:10<01:43,  6.64it/s]
2023-05-13 16:07:30,866 - INFO - tqdm - batch_loss: 0.0021, loss: 0.3863 ||:  47%|####7     | 547/1163 [01:20<01:42,  6.01it/s]
2023-05-13 16:07:41,113 - INFO - tqdm - batch_loss: 0.0016, loss: 0.3873 ||:  53%|#####3    | 620/1163 [01:31<01:05,  8.24it/s]
2023-05-13 16:07:51,198 - INFO - tqdm - batch_loss: 0.0020, loss: 0.3672 ||:  59%|#####8    | 684/1163 [01:41<01:08,  7.02it/s]
2023-05-13 16:08:01,268 - INFO - tqdm - batch_loss: 0.0000, loss: 0.3819 ||:  65%|######5   | 761/1163 [01:51<00:52,  7.69it/s]
2023-05-13 16:08:11,326 - INFO - tqdm - batch_loss: 0.0002, loss: 0.4024 ||:  71%|#######   | 825/1163 [02:01<00:44,  7.52it/s]
2023-05-13 16:08:21,364 - INFO - tqdm - batch_loss: 0.0000, loss: 0.4020 ||:  77%|#######7  | 896/1163 [02:11<00:46,  5.78it/s]
2023-05-13 16:08:31,417 - INFO - tqdm - batch_loss: 0.0125, loss: 0.3933 ||:  83%|########2 | 965/1163 [02:21<00:26,  7.58it/s]
2023-05-13 16:08:41,447 - INFO - tqdm - batch_loss: 0.0005, loss: 0.3872 ||:  88%|########8 | 1029/1163 [02:31<00:21,  6.36it/s]
2023-05-13 16:08:51,504 - INFO - tqdm - batch_loss: 0.0009, loss: 0.3861 ||:  95%|#########5| 1106/1163 [02:41<00:06,  8.97it/s]
2023-05-13 16:08:59,723 - INFO - tqdm - batch_loss: 1.6099, loss: 0.3823 ||: 100%|#########9| 1158/1163 [02:49<00:00,  8.01it/s]
2023-05-13 16:08:59,826 - INFO - tqdm - batch_loss: 0.0000, loss: 0.3820 ||: 100%|#########9| 1159/1163 [02:49<00:00,  8.33it/s]
2023-05-13 16:09:00,100 - INFO - tqdm - batch_loss: 0.0001, loss: 0.3813 ||: 100%|#########9| 1161/1163 [02:50<00:00,  7.90it/s]
2023-05-13 16:09:00,240 - INFO - tqdm - batch_loss: 0.8730, loss: 0.3817 ||: 100%|#########9| 1162/1163 [02:50<00:00,  7.74it/s]
2023-05-13 16:09:00,367 - INFO - tqdm - batch_loss: 0.0004, loss: 0.3814 ||: 100%|##########| 1163/1163 [02:50<00:00,  7.76it/s]
2023-05-13 16:09:00,369 - INFO - tqdm - batch_loss: 0.0004, loss: 0.3814 ||: 100%|##########| 1163/1163 [02:50<00:00,  6.82it/s]
2023-05-13 16:09:00,371 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 16:09:00,371 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2934.998  |       N/A
2023-05-13 16:09:00,371 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.381  |       N/A
2023-05-13 16:09:00,371 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4521.004  |       N/A
2023-05-13 16:09:05,954 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:02:56.045346
2023-05-13 16:09:05,954 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:38:42
2023-05-13 16:09:05,954 - INFO - allennlp.training.gradient_descent_trainer - Epoch 12/24
2023-05-13 16:09:05,954 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 16:09:05,954 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 16:09:05,956 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 16:09:05,956 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 16:09:16,072 - INFO - tqdm - batch_loss: 0.0027, loss: 0.3461 ||:   6%|5         | 65/1163 [00:10<02:38,  6.92it/s]
2023-05-13 16:09:26,139 - INFO - tqdm - batch_loss: 0.0013, loss: 0.3808 ||:  12%|#2        | 140/1163 [00:20<02:30,  6.79it/s]
2023-05-13 16:09:36,255 - INFO - tqdm - batch_loss: 0.0013, loss: 0.3614 ||:  18%|#7        | 204/1163 [00:30<02:02,  7.85it/s]
2023-05-13 16:09:46,300 - INFO - tqdm - batch_loss: 0.0000, loss: 0.3293 ||:  23%|##3       | 272/1163 [00:40<02:15,  6.55it/s]
2023-05-13 16:09:56,424 - INFO - tqdm - batch_loss: 0.0008, loss: 0.3344 ||:  30%|##9       | 347/1163 [00:50<01:38,  8.25it/s]
2023-05-13 16:10:06,552 - INFO - tqdm - batch_loss: 0.0001, loss: 0.3372 ||:  35%|###5      | 411/1163 [01:00<01:34,  7.96it/s]
2023-05-13 16:10:16,609 - INFO - tqdm - batch_loss: 0.0005, loss: 0.3169 ||:  42%|####2     | 489/1163 [01:10<01:40,  6.73it/s]
2023-05-13 16:10:26,657 - INFO - tqdm - batch_loss: 0.0021, loss: 0.3294 ||:  47%|####7     | 552/1163 [01:20<01:23,  7.34it/s]
2023-05-13 16:10:36,668 - INFO - tqdm - batch_loss: 0.0000, loss: 0.3124 ||:  53%|#####3    | 621/1163 [01:30<01:21,  6.64it/s]
2023-05-13 16:10:46,815 - INFO - tqdm - batch_loss: 0.0001, loss: 0.3128 ||:  60%|######    | 699/1163 [01:40<01:00,  7.71it/s]
2023-05-13 16:10:56,966 - INFO - tqdm - batch_loss: 0.0001, loss: 0.3486 ||:  66%|######5   | 763/1163 [01:51<01:06,  6.05it/s]
2023-05-13 16:11:07,069 - INFO - tqdm - batch_loss: 0.0007, loss: 0.3365 ||:  72%|#######2  | 840/1163 [02:01<00:42,  7.61it/s]
2023-05-13 16:11:17,089 - INFO - tqdm - batch_loss: 1.5970, loss: 0.3518 ||:  78%|#######7  | 903/1163 [02:11<00:43,  5.94it/s]
2023-05-13 16:11:27,305 - INFO - tqdm - batch_loss: 0.8028, loss: 0.3495 ||:  83%|########2 | 965/1163 [02:21<00:49,  3.98it/s]
2023-05-13 16:11:37,341 - INFO - tqdm - batch_loss: 0.0020, loss: 0.3517 ||:  89%|########8 | 1034/1163 [02:31<00:17,  7.45it/s]
2023-05-13 16:11:47,517 - INFO - tqdm - batch_loss: 0.0002, loss: 0.3544 ||:  95%|#########4| 1102/1163 [02:41<00:07,  8.47it/s]
2023-05-13 16:11:54,792 - INFO - tqdm - batch_loss: 0.0004, loss: 0.3493 ||: 100%|#########9| 1158/1163 [02:48<00:00,  8.12it/s]
2023-05-13 16:11:54,924 - INFO - tqdm - batch_loss: 0.0002, loss: 0.3490 ||: 100%|#########9| 1159/1163 [02:48<00:00,  7.96it/s]
2023-05-13 16:11:55,070 - INFO - tqdm - batch_loss: 0.0001, loss: 0.3487 ||: 100%|#########9| 1160/1163 [02:49<00:00,  7.63it/s]
2023-05-13 16:11:55,228 - INFO - tqdm - batch_loss: 0.0019, loss: 0.3484 ||: 100%|#########9| 1161/1163 [02:49<00:00,  7.20it/s]
2023-05-13 16:11:55,514 - INFO - tqdm - batch_loss: 1.7003, loss: 0.3493 ||: 100%|##########| 1163/1163 [02:49<00:00,  7.10it/s]
2023-05-13 16:11:55,516 - INFO - tqdm - batch_loss: 1.7003, loss: 0.3493 ||: 100%|##########| 1163/1163 [02:49<00:00,  6.86it/s]
2023-05-13 16:11:55,519 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 16:11:55,519 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2999.276  |       N/A
2023-05-13 16:11:55,519 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.349  |       N/A
2023-05-13 16:11:55,519 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4521.004  |       N/A
2023-05-13 16:12:05,134 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:02:59.179658
2023-05-13 16:12:05,134 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:35:40
2023-05-13 16:12:05,134 - INFO - allennlp.training.gradient_descent_trainer - Epoch 13/24
2023-05-13 16:12:05,134 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 16:12:05,135 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 16:12:05,136 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 16:12:05,136 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 16:12:15,281 - INFO - tqdm - batch_loss: 2.1133, loss: 0.3438 ||:   6%|6         | 73/1163 [00:10<03:02,  5.98it/s]
2023-05-13 16:12:25,357 - INFO - tqdm - batch_loss: 0.0035, loss: 0.3443 ||:  12%|#2        | 145/1163 [00:20<02:09,  7.87it/s]
2023-05-13 16:12:35,380 - INFO - tqdm - batch_loss: 0.0001, loss: 0.3166 ||:  18%|#8        | 210/1163 [00:30<02:50,  5.57it/s]
2023-05-13 16:12:45,526 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2853 ||:  24%|##4       | 284/1163 [00:40<01:48,  8.14it/s]
2023-05-13 16:12:55,574 - INFO - tqdm - batch_loss: 0.0002, loss: 0.2773 ||:  30%|##9       | 346/1163 [00:50<02:02,  6.68it/s]
2023-05-13 16:13:05,739 - INFO - tqdm - batch_loss: 2.9146, loss: 0.2635 ||:  36%|###6      | 420/1163 [01:00<02:22,  5.22it/s]
2023-05-13 16:13:15,803 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2708 ||:  42%|####2     | 491/1163 [01:10<01:33,  7.17it/s]
2023-05-13 16:13:25,902 - INFO - tqdm - batch_loss: 3.0192, loss: 0.2721 ||:  48%|####7     | 558/1163 [01:20<02:02,  4.94it/s]
2023-05-13 16:13:35,958 - INFO - tqdm - batch_loss: 0.0001, loss: 0.2635 ||:  55%|#####4    | 635/1163 [01:30<01:16,  6.90it/s]
2023-05-13 16:13:45,981 - INFO - tqdm - batch_loss: 0.0006, loss: 0.2787 ||:  60%|#####9    | 695/1163 [01:40<01:15,  6.20it/s]
2023-05-13 16:13:55,994 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2841 ||:  66%|######5   | 767/1163 [01:50<00:58,  6.77it/s]
2023-05-13 16:14:06,135 - INFO - tqdm - batch_loss: 0.0131, loss: 0.2909 ||:  72%|#######2  | 840/1163 [02:00<00:44,  7.33it/s]
2023-05-13 16:14:16,158 - INFO - tqdm - batch_loss: 0.0000, loss: 0.3007 ||:  78%|#######7  | 902/1163 [02:11<00:39,  6.58it/s]
2023-05-13 16:14:26,264 - INFO - tqdm - batch_loss: 0.0002, loss: 0.3035 ||:  84%|########4 | 977/1163 [02:21<00:25,  7.27it/s]
2023-05-13 16:14:36,327 - INFO - tqdm - batch_loss: 0.0001, loss: 0.3083 ||:  89%|########9 | 1040/1163 [02:31<00:17,  7.08it/s]
2023-05-13 16:14:46,435 - INFO - tqdm - batch_loss: 0.0000, loss: 0.3042 ||:  96%|#########5| 1115/1163 [02:41<00:07,  6.73it/s]
2023-05-13 16:14:52,613 - INFO - tqdm - batch_loss: 0.0000, loss: 0.3117 ||: 100%|#########9| 1158/1163 [02:47<00:00,  8.46it/s]
2023-05-13 16:14:52,758 - INFO - tqdm - batch_loss: 0.0002, loss: 0.3114 ||: 100%|#########9| 1159/1163 [02:47<00:00,  8.10it/s]
2023-05-13 16:14:52,929 - INFO - tqdm - batch_loss: 0.0000, loss: 0.3111 ||: 100%|#########9| 1160/1163 [02:47<00:00,  7.47it/s]
2023-05-13 16:14:53,127 - INFO - tqdm - batch_loss: 0.0000, loss: 0.3106 ||: 100%|#########9| 1162/1163 [02:47<00:00,  8.30it/s]
2023-05-13 16:14:53,314 - INFO - tqdm - batch_loss: 2.9943, loss: 0.3129 ||: 100%|##########| 1163/1163 [02:48<00:00,  7.42it/s]
2023-05-13 16:14:53,315 - INFO - tqdm - batch_loss: 2.9943, loss: 0.3129 ||: 100%|##########| 1163/1163 [02:48<00:00,  6.92it/s]
2023-05-13 16:14:53,317 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 16:14:53,317 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2985.339  |       N/A
2023-05-13 16:14:53,317 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.313  |       N/A
2023-05-13 16:14:53,317 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4521.004  |       N/A
2023-05-13 16:15:01,161 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:02:56.026618
2023-05-13 16:15:01,161 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:32:41
2023-05-13 16:15:01,161 - INFO - allennlp.training.gradient_descent_trainer - Epoch 14/24
2023-05-13 16:15:01,161 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 16:15:01,162 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 16:15:01,163 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 16:15:01,164 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 16:15:11,186 - INFO - tqdm - batch_loss: 0.0024, loss: 0.1017 ||:   5%|5         | 62/1163 [00:10<02:25,  7.55it/s]
2023-05-13 16:15:21,323 - INFO - tqdm - batch_loss: 0.0001, loss: 0.1507 ||:  11%|#1        | 129/1163 [00:20<03:03,  5.62it/s]
2023-05-13 16:15:31,361 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1582 ||:  17%|#7        | 200/1163 [00:30<02:34,  6.24it/s]
2023-05-13 16:15:41,368 - INFO - tqdm - batch_loss: 0.0425, loss: 0.1548 ||:  23%|##2       | 262/1163 [00:40<02:18,  6.49it/s]
2023-05-13 16:15:51,402 - INFO - tqdm - batch_loss: 0.0978, loss: 0.1943 ||:  29%|##9       | 342/1163 [00:50<02:07,  6.45it/s]
2023-05-13 16:16:01,484 - INFO - tqdm - batch_loss: 0.0001, loss: 0.1848 ||:  36%|###5      | 414/1163 [01:00<01:16,  9.73it/s]
2023-05-13 16:16:11,522 - INFO - tqdm - batch_loss: 0.0015, loss: 0.2171 ||:  41%|####1     | 482/1163 [01:10<02:39,  4.28it/s]
2023-05-13 16:16:21,677 - INFO - tqdm - batch_loss: 0.0001, loss: 0.2159 ||:  48%|####7     | 553/1163 [01:20<01:41,  6.00it/s]
2023-05-13 16:16:31,868 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2102 ||:  53%|#####2    | 615/1163 [01:30<01:35,  5.76it/s]
2023-05-13 16:16:42,049 - INFO - tqdm - batch_loss: 1.1751, loss: 0.2188 ||:  59%|#####9    | 689/1163 [01:40<01:13,  6.49it/s]
2023-05-13 16:16:52,224 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2278 ||:  65%|######4   | 754/1163 [01:51<00:49,  8.26it/s]
2023-05-13 16:17:02,351 - INFO - tqdm - batch_loss: 0.0001, loss: 0.2280 ||:  71%|#######1  | 826/1163 [02:01<00:54,  6.20it/s]
2023-05-13 16:17:12,436 - INFO - tqdm - batch_loss: 1.1750, loss: 0.2286 ||:  77%|#######6  | 894/1163 [02:11<00:42,  6.26it/s]
2023-05-13 16:17:22,476 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2333 ||:  82%|########2 | 959/1163 [02:21<00:29,  6.98it/s]
2023-05-13 16:17:32,574 - INFO - tqdm - batch_loss: 0.1215, loss: 0.2354 ||:  89%|########8 | 1031/1163 [02:31<00:16,  7.97it/s]
2023-05-13 16:17:42,611 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2441 ||:  94%|#########4| 1095/1163 [02:41<00:07,  8.61it/s]
2023-05-13 16:17:51,386 - INFO - tqdm - batch_loss: 0.0004, loss: 0.2385 ||: 100%|#########9| 1158/1163 [02:50<00:01,  4.65it/s]
2023-05-13 16:17:51,513 - INFO - tqdm - batch_loss: 0.0023, loss: 0.2383 ||: 100%|#########9| 1159/1163 [02:50<00:00,  5.29it/s]
2023-05-13 16:17:51,751 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2381 ||: 100%|#########9| 1160/1163 [02:50<00:00,  4.92it/s]
2023-05-13 16:17:51,870 - INFO - tqdm - batch_loss: 0.0009, loss: 0.2379 ||: 100%|#########9| 1161/1163 [02:50<00:00,  5.61it/s]
2023-05-13 16:17:52,075 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2377 ||: 100%|#########9| 1162/1163 [02:50<00:00,  5.37it/s]
2023-05-13 16:17:52,320 - INFO - tqdm - batch_loss: 0.4424, loss: 0.2378 ||: 100%|##########| 1163/1163 [02:51<00:00,  4.90it/s]
2023-05-13 16:17:52,324 - INFO - tqdm - batch_loss: 0.4424, loss: 0.2378 ||: 100%|##########| 1163/1163 [02:51<00:00,  6.79it/s]
2023-05-13 16:17:52,327 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 16:17:52,327 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2939.405  |       N/A
2023-05-13 16:17:52,327 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.238  |       N/A
2023-05-13 16:17:52,327 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4521.004  |       N/A
2023-05-13 16:18:12,399 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:03:11.237693
2023-05-13 16:18:12,399 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:29:43
2023-05-13 16:18:12,399 - INFO - allennlp.training.gradient_descent_trainer - Epoch 15/24
2023-05-13 16:18:12,399 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 16:18:12,400 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 16:18:12,401 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 16:18:12,401 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 16:18:22,451 - INFO - tqdm - batch_loss: 0.0172, loss: 0.2289 ||:   6%|6         | 74/1163 [00:10<02:29,  7.30it/s]
2023-05-13 16:18:32,668 - INFO - tqdm - batch_loss: 0.3757, loss: 0.2143 ||:  13%|#2        | 146/1163 [00:20<02:16,  7.48it/s]
2023-05-13 16:18:42,675 - INFO - tqdm - batch_loss: 0.8465, loss: 0.1944 ||:  18%|#8        | 213/1163 [00:30<02:47,  5.66it/s]
2023-05-13 16:18:52,689 - INFO - tqdm - batch_loss: 0.0027, loss: 0.2022 ||:  24%|##4       | 281/1163 [00:40<02:12,  6.64it/s]
2023-05-13 16:19:02,734 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1995 ||:  29%|##9       | 339/1163 [00:50<01:56,  7.05it/s]
2023-05-13 16:19:12,767 - INFO - tqdm - batch_loss: 1.8995, loss: 0.2124 ||:  35%|###5      | 411/1163 [01:00<02:41,  4.66it/s]
2023-05-13 16:19:22,856 - INFO - tqdm - batch_loss: 0.0005, loss: 0.1994 ||:  41%|####      | 474/1163 [01:10<01:43,  6.67it/s]
2023-05-13 16:19:32,924 - INFO - tqdm - batch_loss: 0.0001, loss: 0.1954 ||:  47%|####6     | 546/1163 [01:20<01:45,  5.85it/s]
2023-05-13 16:19:43,117 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2033 ||:  53%|#####3    | 621/1163 [01:30<01:01,  8.76it/s]
2023-05-13 16:19:53,263 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2032 ||:  59%|#####9    | 691/1163 [01:40<00:58,  8.11it/s]
2023-05-13 16:20:03,348 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2010 ||:  66%|######6   | 769/1163 [01:50<00:50,  7.76it/s]
2023-05-13 16:20:13,365 - INFO - tqdm - batch_loss: 0.0001, loss: 0.2028 ||:  72%|#######1  | 833/1163 [02:00<00:40,  8.15it/s]
2023-05-13 16:20:23,395 - INFO - tqdm - batch_loss: 0.0001, loss: 0.2064 ||:  77%|#######7  | 897/1163 [02:10<00:55,  4.76it/s]
2023-05-13 16:20:33,441 - INFO - tqdm - batch_loss: 0.0040, loss: 0.2048 ||:  83%|########3 | 968/1163 [02:21<00:26,  7.34it/s]
2023-05-13 16:20:43,454 - INFO - tqdm - batch_loss: 0.0002, loss: 0.2185 ||:  89%|########8 | 1032/1163 [02:31<00:19,  6.68it/s]
2023-05-13 16:20:53,517 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2254 ||:  95%|#########5| 1109/1163 [02:41<00:06,  8.36it/s]
2023-05-13 16:21:01,532 - INFO - tqdm - batch_loss: 0.0005, loss: 0.2249 ||: 100%|#########9| 1158/1163 [02:49<00:00,  7.04it/s]
2023-05-13 16:21:01,696 - INFO - tqdm - batch_loss: 1.4130, loss: 0.2259 ||: 100%|#########9| 1159/1163 [02:49<00:00,  6.76it/s]
2023-05-13 16:21:01,837 - INFO - tqdm - batch_loss: 1.6726, loss: 0.2271 ||: 100%|#########9| 1160/1163 [02:49<00:00,  6.85it/s]
2023-05-13 16:21:01,937 - INFO - tqdm - batch_loss: 0.0003, loss: 0.2269 ||: 100%|#########9| 1161/1163 [02:49<00:00,  7.51it/s]
2023-05-13 16:21:02,089 - INFO - tqdm - batch_loss: 0.0002, loss: 0.2267 ||: 100%|#########9| 1162/1163 [02:49<00:00,  7.22it/s]
2023-05-13 16:21:02,191 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2265 ||: 100%|##########| 1163/1163 [02:49<00:00,  7.82it/s]
2023-05-13 16:21:02,193 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2265 ||: 100%|##########| 1163/1163 [02:49<00:00,  6.85it/s]
2023-05-13 16:21:02,193 - INFO - allennlp.training.gradient_descent_trainer - Validating
2023-05-13 16:21:02,195 - INFO - tqdm - 0%|          | 0/16 [00:00<?, ?it/s]
2023-05-13 16:21:14,289 - INFO - tqdm - precision: 0.6667, recall: 0.5385, fscore: 0.5957, batch_loss: 0.1850, loss: 0.5564 ||:  38%|###7      | 6/16 [00:12<00:22,  2.21s/it]
2023-05-13 16:21:26,496 - INFO - tqdm - precision: 0.7724, recall: 0.7216, fscore: 0.7461, batch_loss: 0.8622, loss: 0.6154 ||:  94%|#########3| 15/16 [00:24<00:01,  1.85s/it]
2023-05-13 16:21:27,736 - INFO - tqdm - precision: 0.7706, recall: 0.7039, fscore: 0.7358, batch_loss: 0.8425, loss: 0.6296 ||: 100%|##########| 16/16 [00:25<00:00,  1.67s/it]
2023-05-13 16:21:27,736 - INFO - tqdm - precision: 0.7706, recall: 0.7039, fscore: 0.7358, batch_loss: 0.8425, loss: 0.6296 ||: 100%|##########| 16/16 [00:25<00:00,  1.60s/it]
2023-05-13 16:21:27,737 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 16:21:27,737 - INFO - allennlp.training.callbacks.console_logger - fscore             |       N/A  |     0.736
2023-05-13 16:21:27,737 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2977.857  |       N/A
2023-05-13 16:21:27,738 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.227  |     0.630
2023-05-13 16:21:27,738 - INFO - allennlp.training.callbacks.console_logger - precision          |       N/A  |     0.771
2023-05-13 16:21:27,738 - INFO - allennlp.training.callbacks.console_logger - recall             |       N/A  |     0.704
2023-05-13 16:21:27,738 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4521.004  |       N/A
2023-05-13 16:21:33,381 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:03:20.981616
2023-05-13 16:21:33,381 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:27:06
2023-05-13 16:21:33,381 - INFO - allennlp.training.gradient_descent_trainer - Epoch 16/24
2023-05-13 16:21:33,381 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 16:21:33,382 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 16:21:33,384 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 16:21:33,385 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 16:21:43,485 - INFO - tqdm - batch_loss: 0.0015, loss: 0.2244 ||:   6%|6         | 75/1163 [00:10<01:58,  9.17it/s]
2023-05-13 16:21:53,592 - INFO - tqdm - batch_loss: 0.5899, loss: 0.3880 ||:  12%|#1        | 134/1163 [00:20<02:37,  6.54it/s]
2023-05-13 16:22:03,604 - INFO - tqdm - batch_loss: 0.0002, loss: 0.3171 ||:  18%|#7        | 205/1163 [00:30<02:30,  6.37it/s]
2023-05-13 16:22:13,608 - INFO - tqdm - batch_loss: 0.0010, loss: 0.3271 ||:  23%|##3       | 270/1163 [00:40<02:09,  6.88it/s]
2023-05-13 16:22:23,684 - INFO - tqdm - batch_loss: 0.0000, loss: 0.3120 ||:  29%|##9       | 339/1163 [00:50<02:02,  6.73it/s]
2023-05-13 16:22:33,822 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2733 ||:  36%|###5      | 413/1163 [01:00<01:39,  7.52it/s]
2023-05-13 16:22:44,046 - INFO - tqdm - batch_loss: 0.0002, loss: 0.2698 ||:  42%|####1     | 483/1163 [01:10<01:21,  8.38it/s]
2023-05-13 16:22:54,048 - INFO - tqdm - batch_loss: 0.0024, loss: 0.2644 ||:  48%|####7     | 555/1163 [01:20<02:00,  5.03it/s]
2023-05-13 16:23:04,112 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2659 ||:  53%|#####3    | 620/1163 [01:30<01:21,  6.69it/s]
2023-05-13 16:23:14,143 - INFO - tqdm - batch_loss: 0.6394, loss: 0.2576 ||:  59%|#####8    | 681/1163 [01:40<01:53,  4.23it/s]
2023-05-13 16:23:24,271 - INFO - tqdm - batch_loss: 0.9153, loss: 0.2590 ||:  65%|######4   | 753/1163 [01:50<01:01,  6.69it/s]
2023-05-13 16:23:34,401 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2510 ||:  70%|#######   | 815/1163 [02:01<00:43,  7.92it/s]
2023-05-13 16:23:44,483 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2405 ||:  77%|#######6  | 892/1163 [02:11<00:37,  7.26it/s]
2023-05-13 16:23:54,523 - INFO - tqdm - batch_loss: 0.0058, loss: 0.2339 ||:  82%|########2 | 958/1163 [02:21<00:25,  8.02it/s]
2023-05-13 16:24:04,568 - INFO - tqdm - batch_loss: 0.0002, loss: 0.2345 ||:  88%|########8 | 1027/1163 [02:31<00:23,  5.86it/s]
2023-05-13 16:24:14,619 - INFO - tqdm - batch_loss: 0.0002, loss: 0.2363 ||:  95%|#########4| 1100/1163 [02:41<00:07,  8.89it/s]
2023-05-13 16:24:23,803 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2315 ||: 100%|#########9| 1158/1163 [02:50<00:00,  6.69it/s]
2023-05-13 16:24:24,033 - INFO - tqdm - batch_loss: 0.1536, loss: 0.2315 ||: 100%|#########9| 1160/1163 [02:50<00:00,  7.39it/s]
2023-05-13 16:24:24,287 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2311 ||: 100%|#########9| 1162/1163 [02:50<00:00,  7.56it/s]
2023-05-13 16:24:24,433 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2309 ||: 100%|##########| 1163/1163 [02:51<00:00,  7.40it/s]
2023-05-13 16:24:24,434 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2309 ||: 100%|##########| 1163/1163 [02:51<00:00,  6.80it/s]
2023-05-13 16:24:24,436 - INFO - allennlp.training.gradient_descent_trainer - Validating
2023-05-13 16:24:24,437 - INFO - tqdm - 0%|          | 0/16 [00:00<?, ?it/s]
2023-05-13 16:24:34,512 - INFO - tqdm - precision: 0.7240, recall: 0.8528, fscore: 0.7831, batch_loss: 0.6197, loss: 0.6982 ||:  44%|####3     | 7/16 [00:10<00:12,  1.38s/it]
2023-05-13 16:24:46,763 - INFO - tqdm - precision: 0.6440, recall: 0.8384, fscore: 0.7285, batch_loss: 1.0722, loss: 0.8667 ||:  88%|########7 | 14/16 [00:22<00:04,  2.23s/it]
2023-05-13 16:24:49,364 - INFO - tqdm - precision: 0.6269, recall: 0.8212, fscore: 0.7110, batch_loss: 1.0929, loss: 0.8720 ||: 100%|##########| 16/16 [00:24<00:00,  1.72s/it]
2023-05-13 16:24:49,365 - INFO - tqdm - precision: 0.6269, recall: 0.8212, fscore: 0.7110, batch_loss: 1.0929, loss: 0.8720 ||: 100%|##########| 16/16 [00:24<00:00,  1.56s/it]
2023-05-13 16:24:49,366 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 16:24:49,366 - INFO - allennlp.training.callbacks.console_logger - fscore             |       N/A  |     0.711
2023-05-13 16:24:49,366 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2936.810  |       N/A
2023-05-13 16:24:49,366 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.231  |     0.872
2023-05-13 16:24:49,366 - INFO - allennlp.training.callbacks.console_logger - precision          |       N/A  |     0.627
2023-05-13 16:24:49,366 - INFO - allennlp.training.callbacks.console_logger - recall             |       N/A  |     0.821
2023-05-13 16:24:49,366 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4521.004  |       N/A
2023-05-13 16:25:08,133 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:03:34.751223
2023-05-13 16:25:08,133 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:24:15
2023-05-13 16:25:08,133 - INFO - allennlp.training.gradient_descent_trainer - Epoch 17/24
2023-05-13 16:25:08,133 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 16:25:08,134 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 16:25:08,135 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 16:25:08,136 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 16:25:18,205 - INFO - tqdm - batch_loss: 0.0010, loss: 0.0676 ||:   6%|5         | 67/1163 [00:10<02:33,  7.16it/s]
2023-05-13 16:25:28,414 - INFO - tqdm - batch_loss: 1.0718, loss: 0.1822 ||:  11%|#1        | 132/1163 [00:20<03:14,  5.31it/s]
2023-05-13 16:25:38,611 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2045 ||:  18%|#7        | 205/1163 [00:30<02:23,  6.66it/s]
2023-05-13 16:25:48,735 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2208 ||:  23%|##3       | 269/1163 [00:40<01:44,  8.57it/s]
2023-05-13 16:25:58,850 - INFO - tqdm - batch_loss: 0.0011, loss: 0.2095 ||:  29%|##9       | 339/1163 [00:50<02:59,  4.60it/s]
2023-05-13 16:26:08,912 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2048 ||:  35%|###4      | 406/1163 [01:00<01:25,  8.81it/s]
2023-05-13 16:26:18,960 - INFO - tqdm - batch_loss: 0.0036, loss: 0.1986 ||:  41%|####      | 473/1163 [01:10<01:54,  6.04it/s]
2023-05-13 16:26:29,034 - INFO - tqdm - batch_loss: 0.3503, loss: 0.2054 ||:  48%|####7     | 553/1163 [01:20<01:08,  8.87it/s]
2023-05-13 16:26:39,063 - INFO - tqdm - batch_loss: 0.0004, loss: 0.2047 ||:  53%|#####2    | 616/1163 [01:30<01:30,  6.02it/s]
2023-05-13 16:26:49,124 - INFO - tqdm - batch_loss: 0.0657, loss: 0.1985 ||:  60%|#####9    | 692/1163 [01:40<01:23,  5.63it/s]
2023-05-13 16:26:59,157 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2078 ||:  65%|######5   | 758/1163 [01:51<00:48,  8.41it/s]
2023-05-13 16:27:09,235 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2141 ||:  71%|#######1  | 827/1163 [02:01<00:50,  6.60it/s]
2023-05-13 16:27:19,327 - INFO - tqdm - batch_loss: 0.2969, loss: 0.2098 ||:  78%|#######7  | 902/1163 [02:11<00:39,  6.69it/s]
2023-05-13 16:27:29,421 - INFO - tqdm - batch_loss: 0.0006, loss: 0.2017 ||:  83%|########3 | 967/1163 [02:21<00:26,  7.29it/s]
2023-05-13 16:27:39,460 - INFO - tqdm - batch_loss: 2.4084, loss: 0.2157 ||:  89%|########9 | 1036/1163 [02:31<00:24,  5.08it/s]
2023-05-13 16:27:49,557 - INFO - tqdm - batch_loss: 2.0941, loss: 0.2162 ||:  95%|#########4| 1104/1163 [02:41<00:08,  6.58it/s]
2023-05-13 16:27:57,316 - INFO - tqdm - batch_loss: 1.3887, loss: 0.2092 ||: 100%|#########9| 1158/1163 [02:49<00:00,  6.64it/s]
2023-05-13 16:27:57,615 - INFO - tqdm - batch_loss: 5.4107, loss: 0.2137 ||: 100%|#########9| 1159/1163 [02:49<00:00,  5.13it/s]
2023-05-13 16:27:57,816 - INFO - tqdm - batch_loss: 0.0018, loss: 0.2135 ||: 100%|#########9| 1160/1163 [02:49<00:00,  5.09it/s]
2023-05-13 16:27:57,951 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2133 ||: 100%|#########9| 1161/1163 [02:49<00:00,  5.61it/s]
2023-05-13 16:27:58,066 - INFO - tqdm - batch_loss: 0.0002, loss: 0.2131 ||: 100%|#########9| 1162/1163 [02:49<00:00,  6.28it/s]
2023-05-13 16:27:58,184 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2129 ||: 100%|##########| 1163/1163 [02:50<00:00,  6.81it/s]
2023-05-13 16:27:58,186 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2129 ||: 100%|##########| 1163/1163 [02:50<00:00,  6.84it/s]
2023-05-13 16:27:58,187 - INFO - allennlp.training.gradient_descent_trainer - Validating
2023-05-13 16:27:58,189 - INFO - tqdm - 0%|          | 0/16 [00:00<?, ?it/s]
2023-05-13 16:28:08,482 - INFO - tqdm - precision: 0.7222, recall: 0.8563, fscore: 0.7836, batch_loss: 0.9316, loss: 0.7181 ||:  44%|####3     | 7/16 [00:10<00:11,  1.32s/it]
2023-05-13 16:28:20,718 - INFO - tqdm - precision: 0.6683, recall: 0.8121, fscore: 0.7332, batch_loss: 0.0226, loss: 0.7831 ||:  94%|#########3| 15/16 [00:22<00:01,  1.78s/it]
2023-05-13 16:28:21,553 - INFO - tqdm - precision: 0.6767, recall: 0.8128, fscore: 0.7386, batch_loss: 0.7804, loss: 0.7829 ||: 100%|##########| 16/16 [00:23<00:00,  1.49s/it]
2023-05-13 16:28:21,554 - INFO - tqdm - precision: 0.6767, recall: 0.8128, fscore: 0.7386, batch_loss: 0.7804, loss: 0.7829 ||: 100%|##########| 16/16 [00:23<00:00,  1.46s/it]
2023-05-13 16:28:21,554 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 16:28:21,554 - INFO - allennlp.training.callbacks.console_logger - fscore             |       N/A  |     0.739
2023-05-13 16:28:21,554 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2935.913  |       N/A
2023-05-13 16:28:21,555 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.213  |     0.783
2023-05-13 16:28:21,555 - INFO - allennlp.training.callbacks.console_logger - precision          |       N/A  |     0.677
2023-05-13 16:28:21,555 - INFO - allennlp.training.callbacks.console_logger - recall             |       N/A  |     0.813
2023-05-13 16:28:21,555 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4521.004  |       N/A
2023-05-13 16:28:27,213 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:03:19.079963
2023-05-13 16:28:27,213 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:21:25
2023-05-13 16:28:27,214 - INFO - allennlp.training.gradient_descent_trainer - Epoch 18/24
2023-05-13 16:28:27,214 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 16:28:27,214 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 16:28:27,216 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 16:28:27,217 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 16:28:37,357 - INFO - tqdm - batch_loss: 0.0002, loss: 0.1940 ||:   5%|5         | 63/1163 [00:10<02:27,  7.45it/s]
2023-05-13 16:28:47,457 - INFO - tqdm - batch_loss: 0.2387, loss: 0.4408 ||:  11%|#1        | 130/1163 [00:20<03:12,  5.36it/s]
2023-05-13 16:28:57,524 - INFO - tqdm - batch_loss: 0.0000, loss: 0.3331 ||:  17%|#7        | 200/1163 [00:30<02:15,  7.13it/s]
2023-05-13 16:29:07,707 - INFO - tqdm - batch_loss: 1.2151, loss: 0.3191 ||:  23%|##2       | 264/1163 [00:40<02:36,  5.75it/s]
2023-05-13 16:29:17,779 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2897 ||:  29%|##9       | 342/1163 [00:50<01:46,  7.74it/s]
2023-05-13 16:29:27,810 - INFO - tqdm - batch_loss: 0.0003, loss: 0.2666 ||:  34%|###4      | 401/1163 [01:00<01:39,  7.67it/s]
2023-05-13 16:29:37,856 - INFO - tqdm - batch_loss: 0.0001, loss: 0.2433 ||:  40%|####      | 468/1163 [01:10<01:47,  6.48it/s]
2023-05-13 16:29:47,893 - INFO - tqdm - batch_loss: 0.4973, loss: 0.2556 ||:  46%|####6     | 540/1163 [01:20<01:27,  7.09it/s]
2023-05-13 16:29:57,993 - INFO - tqdm - batch_loss: 0.0038, loss: 0.2574 ||:  52%|#####1    | 604/1163 [01:30<02:06,  4.41it/s]
2023-05-13 16:30:07,994 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2546 ||:  58%|#####8    | 678/1163 [01:40<01:04,  7.54it/s]
2023-05-13 16:30:18,055 - INFO - tqdm - batch_loss: 0.0001, loss: 0.2567 ||:  64%|######3   | 743/1163 [01:50<00:45,  9.16it/s]
2023-05-13 16:30:28,167 - INFO - tqdm - batch_loss: 0.0001, loss: 0.2533 ||:  70%|######9   | 814/1163 [02:00<00:48,  7.18it/s]
2023-05-13 16:30:38,397 - INFO - tqdm - batch_loss: 3.3949, loss: 0.2410 ||:  76%|#######6  | 885/1163 [02:11<00:33,  8.29it/s]
2023-05-13 16:30:48,647 - INFO - tqdm - batch_loss: 0.1329, loss: 0.2352 ||:  82%|########1 | 952/1163 [02:21<00:51,  4.13it/s]
2023-05-13 16:30:58,663 - INFO - tqdm - batch_loss: 0.0002, loss: 0.2346 ||:  89%|########8 | 1030/1163 [02:31<00:15,  8.84it/s]
2023-05-13 16:31:08,750 - INFO - tqdm - batch_loss: 0.0046, loss: 0.2318 ||:  94%|#########4| 1098/1163 [02:41<00:10,  5.97it/s]
2023-05-13 16:31:16,788 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2278 ||: 100%|#########9| 1158/1163 [02:49<00:00,  7.78it/s]
2023-05-13 16:31:16,900 - INFO - tqdm - batch_loss: 0.0001, loss: 0.2276 ||: 100%|#########9| 1159/1163 [02:49<00:00,  8.09it/s]
2023-05-13 16:31:17,112 - INFO - tqdm - batch_loss: 0.0001, loss: 0.2274 ||: 100%|#########9| 1160/1163 [02:49<00:00,  6.67it/s]
2023-05-13 16:31:17,386 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2272 ||: 100%|#########9| 1161/1163 [02:50<00:00,  5.35it/s]
2023-05-13 16:31:17,504 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2270 ||: 100%|#########9| 1162/1163 [02:50<00:00,  6.01it/s]
2023-05-13 16:31:17,620 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2268 ||: 100%|##########| 1163/1163 [02:50<00:00,  6.62it/s]
2023-05-13 16:31:17,622 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2268 ||: 100%|##########| 1163/1163 [02:50<00:00,  6.82it/s]
2023-05-13 16:31:17,623 - INFO - allennlp.training.gradient_descent_trainer - Validating
2023-05-13 16:31:17,625 - INFO - tqdm - 0%|          | 0/16 [00:00<?, ?it/s]
2023-05-13 16:31:28,867 - INFO - tqdm - precision: 0.7042, recall: 0.6579, fscore: 0.6803, batch_loss: 0.0059, loss: 0.3997 ||:  31%|###1      | 5/16 [00:11<00:22,  2.09s/it]
2023-05-13 16:31:39,193 - INFO - tqdm - precision: 0.6842, recall: 0.7647, fscore: 0.7222, batch_loss: 0.7475, loss: 0.5877 ||:  81%|########1 | 13/16 [00:21<00:03,  1.31s/it]
2023-05-13 16:31:41,733 - INFO - tqdm - precision: 0.7068, recall: 0.7877, fscore: 0.7450, batch_loss: 0.6993, loss: 0.5861 ||: 100%|##########| 16/16 [00:24<00:00,  1.03s/it]
2023-05-13 16:31:41,734 - INFO - tqdm - precision: 0.7068, recall: 0.7877, fscore: 0.7450, batch_loss: 0.6993, loss: 0.5861 ||: 100%|##########| 16/16 [00:24<00:00,  1.51s/it]
2023-05-13 16:31:41,735 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 16:31:41,735 - INFO - allennlp.training.callbacks.console_logger - fscore             |       N/A  |     0.745
2023-05-13 16:31:41,735 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2935.913  |       N/A
2023-05-13 16:31:41,735 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.227  |     0.586
2023-05-13 16:31:41,735 - INFO - allennlp.training.callbacks.console_logger - precision          |       N/A  |     0.707
2023-05-13 16:31:41,735 - INFO - allennlp.training.callbacks.console_logger - recall             |       N/A  |     0.788
2023-05-13 16:31:41,735 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4521.004  |       N/A
2023-05-13 16:31:47,085 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:03:19.871180
2023-05-13 16:31:47,085 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:18:26
2023-05-13 16:31:47,085 - INFO - allennlp.training.gradient_descent_trainer - Epoch 19/24
2023-05-13 16:31:47,085 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 16:31:47,086 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 16:31:47,087 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 16:31:47,087 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 16:31:57,245 - INFO - tqdm - batch_loss: 0.0289, loss: 0.1573 ||:   6%|5         | 65/1163 [00:10<02:19,  7.87it/s]
2023-05-13 16:32:07,372 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1129 ||:  12%|#2        | 141/1163 [00:20<03:11,  5.34it/s]
2023-05-13 16:32:17,432 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1089 ||:  18%|#7        | 204/1163 [00:30<02:22,  6.71it/s]
2023-05-13 16:32:27,433 - INFO - tqdm - batch_loss: 0.0003, loss: 0.1350 ||:  24%|##3       | 274/1163 [00:40<02:13,  6.67it/s]
2023-05-13 16:32:37,495 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1400 ||:  29%|##9       | 342/1163 [00:50<02:03,  6.64it/s]
2023-05-13 16:32:47,505 - INFO - tqdm - batch_loss: 0.0001, loss: 0.1414 ||:  35%|###4      | 407/1163 [01:00<01:39,  7.60it/s]
2023-05-13 16:32:57,676 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1528 ||:  42%|####1     | 483/1163 [01:10<01:49,  6.20it/s]
2023-05-13 16:33:07,740 - INFO - tqdm - batch_loss: 0.0003, loss: 0.1510 ||:  47%|####7     | 549/1163 [01:20<01:37,  6.32it/s]
2023-05-13 16:33:17,927 - INFO - tqdm - batch_loss: 0.0004, loss: 0.1581 ||:  53%|#####2    | 616/1163 [01:30<02:14,  4.06it/s]
2023-05-13 16:33:27,980 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1566 ||:  59%|#####9    | 690/1163 [01:40<00:56,  8.34it/s]
2023-05-13 16:33:38,071 - INFO - tqdm - batch_loss: 1.4459, loss: 0.1582 ||:  64%|######4   | 750/1163 [01:50<01:07,  6.16it/s]
2023-05-13 16:33:48,155 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1552 ||:  71%|#######1  | 827/1163 [02:01<00:45,  7.36it/s]
2023-05-13 16:33:58,196 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1532 ||:  77%|#######6  | 895/1163 [02:11<00:35,  7.51it/s]
2023-05-13 16:34:08,227 - INFO - tqdm - batch_loss: 0.0077, loss: 0.1577 ||:  83%|########2 | 963/1163 [02:21<00:39,  5.10it/s]
2023-05-13 16:34:18,313 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1541 ||:  89%|########8 | 1033/1163 [02:31<00:15,  8.39it/s]
2023-05-13 16:34:28,397 - INFO - tqdm - batch_loss: 0.0004, loss: 0.1548 ||:  94%|#########3| 1092/1163 [02:41<00:11,  6.39it/s]
2023-05-13 16:34:36,654 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1589 ||: 100%|#########9| 1158/1163 [02:49<00:00,  8.29it/s]
2023-05-13 16:34:36,980 - INFO - tqdm - batch_loss: 0.0180, loss: 0.1586 ||: 100%|#########9| 1160/1163 [02:49<00:00,  7.35it/s]
2023-05-13 16:34:37,137 - INFO - tqdm - batch_loss: 0.0001, loss: 0.1585 ||: 100%|#########9| 1161/1163 [02:50<00:00,  7.13it/s]
2023-05-13 16:34:37,282 - INFO - tqdm - batch_loss: 0.0002, loss: 0.1584 ||: 100%|#########9| 1162/1163 [02:50<00:00,  7.07it/s]
2023-05-13 16:34:37,386 - INFO - tqdm - batch_loss: 0.0004, loss: 0.1582 ||: 100%|##########| 1163/1163 [02:50<00:00,  7.56it/s]
2023-05-13 16:34:37,388 - INFO - tqdm - batch_loss: 0.0004, loss: 0.1582 ||: 100%|##########| 1163/1163 [02:50<00:00,  6.83it/s]
2023-05-13 16:34:37,388 - INFO - allennlp.training.gradient_descent_trainer - Validating
2023-05-13 16:34:37,390 - INFO - tqdm - 0%|          | 0/16 [00:00<?, ?it/s]
2023-05-13 16:34:47,972 - INFO - tqdm - precision: 0.7667, recall: 0.6715, fscore: 0.7160, batch_loss: 0.4701, loss: 0.7855 ||:  38%|###7      | 6/16 [00:10<00:19,  1.91s/it]
2023-05-13 16:34:58,025 - INFO - tqdm - precision: 0.7471, recall: 0.7111, fscore: 0.7287, batch_loss: 0.0009, loss: 0.6365 ||:  81%|########1 | 13/16 [00:20<00:05,  1.88s/it]
2023-05-13 16:35:04,364 - INFO - tqdm - precision: 0.7616, recall: 0.7318, fscore: 0.7464, batch_loss: 0.4661, loss: 0.6555 ||: 100%|##########| 16/16 [00:26<00:00,  1.96s/it]
2023-05-13 16:35:04,364 - INFO - tqdm - precision: 0.7616, recall: 0.7318, fscore: 0.7464, batch_loss: 0.4661, loss: 0.6555 ||: 100%|##########| 16/16 [00:26<00:00,  1.69s/it]
2023-05-13 16:35:04,365 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 16:35:04,365 - INFO - allennlp.training.callbacks.console_logger - fscore             |       N/A  |     0.746
2023-05-13 16:35:04,365 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2935.913  |       N/A
2023-05-13 16:35:04,365 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.158  |     0.656
2023-05-13 16:35:04,365 - INFO - allennlp.training.callbacks.console_logger - precision          |       N/A  |     0.762
2023-05-13 16:35:04,365 - INFO - allennlp.training.callbacks.console_logger - recall             |       N/A  |     0.732
2023-05-13 16:35:04,365 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4521.004  |       N/A
2023-05-13 16:35:09,867 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:03:22.782191
2023-05-13 16:35:09,868 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:15:26
2023-05-13 16:35:09,868 - INFO - allennlp.training.gradient_descent_trainer - Epoch 20/24
2023-05-13 16:35:09,868 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 16:35:09,868 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 16:35:09,870 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 16:35:09,870 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 16:35:19,933 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1120 ||:   5%|5         | 60/1163 [00:10<02:36,  7.03it/s]
2023-05-13 16:35:29,953 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1178 ||:  11%|#1        | 129/1163 [00:20<03:52,  4.45it/s]
2023-05-13 16:35:39,976 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1185 ||:  17%|#7        | 199/1163 [00:30<02:22,  6.77it/s]
2023-05-13 16:35:50,252 - INFO - tqdm - batch_loss: 3.5792, loss: 0.1267 ||:  23%|##3       | 268/1163 [00:40<03:35,  4.16it/s]
2023-05-13 16:36:00,446 - INFO - tqdm - batch_loss: 0.6957, loss: 0.1421 ||:  30%|##9       | 347/1163 [00:50<01:47,  7.58it/s]
2023-05-13 16:36:10,474 - INFO - tqdm - batch_loss: 0.0494, loss: 0.1453 ||:  36%|###5      | 416/1163 [01:00<01:25,  8.78it/s]
2023-05-13 16:36:20,742 - INFO - tqdm - batch_loss: 0.0737, loss: 0.1669 ||:  42%|####2     | 492/1163 [01:10<02:07,  5.27it/s]
2023-05-13 16:36:30,855 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1770 ||:  48%|####8     | 561/1163 [01:20<01:06,  9.09it/s]
2023-05-13 16:36:40,961 - INFO - tqdm - batch_loss: 1.3076, loss: 0.1828 ||:  54%|#####4    | 632/1163 [01:31<01:43,  5.14it/s]
2023-05-13 16:36:50,990 - INFO - tqdm - batch_loss: 0.0193, loss: 0.1910 ||:  61%|######    | 706/1163 [01:41<01:13,  6.21it/s]
2023-05-13 16:37:01,131 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1860 ||:  66%|######6   | 772/1163 [01:51<00:54,  7.16it/s]
2023-05-13 16:37:11,264 - INFO - tqdm - batch_loss: 0.0003, loss: 0.1714 ||:  73%|#######2  | 845/1163 [02:01<00:51,  6.22it/s]
2023-05-13 16:37:21,352 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1829 ||:  78%|#######8  | 910/1163 [02:11<00:33,  7.58it/s]
2023-05-13 16:37:31,400 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1776 ||:  84%|########4 | 978/1163 [02:21<00:23,  7.98it/s]
2023-05-13 16:37:41,468 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1879 ||:  90%|######### | 1050/1163 [02:31<00:16,  6.79it/s]
2023-05-13 16:37:51,796 - INFO - tqdm - batch_loss: 0.0097, loss: 0.1888 ||:  96%|#########5| 1113/1163 [02:41<00:08,  6.22it/s]
2023-05-13 16:37:57,644 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1869 ||: 100%|#########9| 1158/1163 [02:47<00:00,  8.33it/s]
2023-05-13 16:37:57,785 - INFO - tqdm - batch_loss: 1.0622, loss: 0.1877 ||: 100%|#########9| 1159/1163 [02:47<00:00,  8.01it/s]
2023-05-13 16:37:57,961 - INFO - tqdm - batch_loss: 0.0028, loss: 0.1875 ||: 100%|#########9| 1160/1163 [02:48<00:00,  7.27it/s]
2023-05-13 16:37:58,150 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1874 ||: 100%|#########9| 1161/1163 [02:48<00:00,  6.63it/s]
2023-05-13 16:37:58,286 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1872 ||: 100%|#########9| 1162/1163 [02:48<00:00,  6.81it/s]
2023-05-13 16:37:58,385 - INFO - tqdm - batch_loss: 0.0031, loss: 0.1870 ||: 100%|##########| 1163/1163 [02:48<00:00,  6.90it/s]
2023-05-13 16:37:58,386 - INFO - allennlp.training.gradient_descent_trainer - Validating
2023-05-13 16:37:58,388 - INFO - tqdm - 0%|          | 0/16 [00:00<?, ?it/s]
2023-05-13 16:38:09,200 - INFO - tqdm - precision: 0.7953, recall: 0.7991, fscore: 0.7972, batch_loss: 0.9909, loss: 0.7392 ||:  50%|#####     | 8/16 [00:10<00:07,  1.03it/s]
2023-05-13 16:38:19,467 - INFO - tqdm - precision: 0.7492, recall: 0.7354, fscore: 0.7422, batch_loss: 0.9360, loss: 0.7516 ||:  88%|########7 | 14/16 [00:21<00:03,  1.69s/it]
2023-05-13 16:38:23,675 - INFO - tqdm - precision: 0.7521, recall: 0.7542, fscore: 0.7531, batch_loss: 0.1871, loss: 0.6955 ||: 100%|##########| 16/16 [00:25<00:00,  2.00s/it]
2023-05-13 16:38:23,675 - INFO - tqdm - precision: 0.7521, recall: 0.7542, fscore: 0.7531, batch_loss: 0.1871, loss: 0.6955 ||: 100%|##########| 16/16 [00:25<00:00,  1.58s/it]
2023-05-13 16:38:23,676 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 16:38:23,676 - INFO - allennlp.training.callbacks.console_logger - fscore             |       N/A  |     0.753
2023-05-13 16:38:23,676 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2990.136  |       N/A
2023-05-13 16:38:23,676 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.187  |     0.695
2023-05-13 16:38:23,676 - INFO - allennlp.training.callbacks.console_logger - precision          |       N/A  |     0.752
2023-05-13 16:38:23,676 - INFO - allennlp.training.callbacks.console_logger - recall             |       N/A  |     0.754
2023-05-13 16:38:23,676 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4521.004  |       N/A
2023-05-13 16:38:29,307 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:03:19.438911
2023-05-13 16:38:29,307 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:12:24
2023-05-13 16:38:29,307 - INFO - allennlp.training.gradient_descent_trainer - Epoch 21/24
2023-05-13 16:38:29,307 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 16:38:29,308 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 16:38:29,309 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 16:38:29,309 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 16:38:39,476 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1125 ||:   6%|5         | 68/1163 [00:10<03:59,  4.57it/s]
2023-05-13 16:38:49,612 - INFO - tqdm - batch_loss: 0.0001, loss: 0.0982 ||:  12%|#2        | 143/1163 [00:20<02:17,  7.44it/s]
2023-05-13 16:38:59,695 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1190 ||:  17%|#7        | 203/1163 [00:30<01:51,  8.61it/s]
2023-05-13 16:39:09,852 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1361 ||:  24%|##3       | 277/1163 [00:40<02:31,  5.85it/s]
2023-05-13 16:39:19,908 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1319 ||:  30%|##9       | 344/1163 [00:50<02:21,  5.80it/s]
2023-05-13 16:39:29,993 - INFO - tqdm - batch_loss: 0.0013, loss: 0.1260 ||:  35%|###5      | 411/1163 [01:00<01:53,  6.65it/s]
2023-05-13 16:39:40,058 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1239 ||:  42%|####1     | 488/1163 [01:10<01:33,  7.19it/s]
2023-05-13 16:39:50,177 - INFO - tqdm - batch_loss: 0.0001, loss: 0.1228 ||:  47%|####7     | 549/1163 [01:20<01:19,  7.75it/s]
2023-05-13 16:40:00,428 - INFO - tqdm - batch_loss: 0.1142, loss: 0.1289 ||:  54%|#####3    | 624/1163 [01:31<01:51,  4.84it/s]
2023-05-13 16:40:10,505 - INFO - tqdm - batch_loss: 1.3430, loss: 0.1407 ||:  60%|#####9    | 694/1163 [01:41<01:01,  7.66it/s]
2023-05-13 16:40:20,527 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1420 ||:  66%|######5   | 765/1163 [01:51<00:56,  7.02it/s]
2023-05-13 16:40:30,536 - INFO - tqdm - batch_loss: 0.1544, loss: 0.1469 ||:  72%|#######2  | 840/1163 [02:01<00:42,  7.54it/s]
2023-05-13 16:40:40,654 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1454 ||:  77%|#######7  | 901/1163 [02:11<00:38,  6.76it/s]
2023-05-13 16:40:50,660 - INFO - tqdm - batch_loss: 1.0540, loss: 0.1487 ||:  83%|########3 | 970/1163 [02:21<00:34,  5.64it/s]
2023-05-13 16:41:00,727 - INFO - tqdm - batch_loss: 0.3312, loss: 0.1442 ||:  89%|########9 | 1037/1163 [02:31<00:18,  6.97it/s]
2023-05-13 16:41:10,744 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1447 ||:  95%|#########4| 1100/1163 [02:41<00:12,  4.94it/s]
2023-05-13 16:41:19,546 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1472 ||: 100%|#########9| 1159/1163 [02:50<00:00,  7.94it/s]
2023-05-13 16:41:19,671 - INFO - tqdm - batch_loss: 1.8138, loss: 0.1487 ||: 100%|#########9| 1160/1163 [02:50<00:00,  7.95it/s]
2023-05-13 16:41:19,817 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1485 ||: 100%|#########9| 1161/1163 [02:50<00:00,  7.65it/s]
2023-05-13 16:41:19,973 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1484 ||: 100%|#########9| 1162/1163 [02:50<00:00,  7.28it/s]
2023-05-13 16:41:20,067 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1483 ||: 100%|##########| 1163/1163 [02:50<00:00,  6.81it/s]
2023-05-13 16:41:20,067 - INFO - allennlp.training.gradient_descent_trainer - Validating
2023-05-13 16:41:20,068 - INFO - tqdm - 0%|          | 0/16 [00:00<?, ?it/s]
2023-05-13 16:41:30,622 - INFO - tqdm - precision: 0.8176, recall: 0.7429, fscore: 0.7784, batch_loss: 0.9550, loss: 0.7804 ||:  44%|####3     | 7/16 [00:10<00:14,  1.63s/it]
2023-05-13 16:41:43,484 - INFO - tqdm - precision: 0.7468, recall: 0.7233, fscore: 0.7348, batch_loss: 0.5902, loss: 0.7783 ||:  94%|#########3| 15/16 [00:23<00:01,  1.93s/it]
2023-05-13 16:41:44,175 - INFO - tqdm - precision: 0.7549, recall: 0.7486, fscore: 0.7518, batch_loss: 1.0070, loss: 0.7926 ||: 100%|##########| 16/16 [00:24<00:00,  1.56s/it]
2023-05-13 16:41:44,176 - INFO - tqdm - precision: 0.7549, recall: 0.7486, fscore: 0.7518, batch_loss: 1.0070, loss: 0.7926 ||: 100%|##########| 16/16 [00:24<00:00,  1.51s/it]
2023-05-13 16:41:44,177 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 16:41:44,177 - INFO - allennlp.training.callbacks.console_logger - fscore             |       N/A  |     0.752
2023-05-13 16:41:44,177 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2935.913  |       N/A
2023-05-13 16:41:44,177 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.148  |     0.793
2023-05-13 16:41:44,177 - INFO - allennlp.training.callbacks.console_logger - precision          |       N/A  |     0.755
2023-05-13 16:41:44,177 - INFO - allennlp.training.callbacks.console_logger - recall             |       N/A  |     0.749
2023-05-13 16:41:44,177 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4521.004  |       N/A
2023-05-13 16:41:50,537 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:03:21.229792
2023-05-13 16:41:50,537 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:09:20
2023-05-13 16:41:50,537 - INFO - allennlp.training.gradient_descent_trainer - Epoch 22/24
2023-05-13 16:41:50,537 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 16:41:50,538 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 16:41:50,539 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 16:41:50,540 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 16:42:00,566 - INFO - tqdm - batch_loss: 0.0002, loss: 0.1005 ||:   6%|5         | 67/1163 [00:10<02:43,  6.69it/s]
2023-05-13 16:42:10,766 - INFO - tqdm - batch_loss: 0.0000, loss: 0.2283 ||:  12%|#1        | 139/1163 [00:20<02:06,  8.08it/s]
2023-05-13 16:42:20,857 - INFO - tqdm - batch_loss: 0.0005, loss: 0.1988 ||:  18%|#7        | 204/1163 [00:30<02:04,  7.71it/s]
2023-05-13 16:42:30,887 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1670 ||:  24%|##4       | 282/1163 [00:40<02:08,  6.86it/s]
2023-05-13 16:42:40,980 - INFO - tqdm - batch_loss: 0.0089, loss: 0.1560 ||:  30%|##9       | 345/1163 [00:50<02:10,  6.27it/s]
2023-05-13 16:42:51,155 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1539 ||:  36%|###5      | 415/1163 [01:00<02:13,  5.60it/s]
2023-05-13 16:43:01,267 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1421 ||:  42%|####2     | 491/1163 [01:10<01:19,  8.41it/s]
2023-05-13 16:43:11,368 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1459 ||:  48%|####7     | 554/1163 [01:20<01:08,  8.84it/s]
2023-05-13 16:43:21,619 - INFO - tqdm - batch_loss: 0.0537, loss: 0.1392 ||:  54%|#####4    | 631/1163 [01:31<01:28,  5.98it/s]
2023-05-13 16:43:31,846 - INFO - tqdm - batch_loss: 0.0002, loss: 0.1301 ||:  60%|######    | 698/1163 [01:41<01:07,  6.87it/s]
2023-05-13 16:43:42,039 - INFO - tqdm - batch_loss: 0.0002, loss: 0.1293 ||:  66%|######6   | 771/1163 [01:51<01:16,  5.11it/s]
2023-05-13 16:43:52,077 - INFO - tqdm - batch_loss: 0.0004, loss: 0.1314 ||:  73%|#######2  | 844/1163 [02:01<00:42,  7.54it/s]
2023-05-13 16:44:02,237 - INFO - tqdm - batch_loss: 1.4601, loss: 0.1286 ||:  78%|#######8  | 909/1163 [02:11<00:35,  7.25it/s]
2023-05-13 16:44:12,386 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1238 ||:  85%|########4 | 986/1163 [02:21<00:29,  6.06it/s]
2023-05-13 16:44:22,487 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1281 ||:  91%|######### | 1054/1163 [02:31<00:14,  7.30it/s]
2023-05-13 16:44:32,553 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1312 ||:  96%|#########6| 1119/1163 [02:42<00:07,  6.11it/s]
2023-05-13 16:44:38,618 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1313 ||: 100%|#########9| 1159/1163 [02:48<00:00,  7.84it/s]
2023-05-13 16:44:38,747 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1312 ||: 100%|#########9| 1160/1163 [02:48<00:00,  7.81it/s]
2023-05-13 16:44:38,935 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1309 ||: 100%|#########9| 1162/1163 [02:48<00:00,  8.73it/s]
2023-05-13 16:44:39,079 - INFO - tqdm - batch_loss: 0.0001, loss: 0.1308 ||: 100%|##########| 1163/1163 [02:48<00:00,  8.26it/s]
2023-05-13 16:44:39,080 - INFO - tqdm - batch_loss: 0.0001, loss: 0.1308 ||: 100%|##########| 1163/1163 [02:48<00:00,  6.90it/s]
2023-05-13 16:44:39,081 - INFO - allennlp.training.gradient_descent_trainer - Validating
2023-05-13 16:44:39,083 - INFO - tqdm - 0%|          | 0/16 [00:00<?, ?it/s]
2023-05-13 16:44:50,051 - INFO - tqdm - precision: 0.7266, recall: 0.6643, fscore: 0.6940, batch_loss: 0.7820, loss: 0.8420 ||:  50%|#####     | 8/16 [00:10<00:13,  1.74s/it]
2023-05-13 16:45:00,385 - INFO - tqdm - precision: 0.7645, recall: 0.7346, fscore: 0.7493, batch_loss: 1.0186, loss: 0.8778 ||: 100%|##########| 16/16 [00:21<00:00,  1.40s/it]
2023-05-13 16:45:00,385 - INFO - tqdm - precision: 0.7645, recall: 0.7346, fscore: 0.7493, batch_loss: 1.0186, loss: 0.8778 ||: 100%|##########| 16/16 [00:21<00:00,  1.33s/it]
2023-05-13 16:45:00,386 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 16:45:00,386 - INFO - allennlp.training.callbacks.console_logger - fscore             |       N/A  |     0.749
2023-05-13 16:45:00,386 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2935.913  |       N/A
2023-05-13 16:45:00,386 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.131  |     0.878
2023-05-13 16:45:00,386 - INFO - allennlp.training.callbacks.console_logger - precision          |       N/A  |     0.765
2023-05-13 16:45:00,386 - INFO - allennlp.training.callbacks.console_logger - recall             |       N/A  |     0.735
2023-05-13 16:45:00,386 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4521.004  |       N/A
2023-05-13 16:45:13,578 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:03:23.040485
2023-05-13 16:45:13,578 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:06:14
2023-05-13 16:45:13,578 - INFO - allennlp.training.gradient_descent_trainer - Epoch 23/24
2023-05-13 16:45:13,578 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 16:45:13,579 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 16:45:13,580 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 16:45:13,580 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 16:45:23,707 - INFO - tqdm - batch_loss: 0.0211, loss: 0.1289 ||:   5%|5         | 63/1163 [00:10<02:42,  6.78it/s]
2023-05-13 16:45:33,764 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1039 ||:  12%|#2        | 141/1163 [00:20<02:29,  6.82it/s]
2023-05-13 16:45:43,936 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1223 ||:  18%|#7        | 205/1163 [00:30<03:58,  4.01it/s]
2023-05-13 16:45:54,041 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1223 ||:  24%|##3       | 277/1163 [00:40<02:21,  6.27it/s]
2023-05-13 16:46:04,041 - INFO - tqdm - batch_loss: 0.8121, loss: 0.1231 ||:  30%|##9       | 345/1163 [00:50<02:09,  6.33it/s]
2023-05-13 16:46:14,226 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1271 ||:  35%|###5      | 408/1163 [01:00<02:25,  5.20it/s]
2023-05-13 16:46:24,242 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1349 ||:  42%|####1     | 485/1163 [01:10<01:39,  6.81it/s]
2023-05-13 16:46:34,330 - INFO - tqdm - batch_loss: 0.0006, loss: 0.1366 ||:  47%|####6     | 544/1163 [01:20<01:33,  6.63it/s]
2023-05-13 16:46:44,386 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1316 ||:  53%|#####2    | 614/1163 [01:30<01:25,  6.43it/s]
2023-05-13 16:46:54,469 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1280 ||:  59%|#####9    | 687/1163 [01:40<00:59,  8.04it/s]
2023-05-13 16:47:04,643 - INFO - tqdm - batch_loss: 0.0008, loss: 0.1318 ||:  64%|######4   | 749/1163 [01:51<01:23,  4.95it/s]
2023-05-13 16:47:14,679 - INFO - tqdm - batch_loss: 0.7808, loss: 0.1279 ||:  71%|#######1  | 828/1163 [02:01<00:45,  7.33it/s]
2023-05-13 16:47:24,740 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1232 ||:  77%|#######7  | 897/1163 [02:11<00:30,  8.81it/s]
2023-05-13 16:47:34,774 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1213 ||:  83%|########3 | 969/1163 [02:21<00:34,  5.59it/s]
2023-05-13 16:47:44,800 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1264 ||:  89%|########9 | 1037/1163 [02:31<00:17,  7.26it/s]
2023-05-13 16:47:55,021 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1266 ||:  94%|#########4| 1099/1163 [02:41<00:12,  5.13it/s]
2023-05-13 16:48:03,161 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1220 ||: 100%|#########9| 1159/1163 [02:49<00:00,  9.03it/s]
2023-05-13 16:48:03,263 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1219 ||: 100%|#########9| 1160/1163 [02:49<00:00,  9.19it/s]
2023-05-13 16:48:03,460 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1218 ||: 100%|#########9| 1161/1163 [02:49<00:00,  7.66it/s]
2023-05-13 16:48:03,645 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1217 ||: 100%|#########9| 1162/1163 [02:50<00:00,  6.92it/s]
2023-05-13 16:48:03,847 - INFO - tqdm - batch_loss: 0.1178, loss: 0.1217 ||: 100%|##########| 1163/1163 [02:50<00:00,  6.25it/s]
2023-05-13 16:48:03,848 - INFO - tqdm - batch_loss: 0.1178, loss: 0.1217 ||: 100%|##########| 1163/1163 [02:50<00:00,  6.83it/s]
2023-05-13 16:48:03,849 - INFO - allennlp.training.gradient_descent_trainer - Validating
2023-05-13 16:48:03,851 - INFO - tqdm - 0%|          | 0/16 [00:00<?, ?it/s]
2023-05-13 16:48:14,756 - INFO - tqdm - precision: 0.7903, recall: 0.7903, fscore: 0.7903, batch_loss: 1.1783, loss: 1.0303 ||:  44%|####3     | 7/16 [00:10<00:15,  1.68s/it]
2023-05-13 16:48:25,994 - INFO - tqdm - precision: 0.7340, recall: 0.7201, fscore: 0.7270, batch_loss: 1.3082, loss: 0.9971 ||:  94%|#########3| 15/16 [00:22<00:02,  2.03s/it]
2023-05-13 16:48:26,683 - INFO - tqdm - precision: 0.7458, recall: 0.7458, fscore: 0.7458, batch_loss: 1.0895, loss: 1.0029 ||: 100%|##########| 16/16 [00:22<00:00,  1.63s/it]
2023-05-13 16:48:26,684 - INFO - tqdm - precision: 0.7458, recall: 0.7458, fscore: 0.7458, batch_loss: 1.0895, loss: 1.0029 ||: 100%|##########| 16/16 [00:22<00:00,  1.43s/it]
2023-05-13 16:48:26,685 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 16:48:26,685 - INFO - allennlp.training.callbacks.console_logger - fscore             |       N/A  |     0.746
2023-05-13 16:48:26,685 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2962.435  |       N/A
2023-05-13 16:48:26,685 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.122  |     1.003
2023-05-13 16:48:26,685 - INFO - allennlp.training.callbacks.console_logger - precision          |       N/A  |     0.746
2023-05-13 16:48:26,685 - INFO - allennlp.training.callbacks.console_logger - recall             |       N/A  |     0.746
2023-05-13 16:48:26,685 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4521.004  |       N/A
2023-05-13 16:48:32,233 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:03:18.655121
2023-05-13 16:48:32,234 - INFO - allennlp.training.gradient_descent_trainer - Estimated training time remaining: 0:03:07
2023-05-13 16:48:32,234 - INFO - allennlp.training.gradient_descent_trainer - Epoch 24/24
2023-05-13 16:48:32,234 - INFO - allennlp.training.gradient_descent_trainer - Worker 0 memory usage: 4.4G
2023-05-13 16:48:32,234 - INFO - allennlp.training.gradient_descent_trainer - GPU 0 memory usage: 2.9G
2023-05-13 16:48:32,236 - INFO - allennlp.training.gradient_descent_trainer - Training
2023-05-13 16:48:32,236 - INFO - tqdm - 0%|          | 0/1163 [00:00<?, ?it/s]
2023-05-13 16:48:42,336 - INFO - tqdm - batch_loss: 0.0000, loss: 0.0796 ||:   6%|6         | 73/1163 [00:10<03:26,  5.29it/s]
2023-05-13 16:48:52,468 - INFO - tqdm - batch_loss: 0.2337, loss: 0.1343 ||:  12%|#2        | 145/1163 [00:20<02:47,  6.08it/s]
2023-05-13 16:49:02,480 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1347 ||:  18%|#7        | 209/1163 [00:30<02:35,  6.14it/s]
2023-05-13 16:49:12,569 - INFO - tqdm - batch_loss: 0.0055, loss: 0.1376 ||:  24%|##4       | 283/1163 [00:40<02:03,  7.12it/s]
2023-05-13 16:49:22,697 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1438 ||:  30%|###       | 349/1163 [00:50<02:18,  5.86it/s]
2023-05-13 16:49:32,762 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1289 ||:  36%|###6      | 422/1163 [01:00<02:21,  5.23it/s]
2023-05-13 16:49:42,796 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1175 ||:  42%|####2     | 491/1163 [01:10<01:21,  8.25it/s]
2023-05-13 16:49:52,823 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1266 ||:  48%|####7     | 554/1163 [01:20<01:55,  5.27it/s]
2023-05-13 16:50:03,026 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1213 ||:  54%|#####3    | 628/1163 [01:30<01:09,  7.75it/s]
2023-05-13 16:50:13,178 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1168 ||:  60%|#####9    | 694/1163 [01:40<00:58,  7.96it/s]
2023-05-13 16:50:23,380 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1144 ||:  66%|######5   | 762/1163 [01:51<01:11,  5.63it/s]
2023-05-13 16:50:33,481 - INFO - tqdm - batch_loss: 0.6088, loss: 0.1099 ||:  71%|#######1  | 826/1163 [02:01<00:39,  8.53it/s]
2023-05-13 16:50:43,551 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1137 ||:  77%|#######6  | 890/1163 [02:11<00:55,  4.88it/s]
2023-05-13 16:50:53,685 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1173 ||:  83%|########2 | 965/1163 [02:21<00:28,  6.89it/s]
2023-05-13 16:51:03,786 - INFO - tqdm - batch_loss: 1.8091, loss: 0.1147 ||:  88%|########8 | 1028/1163 [02:31<00:18,  7.35it/s]
2023-05-13 16:51:13,878 - INFO - tqdm - batch_loss: 0.0007, loss: 0.1183 ||:  95%|#########4| 1103/1163 [02:41<00:09,  6.13it/s]
2023-05-13 16:51:22,074 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1188 ||: 100%|#########9| 1158/1163 [02:49<00:00,  6.69it/s]
2023-05-13 16:51:22,205 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1187 ||: 100%|#########9| 1159/1163 [02:49<00:00,  6.89it/s]
2023-05-13 16:51:22,435 - INFO - tqdm - batch_loss: 0.2387, loss: 0.1187 ||: 100%|#########9| 1161/1163 [02:50<00:00,  7.52it/s]
2023-05-13 16:51:22,626 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1185 ||: 100%|##########| 1163/1163 [02:50<00:00,  8.39it/s]
2023-05-13 16:51:22,628 - INFO - tqdm - batch_loss: 0.0000, loss: 0.1185 ||: 100%|##########| 1163/1163 [02:50<00:00,  6.83it/s]
2023-05-13 16:51:22,628 - INFO - allennlp.training.gradient_descent_trainer - Validating
2023-05-13 16:51:22,630 - INFO - tqdm - 0%|          | 0/16 [00:00<?, ?it/s]
2023-05-13 16:51:34,044 - INFO - tqdm - precision: 0.7500, recall: 0.7576, fscore: 0.7538, batch_loss: 0.7929, loss: 0.7100 ||:  38%|###7      | 6/16 [00:11<00:17,  1.75s/it]
2023-05-13 16:51:44,133 - INFO - tqdm - precision: 0.7451, recall: 0.7430, fscore: 0.7441, batch_loss: 1.6418, loss: 0.8955 ||: 100%|##########| 16/16 [00:21<00:00,  1.16it/s]
2023-05-13 16:51:44,133 - INFO - tqdm - precision: 0.7451, recall: 0.7430, fscore: 0.7441, batch_loss: 1.6418, loss: 0.8955 ||: 100%|##########| 16/16 [00:21<00:00,  1.34s/it]
2023-05-13 16:51:44,134 - INFO - allennlp.training.callbacks.console_logger -                        Training |  Validation
2023-05-13 16:51:44,134 - INFO - allennlp.training.callbacks.console_logger - fscore             |       N/A  |     0.744
2023-05-13 16:51:44,134 - INFO - allennlp.training.callbacks.console_logger - gpu_0_memory_MB    |  2960.673  |       N/A
2023-05-13 16:51:44,134 - INFO - allennlp.training.callbacks.console_logger - loss               |     0.118  |     0.896
2023-05-13 16:51:44,134 - INFO - allennlp.training.callbacks.console_logger - precision          |       N/A  |     0.745
2023-05-13 16:51:44,134 - INFO - allennlp.training.callbacks.console_logger - recall             |       N/A  |     0.743
2023-05-13 16:51:44,134 - INFO - allennlp.training.callbacks.console_logger - worker_0_memory_MB |  4521.004  |       N/A
2023-05-13 16:51:50,666 - INFO - allennlp.training.gradient_descent_trainer - Epoch duration: 0:03:18.432223
2023-05-13 16:51:53,069 - INFO - allennlp.common.util - Metrics: {
  "best_epoch": 20,
  "peak_worker_0_memory_MB": 4521.00390625,
  "peak_gpu_0_memory_MB": 3001.03662109375,
  "training_duration": "1:18:27.472121",
  "epoch": 24,
  "training_loss": 0.11846704688033759,
  "training_worker_0_memory_MB": 4521.00390625,
  "training_gpu_0_memory_MB": 2960.6728515625,
  "validation_precision": 0.7450980544090271,
  "validation_recall": 0.74301677942276,
  "validation_fscore": 0.7440559267997742,
  "validation_loss": 0.895537956195767,
  "best_validation_precision": 0.7520891427993774,
  "best_validation_recall": 0.7541899681091309,
  "best_validation_fscore": 0.7531380653381348,
  "best_validation_loss": 0.6954866239684634
}
2023-05-13 16:51:53,069 - INFO - allennlp.models.archival - archiving weights and vocabulary to output/model.tar.gz