Upload 13 files

Browse files

Files changed (13) hide show

config.json +180 -0
merges.txt +0 -0
optimizer.pt +3 -0
preprocessor_config.json +18 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +51 -0
tokenizer.json +0 -0
tokenizer_config.json +66 -0
trainer_state.json +724 -0
training_args.bin +3 -0
vocab.json +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,180 @@

+{
+  "_commit_hash": "5c48f939de25655eeca55d31e7893ada48d300d9",
+  "_name_or_path": "microsoft/trocr-base-stage1",
+  "architectures": [
+    "VisionEncoderDecoderModel"
+  ],
+  "decoder": {
+    "_name_or_path": "",
+    "activation_dropout": 0.0,
+    "activation_function": "relu",
+    "add_cross_attention": true,
+    "architectures": null,
+    "attention_dropout": 0.0,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": 0,
+    "chunk_size_feed_forward": 0,
+    "classifier_dropout": 0.0,
+    "cross_attention_hidden_size": 768,
+    "d_model": 1024,
+    "decoder_attention_heads": 16,
+    "decoder_ffn_dim": 4096,
+    "decoder_layerdrop": 0.0,
+    "decoder_layers": 12,
+    "decoder_start_token_id": 2,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "dropout": 0.1,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": 2,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "init_std": 0.02,
+    "is_decoder": true,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layernorm_embedding": false,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "max_position_embeddings": 1024,
+    "min_length": 0,
+    "model_type": "trocr",
+    "no_repeat_ngram_size": 0,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 1,
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "scale_embedding": true,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": false,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "transformers_version": "4.24.0",
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "use_cache": false,
+    "use_learned_position_embeddings": false,
+    "vocab_size": 50265
+  },
+  "decoder_start_token_id": 0,
+  "early_stopping": true,
+  "encoder": {
+    "_name_or_path": "",
+    "add_cross_attention": false,
+    "architectures": null,
+    "attention_probs_dropout_prob": 0.0,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "encoder_stride": 16,
+    "eos_token_id": null,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.0,
+    "hidden_size": 768,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "image_size": 384,
+    "initializer_range": 0.02,
+    "intermediate_size": 3072,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-12,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "min_length": 0,
+    "model_type": "vit",
+    "no_repeat_ngram_size": 0,
+    "num_attention_heads": 12,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_channels": 3,
+    "num_hidden_layers": 12,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": null,
+    "patch_size": 16,
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "qkv_bias": false,
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "transformers_version": "4.24.0",
+    "typical_p": 1.0,
+    "use_bfloat16": false
+  },
+  "eos_token_id": 2,
+  "is_encoder_decoder": true,
+  "length_penalty": 2.0,
+  "max_length": 36,
+  "model_type": "vision-encoder-decoder",
+  "no_repeat_ngram_size": 3,
+  "num_beams": 4,
+  "pad_token_id": 1,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": null,
+  "vocab_size": 50265
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4c97f69ee41290bcc71e70f72fda1d95cdedccc1bf46b05a540444718ff9355
+size 3074473541

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "do_normalize": true,
+  "do_resize": true,
+  "feature_extractor_type": "ViTFeatureExtractor",
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "processor_class": "TrOCRProcessor",
+  "resample": 2,
+  "size": 384
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:48c30f4b4660ec1b6bdbdb2cf35e362d3102e597cc9993f2b16fc991a2a5ffff
+size 1539625673

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a4aee5adbfab97a9adfd8580e4c853534a1a67e63c8d9454230544a7727c74e
+size 14575

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ed373d8b695820c18a06c1f883fea8fc9d8e11cafc54bdfc114c75360d01e57d
+size 627

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,66 @@

+{
+  "add_prefix_space": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "errors": "replace",
+  "mask_token": {
+    "__type": "AddedToken",
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "model_max_length": 512,
+  "name_or_path": "microsoft/trocr-base-stage1",
+  "pad_token": {
+    "__type": "AddedToken",
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "processor_class": "TrOCRProcessor",
+  "sep_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "special_tokens_map_file": null,
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,724 @@

+{
+  "best_metric": 0.004195804195804196,
+  "best_model_checkpoint": "custom_model_stage1_base_concat_synth/checkpoint-900",
+  "epoch": 2.9605263157894735,
+  "global_step": 900,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 4.9945175438596495e-05,
+      "loss": 9.5118,
+      "step": 1
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.9451754385964915e-05,
+      "loss": 3.2727,
+      "step": 10
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.890350877192983e-05,
+      "loss": 2.6133,
+      "step": 20
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.8355263157894734e-05,
+      "loss": 3.1323,
+      "step": 30
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.780701754385965e-05,
+      "loss": 2.6306,
+      "step": 40
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.7258771929824566e-05,
+      "loss": 2.9819,
+      "step": 50
+    },
+    {
+      "epoch": 0.16,
+      "eval_cer": 0.3053536021150033,
+      "eval_loss": 1.6067169904708862,
+      "eval_runtime": 22.608,
+      "eval_samples_per_second": 6.281,
+      "eval_steps_per_second": 0.796,
+      "step": 50
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.671052631578948e-05,
+      "loss": 2.3285,
+      "step": 60
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.616228070175439e-05,
+      "loss": 1.9334,
+      "step": 70
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 4.56140350877193e-05,
+      "loss": 1.9042,
+      "step": 80
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.506578947368421e-05,
+      "loss": 2.0802,
+      "step": 90
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.451754385964912e-05,
+      "loss": 2.144,
+      "step": 100
+    },
+    {
+      "epoch": 0.33,
+      "eval_cer": 0.08821502412129566,
+      "eval_loss": 0.9317633509635925,
+      "eval_runtime": 27.231,
+      "eval_samples_per_second": 5.215,
+      "eval_steps_per_second": 0.661,
+      "step": 100
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 4.3969298245614036e-05,
+      "loss": 1.7753,
+      "step": 110
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 4.342105263157895e-05,
+      "loss": 1.9885,
+      "step": 120
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 4.287280701754386e-05,
+      "loss": 1.8163,
+      "step": 130
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 4.2324561403508774e-05,
+      "loss": 1.8354,
+      "step": 140
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 4.177631578947369e-05,
+      "loss": 2.1775,
+      "step": 150
+    },
+    {
+      "epoch": 0.49,
+      "eval_cer": 0.05823293172690763,
+      "eval_loss": 0.8989996314048767,
+      "eval_runtime": 24.7772,
+      "eval_samples_per_second": 5.731,
+      "eval_steps_per_second": 0.726,
+      "step": 150
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 4.12280701754386e-05,
+      "loss": 2.0764,
+      "step": 160
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 4.067982456140351e-05,
+      "loss": 2.1435,
+      "step": 170
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 4.0131578947368425e-05,
+      "loss": 1.9279,
+      "step": 180
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 3.958333333333333e-05,
+      "loss": 1.6143,
+      "step": 190
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 3.9035087719298244e-05,
+      "loss": 1.6676,
+      "step": 200
+    },
+    {
+      "epoch": 0.66,
+      "eval_cer": 0.05952380952380952,
+      "eval_loss": 0.6604741215705872,
+      "eval_runtime": 25.9554,
+      "eval_samples_per_second": 5.471,
+      "eval_steps_per_second": 0.693,
+      "step": 200
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 3.848684210526316e-05,
+      "loss": 1.5091,
+      "step": 210
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 3.7938596491228076e-05,
+      "loss": 1.5469,
+      "step": 220
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 3.739035087719299e-05,
+      "loss": 1.7522,
+      "step": 230
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 3.6842105263157895e-05,
+      "loss": 1.6574,
+      "step": 240
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 3.629385964912281e-05,
+      "loss": 1.2664,
+      "step": 250
+    },
+    {
+      "epoch": 0.82,
+      "eval_cer": 0.019313304721030045,
+      "eval_loss": 0.6368018388748169,
+      "eval_runtime": 26.7506,
+      "eval_samples_per_second": 5.308,
+      "eval_steps_per_second": 0.673,
+      "step": 250
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 3.574561403508772e-05,
+      "loss": 1.481,
+      "step": 260
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 3.519736842105263e-05,
+      "loss": 1.404,
+      "step": 270
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.4649122807017546e-05,
+      "loss": 1.2388,
+      "step": 280
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 3.410087719298246e-05,
+      "loss": 1.6538,
+      "step": 290
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 3.355263157894737e-05,
+      "loss": 1.2714,
+      "step": 300
+    },
+    {
+      "epoch": 0.99,
+      "eval_cer": 0.04748982360922659,
+      "eval_loss": 0.6383101344108582,
+      "eval_runtime": 27.9443,
+      "eval_samples_per_second": 5.082,
+      "eval_steps_per_second": 0.644,
+      "step": 300
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 3.3004385964912284e-05,
+      "loss": 1.2309,
+      "step": 310
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 3.24561403508772e-05,
+      "loss": 1.2347,
+      "step": 320
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 3.190789473684211e-05,
+      "loss": 1.1184,
+      "step": 330
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 3.1359649122807015e-05,
+      "loss": 1.2385,
+      "step": 340
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 3.081140350877193e-05,
+      "loss": 0.9966,
+      "step": 350
+    },
+    {
+      "epoch": 1.15,
+      "eval_cer": 0.025748086290883786,
+      "eval_loss": 0.5416922569274902,
+      "eval_runtime": 27.2235,
+      "eval_samples_per_second": 5.216,
+      "eval_steps_per_second": 0.661,
+      "step": 350
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 3.0263157894736844e-05,
+      "loss": 0.9694,
+      "step": 360
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 2.9714912280701757e-05,
+      "loss": 1.0465,
+      "step": 370
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 2.916666666666667e-05,
+      "loss": 0.9811,
+      "step": 380
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 2.861842105263158e-05,
+      "loss": 1.0744,
+      "step": 390
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 2.8070175438596492e-05,
+      "loss": 1.0068,
+      "step": 400
+    },
+    {
+      "epoch": 1.32,
+      "eval_cer": 0.02813127930341594,
+      "eval_loss": 0.4663618803024292,
+      "eval_runtime": 28.8768,
+      "eval_samples_per_second": 4.917,
+      "eval_steps_per_second": 0.623,
+      "step": 400
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 2.7521929824561405e-05,
+      "loss": 1.1744,
+      "step": 410
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 2.6973684210526317e-05,
+      "loss": 1.0358,
+      "step": 420
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 2.642543859649123e-05,
+      "loss": 0.8434,
+      "step": 430
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 2.5877192982456143e-05,
+      "loss": 0.901,
+      "step": 440
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 2.5328947368421052e-05,
+      "loss": 1.1405,
+      "step": 450
+    },
+    {
+      "epoch": 1.48,
+      "eval_cer": 0.020134228187919462,
+      "eval_loss": 0.5748289823532104,
+      "eval_runtime": 28.573,
+      "eval_samples_per_second": 4.97,
+      "eval_steps_per_second": 0.63,
+      "step": 450
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 2.4780701754385965e-05,
+      "loss": 0.9414,
+      "step": 460
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 2.4232456140350878e-05,
+      "loss": 1.1748,
+      "step": 470
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 2.368421052631579e-05,
+      "loss": 1.0134,
+      "step": 480
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 2.3135964912280703e-05,
+      "loss": 1.0102,
+      "step": 490
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 2.2587719298245616e-05,
+      "loss": 0.9627,
+      "step": 500
+    },
+    {
+      "epoch": 1.64,
+      "eval_cer": 0.02203856749311295,
+      "eval_loss": 0.4435074031352997,
+      "eval_runtime": 27.4558,
+      "eval_samples_per_second": 5.172,
+      "eval_steps_per_second": 0.656,
+      "step": 500
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 2.2039473684210525e-05,
+      "loss": 1.0858,
+      "step": 510
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 2.149122807017544e-05,
+      "loss": 0.8016,
+      "step": 520
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 2.0942982456140354e-05,
+      "loss": 0.813,
+      "step": 530
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 2.0394736842105264e-05,
+      "loss": 0.792,
+      "step": 540
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 1.9846491228070176e-05,
+      "loss": 0.8551,
+      "step": 550
+    },
+    {
+      "epoch": 1.81,
+      "eval_cer": 0.0291583830351226,
+      "eval_loss": 0.5917633771896362,
+      "eval_runtime": 30.3337,
+      "eval_samples_per_second": 4.681,
+      "eval_steps_per_second": 0.593,
+      "step": 550
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 1.929824561403509e-05,
+      "loss": 0.8459,
+      "step": 560
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 1.8750000000000002e-05,
+      "loss": 0.8129,
+      "step": 570
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 1.8201754385964914e-05,
+      "loss": 0.8238,
+      "step": 580
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 1.7653508771929824e-05,
+      "loss": 0.9552,
+      "step": 590
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 1.7105263157894737e-05,
+      "loss": 0.6585,
+      "step": 600
+    },
+    {
+      "epoch": 1.97,
+      "eval_cer": 0.01694915254237288,
+      "eval_loss": 0.4142173230648041,
+      "eval_runtime": 28.0204,
+      "eval_samples_per_second": 5.068,
+      "eval_steps_per_second": 0.642,
+      "step": 600
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 1.655701754385965e-05,
+      "loss": 0.6229,
+      "step": 610
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 1.6008771929824562e-05,
+      "loss": 0.8082,
+      "step": 620
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 1.5460526315789475e-05,
+      "loss": 0.751,
+      "step": 630
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 1.4912280701754386e-05,
+      "loss": 0.6503,
+      "step": 640
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 1.4364035087719299e-05,
+      "loss": 0.6518,
+      "step": 650
+    },
+    {
+      "epoch": 2.14,
+      "eval_cer": 0.008419689119170985,
+      "eval_loss": 0.3558412492275238,
+      "eval_runtime": 28.5056,
+      "eval_samples_per_second": 4.981,
+      "eval_steps_per_second": 0.631,
+      "step": 650
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 1.3815789473684213e-05,
+      "loss": 0.6165,
+      "step": 660
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 1.3267543859649122e-05,
+      "loss": 0.7267,
+      "step": 670
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 1.2719298245614037e-05,
+      "loss": 0.8219,
+      "step": 680
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 1.2171052631578948e-05,
+      "loss": 0.7055,
+      "step": 690
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 1.162280701754386e-05,
+      "loss": 0.5255,
+      "step": 700
+    },
+    {
+      "epoch": 2.3,
+      "eval_cer": 0.0047879616963064295,
+      "eval_loss": 0.3521033823490143,
+      "eval_runtime": 27.0564,
+      "eval_samples_per_second": 5.248,
+      "eval_steps_per_second": 0.665,
+      "step": 700
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 1.1074561403508772e-05,
+      "loss": 0.7562,
+      "step": 710
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 1.0526315789473684e-05,
+      "loss": 0.6348,
+      "step": 720
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 9.978070175438597e-06,
+      "loss": 0.7211,
+      "step": 730
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 9.42982456140351e-06,
+      "loss": 0.488,
+      "step": 740
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 8.881578947368421e-06,
+      "loss": 0.469,
+      "step": 750
+    },
+    {
+      "epoch": 2.47,
+      "eval_cer": 0.004864489228630994,
+      "eval_loss": 0.32997873425483704,
+      "eval_runtime": 26.4415,
+      "eval_samples_per_second": 5.37,
+      "eval_steps_per_second": 0.681,
+      "step": 750
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.4705,
+      "step": 760
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 7.785087719298246e-06,
+      "loss": 0.5315,
+      "step": 770
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 7.236842105263158e-06,
+      "loss": 0.4967,
+      "step": 780
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 6.68859649122807e-06,
+      "loss": 0.6951,
+      "step": 790
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 6.140350877192982e-06,
+      "loss": 0.434,
+      "step": 800
+    },
+    {
+      "epoch": 2.63,
+      "eval_cer": 0.005936675461741424,
+      "eval_loss": 0.3225802481174469,
+      "eval_runtime": 27.8587,
+      "eval_samples_per_second": 5.097,
+      "eval_steps_per_second": 0.646,
+      "step": 800
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 5.592105263157895e-06,
+      "loss": 0.4898,
+      "step": 810
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 5.043859649122807e-06,
+      "loss": 0.8127,
+      "step": 820
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 4.4956140350877196e-06,
+      "loss": 0.5916,
+      "step": 830
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 3.9473684210526315e-06,
+      "loss": 0.3977,
+      "step": 840
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 3.399122807017544e-06,
+      "loss": 0.5842,
+      "step": 850
+    },
+    {
+      "epoch": 2.8,
+      "eval_cer": 0.006997900629811057,
+      "eval_loss": 0.3334667980670929,
+      "eval_runtime": 26.2691,
+      "eval_samples_per_second": 5.406,
+      "eval_steps_per_second": 0.685,
+      "step": 850
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 2.850877192982456e-06,
+      "loss": 0.4293,
+      "step": 860
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 2.3026315789473684e-06,
+      "loss": 0.4953,
+      "step": 870
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 1.7543859649122807e-06,
+      "loss": 0.6281,
+      "step": 880
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 1.206140350877193e-06,
+      "loss": 0.5186,
+      "step": 890
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 6.578947368421053e-07,
+      "loss": 0.5946,
+      "step": 900
+    },
+    {
+      "epoch": 2.96,
+      "eval_cer": 0.004195804195804196,
+      "eval_loss": 0.3096241056919098,
+      "eval_runtime": 27.0145,
+      "eval_samples_per_second": 5.256,
+      "eval_steps_per_second": 0.666,
+      "step": 900
+    }
+  ],
+  "max_steps": 912,
+  "num_train_epochs": 3,
+  "total_flos": 6.369477453856899e+18,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:44034dde030d525d7efd97f406c7a9cee13eb34247467fc93ccac0a3f2acca6f
+size 3515

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff