Upload 7 files

Browse files

Files changed (7) hide show

config.json +128 -0
preprocessor_config.json +9 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +913 -0
training_args.bin +3 -0
vocab.json +1 -0

config.json ADDED Viewed

	@@ -0,0 +1,128 @@

+{
+  "_name_or_path": "soba1911/xlsr-wav2vec2",
+  "activation_dropout": 0.0,
+  "adapter_attn_dim": null,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForSpeechClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 768,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.1,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.0,
+  "finetuning_task": "wav2vec2_clf",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "bonafide",
+    "1": "spoof"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "bonafide": 0,
+    "spoof": 1
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
+  "mask_time_prob": 0.075,
+  "mask_time_selection": "static",
+  "model_type": "wav2vec2",
+  "num_adapter_layers": 3,
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "num_negatives": 100,
+  "output_hidden_size": 1024,
+  "pad_token_id": 0,
+  "pooling_mode": "mean",
+  "problem_type": "single_label_classification",
+  "proj_codevector_dim": 768,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.0.dev0",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32,
+  "xvector_output_dim": 512
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3fe258b7acd770c26a92648df46edefefd3201139dbb23982e694e83f8060c2e
+size 14308

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:43d9476704a2b5fc8a9f2cd4f2b882e6f0387d6e8e661a51cbf47cb22502edbe
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,913 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.24509803921568626,
+  "eval_steps": 10,
+  "global_step": 550,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.004456327985739751,
+      "grad_norm": 0.7227747440338135,
+      "learning_rate": 0.00019636363636363636,
+      "loss": 0.364,
+      "step": 10
+    },
+    {
+      "epoch": 0.004456327985739751,
+      "eval_accuracy": 0.89683598279953,
+      "eval_loss": 0.3638981878757477,
+      "eval_runtime": 537.6403,
+      "eval_samples_per_second": 8.348,
+      "eval_steps_per_second": 2.087,
+      "step": 10
+    },
+    {
+      "epoch": 0.008912655971479501,
+      "grad_norm": 0.0924869254231453,
+      "learning_rate": 0.00019272727272727274,
+      "loss": 0.3247,
+      "step": 20
+    },
+    {
+      "epoch": 0.008912655971479501,
+      "eval_accuracy": 0.89683598279953,
+      "eval_loss": 0.5152587890625,
+      "eval_runtime": 533.0372,
+      "eval_samples_per_second": 8.42,
+      "eval_steps_per_second": 2.105,
+      "step": 20
+    },
+    {
+      "epoch": 0.013368983957219251,
+      "grad_norm": 0.23558691143989563,
+      "learning_rate": 0.0001890909090909091,
+      "loss": 0.4074,
+      "step": 30
+    },
+    {
+      "epoch": 0.013368983957219251,
+      "eval_accuracy": 0.89683598279953,
+      "eval_loss": 0.3966202735900879,
+      "eval_runtime": 532.3437,
+      "eval_samples_per_second": 8.431,
+      "eval_steps_per_second": 2.108,
+      "step": 30
+    },
+    {
+      "epoch": 0.017825311942959002,
+      "grad_norm": 0.7453870177268982,
+      "learning_rate": 0.00018545454545454545,
+      "loss": 0.2989,
+      "step": 40
+    },
+    {
+      "epoch": 0.017825311942959002,
+      "eval_accuracy": 0.89683598279953,
+      "eval_loss": 0.33440741896629333,
+      "eval_runtime": 532.0041,
+      "eval_samples_per_second": 8.436,
+      "eval_steps_per_second": 2.109,
+      "step": 40
+    },
+    {
+      "epoch": 0.022281639928698752,
+      "grad_norm": 6.811055660247803,
+      "learning_rate": 0.00018181818181818183,
+      "loss": 0.3399,
+      "step": 50
+    },
+    {
+      "epoch": 0.022281639928698752,
+      "eval_accuracy": 0.89683598279953,
+      "eval_loss": 0.32954567670822144,
+      "eval_runtime": 536.9612,
+      "eval_samples_per_second": 8.358,
+      "eval_steps_per_second": 2.09,
+      "step": 50
+    },
+    {
+      "epoch": 0.026737967914438502,
+      "grad_norm": 1.3061631917953491,
+      "learning_rate": 0.0001781818181818182,
+      "loss": 0.3437,
+      "step": 60
+    },
+    {
+      "epoch": 0.026737967914438502,
+      "eval_accuracy": 0.89683598279953,
+      "eval_loss": 0.3265528976917267,
+      "eval_runtime": 533.3224,
+      "eval_samples_per_second": 8.415,
+      "eval_steps_per_second": 2.104,
+      "step": 60
+    },
+    {
+      "epoch": 0.031194295900178252,
+      "grad_norm": 1.7616266012191772,
+      "learning_rate": 0.00017454545454545454,
+      "loss": 0.3749,
+      "step": 70
+    },
+    {
+      "epoch": 0.031194295900178252,
+      "eval_accuracy": 0.89683598279953,
+      "eval_loss": 0.3122697174549103,
+      "eval_runtime": 530.7411,
+      "eval_samples_per_second": 8.456,
+      "eval_steps_per_second": 2.114,
+      "step": 70
+    },
+    {
+      "epoch": 0.035650623885918005,
+      "grad_norm": 1.1275932788848877,
+      "learning_rate": 0.0001709090909090909,
+      "loss": 0.4267,
+      "step": 80
+    },
+    {
+      "epoch": 0.035650623885918005,
+      "eval_accuracy": 0.89683598279953,
+      "eval_loss": 0.23432780802249908,
+      "eval_runtime": 533.9058,
+      "eval_samples_per_second": 8.406,
+      "eval_steps_per_second": 2.101,
+      "step": 80
+    },
+    {
+      "epoch": 0.040106951871657755,
+      "grad_norm": 1.387789249420166,
+      "learning_rate": 0.00016727272727272728,
+      "loss": 0.4221,
+      "step": 90
+    },
+    {
+      "epoch": 0.040106951871657755,
+      "eval_accuracy": 0.89683598279953,
+      "eval_loss": 0.21733854711055756,
+      "eval_runtime": 533.5436,
+      "eval_samples_per_second": 8.412,
+      "eval_steps_per_second": 2.103,
+      "step": 90
+    },
+    {
+      "epoch": 0.044563279857397504,
+      "grad_norm": 9.95677375793457,
+      "learning_rate": 0.00016363636363636366,
+      "loss": 0.2292,
+      "step": 100
+    },
+    {
+      "epoch": 0.044563279857397504,
+      "eval_accuracy": 0.89683598279953,
+      "eval_loss": 0.3393175005912781,
+      "eval_runtime": 537.6972,
+      "eval_samples_per_second": 8.347,
+      "eval_steps_per_second": 2.087,
+      "step": 100
+    },
+    {
+      "epoch": 0.049019607843137254,
+      "grad_norm": 1.0864927768707275,
+      "learning_rate": 0.00016,
+      "loss": 0.4339,
+      "step": 110
+    },
+    {
+      "epoch": 0.049019607843137254,
+      "eval_accuracy": 0.89683598279953,
+      "eval_loss": 0.28164002299308777,
+      "eval_runtime": 531.492,
+      "eval_samples_per_second": 8.444,
+      "eval_steps_per_second": 2.111,
+      "step": 110
+    },
+    {
+      "epoch": 0.053475935828877004,
+      "grad_norm": 1.7070204019546509,
+      "learning_rate": 0.00015636363636363637,
+      "loss": 0.4143,
+      "step": 120
+    },
+    {
+      "epoch": 0.053475935828877004,
+      "eval_accuracy": 0.8963903784751892,
+      "eval_loss": 0.20752401649951935,
+      "eval_runtime": 538.1828,
+      "eval_samples_per_second": 8.339,
+      "eval_steps_per_second": 2.085,
+      "step": 120
+    },
+    {
+      "epoch": 0.057932263814616754,
+      "grad_norm": 0.08961692452430725,
+      "learning_rate": 0.00015272727272727275,
+      "loss": 0.2757,
+      "step": 130
+    },
+    {
+      "epoch": 0.057932263814616754,
+      "eval_accuracy": 0.89683598279953,
+      "eval_loss": 0.1715579330921173,
+      "eval_runtime": 534.1189,
+      "eval_samples_per_second": 8.403,
+      "eval_steps_per_second": 2.101,
+      "step": 130
+    },
+    {
+      "epoch": 0.062388591800356503,
+      "grad_norm": 1.3324838876724243,
+      "learning_rate": 0.0001490909090909091,
+      "loss": 0.1588,
+      "step": 140
+    },
+    {
+      "epoch": 0.062388591800356503,
+      "eval_accuracy": 0.89683598279953,
+      "eval_loss": 0.149879589676857,
+      "eval_runtime": 530.7418,
+      "eval_samples_per_second": 8.456,
+      "eval_steps_per_second": 2.114,
+      "step": 140
+    },
+    {
+      "epoch": 0.06684491978609626,
+      "grad_norm": 2.0198991298675537,
+      "learning_rate": 0.00014545454545454546,
+      "loss": 0.4453,
+      "step": 150
+    },
+    {
+      "epoch": 0.06684491978609626,
+      "eval_accuracy": 0.89683598279953,
+      "eval_loss": 0.2379792034626007,
+      "eval_runtime": 530.3365,
+      "eval_samples_per_second": 8.463,
+      "eval_steps_per_second": 2.116,
+      "step": 150
+    },
+    {
+      "epoch": 0.07130124777183601,
+      "grad_norm": 0.3087630867958069,
+      "learning_rate": 0.00014181818181818184,
+      "loss": 0.2505,
+      "step": 160
+    },
+    {
+      "epoch": 0.07130124777183601,
+      "eval_accuracy": 0.89683598279953,
+      "eval_loss": 0.3300795257091522,
+      "eval_runtime": 529.0534,
+      "eval_samples_per_second": 8.483,
+      "eval_steps_per_second": 2.121,
+      "step": 160
+    },
+    {
+      "epoch": 0.07575757575757576,
+      "grad_norm": 2.6436047554016113,
+      "learning_rate": 0.0001381818181818182,
+      "loss": 0.2654,
+      "step": 170
+    },
+    {
+      "epoch": 0.07575757575757576,
+      "eval_accuracy": 0.89683598279953,
+      "eval_loss": 0.22237823903560638,
+      "eval_runtime": 536.9554,
+      "eval_samples_per_second": 8.358,
+      "eval_steps_per_second": 2.09,
+      "step": 170
+    },
+    {
+      "epoch": 0.08021390374331551,
+      "grad_norm": 0.9066676497459412,
+      "learning_rate": 0.00013454545454545455,
+      "loss": 0.3018,
+      "step": 180
+    },
+    {
+      "epoch": 0.08021390374331551,
+      "eval_accuracy": 0.89683598279953,
+      "eval_loss": 0.2531951069831848,
+      "eval_runtime": 532.2386,
+      "eval_samples_per_second": 8.432,
+      "eval_steps_per_second": 2.108,
+      "step": 180
+    },
+    {
+      "epoch": 0.08467023172905526,
+      "grad_norm": 0.10262551158666611,
+      "learning_rate": 0.00013090909090909093,
+      "loss": 0.2325,
+      "step": 190
+    },
+    {
+      "epoch": 0.08467023172905526,
+      "eval_accuracy": 0.89683598279953,
+      "eval_loss": 0.22432851791381836,
+      "eval_runtime": 531.5973,
+      "eval_samples_per_second": 8.442,
+      "eval_steps_per_second": 2.111,
+      "step": 190
+    },
+    {
+      "epoch": 0.08912655971479501,
+      "grad_norm": 0.20511843264102936,
+      "learning_rate": 0.00012727272727272728,
+      "loss": 0.2641,
+      "step": 200
+    },
+    {
+      "epoch": 0.08912655971479501,
+      "eval_accuracy": 0.89683598279953,
+      "eval_loss": 0.14137917757034302,
+      "eval_runtime": 528.9957,
+      "eval_samples_per_second": 8.484,
+      "eval_steps_per_second": 2.121,
+      "step": 200
+    },
+    {
+      "epoch": 0.09358288770053476,
+      "grad_norm": 0.9824792742729187,
+      "learning_rate": 0.00012363636363636364,
+      "loss": 0.1497,
+      "step": 210
+    },
+    {
+      "epoch": 0.09358288770053476,
+      "eval_accuracy": 0.89683598279953,
+      "eval_loss": 0.12781496345996857,
+      "eval_runtime": 532.3045,
+      "eval_samples_per_second": 8.431,
+      "eval_steps_per_second": 2.108,
+      "step": 210
+    },
+    {
+      "epoch": 0.09803921568627451,
+      "grad_norm": 0.29042425751686096,
+      "learning_rate": 0.00012,
+      "loss": 0.1536,
+      "step": 220
+    },
+    {
+      "epoch": 0.09803921568627451,
+      "eval_accuracy": 0.9380570650100708,
+      "eval_loss": 0.14640431106090546,
+      "eval_runtime": 535.3538,
+      "eval_samples_per_second": 8.383,
+      "eval_steps_per_second": 2.096,
+      "step": 220
+    },
+    {
+      "epoch": 0.10249554367201426,
+      "grad_norm": 0.5411375761032104,
+      "learning_rate": 0.00011636363636363636,
+      "loss": 0.1801,
+      "step": 230
+    },
+    {
+      "epoch": 0.10249554367201426,
+      "eval_accuracy": 0.9358288645744324,
+      "eval_loss": 0.1414562165737152,
+      "eval_runtime": 533.0939,
+      "eval_samples_per_second": 8.419,
+      "eval_steps_per_second": 2.105,
+      "step": 230
+    },
+    {
+      "epoch": 0.10695187165775401,
+      "grad_norm": 5.630716323852539,
+      "learning_rate": 0.00011272727272727272,
+      "loss": 0.1344,
+      "step": 240
+    },
+    {
+      "epoch": 0.10695187165775401,
+      "eval_accuracy": 0.9844028353691101,
+      "eval_loss": 0.08324988931417465,
+      "eval_runtime": 536.1639,
+      "eval_samples_per_second": 8.371,
+      "eval_steps_per_second": 2.093,
+      "step": 240
+    },
+    {
+      "epoch": 0.11140819964349376,
+      "grad_norm": 0.27143993973731995,
+      "learning_rate": 0.00010909090909090909,
+      "loss": 0.1722,
+      "step": 250
+    },
+    {
+      "epoch": 0.11140819964349376,
+      "eval_accuracy": 0.9861853718757629,
+      "eval_loss": 0.060878392308950424,
+      "eval_runtime": 533.7467,
+      "eval_samples_per_second": 8.408,
+      "eval_steps_per_second": 2.102,
+      "step": 250
+    },
+    {
+      "epoch": 0.11586452762923351,
+      "grad_norm": 0.6671731472015381,
+      "learning_rate": 0.00010545454545454545,
+      "loss": 0.0684,
+      "step": 260
+    },
+    {
+      "epoch": 0.11586452762923351,
+      "eval_accuracy": 0.8997326493263245,
+      "eval_loss": 0.19059808552265167,
+      "eval_runtime": 537.3352,
+      "eval_samples_per_second": 8.352,
+      "eval_steps_per_second": 2.088,
+      "step": 260
+    },
+    {
+      "epoch": 0.12032085561497326,
+      "grad_norm": 0.007157750893384218,
+      "learning_rate": 0.00010181818181818181,
+      "loss": 0.2185,
+      "step": 270
+    },
+    {
+      "epoch": 0.12032085561497326,
+      "eval_accuracy": 0.9703654050827026,
+      "eval_loss": 0.07430911809206009,
+      "eval_runtime": 534.3595,
+      "eval_samples_per_second": 8.399,
+      "eval_steps_per_second": 2.1,
+      "step": 270
+    },
+    {
+      "epoch": 0.12477718360071301,
+      "grad_norm": 0.10907144099473953,
+      "learning_rate": 9.818181818181818e-05,
+      "loss": 0.0562,
+      "step": 280
+    },
+    {
+      "epoch": 0.12477718360071301,
+      "eval_accuracy": 0.9839572310447693,
+      "eval_loss": 0.046000149101018906,
+      "eval_runtime": 532.5534,
+      "eval_samples_per_second": 8.427,
+      "eval_steps_per_second": 2.107,
+      "step": 280
+    },
+    {
+      "epoch": 0.12923351158645277,
+      "grad_norm": 0.004431632813066244,
+      "learning_rate": 9.454545454545455e-05,
+      "loss": 0.007,
+      "step": 290
+    },
+    {
+      "epoch": 0.12923351158645277,
+      "eval_accuracy": 0.9895276427268982,
+      "eval_loss": 0.03365661948919296,
+      "eval_runtime": 539.0883,
+      "eval_samples_per_second": 8.325,
+      "eval_steps_per_second": 2.081,
+      "step": 290
+    },
+    {
+      "epoch": 0.13368983957219252,
+      "grad_norm": 0.14239944517612457,
+      "learning_rate": 9.090909090909092e-05,
+      "loss": 0.1054,
+      "step": 300
+    },
+    {
+      "epoch": 0.13368983957219252,
+      "eval_accuracy": 0.9890819787979126,
+      "eval_loss": 0.03497695177793503,
+      "eval_runtime": 530.7114,
+      "eval_samples_per_second": 8.457,
+      "eval_steps_per_second": 2.114,
+      "step": 300
+    },
+    {
+      "epoch": 0.13814616755793227,
+      "grad_norm": 0.19534932076931,
+      "learning_rate": 8.727272727272727e-05,
+      "loss": 0.0074,
+      "step": 310
+    },
+    {
+      "epoch": 0.13814616755793227,
+      "eval_accuracy": 0.9815062284469604,
+      "eval_loss": 0.055771518498659134,
+      "eval_runtime": 540.1438,
+      "eval_samples_per_second": 8.309,
+      "eval_steps_per_second": 2.077,
+      "step": 310
+    },
+    {
+      "epoch": 0.14260249554367202,
+      "grad_norm": 0.14106573164463043,
+      "learning_rate": 8.363636363636364e-05,
+      "loss": 0.0069,
+      "step": 320
+    },
+    {
+      "epoch": 0.14260249554367202,
+      "eval_accuracy": 0.9752673506736755,
+      "eval_loss": 0.07411307096481323,
+      "eval_runtime": 530.0836,
+      "eval_samples_per_second": 8.467,
+      "eval_steps_per_second": 2.117,
+      "step": 320
+    },
+    {
+      "epoch": 0.14705882352941177,
+      "grad_norm": 0.04756563529372215,
+      "learning_rate": 8e-05,
+      "loss": 0.0881,
+      "step": 330
+    },
+    {
+      "epoch": 0.14705882352941177,
+      "eval_accuracy": 0.9884135723114014,
+      "eval_loss": 0.03824571892619133,
+      "eval_runtime": 529.2936,
+      "eval_samples_per_second": 8.479,
+      "eval_steps_per_second": 2.12,
+      "step": 330
+    },
+    {
+      "epoch": 0.15151515151515152,
+      "grad_norm": 0.008182384073734283,
+      "learning_rate": 7.636363636363637e-05,
+      "loss": 0.047,
+      "step": 340
+    },
+    {
+      "epoch": 0.15151515151515152,
+      "eval_accuracy": 0.9779411554336548,
+      "eval_loss": 0.07092902809381485,
+      "eval_runtime": 530.9951,
+      "eval_samples_per_second": 8.452,
+      "eval_steps_per_second": 2.113,
+      "step": 340
+    },
+    {
+      "epoch": 0.15597147950089127,
+      "grad_norm": 6.055085182189941,
+      "learning_rate": 7.272727272727273e-05,
+      "loss": 0.1135,
+      "step": 350
+    },
+    {
+      "epoch": 0.15597147950089127,
+      "eval_accuracy": 0.9935383200645447,
+      "eval_loss": 0.02391628548502922,
+      "eval_runtime": 531.8853,
+      "eval_samples_per_second": 8.438,
+      "eval_steps_per_second": 2.109,
+      "step": 350
+    },
+    {
+      "epoch": 0.16042780748663102,
+      "grad_norm": 2.0424458980560303,
+      "learning_rate": 6.90909090909091e-05,
+      "loss": 0.1708,
+      "step": 360
+    },
+    {
+      "epoch": 0.16042780748663102,
+      "eval_accuracy": 0.9844028353691101,
+      "eval_loss": 0.0482899434864521,
+      "eval_runtime": 538.9554,
+      "eval_samples_per_second": 8.327,
+      "eval_steps_per_second": 2.082,
+      "step": 360
+    },
+    {
+      "epoch": 0.16488413547237077,
+      "grad_norm": 0.008309995755553246,
+      "learning_rate": 6.545454545454546e-05,
+      "loss": 0.0053,
+      "step": 370
+    },
+    {
+      "epoch": 0.16488413547237077,
+      "eval_accuracy": 0.9977718591690063,
+      "eval_loss": 0.011557623744010925,
+      "eval_runtime": 536.7458,
+      "eval_samples_per_second": 8.361,
+      "eval_steps_per_second": 2.09,
+      "step": 370
+    },
+    {
+      "epoch": 0.16934046345811052,
+      "grad_norm": 0.0617559477686882,
+      "learning_rate": 6.181818181818182e-05,
+      "loss": 0.0257,
+      "step": 380
+    },
+    {
+      "epoch": 0.16934046345811052,
+      "eval_accuracy": 0.9979946613311768,
+      "eval_loss": 0.011457420885562897,
+      "eval_runtime": 538.0907,
+      "eval_samples_per_second": 8.341,
+      "eval_steps_per_second": 2.085,
+      "step": 380
+    },
+    {
+      "epoch": 0.17379679144385027,
+      "grad_norm": 0.1585519164800644,
+      "learning_rate": 5.818181818181818e-05,
+      "loss": 0.0978,
+      "step": 390
+    },
+    {
+      "epoch": 0.17379679144385027,
+      "eval_accuracy": 0.9986631274223328,
+      "eval_loss": 0.009089282713830471,
+      "eval_runtime": 539.9652,
+      "eval_samples_per_second": 8.312,
+      "eval_steps_per_second": 2.078,
+      "step": 390
+    },
+    {
+      "epoch": 0.17825311942959002,
+      "grad_norm": 0.13566212356090546,
+      "learning_rate": 5.4545454545454546e-05,
+      "loss": 0.0467,
+      "step": 400
+    },
+    {
+      "epoch": 0.17825311942959002,
+      "eval_accuracy": 0.9982174634933472,
+      "eval_loss": 0.011012092232704163,
+      "eval_runtime": 539.0037,
+      "eval_samples_per_second": 8.326,
+      "eval_steps_per_second": 2.082,
+      "step": 400
+    },
+    {
+      "epoch": 0.18270944741532977,
+      "grad_norm": 0.054975979030132294,
+      "learning_rate": 5.090909090909091e-05,
+      "loss": 0.0266,
+      "step": 410
+    },
+    {
+      "epoch": 0.18270944741532977,
+      "eval_accuracy": 0.9988859295845032,
+      "eval_loss": 0.008680622093379498,
+      "eval_runtime": 536.4536,
+      "eval_samples_per_second": 8.366,
+      "eval_steps_per_second": 2.092,
+      "step": 410
+    },
+    {
+      "epoch": 0.18716577540106952,
+      "grad_norm": 9.600521087646484,
+      "learning_rate": 4.7272727272727275e-05,
+      "loss": 0.0118,
+      "step": 420
+    },
+    {
+      "epoch": 0.18716577540106952,
+      "eval_accuracy": 0.9988859295845032,
+      "eval_loss": 0.008196841925382614,
+      "eval_runtime": 529.3899,
+      "eval_samples_per_second": 8.478,
+      "eval_steps_per_second": 2.119,
+      "step": 420
+    },
+    {
+      "epoch": 0.19162210338680927,
+      "grad_norm": 0.00836893916130066,
+      "learning_rate": 4.3636363636363636e-05,
+      "loss": 0.0689,
+      "step": 430
+    },
+    {
+      "epoch": 0.19162210338680927,
+      "eval_accuracy": 0.9984402656555176,
+      "eval_loss": 0.009529507718980312,
+      "eval_runtime": 537.9471,
+      "eval_samples_per_second": 8.343,
+      "eval_steps_per_second": 2.086,
+      "step": 430
+    },
+    {
+      "epoch": 0.19607843137254902,
+      "grad_norm": 0.05235498398542404,
+      "learning_rate": 4e-05,
+      "loss": 0.0785,
+      "step": 440
+    },
+    {
+      "epoch": 0.19607843137254902,
+      "eval_accuracy": 0.9975489974021912,
+      "eval_loss": 0.01092607993632555,
+      "eval_runtime": 533.7576,
+      "eval_samples_per_second": 8.408,
+      "eval_steps_per_second": 2.102,
+      "step": 440
+    },
+    {
+      "epoch": 0.20053475935828877,
+      "grad_norm": 7.876805782318115,
+      "learning_rate": 3.6363636363636364e-05,
+      "loss": 0.0749,
+      "step": 450
+    },
+    {
+      "epoch": 0.20053475935828877,
+      "eval_accuracy": 0.9971033930778503,
+      "eval_loss": 0.013591339811682701,
+      "eval_runtime": 532.153,
+      "eval_samples_per_second": 8.434,
+      "eval_steps_per_second": 2.108,
+      "step": 450
+    },
+    {
+      "epoch": 0.20499108734402852,
+      "grad_norm": 0.055418092757463455,
+      "learning_rate": 3.272727272727273e-05,
+      "loss": 0.0038,
+      "step": 460
+    },
+    {
+      "epoch": 0.20499108734402852,
+      "eval_accuracy": 0.9930927157402039,
+      "eval_loss": 0.025715434923768044,
+      "eval_runtime": 531.9415,
+      "eval_samples_per_second": 8.437,
+      "eval_steps_per_second": 2.109,
+      "step": 460
+    },
+    {
+      "epoch": 0.20944741532976827,
+      "grad_norm": 26.78069305419922,
+      "learning_rate": 2.909090909090909e-05,
+      "loss": 0.1342,
+      "step": 470
+    },
+    {
+      "epoch": 0.20944741532976827,
+      "eval_accuracy": 0.987522304058075,
+      "eval_loss": 0.040662843734025955,
+      "eval_runtime": 530.1651,
+      "eval_samples_per_second": 8.465,
+      "eval_steps_per_second": 2.116,
+      "step": 470
+    },
+    {
+      "epoch": 0.21390374331550802,
+      "grad_norm": 13.968317031860352,
+      "learning_rate": 2.5454545454545454e-05,
+      "loss": 0.1816,
+      "step": 480
+    },
+    {
+      "epoch": 0.21390374331550802,
+      "eval_accuracy": 0.9803921580314636,
+      "eval_loss": 0.06171296164393425,
+      "eval_runtime": 536.4017,
+      "eval_samples_per_second": 8.367,
+      "eval_steps_per_second": 2.092,
+      "step": 480
+    },
+    {
+      "epoch": 0.21836007130124777,
+      "grad_norm": 0.009305565617978573,
+      "learning_rate": 2.1818181818181818e-05,
+      "loss": 0.0735,
+      "step": 490
+    },
+    {
+      "epoch": 0.21836007130124777,
+      "eval_accuracy": 0.9734848737716675,
+      "eval_loss": 0.08175662159919739,
+      "eval_runtime": 530.5285,
+      "eval_samples_per_second": 8.459,
+      "eval_steps_per_second": 2.115,
+      "step": 490
+    },
+    {
+      "epoch": 0.22281639928698752,
+      "grad_norm": 0.00870052631944418,
+      "learning_rate": 1.8181818181818182e-05,
+      "loss": 0.0535,
+      "step": 500
+    },
+    {
+      "epoch": 0.22281639928698752,
+      "eval_accuracy": 0.9748217463493347,
+      "eval_loss": 0.07746395468711853,
+      "eval_runtime": 534.4791,
+      "eval_samples_per_second": 8.397,
+      "eval_steps_per_second": 2.099,
+      "step": 500
+    },
+    {
+      "epoch": 0.22727272727272727,
+      "grad_norm": 0.05970863625407219,
+      "learning_rate": 1.4545454545454545e-05,
+      "loss": 0.0088,
+      "step": 510
+    },
+    {
+      "epoch": 0.22727272727272727,
+      "eval_accuracy": 0.9846256971359253,
+      "eval_loss": 0.04695257917046547,
+      "eval_runtime": 532.8984,
+      "eval_samples_per_second": 8.422,
+      "eval_steps_per_second": 2.105,
+      "step": 510
+    },
+    {
+      "epoch": 0.23172905525846701,
+      "grad_norm": 11.049286842346191,
+      "learning_rate": 1.0909090909090909e-05,
+      "loss": 0.0836,
+      "step": 520
+    },
+    {
+      "epoch": 0.23172905525846701,
+      "eval_accuracy": 0.9897504448890686,
+      "eval_loss": 0.03497246652841568,
+      "eval_runtime": 534.5562,
+      "eval_samples_per_second": 8.396,
+      "eval_steps_per_second": 2.099,
+      "step": 520
+    },
+    {
+      "epoch": 0.23618538324420676,
+      "grad_norm": 0.18157783150672913,
+      "learning_rate": 7.272727272727272e-06,
+      "loss": 0.0086,
+      "step": 530
+    },
+    {
+      "epoch": 0.23618538324420676,
+      "eval_accuracy": 0.9888591766357422,
+      "eval_loss": 0.03722322732210159,
+      "eval_runtime": 532.0239,
+      "eval_samples_per_second": 8.436,
+      "eval_steps_per_second": 2.109,
+      "step": 530
+    },
+    {
+      "epoch": 0.24064171122994651,
+      "grad_norm": 0.35108181834220886,
+      "learning_rate": 3.636363636363636e-06,
+      "loss": 0.0046,
+      "step": 540
+    },
+    {
+      "epoch": 0.24064171122994651,
+      "eval_accuracy": 0.9888591766357422,
+      "eval_loss": 0.0368054136633873,
+      "eval_runtime": 531.8153,
+      "eval_samples_per_second": 8.439,
+      "eval_steps_per_second": 2.11,
+      "step": 540
+    },
+    {
+      "epoch": 0.24509803921568626,
+      "grad_norm": 0.008579758927226067,
+      "learning_rate": 0.0,
+      "loss": 0.042,
+      "step": 550
+    },
+    {
+      "epoch": 0.24509803921568626,
+      "eval_accuracy": 0.9890819787979126,
+      "eval_loss": 0.03674088791012764,
+      "eval_runtime": 537.7421,
+      "eval_samples_per_second": 8.346,
+      "eval_steps_per_second": 2.087,
+      "step": 550
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 550,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 10,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.326400520422712e+17,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc20e3106e3deeaae77b52e921ca2de540a5648c5f467aef56a1c48a8706b46b
+size 5112

vocab.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"<pad>": 0, "<s>": 1, "</s>": 2, "<unk>": 3, "\|": 4, "'": 5, "-": 6, "a": 7, "b": 8, "c": 9, "d": 10, "e": 11, "f": 12, "g": 13, "h": 14, "i": 15, "j": 16, "k": 17, "l": 18, "m": 19, "n": 20, "o": 21, "p": 22, "q": 23, "r": 24, "s": 25, "t": 26, "u": 27, "v": 28, "w": 29, "x": 30, "y": 31, "z": 32}