Upload 6 files

Browse files

Files changed (6) hide show

config.json +128 -0
preprocessor_config.json +9 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +913 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,128 @@

+{
+  "_name_or_path": "soba1911/xlsr-wav2vec2",
+  "activation_dropout": 0.0,
+  "adapter_attn_dim": null,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForSpeechClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 768,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.1,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.0,
+  "finetuning_task": "wav2vec2_clf",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "bonafide",
+    "1": "spoof"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "bonafide": 0,
+    "spoof": 1
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
+  "mask_time_prob": 0.075,
+  "mask_time_selection": "static",
+  "model_type": "wav2vec2",
+  "num_adapter_layers": 3,
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "num_negatives": 100,
+  "output_hidden_size": 1024,
+  "pad_token_id": 0,
+  "pooling_mode": "mean",
+  "problem_type": "single_label_classification",
+  "proj_codevector_dim": 768,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.0.dev0",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32,
+  "xvector_output_dim": 512
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0195e5a3176eddd58d1ed464a257315104f2aeefa32e2f1f973c03a2b6aa9d6d
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4aec5c2f056acaa2fbffcd9c5be9cf23e3440cbb2644f199cc6997e40426b30f
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,913 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.21670606776989756,
+  "eval_steps": 10,
+  "global_step": 550,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.003940110323089046,
+      "grad_norm": 2.0866503715515137,
+      "learning_rate": 0.0004909090909090909,
+      "loss": 0.4138,
+      "step": 10
+    },
+    {
+      "epoch": 0.003940110323089046,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.4887285530567169,
+      "eval_runtime": 644.3572,
+      "eval_samples_per_second": 7.878,
+      "eval_steps_per_second": 1.969,
+      "step": 10
+    },
+    {
+      "epoch": 0.007880220646178092,
+      "grad_norm": 0.8669756650924683,
+      "learning_rate": 0.00048181818181818184,
+      "loss": 0.4995,
+      "step": 20
+    },
+    {
+      "epoch": 0.007880220646178092,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.38217219710350037,
+      "eval_runtime": 633.2128,
+      "eval_samples_per_second": 8.016,
+      "eval_steps_per_second": 2.004,
+      "step": 20
+    },
+    {
+      "epoch": 0.01182033096926714,
+      "grad_norm": 2.203610420227051,
+      "learning_rate": 0.0004727272727272727,
+      "loss": 0.382,
+      "step": 30
+    },
+    {
+      "epoch": 0.01182033096926714,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.3638584017753601,
+      "eval_runtime": 642.1063,
+      "eval_samples_per_second": 7.905,
+      "eval_steps_per_second": 1.976,
+      "step": 30
+    },
+    {
+      "epoch": 0.015760441292356184,
+      "grad_norm": 0.812998354434967,
+      "learning_rate": 0.00046363636363636366,
+      "loss": 0.354,
+      "step": 40
+    },
+    {
+      "epoch": 0.015760441292356184,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.3297870457172394,
+      "eval_runtime": 644.4864,
+      "eval_samples_per_second": 7.876,
+      "eval_steps_per_second": 1.969,
+      "step": 40
+    },
+    {
+      "epoch": 0.019700551615445233,
+      "grad_norm": 0.6705520749092102,
+      "learning_rate": 0.00045454545454545455,
+      "loss": 0.521,
+      "step": 50
+    },
+    {
+      "epoch": 0.019700551615445233,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.38316452503204346,
+      "eval_runtime": 645.7523,
+      "eval_samples_per_second": 7.861,
+      "eval_steps_per_second": 1.965,
+      "step": 50
+    },
+    {
+      "epoch": 0.02364066193853428,
+      "grad_norm": 1.1547324657440186,
+      "learning_rate": 0.00044545454545454543,
+      "loss": 0.3344,
+      "step": 60
+    },
+    {
+      "epoch": 0.02364066193853428,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.3688468039035797,
+      "eval_runtime": 647.1212,
+      "eval_samples_per_second": 7.844,
+      "eval_steps_per_second": 1.961,
+      "step": 60
+    },
+    {
+      "epoch": 0.027580772261623327,
+      "grad_norm": 0.7195687890052795,
+      "learning_rate": 0.00043636363636363637,
+      "loss": 0.3524,
+      "step": 70
+    },
+    {
+      "epoch": 0.027580772261623327,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.33884838223457336,
+      "eval_runtime": 644.2281,
+      "eval_samples_per_second": 7.879,
+      "eval_steps_per_second": 1.97,
+      "step": 70
+    },
+    {
+      "epoch": 0.03152088258471237,
+      "grad_norm": 0.030797701328992844,
+      "learning_rate": 0.00042727272727272726,
+      "loss": 0.2702,
+      "step": 80
+    },
+    {
+      "epoch": 0.03152088258471237,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.32865411043167114,
+      "eval_runtime": 643.6443,
+      "eval_samples_per_second": 7.886,
+      "eval_steps_per_second": 1.972,
+      "step": 80
+    },
+    {
+      "epoch": 0.03546099290780142,
+      "grad_norm": 0.7822753190994263,
+      "learning_rate": 0.00041818181818181814,
+      "loss": 0.3767,
+      "step": 90
+    },
+    {
+      "epoch": 0.03546099290780142,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.3282410800457001,
+      "eval_runtime": 647.7767,
+      "eval_samples_per_second": 7.836,
+      "eval_steps_per_second": 1.959,
+      "step": 90
+    },
+    {
+      "epoch": 0.039401103230890466,
+      "grad_norm": 0.7474893927574158,
+      "learning_rate": 0.00040909090909090913,
+      "loss": 0.2964,
+      "step": 100
+    },
+    {
+      "epoch": 0.039401103230890466,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.3291880786418915,
+      "eval_runtime": 640.1347,
+      "eval_samples_per_second": 7.93,
+      "eval_steps_per_second": 1.982,
+      "step": 100
+    },
+    {
+      "epoch": 0.04334121355397951,
+      "grad_norm": 0.44683077931404114,
+      "learning_rate": 0.0004,
+      "loss": 0.3428,
+      "step": 110
+    },
+    {
+      "epoch": 0.04334121355397951,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.33626437187194824,
+      "eval_runtime": 640.0811,
+      "eval_samples_per_second": 7.93,
+      "eval_steps_per_second": 1.983,
+      "step": 110
+    },
+    {
+      "epoch": 0.04728132387706856,
+      "grad_norm": 0.07774700969457626,
+      "learning_rate": 0.00039090909090909096,
+      "loss": 0.3215,
+      "step": 120
+    },
+    {
+      "epoch": 0.04728132387706856,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.32750025391578674,
+      "eval_runtime": 641.6289,
+      "eval_samples_per_second": 7.911,
+      "eval_steps_per_second": 1.978,
+      "step": 120
+    },
+    {
+      "epoch": 0.0512214342001576,
+      "grad_norm": 0.8798918128013611,
+      "learning_rate": 0.00038181818181818184,
+      "loss": 0.3524,
+      "step": 130
+    },
+    {
+      "epoch": 0.0512214342001576,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.3243106007575989,
+      "eval_runtime": 642.1452,
+      "eval_samples_per_second": 7.905,
+      "eval_steps_per_second": 1.976,
+      "step": 130
+    },
+    {
+      "epoch": 0.055161544523246654,
+      "grad_norm": 0.513219952583313,
+      "learning_rate": 0.00037272727272727273,
+      "loss": 0.3029,
+      "step": 140
+    },
+    {
+      "epoch": 0.055161544523246654,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.33765551447868347,
+      "eval_runtime": 644.4577,
+      "eval_samples_per_second": 7.876,
+      "eval_steps_per_second": 1.969,
+      "step": 140
+    },
+    {
+      "epoch": 0.0591016548463357,
+      "grad_norm": 0.1864446997642517,
+      "learning_rate": 0.00036363636363636367,
+      "loss": 0.494,
+      "step": 150
+    },
+    {
+      "epoch": 0.0591016548463357,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.3399695158004761,
+      "eval_runtime": 644.9312,
+      "eval_samples_per_second": 7.871,
+      "eval_steps_per_second": 1.968,
+      "step": 150
+    },
+    {
+      "epoch": 0.06304176516942474,
+      "grad_norm": 0.6781743168830872,
+      "learning_rate": 0.00035454545454545455,
+      "loss": 0.2655,
+      "step": 160
+    },
+    {
+      "epoch": 0.06304176516942474,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.32840684056282043,
+      "eval_runtime": 638.0586,
+      "eval_samples_per_second": 7.955,
+      "eval_steps_per_second": 1.989,
+      "step": 160
+    },
+    {
+      "epoch": 0.06698187549251379,
+      "grad_norm": 0.4446357786655426,
+      "learning_rate": 0.00034545454545454544,
+      "loss": 0.3505,
+      "step": 170
+    },
+    {
+      "epoch": 0.06698187549251379,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.34705930948257446,
+      "eval_runtime": 636.2641,
+      "eval_samples_per_second": 7.978,
+      "eval_steps_per_second": 1.994,
+      "step": 170
+    },
+    {
+      "epoch": 0.07092198581560284,
+      "grad_norm": 0.5605026483535767,
+      "learning_rate": 0.0003363636363636364,
+      "loss": 0.2416,
+      "step": 180
+    },
+    {
+      "epoch": 0.07092198581560284,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.3337305784225464,
+      "eval_runtime": 637.842,
+      "eval_samples_per_second": 7.958,
+      "eval_steps_per_second": 1.99,
+      "step": 180
+    },
+    {
+      "epoch": 0.07486209613869188,
+      "grad_norm": 0.48381492495536804,
+      "learning_rate": 0.00032727272727272726,
+      "loss": 0.3361,
+      "step": 190
+    },
+    {
+      "epoch": 0.07486209613869188,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.3374550938606262,
+      "eval_runtime": 630.1852,
+      "eval_samples_per_second": 8.055,
+      "eval_steps_per_second": 2.014,
+      "step": 190
+    },
+    {
+      "epoch": 0.07880220646178093,
+      "grad_norm": 0.20769913494586945,
+      "learning_rate": 0.0003181818181818182,
+      "loss": 0.3264,
+      "step": 200
+    },
+    {
+      "epoch": 0.07880220646178093,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.32236042618751526,
+      "eval_runtime": 634.0108,
+      "eval_samples_per_second": 8.006,
+      "eval_steps_per_second": 2.002,
+      "step": 200
+    },
+    {
+      "epoch": 0.08274231678486997,
+      "grad_norm": 0.5153699517250061,
+      "learning_rate": 0.0003090909090909091,
+      "loss": 0.1682,
+      "step": 210
+    },
+    {
+      "epoch": 0.08274231678486997,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.3330242931842804,
+      "eval_runtime": 630.7179,
+      "eval_samples_per_second": 8.048,
+      "eval_steps_per_second": 2.012,
+      "step": 210
+    },
+    {
+      "epoch": 0.08668242710795902,
+      "grad_norm": 0.5939351916313171,
+      "learning_rate": 0.0003,
+      "loss": 0.3564,
+      "step": 220
+    },
+    {
+      "epoch": 0.08668242710795902,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.3238199055194855,
+      "eval_runtime": 639.7513,
+      "eval_samples_per_second": 7.934,
+      "eval_steps_per_second": 1.984,
+      "step": 220
+    },
+    {
+      "epoch": 0.09062253743104808,
+      "grad_norm": 0.5458611845970154,
+      "learning_rate": 0.0002909090909090909,
+      "loss": 0.2441,
+      "step": 230
+    },
+    {
+      "epoch": 0.09062253743104808,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.3024224638938904,
+      "eval_runtime": 640.3192,
+      "eval_samples_per_second": 7.927,
+      "eval_steps_per_second": 1.982,
+      "step": 230
+    },
+    {
+      "epoch": 0.09456264775413711,
+      "grad_norm": 4.142682075500488,
+      "learning_rate": 0.0002818181818181818,
+      "loss": 0.4017,
+      "step": 240
+    },
+    {
+      "epoch": 0.09456264775413711,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.28254833817481995,
+      "eval_runtime": 639.8776,
+      "eval_samples_per_second": 7.933,
+      "eval_steps_per_second": 1.983,
+      "step": 240
+    },
+    {
+      "epoch": 0.09850275807722617,
+      "grad_norm": 0.83643639087677,
+      "learning_rate": 0.00027272727272727274,
+      "loss": 0.2683,
+      "step": 250
+    },
+    {
+      "epoch": 0.09850275807722617,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.2727406322956085,
+      "eval_runtime": 637.4582,
+      "eval_samples_per_second": 7.963,
+      "eval_steps_per_second": 1.991,
+      "step": 250
+    },
+    {
+      "epoch": 0.1024428684003152,
+      "grad_norm": 2.7200253009796143,
+      "learning_rate": 0.0002636363636363636,
+      "loss": 0.3417,
+      "step": 260
+    },
+    {
+      "epoch": 0.1024428684003152,
+      "eval_accuracy": 0.8975571393966675,
+      "eval_loss": 0.2998380661010742,
+      "eval_runtime": 637.2677,
+      "eval_samples_per_second": 7.965,
+      "eval_steps_per_second": 1.991,
+      "step": 260
+    },
+    {
+      "epoch": 0.10638297872340426,
+      "grad_norm": 0.9870793223381042,
+      "learning_rate": 0.0002545454545454545,
+      "loss": 0.3689,
+      "step": 270
+    },
+    {
+      "epoch": 0.10638297872340426,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.25626352429389954,
+      "eval_runtime": 638.6518,
+      "eval_samples_per_second": 7.948,
+      "eval_steps_per_second": 1.987,
+      "step": 270
+    },
+    {
+      "epoch": 0.11032308904649331,
+      "grad_norm": 0.7646285891532898,
+      "learning_rate": 0.00024545454545454545,
+      "loss": 0.3017,
+      "step": 280
+    },
+    {
+      "epoch": 0.11032308904649331,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.2582588195800781,
+      "eval_runtime": 633.7229,
+      "eval_samples_per_second": 8.01,
+      "eval_steps_per_second": 2.002,
+      "step": 280
+    },
+    {
+      "epoch": 0.11426319936958235,
+      "grad_norm": 3.958172082901001,
+      "learning_rate": 0.00023636363636363636,
+      "loss": 0.3033,
+      "step": 290
+    },
+    {
+      "epoch": 0.11426319936958235,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.2637666165828705,
+      "eval_runtime": 635.1066,
+      "eval_samples_per_second": 7.992,
+      "eval_steps_per_second": 1.998,
+      "step": 290
+    },
+    {
+      "epoch": 0.1182033096926714,
+      "grad_norm": 3.4462485313415527,
+      "learning_rate": 0.00022727272727272727,
+      "loss": 0.1859,
+      "step": 300
+    },
+    {
+      "epoch": 0.1182033096926714,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.22763606905937195,
+      "eval_runtime": 635.7822,
+      "eval_samples_per_second": 7.984,
+      "eval_steps_per_second": 1.996,
+      "step": 300
+    },
+    {
+      "epoch": 0.12214342001576044,
+      "grad_norm": 0.9540772438049316,
+      "learning_rate": 0.00021818181818181818,
+      "loss": 0.2832,
+      "step": 310
+    },
+    {
+      "epoch": 0.12214342001576044,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.1975635588169098,
+      "eval_runtime": 642.0949,
+      "eval_samples_per_second": 7.905,
+      "eval_steps_per_second": 1.976,
+      "step": 310
+    },
+    {
+      "epoch": 0.12608353033884948,
+      "grad_norm": 0.45892244577407837,
+      "learning_rate": 0.00020909090909090907,
+      "loss": 0.2679,
+      "step": 320
+    },
+    {
+      "epoch": 0.12608353033884948,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.1894582062959671,
+      "eval_runtime": 642.7065,
+      "eval_samples_per_second": 7.898,
+      "eval_steps_per_second": 1.974,
+      "step": 320
+    },
+    {
+      "epoch": 0.13002364066193853,
+      "grad_norm": 0.4674457013607025,
+      "learning_rate": 0.0002,
+      "loss": 0.1966,
+      "step": 330
+    },
+    {
+      "epoch": 0.13002364066193853,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.193992018699646,
+      "eval_runtime": 641.7924,
+      "eval_samples_per_second": 7.909,
+      "eval_steps_per_second": 1.977,
+      "step": 330
+    },
+    {
+      "epoch": 0.13396375098502758,
+      "grad_norm": 0.4076831638813019,
+      "learning_rate": 0.00019090909090909092,
+      "loss": 0.2063,
+      "step": 340
+    },
+    {
+      "epoch": 0.13396375098502758,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.19286341965198517,
+      "eval_runtime": 639.6626,
+      "eval_samples_per_second": 7.935,
+      "eval_steps_per_second": 1.984,
+      "step": 340
+    },
+    {
+      "epoch": 0.13790386130811663,
+      "grad_norm": 0.5408686995506287,
+      "learning_rate": 0.00018181818181818183,
+      "loss": 0.2215,
+      "step": 350
+    },
+    {
+      "epoch": 0.13790386130811663,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.17871853709220886,
+      "eval_runtime": 636.151,
+      "eval_samples_per_second": 7.979,
+      "eval_steps_per_second": 1.995,
+      "step": 350
+    },
+    {
+      "epoch": 0.14184397163120568,
+      "grad_norm": 3.9466795921325684,
+      "learning_rate": 0.00017272727272727272,
+      "loss": 0.2226,
+      "step": 360
+    },
+    {
+      "epoch": 0.14184397163120568,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.22342762351036072,
+      "eval_runtime": 635.3665,
+      "eval_samples_per_second": 7.989,
+      "eval_steps_per_second": 1.997,
+      "step": 360
+    },
+    {
+      "epoch": 0.1457840819542947,
+      "grad_norm": 0.3433726131916046,
+      "learning_rate": 0.00016363636363636363,
+      "loss": 0.2688,
+      "step": 370
+    },
+    {
+      "epoch": 0.1457840819542947,
+      "eval_accuracy": 0.8358944058418274,
+      "eval_loss": 0.3028296232223511,
+      "eval_runtime": 626.8327,
+      "eval_samples_per_second": 8.098,
+      "eval_steps_per_second": 2.024,
+      "step": 370
+    },
+    {
+      "epoch": 0.14972419227738376,
+      "grad_norm": 0.269267201423645,
+      "learning_rate": 0.00015454545454545454,
+      "loss": 0.2317,
+      "step": 380
+    },
+    {
+      "epoch": 0.14972419227738376,
+      "eval_accuracy": 0.8861308097839355,
+      "eval_loss": 0.1874387264251709,
+      "eval_runtime": 634.1878,
+      "eval_samples_per_second": 8.004,
+      "eval_steps_per_second": 2.001,
+      "step": 380
+    },
+    {
+      "epoch": 0.1536643026004728,
+      "grad_norm": 0.16006210446357727,
+      "learning_rate": 0.00014545454545454546,
+      "loss": 0.2088,
+      "step": 390
+    },
+    {
+      "epoch": 0.1536643026004728,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.2302139550447464,
+      "eval_runtime": 631.9364,
+      "eval_samples_per_second": 8.032,
+      "eval_steps_per_second": 2.008,
+      "step": 390
+    },
+    {
+      "epoch": 0.15760441292356187,
+      "grad_norm": 0.5244100093841553,
+      "learning_rate": 0.00013636363636363637,
+      "loss": 0.4595,
+      "step": 400
+    },
+    {
+      "epoch": 0.15760441292356187,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.19357828795909882,
+      "eval_runtime": 642.9065,
+      "eval_samples_per_second": 7.895,
+      "eval_steps_per_second": 1.974,
+      "step": 400
+    },
+    {
+      "epoch": 0.16154452324665092,
+      "grad_norm": 0.5354598164558411,
+      "learning_rate": 0.00012727272727272725,
+      "loss": 0.15,
+      "step": 410
+    },
+    {
+      "epoch": 0.16154452324665092,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.18797340989112854,
+      "eval_runtime": 640.1417,
+      "eval_samples_per_second": 7.929,
+      "eval_steps_per_second": 1.982,
+      "step": 410
+    },
+    {
+      "epoch": 0.16548463356973994,
+      "grad_norm": 0.2795056998729706,
+      "learning_rate": 0.00011818181818181818,
+      "loss": 0.1919,
+      "step": 420
+    },
+    {
+      "epoch": 0.16548463356973994,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.1791592687368393,
+      "eval_runtime": 639.6272,
+      "eval_samples_per_second": 7.936,
+      "eval_steps_per_second": 1.984,
+      "step": 420
+    },
+    {
+      "epoch": 0.169424743892829,
+      "grad_norm": 0.2897014021873474,
+      "learning_rate": 0.00010909090909090909,
+      "loss": 0.3189,
+      "step": 430
+    },
+    {
+      "epoch": 0.169424743892829,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.1778295636177063,
+      "eval_runtime": 637.1833,
+      "eval_samples_per_second": 7.966,
+      "eval_steps_per_second": 1.992,
+      "step": 430
+    },
+    {
+      "epoch": 0.17336485421591805,
+      "grad_norm": 0.08481621742248535,
+      "learning_rate": 0.0001,
+      "loss": 0.2422,
+      "step": 440
+    },
+    {
+      "epoch": 0.17336485421591805,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.18217456340789795,
+      "eval_runtime": 639.7951,
+      "eval_samples_per_second": 7.934,
+      "eval_steps_per_second": 1.983,
+      "step": 440
+    },
+    {
+      "epoch": 0.1773049645390071,
+      "grad_norm": 0.3332684636116028,
+      "learning_rate": 9.090909090909092e-05,
+      "loss": 0.1599,
+      "step": 450
+    },
+    {
+      "epoch": 0.1773049645390071,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.18780100345611572,
+      "eval_runtime": 641.5947,
+      "eval_samples_per_second": 7.912,
+      "eval_steps_per_second": 1.978,
+      "step": 450
+    },
+    {
+      "epoch": 0.18124507486209615,
+      "grad_norm": 0.5597277879714966,
+      "learning_rate": 8.181818181818182e-05,
+      "loss": 0.2962,
+      "step": 460
+    },
+    {
+      "epoch": 0.18124507486209615,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.1818259209394455,
+      "eval_runtime": 638.6242,
+      "eval_samples_per_second": 7.948,
+      "eval_steps_per_second": 1.987,
+      "step": 460
+    },
+    {
+      "epoch": 0.18518518518518517,
+      "grad_norm": 0.9142216444015503,
+      "learning_rate": 7.272727272727273e-05,
+      "loss": 0.1295,
+      "step": 470
+    },
+    {
+      "epoch": 0.18518518518518517,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.1787974089384079,
+      "eval_runtime": 642.4129,
+      "eval_samples_per_second": 7.901,
+      "eval_steps_per_second": 1.975,
+      "step": 470
+    },
+    {
+      "epoch": 0.18912529550827423,
+      "grad_norm": 0.5384683012962341,
+      "learning_rate": 6.363636363636363e-05,
+      "loss": 0.2327,
+      "step": 480
+    },
+    {
+      "epoch": 0.18912529550827423,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.1720920354127884,
+      "eval_runtime": 637.6983,
+      "eval_samples_per_second": 7.96,
+      "eval_steps_per_second": 1.99,
+      "step": 480
+    },
+    {
+      "epoch": 0.19306540583136328,
+      "grad_norm": 0.3855592608451843,
+      "learning_rate": 5.4545454545454546e-05,
+      "loss": 0.2012,
+      "step": 490
+    },
+    {
+      "epoch": 0.19306540583136328,
+      "eval_accuracy": 0.8977541327476501,
+      "eval_loss": 0.17169128358364105,
+      "eval_runtime": 643.1115,
+      "eval_samples_per_second": 7.893,
+      "eval_steps_per_second": 1.973,
+      "step": 490
+    },
+    {
+      "epoch": 0.19700551615445233,
+      "grad_norm": 0.18903906643390656,
+      "learning_rate": 4.545454545454546e-05,
+      "loss": 0.2338,
+      "step": 500
+    },
+    {
+      "epoch": 0.19700551615445233,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.16954948008060455,
+      "eval_runtime": 641.432,
+      "eval_samples_per_second": 7.914,
+      "eval_steps_per_second": 1.978,
+      "step": 500
+    },
+    {
+      "epoch": 0.20094562647754138,
+      "grad_norm": 0.5222665667533875,
+      "learning_rate": 3.6363636363636364e-05,
+      "loss": 0.261,
+      "step": 510
+    },
+    {
+      "epoch": 0.20094562647754138,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.16886387765407562,
+      "eval_runtime": 644.6602,
+      "eval_samples_per_second": 7.874,
+      "eval_steps_per_second": 1.968,
+      "step": 510
+    },
+    {
+      "epoch": 0.2048857368006304,
+      "grad_norm": 0.1900663524866104,
+      "learning_rate": 2.7272727272727273e-05,
+      "loss": 0.2295,
+      "step": 520
+    },
+    {
+      "epoch": 0.2048857368006304,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.16761720180511475,
+      "eval_runtime": 644.587,
+      "eval_samples_per_second": 7.875,
+      "eval_steps_per_second": 1.969,
+      "step": 520
+    },
+    {
+      "epoch": 0.20882584712371946,
+      "grad_norm": 0.7705594897270203,
+      "learning_rate": 1.8181818181818182e-05,
+      "loss": 0.2785,
+      "step": 530
+    },
+    {
+      "epoch": 0.20882584712371946,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.16720621287822723,
+      "eval_runtime": 641.3858,
+      "eval_samples_per_second": 7.914,
+      "eval_steps_per_second": 1.979,
+      "step": 530
+    },
+    {
+      "epoch": 0.2127659574468085,
+      "grad_norm": 3.4368479251861572,
+      "learning_rate": 9.090909090909091e-06,
+      "loss": 0.2326,
+      "step": 540
+    },
+    {
+      "epoch": 0.2127659574468085,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.1670488715171814,
+      "eval_runtime": 635.73,
+      "eval_samples_per_second": 7.985,
+      "eval_steps_per_second": 1.996,
+      "step": 540
+    },
+    {
+      "epoch": 0.21670606776989756,
+      "grad_norm": 0.17799390852451324,
+      "learning_rate": 0.0,
+      "loss": 0.2048,
+      "step": 550
+    },
+    {
+      "epoch": 0.21670606776989756,
+      "eval_accuracy": 0.8983451724052429,
+      "eval_loss": 0.1670481413602829,
+      "eval_runtime": 633.0482,
+      "eval_samples_per_second": 8.018,
+      "eval_steps_per_second": 2.005,
+      "step": 550
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 550,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 10,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.667515335043259e+17,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32af90907b81832e1a87ad82db557a2ce5369d3fc6bfdd4dd6c3384f8a03f340
+size 5112