Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

config.json +29 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +869 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_name_or_path": "xlm-roberta-large",
+  "architectures": [
+    "XLMRobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 250002
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:daf60a4998679ac70d0ba2add1221877663daf5b7f67b9a5c703a76b4db14fdd
+size 2239618672

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9014a78f9e7e5e45d19fa14e483cff568b36f60cb370dd7762d04e03cb73ca37
+size 4479472721

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ca0a19ad295042159f99032b71124ba99611957add49d5a3cdcfdba689685b8
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b86637478ff97dd29675329d90ed9365d661f9d796017ebe4586552e821444e0
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,869 @@

+{
+  "best_metric": 0.8376479645847368,
+  "best_model_checkpoint": "./XLMR-large2-multi-109k-multi-outputs/checkpoint-40000",
+  "epoch": 7.893792608539648,
+  "eval_steps": 1000,
+  "global_step": 44000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.17940437746681018,
+      "grad_norm": 6.077027320861816,
+      "learning_rate": 2.242152466367713e-07,
+      "loss": 0.7043,
+      "step": 1000
+    },
+    {
+      "epoch": 0.17940437746681018,
+      "eval_accuracy": 0.5152891310929458,
+      "eval_f1": 0.4964881014781424,
+      "eval_loss": 0.6920226216316223,
+      "eval_precision": 0.522852726871274,
+      "eval_recall": 0.4726546906187625,
+      "eval_runtime": 103.5147,
+      "eval_samples_per_second": 95.726,
+      "eval_steps_per_second": 5.989,
+      "step": 1000
+    },
+    {
+      "epoch": 0.35880875493362036,
+      "grad_norm": 7.982357501983643,
+      "learning_rate": 4.484304932735426e-07,
+      "loss": 0.6972,
+      "step": 2000
+    },
+    {
+      "epoch": 0.35880875493362036,
+      "eval_accuracy": 0.5537390251286709,
+      "eval_f1": 0.514065934065934,
+      "eval_loss": 0.6867982745170593,
+      "eval_precision": 0.571882640586797,
+      "eval_recall": 0.4668662674650699,
+      "eval_runtime": 103.803,
+      "eval_samples_per_second": 95.46,
+      "eval_steps_per_second": 5.973,
+      "step": 2000
+    },
+    {
+      "epoch": 0.5382131324004306,
+      "grad_norm": 10.05902099609375,
+      "learning_rate": 6.72645739910314e-07,
+      "loss": 0.6892,
+      "step": 3000
+    },
+    {
+      "epoch": 0.5382131324004306,
+      "eval_accuracy": 0.5728125946109597,
+      "eval_f1": 0.44280637093589575,
+      "eval_loss": 0.6743206977844238,
+      "eval_precision": 0.6501739466563587,
+      "eval_recall": 0.33572854291417165,
+      "eval_runtime": 103.5733,
+      "eval_samples_per_second": 95.671,
+      "eval_steps_per_second": 5.986,
+      "step": 3000
+    },
+    {
+      "epoch": 0.7176175098672407,
+      "grad_norm": 17.559974670410156,
+      "learning_rate": 8.968609865470852e-07,
+      "loss": 0.6686,
+      "step": 4000
+    },
+    {
+      "epoch": 0.7176175098672407,
+      "eval_accuracy": 0.620345140781108,
+      "eval_f1": 0.6229705351773902,
+      "eval_loss": 0.6282544136047363,
+      "eval_precision": 0.6256038647342995,
+      "eval_recall": 0.6203592814371257,
+      "eval_runtime": 103.1262,
+      "eval_samples_per_second": 96.086,
+      "eval_steps_per_second": 6.012,
+      "step": 4000
+    },
+    {
+      "epoch": 0.897021887334051,
+      "grad_norm": 17.958587646484375,
+      "learning_rate": 9.865444034685537e-07,
+      "loss": 0.6251,
+      "step": 5000
+    },
+    {
+      "epoch": 0.897021887334051,
+      "eval_accuracy": 0.6844282975073166,
+      "eval_f1": 0.671568112593215,
+      "eval_loss": 0.5713071227073669,
+      "eval_precision": 0.7087120372422966,
+      "eval_recall": 0.63812375249501,
+      "eval_runtime": 103.2452,
+      "eval_samples_per_second": 95.975,
+      "eval_steps_per_second": 6.005,
+      "step": 5000
+    },
+    {
+      "epoch": 1.0764262648008611,
+      "grad_norm": 21.860984802246094,
+      "learning_rate": 9.616266321140236e-07,
+      "loss": 0.559,
+      "step": 6000
+    },
+    {
+      "epoch": 1.0764262648008611,
+      "eval_accuracy": 0.7250983953981229,
+      "eval_f1": 0.6946188340807175,
+      "eval_loss": 0.48871228098869324,
+      "eval_precision": 0.7923273657289003,
+      "eval_recall": 0.6183632734530938,
+      "eval_runtime": 102.8682,
+      "eval_samples_per_second": 96.327,
+      "eval_steps_per_second": 6.027,
+      "step": 6000
+    },
+    {
+      "epoch": 1.2558306422676713,
+      "grad_norm": 144.90872192382812,
+      "learning_rate": 9.367088607594936e-07,
+      "loss": 0.4901,
+      "step": 7000
+    },
+    {
+      "epoch": 1.2558306422676713,
+      "eval_accuracy": 0.7360984963164799,
+      "eval_f1": 0.7147998691242229,
+      "eval_loss": 0.4424116909503937,
+      "eval_precision": 0.7879297908150997,
+      "eval_recall": 0.6540918163672654,
+      "eval_runtime": 103.0989,
+      "eval_samples_per_second": 96.112,
+      "eval_steps_per_second": 6.014,
+      "step": 7000
+    },
+    {
+      "epoch": 1.4352350197344816,
+      "grad_norm": 23.610597610473633,
+      "learning_rate": 9.117910894049637e-07,
+      "loss": 0.4595,
+      "step": 8000
+    },
+    {
+      "epoch": 1.4352350197344816,
+      "eval_accuracy": 0.7460894136643456,
+      "eval_f1": 0.7595106098260371,
+      "eval_loss": 0.4278419017791748,
+      "eval_precision": 0.7287234042553191,
+      "eval_recall": 0.7930139720558882,
+      "eval_runtime": 103.2272,
+      "eval_samples_per_second": 95.992,
+      "eval_steps_per_second": 6.006,
+      "step": 8000
+    },
+    {
+      "epoch": 1.6146393972012918,
+      "grad_norm": 13.438475608825684,
+      "learning_rate": 8.868733180504335e-07,
+      "loss": 0.4431,
+      "step": 9000
+    },
+    {
+      "epoch": 1.6146393972012918,
+      "eval_accuracy": 0.7517408416590978,
+      "eval_f1": 0.7542457542457542,
+      "eval_loss": 0.4201831519603729,
+      "eval_precision": 0.755,
+      "eval_recall": 0.7534930139720559,
+      "eval_runtime": 103.1397,
+      "eval_samples_per_second": 96.074,
+      "eval_steps_per_second": 6.011,
+      "step": 9000
+    },
+    {
+      "epoch": 1.794043774668102,
+      "grad_norm": 59.678855895996094,
+      "learning_rate": 8.619555466959035e-07,
+      "loss": 0.4246,
+      "step": 10000
+    },
+    {
+      "epoch": 1.794043774668102,
+      "eval_accuracy": 0.7612271672217177,
+      "eval_f1": 0.795611610228058,
+      "eval_loss": 0.4052415192127228,
+      "eval_precision": 0.7013402375875724,
+      "eval_recall": 0.9191616766467066,
+      "eval_runtime": 103.3719,
+      "eval_samples_per_second": 95.858,
+      "eval_steps_per_second": 5.998,
+      "step": 10000
+    },
+    {
+      "epoch": 1.973448152134912,
+      "grad_norm": 56.009273529052734,
+      "learning_rate": 8.370377753413735e-07,
+      "loss": 0.4168,
+      "step": 11000
+    },
+    {
+      "epoch": 1.973448152134912,
+      "eval_accuracy": 0.7611262488646685,
+      "eval_f1": 0.7569565663825855,
+      "eval_loss": 0.39738962054252625,
+      "eval_precision": 0.7794459716641996,
+      "eval_recall": 0.7357285429141717,
+      "eval_runtime": 103.343,
+      "eval_samples_per_second": 95.885,
+      "eval_steps_per_second": 5.999,
+      "step": 11000
+    },
+    {
+      "epoch": 2.1528525296017222,
+      "grad_norm": 48.44904708862305,
+      "learning_rate": 8.121200039868433e-07,
+      "loss": 0.4074,
+      "step": 12000
+    },
+    {
+      "epoch": 2.1528525296017222,
+      "eval_accuracy": 0.7603189020082753,
+      "eval_f1": 0.7932445373030382,
+      "eval_loss": 0.42876219749450684,
+      "eval_precision": 0.7034120734908137,
+      "eval_recall": 0.9093812375249501,
+      "eval_runtime": 103.2666,
+      "eval_samples_per_second": 95.955,
+      "eval_steps_per_second": 6.004,
+      "step": 12000
+    },
+    {
+      "epoch": 2.3322569070685324,
+      "grad_norm": 7.191207408905029,
+      "learning_rate": 7.872022326323134e-07,
+      "loss": 0.398,
+      "step": 13000
+    },
+    {
+      "epoch": 2.3322569070685324,
+      "eval_accuracy": 0.7668785952164698,
+      "eval_f1": 0.7844747154319835,
+      "eval_loss": 0.39464080333709717,
+      "eval_precision": 0.7365101611772951,
+      "eval_recall": 0.8391217564870259,
+      "eval_runtime": 103.6045,
+      "eval_samples_per_second": 95.643,
+      "eval_steps_per_second": 5.984,
+      "step": 13000
+    },
+    {
+      "epoch": 2.5116612845353425,
+      "grad_norm": 8.779580116271973,
+      "learning_rate": 7.622844612777832e-07,
+      "loss": 0.4009,
+      "step": 14000
+    },
+    {
+      "epoch": 2.5116612845353425,
+      "eval_accuracy": 0.7699061459279443,
+      "eval_f1": 0.7972251867662753,
+      "eval_loss": 0.38235536217689514,
+      "eval_precision": 0.7189605389797883,
+      "eval_recall": 0.8946107784431138,
+      "eval_runtime": 103.5288,
+      "eval_samples_per_second": 95.713,
+      "eval_steps_per_second": 5.989,
+      "step": 14000
+    },
+    {
+      "epoch": 2.6910656620021527,
+      "grad_norm": 10.75382137298584,
+      "learning_rate": 7.373666899232532e-07,
+      "loss": 0.383,
+      "step": 15000
+    },
+    {
+      "epoch": 2.6910656620021527,
+      "eval_accuracy": 0.7800988999899081,
+      "eval_f1": 0.7934401365058299,
+      "eval_loss": 0.4023512005805969,
+      "eval_precision": 0.7555515435999278,
+      "eval_recall": 0.8353293413173652,
+      "eval_runtime": 103.2649,
+      "eval_samples_per_second": 95.957,
+      "eval_steps_per_second": 6.004,
+      "step": 15000
+    },
+    {
+      "epoch": 2.8704700394689633,
+      "grad_norm": 8.595725059509277,
+      "learning_rate": 7.124489185687232e-07,
+      "loss": 0.3869,
+      "step": 16000
+    },
+    {
+      "epoch": 2.8704700394689633,
+      "eval_accuracy": 0.7843374709859724,
+      "eval_f1": 0.7970753014908366,
+      "eval_loss": 0.3746848404407501,
+      "eval_precision": 0.7601883716717985,
+      "eval_recall": 0.8377245508982036,
+      "eval_runtime": 103.4123,
+      "eval_samples_per_second": 95.82,
+      "eval_steps_per_second": 5.995,
+      "step": 16000
+    },
+    {
+      "epoch": 3.0498744169357734,
+      "grad_norm": 30.062721252441406,
+      "learning_rate": 6.875311472141931e-07,
+      "loss": 0.3761,
+      "step": 17000
+    },
+    {
+      "epoch": 3.0498744169357734,
+      "eval_accuracy": 0.7884751236249874,
+      "eval_f1": 0.7946708463949843,
+      "eval_loss": 0.39211228489875793,
+      "eval_precision": 0.7803001154290111,
+      "eval_recall": 0.8095808383233533,
+      "eval_runtime": 103.6712,
+      "eval_samples_per_second": 95.581,
+      "eval_steps_per_second": 5.98,
+      "step": 17000
+    },
+    {
+      "epoch": 3.2292787944025836,
+      "grad_norm": 56.15926742553711,
+      "learning_rate": 6.62613375859663e-07,
+      "loss": 0.3609,
+      "step": 18000
+    },
+    {
+      "epoch": 3.2292787944025836,
+      "eval_accuracy": 0.784741144414169,
+      "eval_f1": 0.7985645481159694,
+      "eval_loss": 0.39061158895492554,
+      "eval_precision": 0.7578419071518193,
+      "eval_recall": 0.8439121756487026,
+      "eval_runtime": 103.0596,
+      "eval_samples_per_second": 96.148,
+      "eval_steps_per_second": 6.016,
+      "step": 18000
+    },
+    {
+      "epoch": 3.4086831718693937,
+      "grad_norm": 7.428126811981201,
+      "learning_rate": 6.376956045051331e-07,
+      "loss": 0.3535,
+      "step": 19000
+    },
+    {
+      "epoch": 3.4086831718693937,
+      "eval_accuracy": 0.7953375719043294,
+      "eval_f1": 0.8157368707977467,
+      "eval_loss": 0.3811704218387604,
+      "eval_precision": 0.7486657771847899,
+      "eval_recall": 0.8960079840319362,
+      "eval_runtime": 103.3599,
+      "eval_samples_per_second": 95.869,
+      "eval_steps_per_second": 5.998,
+      "step": 19000
+    },
+    {
+      "epoch": 3.588087549336204,
+      "grad_norm": 248.54281616210938,
+      "learning_rate": 6.127778331506029e-07,
+      "loss": 0.3497,
+      "step": 20000
+    },
+    {
+      "epoch": 3.588087549336204,
+      "eval_accuracy": 0.7977596124735089,
+      "eval_f1": 0.8121836925960637,
+      "eval_loss": 0.37064263224601746,
+      "eval_precision": 0.765547703180212,
+      "eval_recall": 0.8648702594810379,
+      "eval_runtime": 103.2293,
+      "eval_samples_per_second": 95.99,
+      "eval_steps_per_second": 6.006,
+      "step": 20000
+    },
+    {
+      "epoch": 3.767491926803014,
+      "grad_norm": 44.91804504394531,
+      "learning_rate": 5.87860061796073e-07,
+      "loss": 0.3543,
+      "step": 21000
+    },
+    {
+      "epoch": 3.767491926803014,
+      "eval_accuracy": 0.8025027752548188,
+      "eval_f1": 0.8141676953755579,
+      "eval_loss": 0.3442750871181488,
+      "eval_precision": 0.7764897663466763,
+      "eval_recall": 0.855688622754491,
+      "eval_runtime": 103.1871,
+      "eval_samples_per_second": 96.029,
+      "eval_steps_per_second": 6.009,
+      "step": 21000
+    },
+    {
+      "epoch": 3.946896304269824,
+      "grad_norm": 84.26334381103516,
+      "learning_rate": 5.629422904415428e-07,
+      "loss": 0.3425,
+      "step": 22000
+    },
+    {
+      "epoch": 3.946896304269824,
+      "eval_accuracy": 0.8035119588253103,
+      "eval_f1": 0.8079692277344905,
+      "eval_loss": 0.3556448519229889,
+      "eval_precision": 0.7985962175862741,
+      "eval_recall": 0.817564870259481,
+      "eval_runtime": 102.9714,
+      "eval_samples_per_second": 96.231,
+      "eval_steps_per_second": 6.021,
+      "step": 22000
+    },
+    {
+      "epoch": 4.126300681736635,
+      "grad_norm": 23.619245529174805,
+      "learning_rate": 5.380245190870128e-07,
+      "loss": 0.335,
+      "step": 23000
+    },
+    {
+      "epoch": 4.126300681736635,
+      "eval_accuracy": 0.8024018568977697,
+      "eval_f1": 0.8052903739061257,
+      "eval_loss": 0.3544567823410034,
+      "eval_precision": 0.8024177566389219,
+      "eval_recall": 0.808183632734531,
+      "eval_runtime": 102.8733,
+      "eval_samples_per_second": 96.322,
+      "eval_steps_per_second": 6.027,
+      "step": 23000
+    },
+    {
+      "epoch": 4.3057050592034445,
+      "grad_norm": 16.840389251708984,
+      "learning_rate": 5.131067477324828e-07,
+      "loss": 0.3222,
+      "step": 24000
+    },
+    {
+      "epoch": 4.3057050592034445,
+      "eval_accuracy": 0.8070441013220305,
+      "eval_f1": 0.8103550882761357,
+      "eval_loss": 0.349142849445343,
+      "eval_precision": 0.8054022082018928,
+      "eval_recall": 0.8153692614770459,
+      "eval_runtime": 103.0742,
+      "eval_samples_per_second": 96.135,
+      "eval_steps_per_second": 6.015,
+      "step": 24000
+    },
+    {
+      "epoch": 4.485109436670255,
+      "grad_norm": 49.83803939819336,
+      "learning_rate": 4.881889763779527e-07,
+      "loss": 0.3157,
+      "step": 25000
+    },
+    {
+      "epoch": 4.485109436670255,
+      "eval_accuracy": 0.8095670602482592,
+      "eval_f1": 0.8254232583957813,
+      "eval_loss": 0.357431560754776,
+      "eval_precision": 0.7692705638903259,
+      "eval_recall": 0.8904191616766467,
+      "eval_runtime": 103.3608,
+      "eval_samples_per_second": 95.868,
+      "eval_steps_per_second": 5.998,
+      "step": 25000
+    },
+    {
+      "epoch": 4.664513814137065,
+      "grad_norm": 134.8468475341797,
+      "learning_rate": 4.632712050234227e-07,
+      "loss": 0.3207,
+      "step": 26000
+    },
+    {
+      "epoch": 4.664513814137065,
+      "eval_accuracy": 0.8153194066000605,
+      "eval_f1": 0.8328156404165905,
+      "eval_loss": 0.34428831934928894,
+      "eval_precision": 0.7678571428571429,
+      "eval_recall": 0.9097804391217564,
+      "eval_runtime": 103.0601,
+      "eval_samples_per_second": 96.148,
+      "eval_steps_per_second": 6.016,
+      "step": 26000
+    },
+    {
+      "epoch": 4.843918191603875,
+      "grad_norm": 12.487037658691406,
+      "learning_rate": 4.3835343366889267e-07,
+      "loss": 0.3217,
+      "step": 27000
+    },
+    {
+      "epoch": 4.843918191603875,
+      "eval_accuracy": 0.8124936926026844,
+      "eval_f1": 0.8151611619578193,
+      "eval_loss": 0.3367626368999481,
+      "eval_precision": 0.8125743752479175,
+      "eval_recall": 0.8177644710578842,
+      "eval_runtime": 103.075,
+      "eval_samples_per_second": 96.134,
+      "eval_steps_per_second": 6.015,
+      "step": 27000
+    },
+    {
+      "epoch": 5.023322569070685,
+      "grad_norm": 10.074256896972656,
+      "learning_rate": 4.1343566231436264e-07,
+      "loss": 0.3184,
+      "step": 28000
+    },
+    {
+      "epoch": 5.023322569070685,
+      "eval_accuracy": 0.8171359370269452,
+      "eval_f1": 0.8204518430439952,
+      "eval_loss": 0.3432736396789551,
+      "eval_precision": 0.8146399055489965,
+      "eval_recall": 0.8263473053892215,
+      "eval_runtime": 103.2718,
+      "eval_samples_per_second": 95.951,
+      "eval_steps_per_second": 6.004,
+      "step": 28000
+    },
+    {
+      "epoch": 5.202726946537496,
+      "grad_norm": 30.08102035522461,
+      "learning_rate": 3.8851789095983255e-07,
+      "loss": 0.2981,
+      "step": 29000
+    },
+    {
+      "epoch": 5.202726946537496,
+      "eval_accuracy": 0.8162276718135029,
+      "eval_f1": 0.8155202107182656,
+      "eval_loss": 0.34637027978897095,
+      "eval_precision": 0.8280189261468833,
+      "eval_recall": 0.8033932135728543,
+      "eval_runtime": 102.9045,
+      "eval_samples_per_second": 96.293,
+      "eval_steps_per_second": 6.025,
+      "step": 29000
+    },
+    {
+      "epoch": 5.382131324004305,
+      "grad_norm": 12.194862365722656,
+      "learning_rate": 3.6360011960530246e-07,
+      "loss": 0.301,
+      "step": 30000
+    },
+    {
+      "epoch": 5.382131324004305,
+      "eval_accuracy": 0.817640528812191,
+      "eval_f1": 0.8211776348342404,
+      "eval_loss": 0.342290461063385,
+      "eval_precision": 0.8143277723258097,
+      "eval_recall": 0.8281437125748503,
+      "eval_runtime": 103.5562,
+      "eval_samples_per_second": 95.687,
+      "eval_steps_per_second": 5.987,
+      "step": 30000
+    },
+    {
+      "epoch": 5.561535701471116,
+      "grad_norm": 154.16159057617188,
+      "learning_rate": 3.386823482507724e-07,
+      "loss": 0.2979,
+      "step": 31000
+    },
+    {
+      "epoch": 5.561535701471116,
+      "eval_accuracy": 0.8201634877384196,
+      "eval_f1": 0.8214070956103428,
+      "eval_loss": 0.32883062958717346,
+      "eval_precision": 0.8248792270531401,
+      "eval_recall": 0.8179640718562874,
+      "eval_runtime": 107.2514,
+      "eval_samples_per_second": 92.39,
+      "eval_steps_per_second": 5.781,
+      "step": 31000
+    },
+    {
+      "epoch": 5.740940078937927,
+      "grad_norm": 20.60382080078125,
+      "learning_rate": 3.137645768962424e-07,
+      "loss": 0.2941,
+      "step": 32000
+    },
+    {
+      "epoch": 5.740940078937927,
+      "eval_accuracy": 0.8215763447371077,
+      "eval_f1": 0.8254689042448173,
+      "eval_loss": 0.341677188873291,
+      "eval_precision": 0.8166015625,
+      "eval_recall": 0.8345309381237525,
+      "eval_runtime": 103.1122,
+      "eval_samples_per_second": 96.099,
+      "eval_steps_per_second": 6.013,
+      "step": 32000
+    },
+    {
+      "epoch": 5.920344456404736,
+      "grad_norm": 27.749670028686523,
+      "learning_rate": 2.888468055417123e-07,
+      "loss": 0.3015,
+      "step": 33000
+    },
+    {
+      "epoch": 5.920344456404736,
+      "eval_accuracy": 0.8243011403774346,
+      "eval_f1": 0.8335404914427765,
+      "eval_loss": 0.33678942918777466,
+      "eval_precision": 0.799963296017618,
+      "eval_recall": 0.870059880239521,
+      "eval_runtime": 103.0115,
+      "eval_samples_per_second": 96.193,
+      "eval_steps_per_second": 6.019,
+      "step": 33000
+    },
+    {
+      "epoch": 6.099748833871547,
+      "grad_norm": 63.67295455932617,
+      "learning_rate": 2.6392903418718226e-07,
+      "loss": 0.2953,
+      "step": 34000
+    },
+    {
+      "epoch": 6.099748833871547,
+      "eval_accuracy": 0.8256130790190735,
+      "eval_f1": 0.8240684178375076,
+      "eval_loss": 0.33581623435020447,
+      "eval_precision": 0.8410224438902744,
+      "eval_recall": 0.8077844311377246,
+      "eval_runtime": 103.1426,
+      "eval_samples_per_second": 96.071,
+      "eval_steps_per_second": 6.011,
+      "step": 34000
+    },
+    {
+      "epoch": 6.279153211338357,
+      "grad_norm": 26.843647003173828,
+      "learning_rate": 2.390112628326522e-07,
+      "loss": 0.2852,
+      "step": 35000
+    },
+    {
+      "epoch": 6.279153211338357,
+      "eval_accuracy": 0.8249066505197296,
+      "eval_f1": 0.8327065856715842,
+      "eval_loss": 0.34431934356689453,
+      "eval_precision": 0.8054467450102593,
+      "eval_recall": 0.86187624750499,
+      "eval_runtime": 103.3497,
+      "eval_samples_per_second": 95.878,
+      "eval_steps_per_second": 5.999,
+      "step": 35000
+    },
+    {
+      "epoch": 6.458557588805167,
+      "grad_norm": 183.19422912597656,
+      "learning_rate": 2.140934914781222e-07,
+      "loss": 0.2917,
+      "step": 36000
+    },
+    {
+      "epoch": 6.458557588805167,
+      "eval_accuracy": 0.824502977091533,
+      "eval_f1": 0.8318669631634922,
+      "eval_loss": 0.34868115186691284,
+      "eval_precision": 0.8066754172135758,
+      "eval_recall": 0.858682634730539,
+      "eval_runtime": 103.3302,
+      "eval_samples_per_second": 95.897,
+      "eval_steps_per_second": 6.0,
+      "step": 36000
+    },
+    {
+      "epoch": 6.637961966271977,
+      "grad_norm": 10.319212913513184,
+      "learning_rate": 1.8917572012359216e-07,
+      "loss": 0.2844,
+      "step": 37000
+    },
+    {
+      "epoch": 6.637961966271977,
+      "eval_accuracy": 0.8261176708043193,
+      "eval_f1": 0.8294565970503811,
+      "eval_loss": 0.32437703013420105,
+      "eval_precision": 0.8226978205379933,
+      "eval_recall": 0.8363273453093812,
+      "eval_runtime": 104.1332,
+      "eval_samples_per_second": 95.157,
+      "eval_steps_per_second": 5.954,
+      "step": 37000
+    },
+    {
+      "epoch": 6.8173663437387875,
+      "grad_norm": 58.22975540161133,
+      "learning_rate": 1.642579487690621e-07,
+      "loss": 0.2837,
+      "step": 38000
+    },
+    {
+      "epoch": 6.8173663437387875,
+      "eval_accuracy": 0.8285397113734988,
+      "eval_f1": 0.8333823673629499,
+      "eval_loss": 0.3295113742351532,
+      "eval_precision": 0.8191632928475033,
+      "eval_recall": 0.8481037924151696,
+      "eval_runtime": 103.1218,
+      "eval_samples_per_second": 96.09,
+      "eval_steps_per_second": 6.012,
+      "step": 38000
+    },
+    {
+      "epoch": 6.996770721205597,
+      "grad_norm": 8.232932090759277,
+      "learning_rate": 1.3934017741453206e-07,
+      "loss": 0.283,
+      "step": 39000
+    },
+    {
+      "epoch": 6.996770721205597,
+      "eval_accuracy": 0.8263195075184177,
+      "eval_f1": 0.8296882731321128,
+      "eval_loss": 0.3371128439903259,
+      "eval_precision": 0.8227674190382728,
+      "eval_recall": 0.8367265469061876,
+      "eval_runtime": 103.2754,
+      "eval_samples_per_second": 95.947,
+      "eval_steps_per_second": 6.003,
+      "step": 39000
+    },
+    {
+      "epoch": 7.176175098672408,
+      "grad_norm": 18.62181282043457,
+      "learning_rate": 1.14422406060002e-07,
+      "loss": 0.2711,
+      "step": 40000
+    },
+    {
+      "epoch": 7.176175098672408,
+      "eval_accuracy": 0.8297507316580887,
+      "eval_f1": 0.8376479645847368,
+      "eval_loss": 0.32895320653915405,
+      "eval_precision": 0.8087716037911169,
+      "eval_recall": 0.8686626746506986,
+      "eval_runtime": 103.3849,
+      "eval_samples_per_second": 95.846,
+      "eval_steps_per_second": 5.997,
+      "step": 40000
+    },
+    {
+      "epoch": 7.3555794761392175,
+      "grad_norm": 15.900300025939941,
+      "learning_rate": 8.950463470547195e-08,
+      "loss": 0.273,
+      "step": 41000
+    },
+    {
+      "epoch": 7.3555794761392175,
+      "eval_accuracy": 0.8292461398728429,
+      "eval_f1": 0.8348946135831382,
+      "eval_loss": 0.34222128987312317,
+      "eval_precision": 0.8167239404352806,
+      "eval_recall": 0.8538922155688623,
+      "eval_runtime": 103.3124,
+      "eval_samples_per_second": 95.913,
+      "eval_steps_per_second": 6.001,
+      "step": 41000
+    },
+    {
+      "epoch": 7.534983853606028,
+      "grad_norm": 54.62172317504883,
+      "learning_rate": 6.45868633509419e-08,
+      "loss": 0.2795,
+      "step": 42000
+    },
+    {
+      "epoch": 7.534983853606028,
+      "eval_accuracy": 0.8275305278030074,
+      "eval_f1": 0.8291512546236129,
+      "eval_loss": 0.33169299364089966,
+      "eval_precision": 0.8305627879030643,
+      "eval_recall": 0.8277445109780439,
+      "eval_runtime": 103.4355,
+      "eval_samples_per_second": 95.799,
+      "eval_steps_per_second": 5.994,
+      "step": 42000
+    },
+    {
+      "epoch": 7.714388231072839,
+      "grad_norm": 47.589847564697266,
+      "learning_rate": 3.9669091996411835e-08,
+      "loss": 0.2739,
+      "step": 43000
+    },
+    {
+      "epoch": 7.714388231072839,
+      "eval_accuracy": 0.8305580785144818,
+      "eval_f1": 0.8372904351196822,
+      "eval_loss": 0.336332768201828,
+      "eval_precision": 0.8137125635712941,
+      "eval_recall": 0.8622754491017964,
+      "eval_runtime": 103.0445,
+      "eval_samples_per_second": 96.162,
+      "eval_steps_per_second": 6.017,
+      "step": 43000
+    },
+    {
+      "epoch": 7.893792608539648,
+      "grad_norm": 32.284854888916016,
+      "learning_rate": 1.475132064188179e-08,
+      "loss": 0.2771,
+      "step": 44000
+    },
+    {
+      "epoch": 7.893792608539648,
+      "eval_accuracy": 0.8294479765869411,
+      "eval_f1": 0.8322747121873759,
+      "eval_loss": 0.33281558752059937,
+      "eval_precision": 0.8276746940386893,
+      "eval_recall": 0.8369261477045908,
+      "eval_runtime": 103.2292,
+      "eval_samples_per_second": 95.99,
+      "eval_steps_per_second": 6.006,
+      "step": 44000
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 44592,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.949009928618441e+17,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74bc508abee099291ad8894c55837db6477c06aa2700860858f3c6e09ed6af95
+size 5112