Upload 7 files

Browse files

Files changed (7) hide show

config.json +58 -0
pytorch_model.bin +3 -0
sentencepiece.bpe.model +3 -0
special_tokens_map.json +15 -0
tokenizer_config.json +55 -0
trainer_state.json +729 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "_name_or_path": "../model/cino-small-v2",
+  "architectures": [
+    "XLMRobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "Politics",
+    "1": "Economics",
+    "2": "Education",
+    "3": "Tourism",
+    "4": "Environment",
+    "5": "Language",
+    "6": "Literature",
+    "7": "Religion",
+    "8": "Arts",
+    "9": "Medicine",
+    "10": "Customs",
+    "11": "Instruments"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "Arts": 8,
+    "Customs": 10,
+    "Economics": 1,
+    "Education": 2,
+    "Environment": 4,
+    "Instruments": 11,
+    "Language": 5,
+    "Literature": 6,
+    "Medicine": 9,
+    "Politics": 0,
+    "Religion": 7,
+    "Tourism": 3
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.36.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 135359
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a5522f112bf48c042eae8056e166a8ae16eafca66718487467d3eaf88d5d5d54
+size 589953711

sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:abec8706178924453be115cd2da858ef32de70ba60d0c10300822a732a868cf7
+size 2814898

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "135358": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,729 @@

+{
+  "best_metric": 0.7314804685814131,
+  "best_model_checkpoint": "../saved_model/cino-small-v2_tncc-document_v3/checkpoint-1386",
+  "epoch": 40.0,
+  "eval_steps": 500,
+  "global_step": 9240,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5728260869565217,
+      "eval_loss": 1.4385737180709839,
+      "eval_macro-f1": 0.3838604227373153,
+      "eval_macro-precision": 0.4180870918370973,
+      "eval_macro-recall": 0.401101362786273,
+      "eval_runtime": 3.7275,
+      "eval_samples_per_second": 246.815,
+      "eval_steps_per_second": 7.78,
+      "eval_weighted-f1": 0.5305606310926694,
+      "eval_weighted-precision": 0.5297428752450334,
+      "eval_weighted-recall": 0.5728260869565217,
+      "step": 231
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6804347826086956,
+      "eval_loss": 0.9704039692878723,
+      "eval_macro-f1": 0.5670979693101942,
+      "eval_macro-precision": 0.6248049410073685,
+      "eval_macro-recall": 0.5626229599238465,
+      "eval_runtime": 3.649,
+      "eval_samples_per_second": 252.121,
+      "eval_steps_per_second": 7.947,
+      "eval_weighted-f1": 0.659306294880126,
+      "eval_weighted-precision": 0.6612128534838714,
+      "eval_weighted-recall": 0.6804347826086956,
+      "step": 462
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 2.7056277056277056e-05,
+      "loss": 1.5683,
+      "step": 500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7228260869565217,
+      "eval_loss": 0.8554874658584595,
+      "eval_macro-f1": 0.6439019323461226,
+      "eval_macro-precision": 0.7591831945218918,
+      "eval_macro-recall": 0.647150694134015,
+      "eval_runtime": 3.6619,
+      "eval_samples_per_second": 251.235,
+      "eval_steps_per_second": 7.919,
+      "eval_weighted-f1": 0.7074240890463663,
+      "eval_weighted-precision": 0.7364652520925159,
+      "eval_weighted-recall": 0.7228260869565217,
+      "step": 693
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7217391304347827,
+      "eval_loss": 0.8149855136871338,
+      "eval_macro-f1": 0.692605745410065,
+      "eval_macro-precision": 0.7440547514586789,
+      "eval_macro-recall": 0.6752749193421123,
+      "eval_runtime": 3.6631,
+      "eval_samples_per_second": 251.153,
+      "eval_steps_per_second": 7.917,
+      "eval_weighted-f1": 0.7209306678998675,
+      "eval_weighted-precision": 0.7414800435950141,
+      "eval_weighted-recall": 0.7217391304347827,
+      "step": 924
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 4.9543049543049543e-05,
+      "loss": 0.8117,
+      "step": 1000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7380434782608696,
+      "eval_loss": 0.7939425110816956,
+      "eval_macro-f1": 0.6992459555314743,
+      "eval_macro-precision": 0.7591820184313646,
+      "eval_macro-recall": 0.6754292333806964,
+      "eval_runtime": 3.6533,
+      "eval_samples_per_second": 251.83,
+      "eval_steps_per_second": 7.938,
+      "eval_weighted-f1": 0.7380000414393602,
+      "eval_weighted-precision": 0.7564326290768578,
+      "eval_weighted-recall": 0.7380434782608696,
+      "step": 1155
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.758695652173913,
+      "eval_loss": 0.7805317640304565,
+      "eval_macro-f1": 0.7314804685814131,
+      "eval_macro-precision": 0.7488860778713532,
+      "eval_macro-recall": 0.7209236372848382,
+      "eval_runtime": 3.6563,
+      "eval_samples_per_second": 251.62,
+      "eval_steps_per_second": 7.932,
+      "eval_weighted-f1": 0.7573646414610792,
+      "eval_weighted-precision": 0.7607162388274387,
+      "eval_weighted-recall": 0.758695652173913,
+      "step": 1386
+    },
+    {
+      "epoch": 6.49,
+      "learning_rate": 4.653679653679654e-05,
+      "loss": 0.5138,
+      "step": 1500
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.7271739130434782,
+      "eval_loss": 0.9128503799438477,
+      "eval_macro-f1": 0.6932349275628739,
+      "eval_macro-precision": 0.709503845500428,
+      "eval_macro-recall": 0.6965007036577074,
+      "eval_runtime": 3.6549,
+      "eval_samples_per_second": 251.715,
+      "eval_steps_per_second": 7.934,
+      "eval_weighted-f1": 0.7248736247795886,
+      "eval_weighted-precision": 0.7328289572198895,
+      "eval_weighted-recall": 0.7271739130434782,
+      "step": 1617
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7217391304347827,
+      "eval_loss": 0.9858090877532959,
+      "eval_macro-f1": 0.689163447413493,
+      "eval_macro-precision": 0.7090289269200102,
+      "eval_macro-recall": 0.6776571823481318,
+      "eval_runtime": 3.6807,
+      "eval_samples_per_second": 249.952,
+      "eval_steps_per_second": 7.879,
+      "eval_weighted-f1": 0.7165836364208036,
+      "eval_weighted-precision": 0.7206730807638884,
+      "eval_weighted-recall": 0.7217391304347827,
+      "step": 1848
+    },
+    {
+      "epoch": 8.66,
+      "learning_rate": 4.3530543530543535e-05,
+      "loss": 0.2896,
+      "step": 2000
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.7206521739130435,
+      "eval_loss": 1.0959097146987915,
+      "eval_macro-f1": 0.6881695092418435,
+      "eval_macro-precision": 0.7242135136847904,
+      "eval_macro-recall": 0.6739069406781741,
+      "eval_runtime": 3.6639,
+      "eval_samples_per_second": 251.1,
+      "eval_steps_per_second": 7.915,
+      "eval_weighted-f1": 0.721541258098875,
+      "eval_weighted-precision": 0.7354744485281628,
+      "eval_weighted-recall": 0.7206521739130435,
+      "step": 2079
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.7402173913043478,
+      "eval_loss": 1.0843907594680786,
+      "eval_macro-f1": 0.7110726162631839,
+      "eval_macro-precision": 0.7142340249185155,
+      "eval_macro-recall": 0.7171490983289037,
+      "eval_runtime": 3.6707,
+      "eval_samples_per_second": 250.635,
+      "eval_steps_per_second": 7.9,
+      "eval_weighted-f1": 0.7389745804216191,
+      "eval_weighted-precision": 0.7454086875631871,
+      "eval_weighted-recall": 0.7402173913043478,
+      "step": 2310
+    },
+    {
+      "epoch": 10.82,
+      "learning_rate": 4.0524290524290525e-05,
+      "loss": 0.1697,
+      "step": 2500
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.7445652173913043,
+      "eval_loss": 1.233216643333435,
+      "eval_macro-f1": 0.7174385595847431,
+      "eval_macro-precision": 0.7222220197958554,
+      "eval_macro-recall": 0.7223862957961207,
+      "eval_runtime": 3.6639,
+      "eval_samples_per_second": 251.1,
+      "eval_steps_per_second": 7.915,
+      "eval_weighted-f1": 0.7415516921744333,
+      "eval_weighted-precision": 0.7454222933021499,
+      "eval_weighted-recall": 0.7445652173913043,
+      "step": 2541
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.725,
+      "eval_loss": 1.3816906213760376,
+      "eval_macro-f1": 0.7016354693909223,
+      "eval_macro-precision": 0.7189672090787159,
+      "eval_macro-recall": 0.6935770369995492,
+      "eval_runtime": 3.6765,
+      "eval_samples_per_second": 250.236,
+      "eval_steps_per_second": 7.888,
+      "eval_weighted-f1": 0.724330602886681,
+      "eval_weighted-precision": 0.7285735967072182,
+      "eval_weighted-recall": 0.725,
+      "step": 2772
+    },
+    {
+      "epoch": 12.99,
+      "learning_rate": 3.751803751803752e-05,
+      "loss": 0.1103,
+      "step": 3000
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.7489130434782608,
+      "eval_loss": 1.3391927480697632,
+      "eval_macro-f1": 0.7238074657296613,
+      "eval_macro-precision": 0.7446967874522551,
+      "eval_macro-recall": 0.712629424508482,
+      "eval_runtime": 3.6667,
+      "eval_samples_per_second": 250.906,
+      "eval_steps_per_second": 7.909,
+      "eval_weighted-f1": 0.7501963340512701,
+      "eval_weighted-precision": 0.7590165879471408,
+      "eval_weighted-recall": 0.7489130434782608,
+      "step": 3003
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.7402173913043478,
+      "eval_loss": 1.5429991483688354,
+      "eval_macro-f1": 0.7240452372603429,
+      "eval_macro-precision": 0.7331291046121945,
+      "eval_macro-recall": 0.7243088646296482,
+      "eval_runtime": 3.6687,
+      "eval_samples_per_second": 250.767,
+      "eval_steps_per_second": 7.905,
+      "eval_weighted-f1": 0.7380284868051685,
+      "eval_weighted-precision": 0.7450380621081162,
+      "eval_weighted-recall": 0.7402173913043478,
+      "step": 3234
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.741304347826087,
+      "eval_loss": 1.5235261917114258,
+      "eval_macro-f1": 0.7183262530521685,
+      "eval_macro-precision": 0.7374055253765689,
+      "eval_macro-recall": 0.710378384840802,
+      "eval_runtime": 3.6757,
+      "eval_samples_per_second": 250.291,
+      "eval_steps_per_second": 7.89,
+      "eval_weighted-f1": 0.7413765884828194,
+      "eval_weighted-precision": 0.7457027535340536,
+      "eval_weighted-recall": 0.741304347826087,
+      "step": 3465
+    },
+    {
+      "epoch": 15.15,
+      "learning_rate": 3.451178451178451e-05,
+      "loss": 0.076,
+      "step": 3500
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.7369565217391304,
+      "eval_loss": 1.601302981376648,
+      "eval_macro-f1": 0.7146795994306041,
+      "eval_macro-precision": 0.731834113865428,
+      "eval_macro-recall": 0.7046419450264447,
+      "eval_runtime": 3.6629,
+      "eval_samples_per_second": 251.17,
+      "eval_steps_per_second": 7.917,
+      "eval_weighted-f1": 0.7361455920467442,
+      "eval_weighted-precision": 0.7414209945981161,
+      "eval_weighted-recall": 0.7369565217391304,
+      "step": 3696
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.7521739130434782,
+      "eval_loss": 1.6069446802139282,
+      "eval_macro-f1": 0.72890524872289,
+      "eval_macro-precision": 0.7550074105527117,
+      "eval_macro-recall": 0.7143027398745371,
+      "eval_runtime": 3.6875,
+      "eval_samples_per_second": 249.492,
+      "eval_steps_per_second": 7.864,
+      "eval_weighted-f1": 0.750626634711916,
+      "eval_weighted-precision": 0.7542096149679086,
+      "eval_weighted-recall": 0.7521739130434782,
+      "step": 3927
+    },
+    {
+      "epoch": 17.32,
+      "learning_rate": 3.1505531505531506e-05,
+      "loss": 0.0599,
+      "step": 4000
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.7380434782608696,
+      "eval_loss": 1.6708563566207886,
+      "eval_macro-f1": 0.7113858264976506,
+      "eval_macro-precision": 0.721360196572633,
+      "eval_macro-recall": 0.7084908417098105,
+      "eval_runtime": 3.6673,
+      "eval_samples_per_second": 250.863,
+      "eval_steps_per_second": 7.908,
+      "eval_weighted-f1": 0.7362916788435598,
+      "eval_weighted-precision": 0.7410606549056714,
+      "eval_weighted-recall": 0.7380434782608696,
+      "step": 4158
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.7304347826086957,
+      "eval_loss": 1.7036793231964111,
+      "eval_macro-f1": 0.706200706354292,
+      "eval_macro-precision": 0.725013063692726,
+      "eval_macro-recall": 0.6960154772814597,
+      "eval_runtime": 3.6618,
+      "eval_samples_per_second": 251.244,
+      "eval_steps_per_second": 7.92,
+      "eval_weighted-f1": 0.7272025757986477,
+      "eval_weighted-precision": 0.7299415345713408,
+      "eval_weighted-recall": 0.7304347826086957,
+      "step": 4389
+    },
+    {
+      "epoch": 19.48,
+      "learning_rate": 2.8499278499278502e-05,
+      "loss": 0.0527,
+      "step": 4500
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.7456521739130435,
+      "eval_loss": 1.6668744087219238,
+      "eval_macro-f1": 0.7224498874030757,
+      "eval_macro-precision": 0.7310054057580726,
+      "eval_macro-recall": 0.7165591792061506,
+      "eval_runtime": 3.6616,
+      "eval_samples_per_second": 251.257,
+      "eval_steps_per_second": 7.92,
+      "eval_weighted-f1": 0.7462188604522836,
+      "eval_weighted-precision": 0.748502249382744,
+      "eval_weighted-recall": 0.7456521739130435,
+      "step": 4620
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.7369565217391304,
+      "eval_loss": 1.714359998703003,
+      "eval_macro-f1": 0.7010216405318593,
+      "eval_macro-precision": 0.7089052674512984,
+      "eval_macro-recall": 0.698099718977543,
+      "eval_runtime": 3.6583,
+      "eval_samples_per_second": 251.485,
+      "eval_steps_per_second": 7.927,
+      "eval_weighted-f1": 0.7359926399774661,
+      "eval_weighted-precision": 0.7389162747277125,
+      "eval_weighted-recall": 0.7369565217391304,
+      "step": 4851
+    },
+    {
+      "epoch": 21.65,
+      "learning_rate": 2.5493025493025498e-05,
+      "loss": 0.041,
+      "step": 5000
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.741304347826087,
+      "eval_loss": 1.8112448453903198,
+      "eval_macro-f1": 0.7129367870323943,
+      "eval_macro-precision": 0.7109062719547,
+      "eval_macro-recall": 0.7246584013705878,
+      "eval_runtime": 3.6643,
+      "eval_samples_per_second": 251.071,
+      "eval_steps_per_second": 7.914,
+      "eval_weighted-f1": 0.7373824826939279,
+      "eval_weighted-precision": 0.742304135787633,
+      "eval_weighted-recall": 0.741304347826087,
+      "step": 5082
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.7358695652173913,
+      "eval_loss": 1.776945948600769,
+      "eval_macro-f1": 0.7100717867057288,
+      "eval_macro-precision": 0.7175705473737001,
+      "eval_macro-recall": 0.7091991070542707,
+      "eval_runtime": 3.6635,
+      "eval_samples_per_second": 251.123,
+      "eval_steps_per_second": 7.916,
+      "eval_weighted-f1": 0.7345006810309644,
+      "eval_weighted-precision": 0.7390098845189911,
+      "eval_weighted-recall": 0.7358695652173913,
+      "step": 5313
+    },
+    {
+      "epoch": 23.81,
+      "learning_rate": 2.2486772486772487e-05,
+      "loss": 0.0412,
+      "step": 5500
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.75,
+      "eval_loss": 1.747084140777588,
+      "eval_macro-f1": 0.7227708998896428,
+      "eval_macro-precision": 0.7279946870184277,
+      "eval_macro-recall": 0.7269702794261114,
+      "eval_runtime": 3.6637,
+      "eval_samples_per_second": 251.112,
+      "eval_steps_per_second": 7.915,
+      "eval_weighted-f1": 0.7458470196881466,
+      "eval_weighted-precision": 0.7496528420569815,
+      "eval_weighted-recall": 0.75,
+      "step": 5544
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.7532608695652174,
+      "eval_loss": 1.7346147298812866,
+      "eval_macro-f1": 0.7300620988998959,
+      "eval_macro-precision": 0.7254323915116926,
+      "eval_macro-recall": 0.7396215021682684,
+      "eval_runtime": 3.6654,
+      "eval_samples_per_second": 250.999,
+      "eval_steps_per_second": 7.912,
+      "eval_weighted-f1": 0.7504535503896388,
+      "eval_weighted-precision": 0.7526891843637886,
+      "eval_weighted-recall": 0.7532608695652174,
+      "step": 5775
+    },
+    {
+      "epoch": 25.97,
+      "learning_rate": 1.9480519480519483e-05,
+      "loss": 0.0326,
+      "step": 6000
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.7456521739130435,
+      "eval_loss": 1.773017168045044,
+      "eval_macro-f1": 0.7210970682285488,
+      "eval_macro-precision": 0.7283775906058515,
+      "eval_macro-recall": 0.719270945602435,
+      "eval_runtime": 3.6601,
+      "eval_samples_per_second": 251.357,
+      "eval_steps_per_second": 7.923,
+      "eval_weighted-f1": 0.7454697580769286,
+      "eval_weighted-precision": 0.7489157944224945,
+      "eval_weighted-recall": 0.7456521739130435,
+      "step": 6006
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.741304347826087,
+      "eval_loss": 1.7493728399276733,
+      "eval_macro-f1": 0.7025880602354205,
+      "eval_macro-precision": 0.7130648727750518,
+      "eval_macro-recall": 0.6993768549946884,
+      "eval_runtime": 3.6688,
+      "eval_samples_per_second": 250.762,
+      "eval_steps_per_second": 7.904,
+      "eval_weighted-f1": 0.7414220307733658,
+      "eval_weighted-precision": 0.7452401075563395,
+      "eval_weighted-recall": 0.741304347826087,
+      "step": 6237
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.7380434782608696,
+      "eval_loss": 1.7450823783874512,
+      "eval_macro-f1": 0.7026259912227975,
+      "eval_macro-precision": 0.7214901347374018,
+      "eval_macro-recall": 0.6911837077117138,
+      "eval_runtime": 3.7325,
+      "eval_samples_per_second": 246.486,
+      "eval_steps_per_second": 7.77,
+      "eval_weighted-f1": 0.736513945546438,
+      "eval_weighted-precision": 0.7385934880642558,
+      "eval_weighted-recall": 0.7380434782608696,
+      "step": 6468
+    },
+    {
+      "epoch": 28.14,
+      "learning_rate": 1.6474266474266476e-05,
+      "loss": 0.0257,
+      "step": 6500
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.7402173913043478,
+      "eval_loss": 1.7633217573165894,
+      "eval_macro-f1": 0.7134642108516674,
+      "eval_macro-precision": 0.7190433251313625,
+      "eval_macro-recall": 0.710258338303699,
+      "eval_runtime": 3.6817,
+      "eval_samples_per_second": 249.884,
+      "eval_steps_per_second": 7.877,
+      "eval_weighted-f1": 0.7398481546483754,
+      "eval_weighted-precision": 0.7415064106206414,
+      "eval_weighted-recall": 0.7402173913043478,
+      "step": 6699
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.7347826086956522,
+      "eval_loss": 1.820716381072998,
+      "eval_macro-f1": 0.7078683429969447,
+      "eval_macro-precision": 0.7372603591067731,
+      "eval_macro-recall": 0.6893626457978533,
+      "eval_runtime": 3.7068,
+      "eval_samples_per_second": 248.19,
+      "eval_steps_per_second": 7.823,
+      "eval_weighted-f1": 0.7322350095276792,
+      "eval_weighted-precision": 0.7372777947320607,
+      "eval_weighted-recall": 0.7347826086956522,
+      "step": 6930
+    },
+    {
+      "epoch": 30.3,
+      "learning_rate": 1.3468013468013468e-05,
+      "loss": 0.0262,
+      "step": 7000
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.7510869565217392,
+      "eval_loss": 1.76492178440094,
+      "eval_macro-f1": 0.731348188671936,
+      "eval_macro-precision": 0.7382460346691814,
+      "eval_macro-recall": 0.7298883924645497,
+      "eval_runtime": 3.6813,
+      "eval_samples_per_second": 249.913,
+      "eval_steps_per_second": 7.878,
+      "eval_weighted-f1": 0.7508384750022834,
+      "eval_weighted-precision": 0.7539289140986796,
+      "eval_weighted-recall": 0.7510869565217392,
+      "step": 7161
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.7358695652173913,
+      "eval_loss": 1.8048666715621948,
+      "eval_macro-f1": 0.7135206623010025,
+      "eval_macro-precision": 0.7206599735879954,
+      "eval_macro-recall": 0.713146029256634,
+      "eval_runtime": 3.6665,
+      "eval_samples_per_second": 250.92,
+      "eval_steps_per_second": 7.909,
+      "eval_weighted-f1": 0.7342617186640648,
+      "eval_weighted-precision": 0.7381810820989364,
+      "eval_weighted-recall": 0.7358695652173913,
+      "step": 7392
+    },
+    {
+      "epoch": 32.47,
+      "learning_rate": 1.0461760461760463e-05,
+      "loss": 0.0195,
+      "step": 7500
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 0.7434782608695653,
+      "eval_loss": 1.7627431154251099,
+      "eval_macro-f1": 0.72002488158224,
+      "eval_macro-precision": 0.727980412915839,
+      "eval_macro-recall": 0.7171781195809488,
+      "eval_runtime": 3.6606,
+      "eval_samples_per_second": 251.327,
+      "eval_steps_per_second": 7.922,
+      "eval_weighted-f1": 0.7428966222335778,
+      "eval_weighted-precision": 0.7455932383430586,
+      "eval_weighted-recall": 0.7434782608695653,
+      "step": 7623
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.7445652173913043,
+      "eval_loss": 1.8427157402038574,
+      "eval_macro-f1": 0.7238120517774087,
+      "eval_macro-precision": 0.7310564585025658,
+      "eval_macro-recall": 0.7232388744393482,
+      "eval_runtime": 3.6585,
+      "eval_samples_per_second": 251.468,
+      "eval_steps_per_second": 7.927,
+      "eval_weighted-f1": 0.7436940578232905,
+      "eval_weighted-precision": 0.7475437346184277,
+      "eval_weighted-recall": 0.7445652173913043,
+      "step": 7854
+    },
+    {
+      "epoch": 34.63,
+      "learning_rate": 7.455507455507456e-06,
+      "loss": 0.0188,
+      "step": 8000
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.7445652173913043,
+      "eval_loss": 1.82598078250885,
+      "eval_macro-f1": 0.7226558273088113,
+      "eval_macro-precision": 0.7280808646863082,
+      "eval_macro-recall": 0.721750060320641,
+      "eval_runtime": 3.9179,
+      "eval_samples_per_second": 234.822,
+      "eval_steps_per_second": 7.402,
+      "eval_weighted-f1": 0.7433397528033767,
+      "eval_weighted-precision": 0.7455193887868321,
+      "eval_weighted-recall": 0.7445652173913043,
+      "step": 8085
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.7521739130434782,
+      "eval_loss": 1.8167239427566528,
+      "eval_macro-f1": 0.7311172141769898,
+      "eval_macro-precision": 0.7387132761496166,
+      "eval_macro-recall": 0.7260195259385496,
+      "eval_runtime": 3.6724,
+      "eval_samples_per_second": 250.519,
+      "eval_steps_per_second": 7.897,
+      "eval_weighted-f1": 0.7512808559429369,
+      "eval_weighted-precision": 0.7518176004978223,
+      "eval_weighted-recall": 0.7521739130434782,
+      "step": 8316
+    },
+    {
+      "epoch": 36.8,
+      "learning_rate": 4.44925444925445e-06,
+      "loss": 0.0176,
+      "step": 8500
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 0.75,
+      "eval_loss": 1.8308371305465698,
+      "eval_macro-f1": 0.7308495034985188,
+      "eval_macro-precision": 0.7403845771754249,
+      "eval_macro-recall": 0.7242967832014863,
+      "eval_runtime": 3.6615,
+      "eval_samples_per_second": 251.261,
+      "eval_steps_per_second": 7.92,
+      "eval_weighted-f1": 0.7478384491335044,
+      "eval_weighted-precision": 0.7485903968276678,
+      "eval_weighted-recall": 0.75,
+      "step": 8547
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 0.7467391304347826,
+      "eval_loss": 1.807198405265808,
+      "eval_macro-f1": 0.7291086447475449,
+      "eval_macro-precision": 0.7329302540393156,
+      "eval_macro-recall": 0.7271188451475986,
+      "eval_runtime": 3.6625,
+      "eval_samples_per_second": 251.195,
+      "eval_steps_per_second": 7.918,
+      "eval_weighted-f1": 0.7458071950555136,
+      "eval_weighted-precision": 0.7463050676859623,
+      "eval_weighted-recall": 0.7467391304347826,
+      "step": 8778
+    },
+    {
+      "epoch": 38.96,
+      "learning_rate": 1.4430014430014432e-06,
+      "loss": 0.0164,
+      "step": 9000
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 0.7456521739130435,
+      "eval_loss": 1.8073784112930298,
+      "eval_macro-f1": 0.7256401482067129,
+      "eval_macro-precision": 0.733018922323657,
+      "eval_macro-recall": 0.7204178880954032,
+      "eval_runtime": 3.673,
+      "eval_samples_per_second": 250.478,
+      "eval_steps_per_second": 7.896,
+      "eval_weighted-f1": 0.7445134806621682,
+      "eval_weighted-precision": 0.7450872143093246,
+      "eval_weighted-recall": 0.7456521739130435,
+      "step": 9009
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.741304347826087,
+      "eval_loss": 1.818052887916565,
+      "eval_macro-f1": 0.7215539592969167,
+      "eval_macro-precision": 0.7317731195834322,
+      "eval_macro-recall": 0.7133028256075337,
+      "eval_runtime": 3.6643,
+      "eval_samples_per_second": 251.069,
+      "eval_steps_per_second": 7.914,
+      "eval_weighted-f1": 0.7401045633293094,
+      "eval_weighted-precision": 0.740661997113788,
+      "eval_weighted-recall": 0.741304347826087,
+      "step": 9240
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 9240,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 40,
+  "save_steps": 500,
+  "total_flos": 3.902655553929216e+16,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d25ebe045df09d09a09adfed7a087270b003ff43849571039aab6046873db6f
+size 4335