upload nace2_level0 model

Browse files

Files changed (10) hide show

config.json +84 -0
merges.txt +0 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
special_tokens_map.json +1 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -0
trainer_state.json +816 -0
training_args.bin +3 -0
vocab.json +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,84 @@

+{
+  "_name_or_path": "../models/roberta-large/",
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "eos_token_id": 2,
+  "finetuning_task": "nace",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "10",
+    "1": "11",
+    "2": "12",
+    "3": "13",
+    "4": "14",
+    "5": "15",
+    "6": "16",
+    "7": "17",
+    "8": "18",
+    "9": "19",
+    "10": "20",
+    "11": "21",
+    "12": "22",
+    "13": "23",
+    "14": "24",
+    "15": "25",
+    "16": "26",
+    "17": "27",
+    "18": "28",
+    "19": "29",
+    "20": "30",
+    "21": "31",
+    "22": "32",
+    "23": "42",
+    "24": "43",
+    "25": "62"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "10": 0,
+    "11": 1,
+    "12": 2,
+    "13": 3,
+    "14": 4,
+    "15": 5,
+    "16": 6,
+    "17": 7,
+    "18": 8,
+    "19": 9,
+    "20": 10,
+    "21": 11,
+    "22": 12,
+    "23": 13,
+    "24": 14,
+    "25": 15,
+    "26": 16,
+    "27": 17,
+    "28": 18,
+    "29": 19,
+    "30": 20,
+    "31": 21,
+    "32": 22,
+    "42": 23,
+    "43": 24,
+    "62": 25
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "multi_label_classification",
+  "transformers_version": "4.6.1",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8576ce97fdbc776150b9c4293fa2ffa0e2f1a2ce621b67ae8ec85a55224239a5
+size 1421709677

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:02799ae29d8e97c746469176f763b32351e4563ab92507ce57bd575981b0b31a
+size 15523

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": false}}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "<unk>", "bos_token": "<s>", "eos_token": "</s>", "add_prefix_space": false, "errors": "replace", "sep_token": "</s>", "cls_token": "<s>", "pad_token": "<pad>", "mask_token": "<mask>", "special_tokens_map_file": null, "name_or_path": "../models/roberta-large/"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,816 @@

+{
+  "best_metric": 0.7953262197881779,
+  "best_model_checkpoint": "./output//roberta-large_nace_5__5e-6_0.01_0.06_07-12-22_21-12/checkpoint-98000",
+  "epoch": 0.08573862323490967,
+  "global_step": 100000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.8579512490675938e-08,
+      "loss": 0.6423,
+      "step": 2000
+    },
+    {
+      "epoch": 0.0,
+      "eval_accuracy": 0.00020930884194819268,
+      "eval_f1": 0.017752777264977686,
+      "eval_loss": 0.45688706636428833,
+      "eval_roc_auc": 0.4999505258927197,
+      "eval_runtime": 8888.0353,
+      "eval_samples_per_second": 33.327,
+      "step": 2000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5.7159024981351875e-08,
+      "loss": 0.3833,
+      "step": 4000
+    },
+    {
+      "epoch": 0.0,
+      "eval_accuracy": 0.0,
+      "eval_f1": 0.0074795009434814345,
+      "eval_loss": 0.2739907205104828,
+      "eval_roc_auc": 0.4998445851936328,
+      "eval_runtime": 8865.9827,
+      "eval_samples_per_second": 33.41,
+      "step": 4000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 8.573853747202781e-08,
+      "loss": 0.2538,
+      "step": 6000
+    },
+    {
+      "epoch": 0.01,
+      "eval_accuracy": 0.00013166201348354057,
+      "eval_f1": 0.0004511461766688428,
+      "eval_loss": 0.2050675004720688,
+      "eval_roc_auc": 0.5000627296722496,
+      "eval_runtime": 8869.0926,
+      "eval_samples_per_second": 33.398,
+      "step": 6000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.1431804996270375e-07,
+      "loss": 0.1998,
+      "step": 8000
+    },
+    {
+      "epoch": 0.01,
+      "eval_accuracy": 3.3759490636805274e-06,
+      "eval_f1": 5.318554842278257e-06,
+      "eval_loss": 0.17527928948402405,
+      "eval_roc_auc": 0.4999982583562919,
+      "eval_runtime": 8867.7398,
+      "eval_samples_per_second": 33.403,
+      "step": 8000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.428975624533797e-07,
+      "loss": 0.1693,
+      "step": 10000
+    },
+    {
+      "epoch": 0.01,
+      "eval_accuracy": 0.18926583235712138,
+      "eval_f1": 0.310704534917664,
+      "eval_loss": 0.15055961906909943,
+      "eval_roc_auc": 0.5950524118809889,
+      "eval_runtime": 8868.9495,
+      "eval_samples_per_second": 33.399,
+      "step": 10000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.7147707494405562e-07,
+      "loss": 0.1457,
+      "step": 12000
+    },
+    {
+      "epoch": 0.01,
+      "eval_accuracy": 0.3331555333493128,
+      "eval_f1": 0.4681315118558145,
+      "eval_loss": 0.13044112920761108,
+      "eval_roc_auc": 0.6662536331303048,
+      "eval_runtime": 8874.2821,
+      "eval_samples_per_second": 33.379,
+      "step": 12000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.0005658743473155e-07,
+      "loss": 0.127,
+      "step": 14000
+    },
+    {
+      "epoch": 0.01,
+      "eval_accuracy": 0.41038374413006856,
+      "eval_f1": 0.5463731063419305,
+      "eval_loss": 0.11502532660961151,
+      "eval_roc_auc": 0.7051608184740583,
+      "eval_runtime": 8870.8129,
+      "eval_samples_per_second": 33.392,
+      "step": 14000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.286360999254075e-07,
+      "loss": 0.1132,
+      "step": 16000
+    },
+    {
+      "epoch": 0.01,
+      "eval_accuracy": 0.4763227812418766,
+      "eval_f1": 0.6070642556360302,
+      "eval_loss": 0.10388284176588058,
+      "eval_roc_auc": 0.7403745042255975,
+      "eval_runtime": 8872.294,
+      "eval_samples_per_second": 33.386,
+      "step": 16000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2.5721561241608343e-07,
+      "loss": 0.1032,
+      "step": 18000
+    },
+    {
+      "epoch": 0.02,
+      "eval_accuracy": 0.5087960352854196,
+      "eval_f1": 0.6375540199236641,
+      "eval_loss": 0.09574878960847855,
+      "eval_roc_auc": 0.7589272821999232,
+      "eval_runtime": 8879.9353,
+      "eval_samples_per_second": 33.358,
+      "step": 18000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2.857951249067594e-07,
+      "loss": 0.0959,
+      "step": 20000
+    },
+    {
+      "epoch": 0.02,
+      "eval_accuracy": 0.5288154132330452,
+      "eval_f1": 0.6573253473962186,
+      "eval_loss": 0.08954177796840668,
+      "eval_roc_auc": 0.7715952535178425,
+      "eval_runtime": 8893.417,
+      "eval_samples_per_second": 33.307,
+      "step": 20000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 3.1437463739743534e-07,
+      "loss": 0.0899,
+      "step": 22000
+    },
+    {
+      "epoch": 0.02,
+      "eval_accuracy": 0.5462656939432098,
+      "eval_f1": 0.6785063497828563,
+      "eval_loss": 0.08448488265275955,
+      "eval_roc_auc": 0.7872646974276402,
+      "eval_runtime": 8886.3548,
+      "eval_samples_per_second": 33.333,
+      "step": 22000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 3.4295414988811124e-07,
+      "loss": 0.085,
+      "step": 24000
+    },
+    {
+      "epoch": 0.02,
+      "eval_accuracy": 0.5589457586263938,
+      "eval_f1": 0.6890862787276392,
+      "eval_loss": 0.08046474307775497,
+      "eval_roc_auc": 0.793202863995178,
+      "eval_runtime": 8888.5138,
+      "eval_samples_per_second": 33.325,
+      "step": 24000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 3.715336623787872e-07,
+      "loss": 0.0807,
+      "step": 26000
+    },
+    {
+      "epoch": 0.02,
+      "eval_accuracy": 0.5779354721095968,
+      "eval_f1": 0.7085340529054537,
+      "eval_loss": 0.07694748789072037,
+      "eval_roc_auc": 0.8086207353956607,
+      "eval_runtime": 9108.0018,
+      "eval_samples_per_second": 32.522,
+      "step": 26000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 4.001131748694631e-07,
+      "loss": 0.0778,
+      "step": 28000
+    },
+    {
+      "epoch": 0.02,
+      "eval_accuracy": 0.5849236866714155,
+      "eval_f1": 0.7155799872243565,
+      "eval_loss": 0.07436001300811768,
+      "eval_roc_auc": 0.8137322286922238,
+      "eval_runtime": 8902.3443,
+      "eval_samples_per_second": 33.274,
+      "step": 28000
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.28692687360139e-07,
+      "loss": 0.0753,
+      "step": 30000
+    },
+    {
+      "epoch": 0.03,
+      "eval_accuracy": 0.5928402872257463,
+      "eval_f1": 0.7241294650780317,
+      "eval_loss": 0.07221980392932892,
+      "eval_roc_auc": 0.8217651733984279,
+      "eval_runtime": 8918.1851,
+      "eval_samples_per_second": 33.214,
+      "step": 30000
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.57272199850815e-07,
+      "loss": 0.0725,
+      "step": 32000
+    },
+    {
+      "epoch": 0.03,
+      "eval_accuracy": 0.5951764439778132,
+      "eval_f1": 0.7261386622802142,
+      "eval_loss": 0.07057042419910431,
+      "eval_roc_auc": 0.822130038839097,
+      "eval_runtime": 8995.4049,
+      "eval_samples_per_second": 32.929,
+      "step": 32000
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.858517123414909e-07,
+      "loss": 0.0711,
+      "step": 34000
+    },
+    {
+      "epoch": 0.03,
+      "eval_accuracy": 0.6020971395583583,
+      "eval_f1": 0.7323235836003227,
+      "eval_loss": 0.06848303228616714,
+      "eval_roc_auc": 0.8254645532099296,
+      "eval_runtime": 9451.4989,
+      "eval_samples_per_second": 31.34,
+      "step": 34000
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 5.144312248321669e-07,
+      "loss": 0.0696,
+      "step": 36000
+    },
+    {
+      "epoch": 0.03,
+      "eval_accuracy": 0.6094972199059461,
+      "eval_f1": 0.7393677046231971,
+      "eval_loss": 0.06683486700057983,
+      "eval_roc_auc": 0.8309554684971688,
+      "eval_runtime": 10018.5624,
+      "eval_samples_per_second": 29.566,
+      "step": 36000
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 5.430107373228428e-07,
+      "loss": 0.0676,
+      "step": 38000
+    },
+    {
+      "epoch": 0.03,
+      "eval_accuracy": 0.6112223298774868,
+      "eval_f1": 0.7425602873268343,
+      "eval_loss": 0.06597442924976349,
+      "eval_roc_auc": 0.8349447666298531,
+      "eval_runtime": 11692.7897,
+      "eval_samples_per_second": 25.333,
+      "step": 38000
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 5.715902498135188e-07,
+      "loss": 0.0663,
+      "step": 40000
+    },
+    {
+      "epoch": 0.03,
+      "eval_accuracy": 0.6157629813681371,
+      "eval_f1": 0.7460401136089835,
+      "eval_loss": 0.06471637636423111,
+      "eval_roc_auc": 0.8360501874414529,
+      "eval_runtime": 8963.8102,
+      "eval_samples_per_second": 33.045,
+      "step": 40000
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 6.001697623041946e-07,
+      "loss": 0.0647,
+      "step": 42000
+    },
+    {
+      "epoch": 0.04,
+      "eval_accuracy": 0.6194090063569121,
+      "eval_f1": 0.7492256354462544,
+      "eval_loss": 0.06362345069646835,
+      "eval_roc_auc": 0.8375523158859597,
+      "eval_runtime": 8891.9369,
+      "eval_samples_per_second": 33.313,
+      "step": 42000
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 6.287492747948707e-07,
+      "loss": 0.0642,
+      "step": 44000
+    },
+    {
+      "epoch": 0.04,
+      "eval_accuracy": 0.6211577479718986,
+      "eval_f1": 0.7510341371183263,
+      "eval_loss": 0.06275659799575806,
+      "eval_roc_auc": 0.8382498982808346,
+      "eval_runtime": 8889.7383,
+      "eval_samples_per_second": 33.321,
+      "step": 44000
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 6.573287872855465e-07,
+      "loss": 0.0633,
+      "step": 46000
+    },
+    {
+      "epoch": 0.04,
+      "eval_accuracy": 0.6240340565741544,
+      "eval_f1": 0.7552442670824074,
+      "eval_loss": 0.061649855226278305,
+      "eval_roc_auc": 0.8417446851046798,
+      "eval_runtime": 9047.8013,
+      "eval_samples_per_second": 32.739,
+      "step": 46000
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 6.859082997762225e-07,
+      "loss": 0.0623,
+      "step": 48000
+    },
+    {
+      "epoch": 0.04,
+      "eval_accuracy": 0.6283518954266019,
+      "eval_f1": 0.7614445531010631,
+      "eval_loss": 0.06095787137746811,
+      "eval_roc_auc": 0.8492713317355323,
+      "eval_runtime": 8895.4655,
+      "eval_samples_per_second": 33.299,
+      "step": 48000
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 7.144878122668984e-07,
+      "loss": 0.0617,
+      "step": 50000
+    },
+    {
+      "epoch": 0.04,
+      "eval_accuracy": 0.6315151596992704,
+      "eval_f1": 0.7623575299697047,
+      "eval_loss": 0.059979602694511414,
+      "eval_roc_auc": 0.8468318365424115,
+      "eval_runtime": 8905.8909,
+      "eval_samples_per_second": 33.26,
+      "step": 50000
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 7.430673247575744e-07,
+      "loss": 0.0603,
+      "step": 52000
+    },
+    {
+      "epoch": 0.04,
+      "eval_accuracy": 0.6323929064558274,
+      "eval_f1": 0.7646658582301569,
+      "eval_loss": 0.0595267117023468,
+      "eval_roc_auc": 0.8497986956155574,
+      "eval_runtime": 8916.2146,
+      "eval_samples_per_second": 33.222,
+      "step": 52000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 7.716468372482502e-07,
+      "loss": 0.0605,
+      "step": 54000
+    },
+    {
+      "epoch": 0.05,
+      "eval_accuracy": 0.6345197543659461,
+      "eval_f1": 0.7675632990904457,
+      "eval_loss": 0.05862889438867569,
+      "eval_roc_auc": 0.8518276428326589,
+      "eval_runtime": 8909.536,
+      "eval_samples_per_second": 33.247,
+      "step": 54000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 8.002263497389262e-07,
+      "loss": 0.0594,
+      "step": 56000
+    },
+    {
+      "epoch": 0.05,
+      "eval_accuracy": 0.6367647604932937,
+      "eval_f1": 0.7709907906594025,
+      "eval_loss": 0.05837056040763855,
+      "eval_roc_auc": 0.8562941632344473,
+      "eval_runtime": 8903.6442,
+      "eval_samples_per_second": 33.269,
+      "step": 56000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 8.288058622296021e-07,
+      "loss": 0.0592,
+      "step": 58000
+    },
+    {
+      "epoch": 0.05,
+      "eval_accuracy": 0.6382434261831857,
+      "eval_f1": 0.7715028842192007,
+      "eval_loss": 0.05767415836453438,
+      "eval_roc_auc": 0.8549143755897282,
+      "eval_runtime": 8915.2586,
+      "eval_samples_per_second": 33.225,
+      "step": 58000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 8.57385374720278e-07,
+      "loss": 0.0585,
+      "step": 60000
+    },
+    {
+      "epoch": 0.05,
+      "eval_accuracy": 0.6385371337517259,
+      "eval_f1": 0.7683973772822023,
+      "eval_loss": 0.057559411972761154,
+      "eval_roc_auc": 0.8502475677045068,
+      "eval_runtime": 8911.1959,
+      "eval_samples_per_second": 33.241,
+      "step": 60000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 8.85964887210954e-07,
+      "loss": 0.0578,
+      "step": 62000
+    },
+    {
+      "epoch": 0.05,
+      "eval_accuracy": 0.643915020610169,
+      "eval_f1": 0.7735556679913914,
+      "eval_loss": 0.056609489023685455,
+      "eval_roc_auc": 0.8534382569874794,
+      "eval_runtime": 8924.5002,
+      "eval_samples_per_second": 33.191,
+      "step": 62000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 9.1454439970163e-07,
+      "loss": 0.0572,
+      "step": 64000
+    },
+    {
+      "epoch": 0.05,
+      "eval_accuracy": 0.6444484205622305,
+      "eval_f1": 0.7776911375576832,
+      "eval_loss": 0.05652829632163048,
+      "eval_roc_auc": 0.8603552529596437,
+      "eval_runtime": 8931.0301,
+      "eval_samples_per_second": 33.167,
+      "step": 64000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 9.43123912192306e-07,
+      "loss": 0.0571,
+      "step": 66000
+    },
+    {
+      "epoch": 0.06,
+      "eval_accuracy": 0.6454882128738442,
+      "eval_f1": 0.7742083504686046,
+      "eval_loss": 0.05627002194523811,
+      "eval_roc_auc": 0.8534170877970823,
+      "eval_runtime": 8935.7869,
+      "eval_samples_per_second": 33.149,
+      "step": 66000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 9.717034246829818e-07,
+      "loss": 0.0563,
+      "step": 68000
+    },
+    {
+      "epoch": 0.06,
+      "eval_accuracy": 0.6462410495150449,
+      "eval_f1": 0.7776261820301417,
+      "eval_loss": 0.05584974214434624,
+      "eval_roc_auc": 0.8583744396413601,
+      "eval_runtime": 8945.9116,
+      "eval_samples_per_second": 33.112,
+      "step": 68000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.0002829371736579e-06,
+      "loss": 0.0562,
+      "step": 70000
+    },
+    {
+      "epoch": 0.06,
+      "eval_accuracy": 0.6459709735899505,
+      "eval_f1": 0.7794595088938681,
+      "eval_loss": 0.05508234724402428,
+      "eval_roc_auc": 0.8591985509814772,
+      "eval_runtime": 8944.2225,
+      "eval_samples_per_second": 33.118,
+      "step": 70000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.0288624496643337e-06,
+      "loss": 0.0554,
+      "step": 72000
+    },
+    {
+      "epoch": 0.06,
+      "eval_accuracy": 0.6490059517981993,
+      "eval_f1": 0.7775233968578572,
+      "eval_loss": 0.05504510924220085,
+      "eval_roc_auc": 0.8542740144934026,
+      "eval_runtime": 8953.1995,
+      "eval_samples_per_second": 33.085,
+      "step": 72000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.0574419621550096e-06,
+      "loss": 0.0552,
+      "step": 74000
+    },
+    {
+      "epoch": 0.06,
+      "eval_accuracy": 0.6509471225098156,
+      "eval_f1": 0.7816832192367912,
+      "eval_loss": 0.054713618010282516,
+      "eval_roc_auc": 0.86037433954253,
+      "eval_runtime": 8945.5727,
+      "eval_samples_per_second": 33.113,
+      "step": 74000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.0860214746456856e-06,
+      "loss": 0.0547,
+      "step": 76000
+    },
+    {
+      "epoch": 0.07,
+      "eval_accuracy": 0.6510315212364076,
+      "eval_f1": 0.783673992804474,
+      "eval_loss": 0.05407635122537613,
+      "eval_roc_auc": 0.8622274781842953,
+      "eval_runtime": 8946.7264,
+      "eval_samples_per_second": 33.109,
+      "step": 76000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.1146009871363615e-06,
+      "loss": 0.0547,
+      "step": 78000
+    },
+    {
+      "epoch": 0.07,
+      "eval_accuracy": 0.6545526361098264,
+      "eval_f1": 0.7855580273587336,
+      "eval_loss": 0.053795717656612396,
+      "eval_roc_auc": 0.863520124962409,
+      "eval_runtime": 8947.2041,
+      "eval_samples_per_second": 33.107,
+      "step": 78000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.1431804996270375e-06,
+      "loss": 0.0539,
+      "step": 80000
+    },
+    {
+      "epoch": 0.07,
+      "eval_accuracy": 0.6558962638371713,
+      "eval_f1": 0.7874432731515895,
+      "eval_loss": 0.053422119468450546,
+      "eval_roc_auc": 0.8649282174633808,
+      "eval_runtime": 8946.6771,
+      "eval_samples_per_second": 33.109,
+      "step": 80000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.1717600121177134e-06,
+      "loss": 0.0541,
+      "step": 82000
+    },
+    {
+      "epoch": 0.07,
+      "eval_accuracy": 0.654451357637916,
+      "eval_f1": 0.7878992158367831,
+      "eval_loss": 0.05306807905435562,
+      "eval_roc_auc": 0.8663645266466831,
+      "eval_runtime": 8946.194,
+      "eval_samples_per_second": 33.111,
+      "step": 82000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.2003395246083892e-06,
+      "loss": 0.0534,
+      "step": 84000
+    },
+    {
+      "epoch": 0.07,
+      "eval_accuracy": 0.6543129437263051,
+      "eval_f1": 0.7862359590552527,
+      "eval_loss": 0.05337332561612129,
+      "eval_roc_auc": 0.8637659543017016,
+      "eval_runtime": 8946.5504,
+      "eval_samples_per_second": 33.109,
+      "step": 84000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.2289190370990653e-06,
+      "loss": 0.0533,
+      "step": 86000
+    },
+    {
+      "epoch": 0.07,
+      "eval_accuracy": 0.6579623446641437,
+      "eval_f1": 0.789641153558776,
+      "eval_loss": 0.05264722555875778,
+      "eval_roc_auc": 0.8661964026287946,
+      "eval_runtime": 8946.6953,
+      "eval_samples_per_second": 33.109,
+      "step": 86000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.2574985495897414e-06,
+      "loss": 0.0536,
+      "step": 88000
+    },
+    {
+      "epoch": 0.08,
+      "eval_accuracy": 0.6578779459375517,
+      "eval_f1": 0.7904054501316083,
+      "eval_loss": 0.05252569913864136,
+      "eval_roc_auc": 0.8665749344562018,
+      "eval_runtime": 8946.467,
+      "eval_samples_per_second": 33.109,
+      "step": 88000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.2860780620804172e-06,
+      "loss": 0.0529,
+      "step": 90000
+    },
+    {
+      "epoch": 0.08,
+      "eval_accuracy": 0.6560279258506547,
+      "eval_f1": 0.7903261630505988,
+      "eval_loss": 0.052733857184648514,
+      "eval_roc_auc": 0.8701088706242622,
+      "eval_runtime": 8948.9618,
+      "eval_samples_per_second": 33.1,
+      "step": 90000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.314657574571093e-06,
+      "loss": 0.0525,
+      "step": 92000
+    },
+    {
+      "epoch": 0.08,
+      "eval_accuracy": 0.6622430480768906,
+      "eval_f1": 0.7920309543792765,
+      "eval_loss": 0.0518718883395195,
+      "eval_roc_auc": 0.8668831436253378,
+      "eval_runtime": 8946.4377,
+      "eval_samples_per_second": 33.11,
+      "step": 92000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.343237087061769e-06,
+      "loss": 0.0522,
+      "step": 94000
+    },
+    {
+      "epoch": 0.08,
+      "eval_accuracy": 0.6575808624199478,
+      "eval_f1": 0.7916439543928127,
+      "eval_loss": 0.052168361842632294,
+      "eval_roc_auc": 0.8691981685442582,
+      "eval_runtime": 8948.4665,
+      "eval_samples_per_second": 33.102,
+      "step": 94000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.371816599552445e-06,
+      "loss": 0.0518,
+      "step": 96000
+    },
+    {
+      "epoch": 0.08,
+      "eval_accuracy": 0.6617164000229565,
+      "eval_f1": 0.7952230824994735,
+      "eval_loss": 0.051213569939136505,
+      "eval_roc_auc": 0.8707353068301484,
+      "eval_runtime": 8946.6417,
+      "eval_samples_per_second": 33.109,
+      "step": 96000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.4003961120431208e-06,
+      "loss": 0.0515,
+      "step": 98000
+    },
+    {
+      "epoch": 0.08,
+      "eval_accuracy": 0.6638094884424384,
+      "eval_f1": 0.7953262197881779,
+      "eval_loss": 0.05120311677455902,
+      "eval_roc_auc": 0.8704717586188649,
+      "eval_runtime": 8948.3566,
+      "eval_samples_per_second": 33.103,
+      "step": 98000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.4289756245337969e-06,
+      "loss": 0.0515,
+      "step": 100000
+    },
+    {
+      "epoch": 0.09,
+      "eval_accuracy": 0.6594410103540358,
+      "eval_f1": 0.7952893225951836,
+      "eval_loss": 0.05145873501896858,
+      "eval_roc_auc": 0.8740886532218961,
+      "eval_runtime": 8946.2483,
+      "eval_samples_per_second": 33.11,
+      "step": 100000
+    }
+  ],
+  "max_steps": 5831675,
+  "num_train_epochs": 5,
+  "total_flos": 6.9871808151552e+16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d73543aa5084a4ad0602668eb3ca05008e8ca3a960941c767e96da96ae38fd8e
+size 2479

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff