Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

config.json +36 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
rng_state_2.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +402 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "_name_or_path": "AI-Sweden-Models/roberta-large-1160k",
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "incorrect",
+    "1": "correct"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "correct": 1,
+    "incorrect": 0
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.47.0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c49f6e060df6810f3b91880527af078de63d239d1fc6960413004323440b6325
+size 1421495416

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9b35295a7ac37f48cd97ccda43ae9386204ce4b83f320b81a195618797937f6
+size 2843223277

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:97a5fc467aebdd5947e6fdbc15e65b0948e3cb5874fefd70a99a6ce05ba3c20a
+size 14704

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1dd9275dfbf0a38b644d4a59eea3fb4e6b9f93ebfee6b921866c5316ac20cce4
+size 14704

rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6e295970091b09d252fe330ced255eba3cc49d47701531bfd028f7eaa8e1783
+size 14704

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e965798c4e2d47a637b156503287771f09488f07dc245312937d45f728b9bbac
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,402 @@

+{
+  "best_metric": 0.8716280849435623,
+  "best_model_checkpoint": "best_model_big/checkpoint-2968",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 3710,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1347708894878706,
+      "grad_norm": 18.93534278869629,
+      "learning_rate": 1.946091644204852e-05,
+      "loss": 0.5038,
+      "step": 100
+    },
+    {
+      "epoch": 0.2695417789757412,
+      "grad_norm": 7.889501571655273,
+      "learning_rate": 1.8921832884097035e-05,
+      "loss": 0.4015,
+      "step": 200
+    },
+    {
+      "epoch": 0.40431266846361186,
+      "grad_norm": 17.194637298583984,
+      "learning_rate": 1.8382749326145554e-05,
+      "loss": 0.359,
+      "step": 300
+    },
+    {
+      "epoch": 0.5390835579514824,
+      "grad_norm": 10.652689933776855,
+      "learning_rate": 1.7843665768194072e-05,
+      "loss": 0.3494,
+      "step": 400
+    },
+    {
+      "epoch": 0.6738544474393531,
+      "grad_norm": 12.343999862670898,
+      "learning_rate": 1.7304582210242588e-05,
+      "loss": 0.357,
+      "step": 500
+    },
+    {
+      "epoch": 0.8086253369272237,
+      "grad_norm": 5.575014114379883,
+      "learning_rate": 1.6765498652291106e-05,
+      "loss": 0.3446,
+      "step": 600
+    },
+    {
+      "epoch": 0.9433962264150944,
+      "grad_norm": 10.024672508239746,
+      "learning_rate": 1.6226415094339625e-05,
+      "loss": 0.3307,
+      "step": 700
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8470863462356444,
+      "eval_confusion_matrix": [
+        [
+          1759,
+          519
+        ],
+        [
+          200,
+          2224
+        ]
+      ],
+      "eval_f1": 0.8608476872459842,
+      "eval_loss": 0.3607315421104431,
+      "eval_precision": 0.8107911046299672,
+      "eval_recall": 0.9174917491749175,
+      "eval_runtime": 22.8032,
+      "eval_samples_per_second": 206.199,
+      "eval_steps_per_second": 4.298,
+      "step": 742
+    },
+    {
+      "epoch": 1.0781671159029649,
+      "grad_norm": 8.227458000183105,
+      "learning_rate": 1.5687331536388143e-05,
+      "loss": 0.301,
+      "step": 800
+    },
+    {
+      "epoch": 1.2129380053908356,
+      "grad_norm": 13.138360023498535,
+      "learning_rate": 1.5148247978436658e-05,
+      "loss": 0.261,
+      "step": 900
+    },
+    {
+      "epoch": 1.3477088948787062,
+      "grad_norm": 21.908050537109375,
+      "learning_rate": 1.4609164420485175e-05,
+      "loss": 0.2568,
+      "step": 1000
+    },
+    {
+      "epoch": 1.482479784366577,
+      "grad_norm": 65.63346862792969,
+      "learning_rate": 1.4070080862533696e-05,
+      "loss": 0.2525,
+      "step": 1100
+    },
+    {
+      "epoch": 1.6172506738544474,
+      "grad_norm": 10.492274284362793,
+      "learning_rate": 1.3530997304582212e-05,
+      "loss": 0.2738,
+      "step": 1200
+    },
+    {
+      "epoch": 1.7520215633423182,
+      "grad_norm": 4.424431800842285,
+      "learning_rate": 1.299191374663073e-05,
+      "loss": 0.2612,
+      "step": 1300
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "grad_norm": 5.688779830932617,
+      "learning_rate": 1.2452830188679246e-05,
+      "loss": 0.2821,
+      "step": 1400
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8517652062951936,
+      "eval_confusion_matrix": [
+        [
+          1750,
+          528
+        ],
+        [
+          169,
+          2255
+        ]
+      ],
+      "eval_f1": 0.8661417322834646,
+      "eval_loss": 0.3994266390800476,
+      "eval_precision": 0.8102766798418972,
+      "eval_recall": 0.9302805280528053,
+      "eval_runtime": 22.8205,
+      "eval_samples_per_second": 206.043,
+      "eval_steps_per_second": 4.294,
+      "step": 1484
+    },
+    {
+      "epoch": 2.0215633423180592,
+      "grad_norm": 17.876014709472656,
+      "learning_rate": 1.1913746630727763e-05,
+      "loss": 0.2494,
+      "step": 1500
+    },
+    {
+      "epoch": 2.1563342318059298,
+      "grad_norm": 30.222442626953125,
+      "learning_rate": 1.1374663072776282e-05,
+      "loss": 0.2105,
+      "step": 1600
+    },
+    {
+      "epoch": 2.2911051212938007,
+      "grad_norm": 8.314850807189941,
+      "learning_rate": 1.0835579514824798e-05,
+      "loss": 0.2062,
+      "step": 1700
+    },
+    {
+      "epoch": 2.4258760107816713,
+      "grad_norm": 14.823955535888672,
+      "learning_rate": 1.0296495956873315e-05,
+      "loss": 0.1949,
+      "step": 1800
+    },
+    {
+      "epoch": 2.560646900269542,
+      "grad_norm": 15.158774375915527,
+      "learning_rate": 9.757412398921834e-06,
+      "loss": 0.2077,
+      "step": 1900
+    },
+    {
+      "epoch": 2.6954177897574123,
+      "grad_norm": 3.280972719192505,
+      "learning_rate": 9.21832884097035e-06,
+      "loss": 0.2029,
+      "step": 2000
+    },
+    {
+      "epoch": 2.830188679245283,
+      "grad_norm": 23.08829116821289,
+      "learning_rate": 8.67924528301887e-06,
+      "loss": 0.2147,
+      "step": 2100
+    },
+    {
+      "epoch": 2.964959568733154,
+      "grad_norm": 6.822205543518066,
+      "learning_rate": 8.140161725067386e-06,
+      "loss": 0.2226,
+      "step": 2200
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8555933645257338,
+      "eval_confusion_matrix": [
+        [
+          1752,
+          526
+        ],
+        [
+          153,
+          2271
+        ]
+      ],
+      "eval_f1": 0.8699482857690097,
+      "eval_loss": 0.482412725687027,
+      "eval_precision": 0.8119413657490168,
+      "eval_recall": 0.9368811881188119,
+      "eval_runtime": 22.8014,
+      "eval_samples_per_second": 206.215,
+      "eval_steps_per_second": 4.298,
+      "step": 2226
+    },
+    {
+      "epoch": 3.0997304582210243,
+      "grad_norm": 21.149120330810547,
+      "learning_rate": 7.601078167115904e-06,
+      "loss": 0.1726,
+      "step": 2300
+    },
+    {
+      "epoch": 3.234501347708895,
+      "grad_norm": 6.035734176635742,
+      "learning_rate": 7.061994609164421e-06,
+      "loss": 0.1614,
+      "step": 2400
+    },
+    {
+      "epoch": 3.3692722371967654,
+      "grad_norm": 9.38839340209961,
+      "learning_rate": 6.522911051212939e-06,
+      "loss": 0.1648,
+      "step": 2500
+    },
+    {
+      "epoch": 3.5040431266846364,
+      "grad_norm": 7.1731486320495605,
+      "learning_rate": 5.983827493261456e-06,
+      "loss": 0.1678,
+      "step": 2600
+    },
+    {
+      "epoch": 3.638814016172507,
+      "grad_norm": 29.55657958984375,
+      "learning_rate": 5.444743935309974e-06,
+      "loss": 0.1492,
+      "step": 2700
+    },
+    {
+      "epoch": 3.7735849056603774,
+      "grad_norm": 15.47530746459961,
+      "learning_rate": 4.905660377358491e-06,
+      "loss": 0.1707,
+      "step": 2800
+    },
+    {
+      "epoch": 3.908355795148248,
+      "grad_norm": 8.083237648010254,
+      "learning_rate": 4.366576819407008e-06,
+      "loss": 0.1727,
+      "step": 2900
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8572947681837516,
+      "eval_confusion_matrix": [
+        [
+          1753,
+          525
+        ],
+        [
+          146,
+          2278
+        ]
+      ],
+      "eval_f1": 0.8716280849435623,
+      "eval_loss": 0.5570098161697388,
+      "eval_precision": 0.8127006778451659,
+      "eval_recall": 0.9397689768976898,
+      "eval_runtime": 22.7535,
+      "eval_samples_per_second": 206.649,
+      "eval_steps_per_second": 4.307,
+      "step": 2968
+    },
+    {
+      "epoch": 4.0431266846361185,
+      "grad_norm": 8.28526782989502,
+      "learning_rate": 3.827493261455526e-06,
+      "loss": 0.155,
+      "step": 3000
+    },
+    {
+      "epoch": 4.177897574123989,
+      "grad_norm": 8.550823211669922,
+      "learning_rate": 3.2884097035040433e-06,
+      "loss": 0.1385,
+      "step": 3100
+    },
+    {
+      "epoch": 4.3126684636118595,
+      "grad_norm": 7.248845100402832,
+      "learning_rate": 2.749326145552561e-06,
+      "loss": 0.1245,
+      "step": 3200
+    },
+    {
+      "epoch": 4.44743935309973,
+      "grad_norm": 4.223452091217041,
+      "learning_rate": 2.2102425876010783e-06,
+      "loss": 0.1316,
+      "step": 3300
+    },
+    {
+      "epoch": 4.5822102425876015,
+      "grad_norm": 26.39322853088379,
+      "learning_rate": 1.6711590296495958e-06,
+      "loss": 0.1347,
+      "step": 3400
+    },
+    {
+      "epoch": 4.716981132075472,
+      "grad_norm": 9.451475143432617,
+      "learning_rate": 1.1320754716981133e-06,
+      "loss": 0.1373,
+      "step": 3500
+    },
+    {
+      "epoch": 4.8517520215633425,
+      "grad_norm": 7.989397048950195,
+      "learning_rate": 5.929919137466308e-07,
+      "loss": 0.127,
+      "step": 3600
+    },
+    {
+      "epoch": 4.986522911051213,
+      "grad_norm": 8.661871910095215,
+      "learning_rate": 5.3908355795148254e-08,
+      "loss": 0.1288,
+      "step": 3700
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.8538919608677159,
+      "eval_confusion_matrix": [
+        [
+          1721,
+          557
+        ],
+        [
+          130,
+          2294
+        ]
+      ],
+      "eval_f1": 0.8697630331753554,
+      "eval_loss": 0.6569812893867493,
+      "eval_precision": 0.8046299544019643,
+      "eval_recall": 0.9463696369636964,
+      "eval_runtime": 22.4622,
+      "eval_samples_per_second": 209.329,
+      "eval_steps_per_second": 4.363,
+      "step": 3710
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 3710,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.8848225720991744e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b253821b0f0973394e6517ba7469ff3a686ac6e61c1f5c97ed1946d34a95e34c
+size 5304