Training in progress, epoch 2

Browse files

Files changed (15) hide show

checkpoint-40000/config.json +28 -0
checkpoint-40000/merges.txt +0 -0
checkpoint-40000/optimizer.pt +3 -0
checkpoint-40000/pytorch_model.bin +3 -0
checkpoint-40000/rng_state.pth +3 -0
checkpoint-40000/scaler.pt +3 -0
checkpoint-40000/scheduler.pt +3 -0
checkpoint-40000/special_tokens_map.json +15 -0
checkpoint-40000/tokenizer.json +0 -0
checkpoint-40000/tokenizer_config.json +15 -0
checkpoint-40000/trainer_state.json +516 -0
checkpoint-40000/training_args.bin +3 -0
checkpoint-40000/vocab.json +0 -0
pytorch_model.bin +1 -1
runs/Apr02_03-12-09_201fb07c756b/events.out.tfevents.1680405142.201fb07c756b.23.0 +2 -2

checkpoint-40000/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "roberta-base",
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.27.3",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

checkpoint-40000/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-40000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2712a5bd321dae31f035c40c35a458194b77d2fc5be4b77704826f7055745013
+size 997295237

checkpoint-40000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a978bd6a7acdb2bf44f9f6eec23890411e4c50847cc57ec14ce2b4cf1dd2e344
+size 498662069

checkpoint-40000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8539a12d70e9610986a83b0bff19ffcb4752b5ab0b0609382a41fd8378852283
+size 14575

checkpoint-40000/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51673bf8c99292a9f7fe2c855780624e02c25ff4e676e36893825c5baef99f8a
+size 557

checkpoint-40000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a19e109c66261b30a0a1ed5f9482674f6a52e03a404f6fef1c3518b74edb84b3
+size 627

checkpoint-40000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

checkpoint-40000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-40000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "add_prefix_space": false,
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "special_tokens_map_file": null,
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

checkpoint-40000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,516 @@

+{
+  "best_metric": 0.7626183364552219,
+  "best_model_checkpoint": "robertabase-subjectivity-1-actual/checkpoint-40000",
+  "epoch": 2.0,
+  "global_step": 40000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "learning_rate": 9.875750000000001e-06,
+      "loss": 0.6845,
+      "step": 500
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 9.751250000000001e-06,
+      "loss": 0.6182,
+      "step": 1000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 9.6265e-06,
+      "loss": 0.6045,
+      "step": 1500
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.501500000000002e-06,
+      "loss": 0.6057,
+      "step": 2000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 9.3765e-06,
+      "loss": 0.5845,
+      "step": 2500
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 9.251500000000001e-06,
+      "loss": 0.5819,
+      "step": 3000
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 9.1265e-06,
+      "loss": 0.6158,
+      "step": 3500
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 9.00175e-06,
+      "loss": 0.5941,
+      "step": 4000
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 8.876750000000001e-06,
+      "loss": 0.5953,
+      "step": 4500
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 8.751750000000001e-06,
+      "loss": 0.5965,
+      "step": 5000
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 8.62675e-06,
+      "loss": 0.6077,
+      "step": 5500
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 8.50175e-06,
+      "loss": 0.5663,
+      "step": 6000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 8.37675e-06,
+      "loss": 0.5649,
+      "step": 6500
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 8.251750000000001e-06,
+      "loss": 0.6021,
+      "step": 7000
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 8.126750000000001e-06,
+      "loss": 0.5803,
+      "step": 7500
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 8.00175e-06,
+      "loss": 0.5851,
+      "step": 8000
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 7.877000000000001e-06,
+      "loss": 0.5872,
+      "step": 8500
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 7.752000000000001e-06,
+      "loss": 0.5597,
+      "step": 9000
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 7.6272500000000005e-06,
+      "loss": 0.5764,
+      "step": 9500
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 7.502250000000001e-06,
+      "loss": 0.5588,
+      "step": 10000
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 7.37725e-06,
+      "loss": 0.5993,
+      "step": 10500
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 7.252250000000001e-06,
+      "loss": 0.5873,
+      "step": 11000
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 7.127250000000001e-06,
+      "loss": 0.5928,
+      "step": 11500
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 7.002500000000001e-06,
+      "loss": 0.5655,
+      "step": 12000
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 6.877500000000001e-06,
+      "loss": 0.5705,
+      "step": 12500
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 6.752500000000001e-06,
+      "loss": 0.5528,
+      "step": 13000
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 6.6275e-06,
+      "loss": 0.59,
+      "step": 13500
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 6.502500000000001e-06,
+      "loss": 0.5587,
+      "step": 14000
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 6.377500000000001e-06,
+      "loss": 0.5601,
+      "step": 14500
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 6.2525e-06,
+      "loss": 0.5804,
+      "step": 15000
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 6.127500000000001e-06,
+      "loss": 0.5639,
+      "step": 15500
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 6.0025e-06,
+      "loss": 0.5722,
+      "step": 16000
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 5.8775e-06,
+      "loss": 0.5601,
+      "step": 16500
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 5.752500000000001e-06,
+      "loss": 0.5758,
+      "step": 17000
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 5.6275e-06,
+      "loss": 0.5648,
+      "step": 17500
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.5025e-06,
+      "loss": 0.5723,
+      "step": 18000
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 5.37775e-06,
+      "loss": 0.5714,
+      "step": 18500
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 5.252750000000001e-06,
+      "loss": 0.5639,
+      "step": 19000
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 5.128000000000001e-06,
+      "loss": 0.5499,
+      "step": 19500
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 5.003e-06,
+      "loss": 0.5463,
+      "step": 20000
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7495,
+      "eval_f1": 0.7516359309934564,
+      "eval_loss": 0.564261257648468,
+      "eval_runtime": 133.9593,
+      "eval_samples_per_second": 149.299,
+      "eval_steps_per_second": 37.325,
+      "step": 20000
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 4.8780000000000006e-06,
+      "loss": 0.5198,
+      "step": 20500
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 4.753e-06,
+      "loss": 0.566,
+      "step": 21000
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 4.62825e-06,
+      "loss": 0.5717,
+      "step": 21500
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 4.5035e-06,
+      "loss": 0.5588,
+      "step": 22000
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 4.3785000000000005e-06,
+      "loss": 0.5626,
+      "step": 22500
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 4.2535e-06,
+      "loss": 0.5428,
+      "step": 23000
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 4.1285e-06,
+      "loss": 0.575,
+      "step": 23500
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 4.0035e-06,
+      "loss": 0.5605,
+      "step": 24000
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 3.8785e-06,
+      "loss": 0.5632,
+      "step": 24500
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 3.7535000000000006e-06,
+      "loss": 0.6156,
+      "step": 25000
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 3.6285000000000005e-06,
+      "loss": 0.5611,
+      "step": 25500
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 3.5035000000000004e-06,
+      "loss": 0.564,
+      "step": 26000
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 3.37875e-06,
+      "loss": 0.6065,
+      "step": 26500
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 3.2537500000000004e-06,
+      "loss": 0.593,
+      "step": 27000
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 3.1287500000000003e-06,
+      "loss": 0.6235,
+      "step": 27500
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 3.0037500000000003e-06,
+      "loss": 0.5948,
+      "step": 28000
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 2.87875e-06,
+      "loss": 0.5809,
+      "step": 28500
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 2.754e-06,
+      "loss": 0.5674,
+      "step": 29000
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 2.6292500000000003e-06,
+      "loss": 0.6117,
+      "step": 29500
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 2.50425e-06,
+      "loss": 0.6033,
+      "step": 30000
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 2.3795000000000003e-06,
+      "loss": 0.612,
+      "step": 30500
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 2.2545e-06,
+      "loss": 0.616,
+      "step": 31000
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 2.1295e-06,
+      "loss": 0.6101,
+      "step": 31500
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 2.0045e-06,
+      "loss": 0.5966,
+      "step": 32000
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 1.8795000000000002e-06,
+      "loss": 0.5791,
+      "step": 32500
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 1.7545e-06,
+      "loss": 0.5769,
+      "step": 33000
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 1.6295000000000002e-06,
+      "loss": 0.5649,
+      "step": 33500
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 1.5045000000000002e-06,
+      "loss": 0.569,
+      "step": 34000
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 1.3795e-06,
+      "loss": 0.5982,
+      "step": 34500
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 1.2545000000000002e-06,
+      "loss": 0.5422,
+      "step": 35000
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 1.1295e-06,
+      "loss": 0.5664,
+      "step": 35500
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1.0045e-06,
+      "loss": 0.6063,
+      "step": 36000
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 8.795000000000001e-07,
+      "loss": 0.5577,
+      "step": 36500
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 7.545000000000001e-07,
+      "loss": 0.5846,
+      "step": 37000
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 6.297500000000001e-07,
+      "loss": 0.5746,
+      "step": 37500
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 5.0475e-07,
+      "loss": 0.6285,
+      "step": 38000
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 3.7975000000000005e-07,
+      "loss": 0.6408,
+      "step": 38500
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 2.5475000000000003e-07,
+      "loss": 0.5656,
+      "step": 39000
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 1.3e-07,
+      "loss": 0.622,
+      "step": 39500
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 5e-09,
+      "loss": 0.6327,
+      "step": 40000
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.76555,
+      "eval_f1": 0.7626183364552219,
+      "eval_loss": 0.7705514430999756,
+      "eval_runtime": 133.8772,
+      "eval_samples_per_second": 149.391,
+      "eval_steps_per_second": 37.348,
+      "step": 40000
+    }
+  ],
+  "max_steps": 40000,
+  "num_train_epochs": 2,
+  "total_flos": 1.289539965645768e+16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-40000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e6de3c2ba13ce79e3f44a2647ea8e3f91330a0d13b2a72de1dbbc7e86baf262c
+size 3707

checkpoint-40000/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b18778a6e6c620c392907edd95d92b910c41503c00089f4aba849b3a2fe3fc98
 size 498662069

 version https://git-lfs.github.com/spec/v1
+oid sha256:a978bd6a7acdb2bf44f9f6eec23890411e4c50847cc57ec14ce2b4cf1dd2e344
 size 498662069

runs/Apr02_03-12-09_201fb07c756b/events.out.tfevents.1680405142.201fb07c756b.23.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b895f7cc7ec42f1bbbba2ccee4c472b962547d71865788c320e5c569e90c02fb
-size 10658

 version https://git-lfs.github.com/spec/v1
+oid sha256:80d8ae0633b823dd012b9ae64609a5e1c2ecef197bc3a2a3d6297b3eb1157fa9
+size 17434