Training in progress, epoch 1, checkpoint

Browse files

Files changed (12) hide show

checkpoint-375/config.json +36 -0
checkpoint-375/merges.txt +0 -0
checkpoint-375/model.safetensors +3 -0
checkpoint-375/optimizer.pt +3 -0
checkpoint-375/rng_state.pth +3 -0
checkpoint-375/scheduler.pt +3 -0
checkpoint-375/special_tokens_map.json +15 -0
checkpoint-375/tokenizer.json +0 -0
checkpoint-375/tokenizer_config.json +57 -0
checkpoint-375/trainer_state.json +250 -0
checkpoint-375/training_args.bin +3 -0
checkpoint-375/vocab.json +0 -0

checkpoint-375/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "_name_or_path": "roberta-base",
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "HUMAN",
+    "1": "AI"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "AI": 1,
+    "HUMAN": 0
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

checkpoint-375/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-375/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22eea1bc3095df696d2512d0b3474f673a4709477004df46410d1d99c8674fd4
+size 498612824

checkpoint-375/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c29ece0b22fc2459aa1c8cc6d2737c7ad621e8133f2ad7ce2c747a21005b9a6c
+size 997345530

checkpoint-375/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d11a15dfa94b084e09680b8e53a45bfbfb7ebc4570abb2c1529ebf65f16beba
+size 14244

checkpoint-375/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:81a3a6616d3031cca0d86236b29d0ad0b95e4a63cb35ac71c81e254917277023
+size 1064

checkpoint-375/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

checkpoint-375/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-375/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50264": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

checkpoint-375/trainer_state.json ADDED Viewed

	@@ -0,0 +1,250 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 375,
+  "global_step": 375,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "learning_rate": 9.866666666666668e-06,
+      "loss": 0.6835,
+      "step": 10
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 9.733333333333334e-06,
+      "loss": 0.6815,
+      "step": 20
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 0.6261,
+      "step": 30
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 9.48e-06,
+      "loss": 0.4608,
+      "step": 40
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 9.373333333333334e-06,
+      "loss": 0.2467,
+      "step": 50
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 9.240000000000001e-06,
+      "loss": 0.1414,
+      "step": 60
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 9.12e-06,
+      "loss": 0.1253,
+      "step": 70
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 8.986666666666666e-06,
+      "loss": 0.0183,
+      "step": 80
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 8.853333333333334e-06,
+      "loss": 0.0055,
+      "step": 90
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 8.733333333333333e-06,
+      "loss": 0.0502,
+      "step": 100
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 8.6e-06,
+      "loss": 0.0702,
+      "step": 110
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 8.466666666666668e-06,
+      "loss": 0.1821,
+      "step": 120
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.0929,
+      "step": 130
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 8.2e-06,
+      "loss": 0.1865,
+      "step": 140
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 8.066666666666667e-06,
+      "loss": 0.0082,
+      "step": 150
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 7.933333333333334e-06,
+      "loss": 0.2579,
+      "step": 160
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 7.800000000000002e-06,
+      "loss": 0.003,
+      "step": 170
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 7.666666666666667e-06,
+      "loss": 0.0674,
+      "step": 180
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 7.533333333333334e-06,
+      "loss": 0.0756,
+      "step": 190
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 7.413333333333333e-06,
+      "loss": 0.0348,
+      "step": 200
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 7.280000000000001e-06,
+      "loss": 0.0021,
+      "step": 210
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 7.146666666666667e-06,
+      "loss": 0.1315,
+      "step": 220
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 7.0133333333333345e-06,
+      "loss": 0.0013,
+      "step": 230
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 6.88e-06,
+      "loss": 0.0868,
+      "step": 240
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 6.746666666666667e-06,
+      "loss": 0.0872,
+      "step": 250
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 6.613333333333334e-06,
+      "loss": 0.0777,
+      "step": 260
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 6.480000000000001e-06,
+      "loss": 0.0013,
+      "step": 270
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 6.346666666666668e-06,
+      "loss": 0.001,
+      "step": 280
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 6.213333333333334e-06,
+      "loss": 0.0784,
+      "step": 290
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 6.08e-06,
+      "loss": 0.0828,
+      "step": 300
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 5.946666666666668e-06,
+      "loss": 0.0008,
+      "step": 310
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 5.813333333333334e-06,
+      "loss": 0.0008,
+      "step": 320
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 5.68e-06,
+      "loss": 0.0748,
+      "step": 330
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 5.546666666666667e-06,
+      "loss": 0.1819,
+      "step": 340
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 5.413333333333334e-06,
+      "loss": 0.001,
+      "step": 350
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 5.28e-06,
+      "loss": 0.0345,
+      "step": 360
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 5.146666666666668e-06,
+      "loss": 0.0012,
+      "step": 370
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.984,
+      "eval_loss": 0.09017323702573776,
+      "eval_runtime": 11.888,
+      "eval_samples_per_second": 84.118,
+      "eval_steps_per_second": 10.515,
+      "step": 375
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 750,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "total_flos": 782188056482880.0,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-375/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:631ca6bda3983a5bef0f03e58f8de8b2464b219d053167129f2342a537df6f67
+size 4600

checkpoint-375/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff