Training in progress, step 80

Browse files

Files changed (9) hide show

checkpoint-80/config.json +80 -0
checkpoint-80/optimizer.pt +3 -0
checkpoint-80/pytorch_model.bin +3 -0
checkpoint-80/rng_state.pth +3 -0
checkpoint-80/scheduler.pt +3 -0
checkpoint-80/trainer_state.json +632 -0
checkpoint-80/training_args.bin +3 -0
pytorch_model.bin +1 -1
runs/Feb05_23-09-17_robolidar/events.out.tfevents.1707196164.robolidar.781259.0 +2 -2

checkpoint-80/config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "_name_or_path": "nvidia/mit-b5",
+  "architectures": [
+    "SegformerForSemanticSegmentation"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "classifier_dropout_prob": 0.1,
+  "decoder_hidden_size": 768,
+  "depths": [
+    3,
+    6,
+    40,
+    3
+  ],
+  "downsampling_rates": [
+    1,
+    4,
+    8,
+    16
+  ],
+  "drop_path_rate": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_sizes": [
+    64,
+    128,
+    320,
+    512
+  ],
+  "id2label": {
+    "0": "unlabeled",
+    "1": "safe",
+    "2": "unsafe"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "label2id": {
+    "safe": 1,
+    "unlabeled": 0,
+    "unsafe": 2
+  },
+  "layer_norm_eps": 1e-06,
+  "mlp_ratios": [
+    4,
+    4,
+    4,
+    4
+  ],
+  "model_type": "segformer",
+  "num_attention_heads": [
+    1,
+    2,
+    5,
+    8
+  ],
+  "num_channels": 6,
+  "num_encoder_blocks": 4,
+  "patch_sizes": [
+    7,
+    3,
+    3,
+    3
+  ],
+  "reshape_last_stage": true,
+  "semantic_loss_ignore_index": 255,
+  "sr_ratios": [
+    8,
+    4,
+    2,
+    1
+  ],
+  "strides": [
+    4,
+    2,
+    2,
+    2
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.30.2"
+}

checkpoint-80/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5b06467e932d8a772711bf25704d319c24887b61510d6c4d7200a80e512033b
+size 677530431

checkpoint-80/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a1b440e78c9f741b2f1eba95eb6f325659282b46ce007ca08af37faa519c39a7
+size 338834121

checkpoint-80/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf1a9d08b8f2647a6ce0c407b33f2111d88572cf492dc685feed24c570648abd
+size 14575

checkpoint-80/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2552a53307f86a6c86f6de8593fe7db5436a046ef0c42488381a7de82a9a5642
+size 627

checkpoint-80/trainer_state.json ADDED Viewed

	@@ -0,0 +1,632 @@

+{
+  "best_metric": 0.32469046115875244,
+  "best_model_checkpoint": "/robodata/smodak/Projects/nspl/scripts/terrainseg/training/models/safety-utcustom-train-SF-RGBD-b5/checkpoint-80",
+  "epoch": 7.2727272727272725,
+  "global_step": 80,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.09,
+      "learning_rate": 7.272727272727273e-08,
+      "loss": 0.8005,
+      "step": 1
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 1.4545454545454545e-07,
+      "loss": 0.7952,
+      "step": 2
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 2.1818181818181815e-07,
+      "loss": 0.7806,
+      "step": 3
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 2.909090909090909e-07,
+      "loss": 0.7985,
+      "step": 4
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 3.636363636363636e-07,
+      "loss": 0.7916,
+      "step": 5
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 4.363636363636363e-07,
+      "loss": 0.7885,
+      "step": 6
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 5.090909090909091e-07,
+      "loss": 0.7869,
+      "step": 7
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 5.818181818181818e-07,
+      "loss": 0.7871,
+      "step": 8
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 6.545454545454546e-07,
+      "loss": 0.7895,
+      "step": 9
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 7.272727272727272e-07,
+      "loss": 0.789,
+      "step": 10
+    },
+    {
+      "epoch": 0.91,
+      "eval_accuracy_safe": 0.020290978060994367,
+      "eval_accuracy_unlabeled": NaN,
+      "eval_accuracy_unsafe": 0.8956518586322223,
+      "eval_iou_safe": 0.009542102362547317,
+      "eval_iou_unlabeled": 0.0,
+      "eval_iou_unsafe": 0.872225496966486,
+      "eval_loss": 0.9554787278175354,
+      "eval_mean_accuracy": 0.4579714183466083,
+      "eval_mean_iou": 0.29392253310967775,
+      "eval_overall_accuracy": 0.8697951017920651,
+      "eval_runtime": 10.4712,
+      "eval_samples_per_second": 6.399,
+      "eval_steps_per_second": 0.478,
+      "step": 10
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 8e-07,
+      "loss": 0.7808,
+      "step": 11
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 8.727272727272726e-07,
+      "loss": 0.7854,
+      "step": 12
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 9.454545454545454e-07,
+      "loss": 0.7698,
+      "step": 13
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 1.0181818181818181e-06,
+      "loss": 0.7788,
+      "step": 14
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 1.0909090909090908e-06,
+      "loss": 0.7783,
+      "step": 15
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 1.1636363636363636e-06,
+      "loss": 0.7696,
+      "step": 16
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 1.2363636363636363e-06,
+      "loss": 0.7638,
+      "step": 17
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 1.3090909090909091e-06,
+      "loss": 0.7611,
+      "step": 18
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 1.3818181818181818e-06,
+      "loss": 0.7597,
+      "step": 19
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 1.4545454545454544e-06,
+      "loss": 0.7579,
+      "step": 20
+    },
+    {
+      "epoch": 1.82,
+      "eval_accuracy_safe": 0.011667264197131082,
+      "eval_accuracy_unlabeled": NaN,
+      "eval_accuracy_unsafe": 0.9614483463212281,
+      "eval_iou_safe": 0.006852036536648151,
+      "eval_iou_unlabeled": 0.0,
+      "eval_iou_unsafe": 0.9338335778122896,
+      "eval_loss": 0.8321800827980042,
+      "eval_mean_accuracy": 0.4865578052591796,
+      "eval_mean_iou": 0.3135618714496459,
+      "eval_overall_accuracy": 0.9333933360541045,
+      "eval_runtime": 11.8686,
+      "eval_samples_per_second": 5.645,
+      "eval_steps_per_second": 0.421,
+      "step": 20
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 1.5272727272727273e-06,
+      "loss": 0.7626,
+      "step": 21
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 1.6e-06,
+      "loss": 0.7399,
+      "step": 22
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 1.6727272727272726e-06,
+      "loss": 0.7658,
+      "step": 23
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 1.7454545454545452e-06,
+      "loss": 0.7404,
+      "step": 24
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 1.818181818181818e-06,
+      "loss": 0.742,
+      "step": 25
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 1.8909090909090907e-06,
+      "loss": 0.721,
+      "step": 26
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 1.9636363636363636e-06,
+      "loss": 0.7222,
+      "step": 27
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 2.0363636363636362e-06,
+      "loss": 0.7358,
+      "step": 28
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 2.109090909090909e-06,
+      "loss": 0.7427,
+      "step": 29
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 2.1818181818181815e-06,
+      "loss": 0.7103,
+      "step": 30
+    },
+    {
+      "epoch": 2.73,
+      "eval_accuracy_safe": 0.005111776747198353,
+      "eval_accuracy_unlabeled": NaN,
+      "eval_accuracy_unsafe": 0.9893036287919527,
+      "eval_iou_safe": 0.004283838202726343,
+      "eval_iou_unlabeled": 0.0,
+      "eval_iou_unsafe": 0.9604181920132638,
+      "eval_loss": 0.6728952527046204,
+      "eval_mean_accuracy": 0.4972077027695755,
+      "eval_mean_iou": 0.32156734340533005,
+      "eval_overall_accuracy": 0.96023217955632,
+      "eval_runtime": 12.232,
+      "eval_samples_per_second": 5.477,
+      "eval_steps_per_second": 0.409,
+      "step": 30
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 2.254545454545454e-06,
+      "loss": 0.7102,
+      "step": 31
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 2.3272727272727272e-06,
+      "loss": 0.7035,
+      "step": 32
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 2.4e-06,
+      "loss": 0.6845,
+      "step": 33
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 2.4727272727272725e-06,
+      "loss": 0.6932,
+      "step": 34
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 2.545454545454545e-06,
+      "loss": 0.6848,
+      "step": 35
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 2.6181818181818183e-06,
+      "loss": 0.6816,
+      "step": 36
+    },
+    {
+      "epoch": 3.36,
+      "learning_rate": 2.690909090909091e-06,
+      "loss": 0.6617,
+      "step": 37
+    },
+    {
+      "epoch": 3.45,
+      "learning_rate": 2.7636363636363635e-06,
+      "loss": 0.6924,
+      "step": 38
+    },
+    {
+      "epoch": 3.55,
+      "learning_rate": 2.836363636363636e-06,
+      "loss": 0.6775,
+      "step": 39
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 2.909090909090909e-06,
+      "loss": 0.676,
+      "step": 40
+    },
+    {
+      "epoch": 3.64,
+      "eval_accuracy_safe": 0.0021453271190165035,
+      "eval_accuracy_unlabeled": NaN,
+      "eval_accuracy_unsafe": 0.9968958945126286,
+      "eval_iou_safe": 0.0020376330502982305,
+      "eval_iou_unlabeled": 0.0,
+      "eval_iou_unsafe": 0.9675401930395611,
+      "eval_loss": 0.5335736274719238,
+      "eval_mean_accuracy": 0.49952061081582255,
+      "eval_mean_iou": 0.32319260869661975,
+      "eval_overall_accuracy": 0.9675125577556554,
+      "eval_runtime": 10.8655,
+      "eval_samples_per_second": 6.166,
+      "eval_steps_per_second": 0.46,
+      "step": 40
+    },
+    {
+      "epoch": 3.73,
+      "learning_rate": 2.981818181818182e-06,
+      "loss": 0.6708,
+      "step": 41
+    },
+    {
+      "epoch": 3.82,
+      "learning_rate": 3.0545454545454546e-06,
+      "loss": 0.6587,
+      "step": 42
+    },
+    {
+      "epoch": 3.91,
+      "learning_rate": 3.127272727272727e-06,
+      "loss": 0.6511,
+      "step": 43
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 3.2e-06,
+      "loss": 0.6533,
+      "step": 44
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 3.272727272727273e-06,
+      "loss": 0.6371,
+      "step": 45
+    },
+    {
+      "epoch": 4.18,
+      "learning_rate": 3.345454545454545e-06,
+      "loss": 0.6289,
+      "step": 46
+    },
+    {
+      "epoch": 4.27,
+      "learning_rate": 3.418181818181818e-06,
+      "loss": 0.6143,
+      "step": 47
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 3.4909090909090904e-06,
+      "loss": 0.6047,
+      "step": 48
+    },
+    {
+      "epoch": 4.45,
+      "learning_rate": 3.5636363636363635e-06,
+      "loss": 0.6173,
+      "step": 49
+    },
+    {
+      "epoch": 4.55,
+      "learning_rate": 3.636363636363636e-06,
+      "loss": 0.5955,
+      "step": 50
+    },
+    {
+      "epoch": 4.55,
+      "eval_accuracy_safe": 0.00010023091661173242,
+      "eval_accuracy_unlabeled": NaN,
+      "eval_accuracy_unsafe": 0.9992954468465131,
+      "eval_iou_safe": 9.918496661090691e-05,
+      "eval_iou_unlabeled": 0.0,
+      "eval_iou_unsafe": 0.9697964694697941,
+      "eval_loss": 0.4440336227416992,
+      "eval_mean_accuracy": 0.4996978388815624,
+      "eval_mean_iou": 0.32329855147880165,
+      "eval_overall_accuracy": 0.96978082229842,
+      "eval_runtime": 10.7685,
+      "eval_samples_per_second": 6.222,
+      "eval_steps_per_second": 0.464,
+      "step": 50
+    },
+    {
+      "epoch": 4.64,
+      "learning_rate": 3.709090909090909e-06,
+      "loss": 0.6184,
+      "step": 51
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 3.7818181818181815e-06,
+      "loss": 0.6059,
+      "step": 52
+    },
+    {
+      "epoch": 4.82,
+      "learning_rate": 3.8545454545454545e-06,
+      "loss": 0.5942,
+      "step": 53
+    },
+    {
+      "epoch": 4.91,
+      "learning_rate": 3.927272727272727e-06,
+      "loss": 0.5764,
+      "step": 54
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 4e-06,
+      "loss": 0.5745,
+      "step": 55
+    },
+    {
+      "epoch": 5.09,
+      "learning_rate": 3.9961722488038276e-06,
+      "loss": 0.5496,
+      "step": 56
+    },
+    {
+      "epoch": 5.18,
+      "learning_rate": 3.992344497607655e-06,
+      "loss": 0.5785,
+      "step": 57
+    },
+    {
+      "epoch": 5.27,
+      "learning_rate": 3.988516746411483e-06,
+      "loss": 0.5468,
+      "step": 58
+    },
+    {
+      "epoch": 5.36,
+      "learning_rate": 3.984688995215311e-06,
+      "loss": 0.5697,
+      "step": 59
+    },
+    {
+      "epoch": 5.45,
+      "learning_rate": 3.980861244019139e-06,
+      "loss": 0.5691,
+      "step": 60
+    },
+    {
+      "epoch": 5.45,
+      "eval_accuracy_safe": 1.9275176271487e-05,
+      "eval_accuracy_unlabeled": NaN,
+      "eval_accuracy_unsafe": 0.9997433241696639,
+      "eval_iou_safe": 1.9217760285345306e-05,
+      "eval_iou_unlabeled": 0.0,
+      "eval_iou_unsafe": 0.9702130617813918,
+      "eval_loss": 0.38122960925102234,
+      "eval_mean_accuracy": 0.49988129967296774,
+      "eval_mean_iou": 0.3234107598472257,
+      "eval_overall_accuracy": 0.9702130787408174,
+      "eval_runtime": 11.2754,
+      "eval_samples_per_second": 5.942,
+      "eval_steps_per_second": 0.443,
+      "step": 60
+    },
+    {
+      "epoch": 5.55,
+      "learning_rate": 3.977033492822966e-06,
+      "loss": 0.5238,
+      "step": 61
+    },
+    {
+      "epoch": 5.64,
+      "learning_rate": 3.973205741626794e-06,
+      "loss": 0.5514,
+      "step": 62
+    },
+    {
+      "epoch": 5.73,
+      "learning_rate": 3.969377990430622e-06,
+      "loss": 0.5261,
+      "step": 63
+    },
+    {
+      "epoch": 5.82,
+      "learning_rate": 3.96555023923445e-06,
+      "loss": 0.5348,
+      "step": 64
+    },
+    {
+      "epoch": 5.91,
+      "learning_rate": 3.961722488038277e-06,
+      "loss": 0.5614,
+      "step": 65
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 3.957894736842105e-06,
+      "loss": 0.5475,
+      "step": 66
+    },
+    {
+      "epoch": 6.09,
+      "learning_rate": 3.954066985645933e-06,
+      "loss": 0.5134,
+      "step": 67
+    },
+    {
+      "epoch": 6.18,
+      "learning_rate": 3.950239234449761e-06,
+      "loss": 0.5047,
+      "step": 68
+    },
+    {
+      "epoch": 6.27,
+      "learning_rate": 3.946411483253588e-06,
+      "loss": 0.4845,
+      "step": 69
+    },
+    {
+      "epoch": 6.36,
+      "learning_rate": 3.942583732057416e-06,
+      "loss": 0.5067,
+      "step": 70
+    },
+    {
+      "epoch": 6.36,
+      "eval_accuracy_safe": 0.0,
+      "eval_accuracy_unlabeled": NaN,
+      "eval_accuracy_unsafe": 0.999641064518858,
+      "eval_iou_safe": 0.0,
+      "eval_iou_unlabeled": 0.0,
+      "eval_iou_unsafe": 0.9701133255524892,
+      "eval_loss": 0.3590196967124939,
+      "eval_mean_accuracy": 0.499820532259429,
+      "eval_mean_iou": 0.3233711085174964,
+      "eval_overall_accuracy": 0.9701132703183303,
+      "eval_runtime": 10.8376,
+      "eval_samples_per_second": 6.182,
+      "eval_steps_per_second": 0.461,
+      "step": 70
+    },
+    {
+      "epoch": 6.45,
+      "learning_rate": 3.938755980861244e-06,
+      "loss": 0.4808,
+      "step": 71
+    },
+    {
+      "epoch": 6.55,
+      "learning_rate": 3.934928229665072e-06,
+      "loss": 0.5075,
+      "step": 72
+    },
+    {
+      "epoch": 6.64,
+      "learning_rate": 3.931100478468899e-06,
+      "loss": 0.5245,
+      "step": 73
+    },
+    {
+      "epoch": 6.73,
+      "learning_rate": 3.927272727272727e-06,
+      "loss": 0.4984,
+      "step": 74
+    },
+    {
+      "epoch": 6.82,
+      "learning_rate": 3.923444976076555e-06,
+      "loss": 0.483,
+      "step": 75
+    },
+    {
+      "epoch": 6.91,
+      "learning_rate": 3.919617224880383e-06,
+      "loss": 0.5161,
+      "step": 76
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 3.9157894736842104e-06,
+      "loss": 0.4869,
+      "step": 77
+    },
+    {
+      "epoch": 7.09,
+      "learning_rate": 3.911961722488038e-06,
+      "loss": 0.4928,
+      "step": 78
+    },
+    {
+      "epoch": 7.18,
+      "learning_rate": 3.908133971291866e-06,
+      "loss": 0.4828,
+      "step": 79
+    },
+    {
+      "epoch": 7.27,
+      "learning_rate": 3.904306220095694e-06,
+      "loss": 0.4656,
+      "step": 80
+    },
+    {
+      "epoch": 7.27,
+      "eval_accuracy_safe": 0.0,
+      "eval_accuracy_unlabeled": NaN,
+      "eval_accuracy_unsafe": 0.999869403337525,
+      "eval_iou_safe": 0.0,
+      "eval_iou_unlabeled": 0.0,
+      "eval_iou_unsafe": 0.970334864374417,
+      "eval_loss": 0.32469046115875244,
+      "eval_mean_accuracy": 0.4999347016687625,
+      "eval_mean_iou": 0.32344495479147234,
+      "eval_overall_accuracy": 0.970334864374417,
+      "eval_runtime": 11.3252,
+      "eval_samples_per_second": 5.916,
+      "eval_steps_per_second": 0.441,
+      "step": 80
+    }
+  ],
+  "max_steps": 1100,
+  "num_train_epochs": 100,
+  "total_flos": 8.966408307348603e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-80/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e88955e6e4644e2a2ac452d82e4be1dbef3f3e51d5314588838187a999f14a95
+size 4155

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57ebc12964b6e116ff7fdf7f39002fab13acb1f3ef9d854e61a232e9672c4006
 size 338834121

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1b440e78c9f741b2f1eba95eb6f325659282b46ce007ca08af37faa519c39a7
 size 338834121

runs/Feb05_23-09-17_robolidar/events.out.tfevents.1707196164.robolidar.781259.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2dd67f7d7869dc2d49626554f58f471e425fd2b57a427e142662c905486f3a2c
-size 13966

 version https://git-lfs.github.com/spec/v1
+oid sha256:d10f4e652996a883c38113af4a8ad3bbda2eb88c0f3a68e4f5a9630db68a3088
+size 23194