m4lw4r3exe commited on Dec 15, 2022

Commit

ddf00f9

1 Parent(s): 371f79e

Upload with huggingface_hub

Browse files

Files changed (46) hide show

checkpoint-32768/config.json +33 -0
checkpoint-32768/optimizer.pt +3 -0
checkpoint-32768/pytorch_model.bin +3 -0
checkpoint-32768/rng_state.pth +3 -0
checkpoint-32768/scaler.pt +3 -0
checkpoint-32768/scheduler.pt +3 -0
checkpoint-32768/trainer_state.json +128 -0
checkpoint-32768/training_args.bin +3 -0
checkpoint-49152/config.json +33 -0
checkpoint-49152/optimizer.pt +3 -0
checkpoint-49152/pytorch_model.bin +3 -0
checkpoint-49152/rng_state.pth +3 -0
checkpoint-49152/scaler.pt +3 -0
checkpoint-49152/scheduler.pt +3 -0
checkpoint-49152/trainer_state.json +184 -0
checkpoint-49152/training_args.bin +3 -0
checkpoint-65536/config.json +33 -0
checkpoint-65536/optimizer.pt +3 -0
checkpoint-65536/pytorch_model.bin +3 -0
checkpoint-65536/rng_state.pth +3 -0
checkpoint-65536/scaler.pt +3 -0
checkpoint-65536/scheduler.pt +3 -0
checkpoint-65536/trainer_state.json +240 -0
checkpoint-65536/training_args.bin +3 -0
checkpoint-81920/config.json +33 -0
checkpoint-81920/optimizer.pt +3 -0
checkpoint-81920/pytorch_model.bin +3 -0
checkpoint-81920/rng_state.pth +3 -0
checkpoint-81920/scaler.pt +3 -0
checkpoint-81920/scheduler.pt +3 -0
checkpoint-81920/trainer_state.json +296 -0
checkpoint-81920/training_args.bin +3 -0
checkpoint-98304/config.json +33 -0
checkpoint-98304/optimizer.pt +3 -0
checkpoint-98304/pytorch_model.bin +3 -0
checkpoint-98304/rng_state.pth +3 -0
checkpoint-98304/scaler.pt +3 -0
checkpoint-98304/scheduler.pt +3 -0
checkpoint-98304/trainer_state.json +352 -0
checkpoint-98304/training_args.bin +3 -0
config.json +1 -0
pytorch_model.bin +1 -1
tokenizer_config.json +2 -0
trainer_state.json +6 -240
training_args.bin +2 -2
training_args.json +109 -0

checkpoint-32768/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "JammyMachina/elec-gmusic-familized-model-13-12__17-35-53",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_embd": 512,
+  "n_head": 8,
+  "n_inner": null,
+  "n_layer": 6,
+  "n_positions": 2048,
+  "pad_token_id": 1,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.26.0.dev0",
+  "use_cache": true,
+  "vocab_size": 301
+}

checkpoint-32768/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9add9f9c673fb9dacc6d360c670bd07152587baa24856badfb2669592cda79b2
+size 160988613

checkpoint-32768/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c57b09875ca8fb416a4c7eaf39ed7657e42a854e2a7794bf2eb8670be7bc636
+size 105666297

checkpoint-32768/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0e846988878ee392ba95856b0d816bedc58b53e8be2f837eee01d874a56290c
+size 15597

checkpoint-32768/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0476bbc1d998a71cdb7a2d1d684f9164a4046fa04ed4b9a5fed728f44b838df7
+size 557

checkpoint-32768/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0fd76926d9e4e10aa4dab849e57a90218cb4d2299731d1ea61125621a3e80c55
+size 627

checkpoint-32768/trainer_state.json ADDED Viewed

	@@ -0,0 +1,128 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.7906010928961749,
+  "global_step": 32768,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0004984426897459585,
+      "loss": 0.5454,
+      "step": 4096
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 0.5005695223808289,
+      "eval_runtime": 32.9622,
+      "eval_samples_per_second": 104.271,
+      "eval_steps_per_second": 6.523,
+      "step": 4096
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0004934687023955681,
+      "loss": 0.4849,
+      "step": 8192
+    },
+    {
+      "epoch": 0.45,
+      "eval_loss": 0.480915367603302,
+      "eval_runtime": 32.9785,
+      "eval_samples_per_second": 104.219,
+      "eval_steps_per_second": 6.519,
+      "step": 8192
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.000485144849673373,
+      "loss": 0.4518,
+      "step": 12288
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 0.46660953760147095,
+      "eval_runtime": 32.8208,
+      "eval_samples_per_second": 104.72,
+      "eval_steps_per_second": 6.551,
+      "step": 12288
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0004735848873631612,
+      "loss": 0.4282,
+      "step": 16384
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 0.46097490191459656,
+      "eval_runtime": 32.8311,
+      "eval_samples_per_second": 104.687,
+      "eval_steps_per_second": 6.549,
+      "step": 16384
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.0004589518403420676,
+      "loss": 0.4145,
+      "step": 20480
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 0.45063599944114685,
+      "eval_runtime": 32.8912,
+      "eval_samples_per_second": 104.496,
+      "eval_steps_per_second": 6.537,
+      "step": 20480
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0004414445597486605,
+      "loss": 0.399,
+      "step": 24576
+    },
+    {
+      "epoch": 1.34,
+      "eval_loss": 0.44468095898628235,
+      "eval_runtime": 32.706,
+      "eval_samples_per_second": 105.088,
+      "eval_steps_per_second": 6.574,
+      "step": 24576
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00042130386669061293,
+      "loss": 0.3882,
+      "step": 28672
+    },
+    {
+      "epoch": 1.57,
+      "eval_loss": 0.44857361912727356,
+      "eval_runtime": 32.9754,
+      "eval_samples_per_second": 104.229,
+      "eval_steps_per_second": 6.52,
+      "step": 28672
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0003988010477498867,
+      "loss": 0.3767,
+      "step": 32768
+    },
+    {
+      "epoch": 1.79,
+      "eval_loss": 0.44354742765426636,
+      "eval_runtime": 32.8219,
+      "eval_samples_per_second": 104.717,
+      "eval_steps_per_second": 6.55,
+      "step": 32768
+    }
+  ],
+  "max_steps": 109800,
+  "num_train_epochs": 6,
+  "total_flos": 1.5232584290933146e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-32768/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:908dc25e857dbdefbfe009b9ed0b992ce31760b393bf814f450b0d3c701c2397
+size 3579

checkpoint-49152/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "JammyMachina/elec-gmusic-familized-model-13-12__17-35-53",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_embd": 512,
+  "n_head": 8,
+  "n_inner": null,
+  "n_layer": 6,
+  "n_positions": 2048,
+  "pad_token_id": 1,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.26.0.dev0",
+  "use_cache": true,
+  "vocab_size": 301
+}

checkpoint-49152/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:001f9615434776e6d4aa94c07af807eb5043c9673f22535b2a03f97e0c0f5825
+size 160988613

checkpoint-49152/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9599fd4f855a04ce9eb096b3f6cec5e9e47d98d14c7fa1e905384d6e4b6d3cf7
+size 105666297

checkpoint-49152/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a6950114eefe2f94bfc94c66035c28b77f269c1e701f22b38469ba376d43750
+size 15597

checkpoint-49152/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af00b4a1d6f958e9aac32b8a85f495a006ab2769eab01b4b45246feb14c65a8f
+size 557

checkpoint-49152/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d00168f4f79815bc924316879bd4fe7a203e69420404b9075ec9f83c377b6704
+size 627

checkpoint-49152/trainer_state.json ADDED Viewed

	@@ -0,0 +1,184 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.6859016393442623,
+  "global_step": 49152,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0004984426897459585,
+      "loss": 0.5454,
+      "step": 4096
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 0.5005695223808289,
+      "eval_runtime": 32.9622,
+      "eval_samples_per_second": 104.271,
+      "eval_steps_per_second": 6.523,
+      "step": 4096
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0004934687023955681,
+      "loss": 0.4849,
+      "step": 8192
+    },
+    {
+      "epoch": 0.45,
+      "eval_loss": 0.480915367603302,
+      "eval_runtime": 32.9785,
+      "eval_samples_per_second": 104.219,
+      "eval_steps_per_second": 6.519,
+      "step": 8192
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.000485144849673373,
+      "loss": 0.4518,
+      "step": 12288
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 0.46660953760147095,
+      "eval_runtime": 32.8208,
+      "eval_samples_per_second": 104.72,
+      "eval_steps_per_second": 6.551,
+      "step": 12288
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0004735848873631612,
+      "loss": 0.4282,
+      "step": 16384
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 0.46097490191459656,
+      "eval_runtime": 32.8311,
+      "eval_samples_per_second": 104.687,
+      "eval_steps_per_second": 6.549,
+      "step": 16384
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.0004589518403420676,
+      "loss": 0.4145,
+      "step": 20480
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 0.45063599944114685,
+      "eval_runtime": 32.8912,
+      "eval_samples_per_second": 104.496,
+      "eval_steps_per_second": 6.537,
+      "step": 20480
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0004414445597486605,
+      "loss": 0.399,
+      "step": 24576
+    },
+    {
+      "epoch": 1.34,
+      "eval_loss": 0.44468095898628235,
+      "eval_runtime": 32.706,
+      "eval_samples_per_second": 105.088,
+      "eval_steps_per_second": 6.574,
+      "step": 24576
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00042130386669061293,
+      "loss": 0.3882,
+      "step": 28672
+    },
+    {
+      "epoch": 1.57,
+      "eval_loss": 0.44857361912727356,
+      "eval_runtime": 32.9754,
+      "eval_samples_per_second": 104.229,
+      "eval_steps_per_second": 6.52,
+      "step": 28672
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0003988010477498867,
+      "loss": 0.3767,
+      "step": 32768
+    },
+    {
+      "epoch": 1.79,
+      "eval_loss": 0.44354742765426636,
+      "eval_runtime": 32.8219,
+      "eval_samples_per_second": 104.717,
+      "eval_steps_per_second": 6.55,
+      "step": 32768
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.0003742566178542921,
+      "loss": 0.3676,
+      "step": 36864
+    },
+    {
+      "epoch": 2.01,
+      "eval_loss": 0.43940743803977966,
+      "eval_runtime": 32.9279,
+      "eval_samples_per_second": 104.38,
+      "eval_steps_per_second": 6.529,
+      "step": 36864
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.0003479963856008823,
+      "loss": 0.3577,
+      "step": 40960
+    },
+    {
+      "epoch": 2.24,
+      "eval_loss": 0.4323909878730774,
+      "eval_runtime": 33.0718,
+      "eval_samples_per_second": 103.926,
+      "eval_steps_per_second": 6.501,
+      "step": 40960
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 0.0003203943839704654,
+      "loss": 0.3517,
+      "step": 45056
+    },
+    {
+      "epoch": 2.46,
+      "eval_loss": 0.43262797594070435,
+      "eval_runtime": 32.8978,
+      "eval_samples_per_second": 104.475,
+      "eval_steps_per_second": 6.535,
+      "step": 45056
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.000291817008494138,
+      "loss": 0.3427,
+      "step": 49152
+    },
+    {
+      "epoch": 2.69,
+      "eval_loss": 0.4303751289844513,
+      "eval_runtime": 32.7306,
+      "eval_samples_per_second": 105.009,
+      "eval_steps_per_second": 6.569,
+      "step": 49152
+    }
+  ],
+  "max_steps": 109800,
+  "num_train_epochs": 6,
+  "total_flos": 2.28488651552981e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-49152/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:908dc25e857dbdefbfe009b9ed0b992ce31760b393bf814f450b0d3c701c2397
+size 3579

checkpoint-65536/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "JammyMachina/elec-gmusic-familized-model-13-12__17-35-53",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_embd": 512,
+  "n_head": 8,
+  "n_inner": null,
+  "n_layer": 6,
+  "n_positions": 2048,
+  "pad_token_id": 1,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.26.0.dev0",
+  "use_cache": true,
+  "vocab_size": 301
+}

checkpoint-65536/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:54e0920bdfddaabac8a5ad21d51caeec5cd54da9f757ebcddd88727e65e3b0fa
+size 160988613

checkpoint-65536/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0f332d8ba3274b68f5a8be51675fb17c52517bb91afa146b216152fe7b79e3ec
+size 105666297

checkpoint-65536/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aee57e1a8e7a5046bc0aefde8c83d8da10e21f99a4041fe35e9fa626d36ad6df
+size 15597

checkpoint-65536/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90eab177fcd8a8c5027f1aae9016833d3712bdfd8d1ad47bc6118d56bd80b1e2
+size 557

checkpoint-65536/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:21d15ba8d37dc81eb86a1c0e1d8d668e69692d75bf075e2f21975aeca452668a
+size 627

checkpoint-65536/trainer_state.json ADDED Viewed

	@@ -0,0 +1,240 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.5812021857923497,
+  "global_step": 65536,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0004984426897459585,
+      "loss": 0.5454,
+      "step": 4096
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 0.5005695223808289,
+      "eval_runtime": 32.9622,
+      "eval_samples_per_second": 104.271,
+      "eval_steps_per_second": 6.523,
+      "step": 4096
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0004934687023955681,
+      "loss": 0.4849,
+      "step": 8192
+    },
+    {
+      "epoch": 0.45,
+      "eval_loss": 0.480915367603302,
+      "eval_runtime": 32.9785,
+      "eval_samples_per_second": 104.219,
+      "eval_steps_per_second": 6.519,
+      "step": 8192
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.000485144849673373,
+      "loss": 0.4518,
+      "step": 12288
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 0.46660953760147095,
+      "eval_runtime": 32.8208,
+      "eval_samples_per_second": 104.72,
+      "eval_steps_per_second": 6.551,
+      "step": 12288
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0004735848873631612,
+      "loss": 0.4282,
+      "step": 16384
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 0.46097490191459656,
+      "eval_runtime": 32.8311,
+      "eval_samples_per_second": 104.687,
+      "eval_steps_per_second": 6.549,
+      "step": 16384
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.0004589518403420676,
+      "loss": 0.4145,
+      "step": 20480
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 0.45063599944114685,
+      "eval_runtime": 32.8912,
+      "eval_samples_per_second": 104.496,
+      "eval_steps_per_second": 6.537,
+      "step": 20480
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0004414445597486605,
+      "loss": 0.399,
+      "step": 24576
+    },
+    {
+      "epoch": 1.34,
+      "eval_loss": 0.44468095898628235,
+      "eval_runtime": 32.706,
+      "eval_samples_per_second": 105.088,
+      "eval_steps_per_second": 6.574,
+      "step": 24576
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00042130386669061293,
+      "loss": 0.3882,
+      "step": 28672
+    },
+    {
+      "epoch": 1.57,
+      "eval_loss": 0.44857361912727356,
+      "eval_runtime": 32.9754,
+      "eval_samples_per_second": 104.229,
+      "eval_steps_per_second": 6.52,
+      "step": 28672
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0003988010477498867,
+      "loss": 0.3767,
+      "step": 32768
+    },
+    {
+      "epoch": 1.79,
+      "eval_loss": 0.44354742765426636,
+      "eval_runtime": 32.8219,
+      "eval_samples_per_second": 104.717,
+      "eval_steps_per_second": 6.55,
+      "step": 32768
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.0003742566178542921,
+      "loss": 0.3676,
+      "step": 36864
+    },
+    {
+      "epoch": 2.01,
+      "eval_loss": 0.43940743803977966,
+      "eval_runtime": 32.9279,
+      "eval_samples_per_second": 104.38,
+      "eval_steps_per_second": 6.529,
+      "step": 36864
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.0003479963856008823,
+      "loss": 0.3577,
+      "step": 40960
+    },
+    {
+      "epoch": 2.24,
+      "eval_loss": 0.4323909878730774,
+      "eval_runtime": 33.0718,
+      "eval_samples_per_second": 103.926,
+      "eval_steps_per_second": 6.501,
+      "step": 40960
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 0.0003203943839704654,
+      "loss": 0.3517,
+      "step": 45056
+    },
+    {
+      "epoch": 2.46,
+      "eval_loss": 0.43262797594070435,
+      "eval_runtime": 32.8978,
+      "eval_samples_per_second": 104.475,
+      "eval_steps_per_second": 6.535,
+      "step": 45056
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.000291817008494138,
+      "loss": 0.3427,
+      "step": 49152
+    },
+    {
+      "epoch": 2.69,
+      "eval_loss": 0.4303751289844513,
+      "eval_runtime": 32.7306,
+      "eval_samples_per_second": 105.009,
+      "eval_steps_per_second": 6.569,
+      "step": 49152
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 0.0002626784527987937,
+      "loss": 0.3344,
+      "step": 53248
+    },
+    {
+      "epoch": 2.91,
+      "eval_loss": 0.4269418716430664,
+      "eval_runtime": 32.8164,
+      "eval_samples_per_second": 104.734,
+      "eval_steps_per_second": 6.552,
+      "step": 53248
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 0.00023335128365042213,
+      "loss": 0.3242,
+      "step": 57344
+    },
+    {
+      "epoch": 3.13,
+      "eval_loss": 0.4315994679927826,
+      "eval_runtime": 32.82,
+      "eval_samples_per_second": 104.723,
+      "eval_steps_per_second": 6.551,
+      "step": 57344
+    },
+    {
+      "epoch": 3.36,
+      "learning_rate": 0.00020425323740515426,
+      "loss": 0.3163,
+      "step": 61440
+    },
+    {
+      "epoch": 3.36,
+      "eval_loss": 0.418425053358078,
+      "eval_runtime": 32.815,
+      "eval_samples_per_second": 104.739,
+      "eval_steps_per_second": 6.552,
+      "step": 61440
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 0.0001757916101204877,
+      "loss": 0.3099,
+      "step": 65536
+    },
+    {
+      "epoch": 3.58,
+      "eval_loss": 0.42424410581588745,
+      "eval_runtime": 32.8877,
+      "eval_samples_per_second": 104.507,
+      "eval_steps_per_second": 6.537,
+      "step": 65536
+    }
+  ],
+  "max_steps": 109800,
+  "num_train_epochs": 6,
+  "total_flos": 3.04651444307755e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-65536/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:908dc25e857dbdefbfe009b9ed0b992ce31760b393bf814f450b0d3c701c2397
+size 3579

checkpoint-81920/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "JammyMachina/elec-gmusic-familized-model-13-12__17-35-53",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_embd": 512,
+  "n_head": 8,
+  "n_inner": null,
+  "n_layer": 6,
+  "n_positions": 2048,
+  "pad_token_id": 1,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.26.0.dev0",
+  "use_cache": true,
+  "vocab_size": 301
+}

checkpoint-81920/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb7ab9bbb244c55a8ca5951e45289da72d312a6ad27c5901d57fb6561c6dc33b
+size 160988741

checkpoint-81920/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc955d862610702341bec6b458ab0ea3b529ebc7b3ae659f9e19082059b9a035
+size 105666297

checkpoint-81920/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fffffe398af585e9cd6ad8216a86bf956ee56132206e36e91b478413b19ff1c6
+size 15597

checkpoint-81920/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a64898410c19ad90c047ca0716ad9cc322ded2ffe815cb5e76e91a927485c411
+size 557

checkpoint-81920/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:54666b8c2f968c26d6f8c387e7050becbe28e016974d1d1a3980d380af65ff37
+size 627

checkpoint-81920/trainer_state.json ADDED Viewed

	@@ -0,0 +1,296 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 4.476502732240437,
+  "global_step": 81920,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0004984426897459585,
+      "loss": 0.5454,
+      "step": 4096
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 0.5005695223808289,
+      "eval_runtime": 32.9622,
+      "eval_samples_per_second": 104.271,
+      "eval_steps_per_second": 6.523,
+      "step": 4096
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0004934687023955681,
+      "loss": 0.4849,
+      "step": 8192
+    },
+    {
+      "epoch": 0.45,
+      "eval_loss": 0.480915367603302,
+      "eval_runtime": 32.9785,
+      "eval_samples_per_second": 104.219,
+      "eval_steps_per_second": 6.519,
+      "step": 8192
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.000485144849673373,
+      "loss": 0.4518,
+      "step": 12288
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 0.46660953760147095,
+      "eval_runtime": 32.8208,
+      "eval_samples_per_second": 104.72,
+      "eval_steps_per_second": 6.551,
+      "step": 12288
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0004735848873631612,
+      "loss": 0.4282,
+      "step": 16384
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 0.46097490191459656,
+      "eval_runtime": 32.8311,
+      "eval_samples_per_second": 104.687,
+      "eval_steps_per_second": 6.549,
+      "step": 16384
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.0004589518403420676,
+      "loss": 0.4145,
+      "step": 20480
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 0.45063599944114685,
+      "eval_runtime": 32.8912,
+      "eval_samples_per_second": 104.496,
+      "eval_steps_per_second": 6.537,
+      "step": 20480
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0004414445597486605,
+      "loss": 0.399,
+      "step": 24576
+    },
+    {
+      "epoch": 1.34,
+      "eval_loss": 0.44468095898628235,
+      "eval_runtime": 32.706,
+      "eval_samples_per_second": 105.088,
+      "eval_steps_per_second": 6.574,
+      "step": 24576
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00042130386669061293,
+      "loss": 0.3882,
+      "step": 28672
+    },
+    {
+      "epoch": 1.57,
+      "eval_loss": 0.44857361912727356,
+      "eval_runtime": 32.9754,
+      "eval_samples_per_second": 104.229,
+      "eval_steps_per_second": 6.52,
+      "step": 28672
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0003988010477498867,
+      "loss": 0.3767,
+      "step": 32768
+    },
+    {
+      "epoch": 1.79,
+      "eval_loss": 0.44354742765426636,
+      "eval_runtime": 32.8219,
+      "eval_samples_per_second": 104.717,
+      "eval_steps_per_second": 6.55,
+      "step": 32768
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.0003742566178542921,
+      "loss": 0.3676,
+      "step": 36864
+    },
+    {
+      "epoch": 2.01,
+      "eval_loss": 0.43940743803977966,
+      "eval_runtime": 32.9279,
+      "eval_samples_per_second": 104.38,
+      "eval_steps_per_second": 6.529,
+      "step": 36864
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.0003479963856008823,
+      "loss": 0.3577,
+      "step": 40960
+    },
+    {
+      "epoch": 2.24,
+      "eval_loss": 0.4323909878730774,
+      "eval_runtime": 33.0718,
+      "eval_samples_per_second": 103.926,
+      "eval_steps_per_second": 6.501,
+      "step": 40960
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 0.0003203943839704654,
+      "loss": 0.3517,
+      "step": 45056
+    },
+    {
+      "epoch": 2.46,
+      "eval_loss": 0.43262797594070435,
+      "eval_runtime": 32.8978,
+      "eval_samples_per_second": 104.475,
+      "eval_steps_per_second": 6.535,
+      "step": 45056
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.000291817008494138,
+      "loss": 0.3427,
+      "step": 49152
+    },
+    {
+      "epoch": 2.69,
+      "eval_loss": 0.4303751289844513,
+      "eval_runtime": 32.7306,
+      "eval_samples_per_second": 105.009,
+      "eval_steps_per_second": 6.569,
+      "step": 49152
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 0.0002626784527987937,
+      "loss": 0.3344,
+      "step": 53248
+    },
+    {
+      "epoch": 2.91,
+      "eval_loss": 0.4269418716430664,
+      "eval_runtime": 32.8164,
+      "eval_samples_per_second": 104.734,
+      "eval_steps_per_second": 6.552,
+      "step": 53248
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 0.00023335128365042213,
+      "loss": 0.3242,
+      "step": 57344
+    },
+    {
+      "epoch": 3.13,
+      "eval_loss": 0.4315994679927826,
+      "eval_runtime": 32.82,
+      "eval_samples_per_second": 104.723,
+      "eval_steps_per_second": 6.551,
+      "step": 57344
+    },
+    {
+      "epoch": 3.36,
+      "learning_rate": 0.00020425323740515426,
+      "loss": 0.3163,
+      "step": 61440
+    },
+    {
+      "epoch": 3.36,
+      "eval_loss": 0.418425053358078,
+      "eval_runtime": 32.815,
+      "eval_samples_per_second": 104.739,
+      "eval_steps_per_second": 6.552,
+      "step": 61440
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 0.0001757916101204877,
+      "loss": 0.3099,
+      "step": 65536
+    },
+    {
+      "epoch": 3.58,
+      "eval_loss": 0.42424410581588745,
+      "eval_runtime": 32.8877,
+      "eval_samples_per_second": 104.507,
+      "eval_steps_per_second": 6.537,
+      "step": 65536
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 0.00014835075511133623,
+      "loss": 0.3014,
+      "step": 69632
+    },
+    {
+      "epoch": 3.81,
+      "eval_loss": 0.4214063882827759,
+      "eval_runtime": 32.7528,
+      "eval_samples_per_second": 104.938,
+      "eval_steps_per_second": 6.564,
+      "step": 69632
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 0.00012230813460340284,
+      "loss": 0.2922,
+      "step": 73728
+    },
+    {
+      "epoch": 4.03,
+      "eval_loss": 0.41899624466896057,
+      "eval_runtime": 32.874,
+      "eval_samples_per_second": 104.551,
+      "eval_steps_per_second": 6.54,
+      "step": 73728
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 9.802197743091277e-05,
+      "loss": 0.2824,
+      "step": 77824
+    },
+    {
+      "epoch": 4.25,
+      "eval_loss": 0.4261378347873688,
+      "eval_runtime": 32.9867,
+      "eval_samples_per_second": 104.193,
+      "eval_steps_per_second": 6.518,
+      "step": 77824
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 7.582635142582842e-05,
+      "loss": 0.2763,
+      "step": 81920
+    },
+    {
+      "epoch": 4.48,
+      "eval_loss": 0.41689732670783997,
+      "eval_runtime": 32.8378,
+      "eval_samples_per_second": 104.666,
+      "eval_steps_per_second": 6.547,
+      "step": 81920
+    }
+  ],
+  "max_steps": 109800,
+  "num_train_epochs": 6,
+  "total_flos": 3.808142393323684e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-81920/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:908dc25e857dbdefbfe009b9ed0b992ce31760b393bf814f450b0d3c701c2397
+size 3579

checkpoint-98304/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "JammyMachina/elec-gmusic-familized-model-13-12__17-35-53",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_embd": 512,
+  "n_head": 8,
+  "n_inner": null,
+  "n_layer": 6,
+  "n_positions": 2048,
+  "pad_token_id": 1,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.26.0.dev0",
+  "use_cache": true,
+  "vocab_size": 301
+}

checkpoint-98304/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:014913b3bebc5949772972bad9abd8cc1441a32ccaaf6ce6e39aa7ee451e91c2
+size 160988741

checkpoint-98304/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:21daa275d207208ec6719f04b377544f2493361f841335c2d95e2485bff9e8dc
+size 105666297

checkpoint-98304/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:039e2c727e8a69005845078a1c0c187ee9f4ff546022459e2229559ea422dc92
+size 15597

checkpoint-98304/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27e821a12d2ed8ac74718c23a701a5ce5698416f02e361928a1405fe12821f39
+size 557

checkpoint-98304/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9ebba6536216c5fa93d6a817ad01a3044ab2fe46d5b6a237deafc08eb421d6d
+size 627

checkpoint-98304/trainer_state.json ADDED Viewed

	@@ -0,0 +1,352 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.371803278688525,
+  "global_step": 98304,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0004984426897459585,
+      "loss": 0.5454,
+      "step": 4096
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 0.5005695223808289,
+      "eval_runtime": 32.9622,
+      "eval_samples_per_second": 104.271,
+      "eval_steps_per_second": 6.523,
+      "step": 4096
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0004934687023955681,
+      "loss": 0.4849,
+      "step": 8192
+    },
+    {
+      "epoch": 0.45,
+      "eval_loss": 0.480915367603302,
+      "eval_runtime": 32.9785,
+      "eval_samples_per_second": 104.219,
+      "eval_steps_per_second": 6.519,
+      "step": 8192
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.000485144849673373,
+      "loss": 0.4518,
+      "step": 12288
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 0.46660953760147095,
+      "eval_runtime": 32.8208,
+      "eval_samples_per_second": 104.72,
+      "eval_steps_per_second": 6.551,
+      "step": 12288
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0004735848873631612,
+      "loss": 0.4282,
+      "step": 16384
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 0.46097490191459656,
+      "eval_runtime": 32.8311,
+      "eval_samples_per_second": 104.687,
+      "eval_steps_per_second": 6.549,
+      "step": 16384
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.0004589518403420676,
+      "loss": 0.4145,
+      "step": 20480
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 0.45063599944114685,
+      "eval_runtime": 32.8912,
+      "eval_samples_per_second": 104.496,
+      "eval_steps_per_second": 6.537,
+      "step": 20480
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0004414445597486605,
+      "loss": 0.399,
+      "step": 24576
+    },
+    {
+      "epoch": 1.34,
+      "eval_loss": 0.44468095898628235,
+      "eval_runtime": 32.706,
+      "eval_samples_per_second": 105.088,
+      "eval_steps_per_second": 6.574,
+      "step": 24576
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00042130386669061293,
+      "loss": 0.3882,
+      "step": 28672
+    },
+    {
+      "epoch": 1.57,
+      "eval_loss": 0.44857361912727356,
+      "eval_runtime": 32.9754,
+      "eval_samples_per_second": 104.229,
+      "eval_steps_per_second": 6.52,
+      "step": 28672
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0003988010477498867,
+      "loss": 0.3767,
+      "step": 32768
+    },
+    {
+      "epoch": 1.79,
+      "eval_loss": 0.44354742765426636,
+      "eval_runtime": 32.8219,
+      "eval_samples_per_second": 104.717,
+      "eval_steps_per_second": 6.55,
+      "step": 32768
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.0003742566178542921,
+      "loss": 0.3676,
+      "step": 36864
+    },
+    {
+      "epoch": 2.01,
+      "eval_loss": 0.43940743803977966,
+      "eval_runtime": 32.9279,
+      "eval_samples_per_second": 104.38,
+      "eval_steps_per_second": 6.529,
+      "step": 36864
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.0003479963856008823,
+      "loss": 0.3577,
+      "step": 40960
+    },
+    {
+      "epoch": 2.24,
+      "eval_loss": 0.4323909878730774,
+      "eval_runtime": 33.0718,
+      "eval_samples_per_second": 103.926,
+      "eval_steps_per_second": 6.501,
+      "step": 40960
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 0.0003203943839704654,
+      "loss": 0.3517,
+      "step": 45056
+    },
+    {
+      "epoch": 2.46,
+      "eval_loss": 0.43262797594070435,
+      "eval_runtime": 32.8978,
+      "eval_samples_per_second": 104.475,
+      "eval_steps_per_second": 6.535,
+      "step": 45056
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.000291817008494138,
+      "loss": 0.3427,
+      "step": 49152
+    },
+    {
+      "epoch": 2.69,
+      "eval_loss": 0.4303751289844513,
+      "eval_runtime": 32.7306,
+      "eval_samples_per_second": 105.009,
+      "eval_steps_per_second": 6.569,
+      "step": 49152
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 0.0002626784527987937,
+      "loss": 0.3344,
+      "step": 53248
+    },
+    {
+      "epoch": 2.91,
+      "eval_loss": 0.4269418716430664,
+      "eval_runtime": 32.8164,
+      "eval_samples_per_second": 104.734,
+      "eval_steps_per_second": 6.552,
+      "step": 53248
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 0.00023335128365042213,
+      "loss": 0.3242,
+      "step": 57344
+    },
+    {
+      "epoch": 3.13,
+      "eval_loss": 0.4315994679927826,
+      "eval_runtime": 32.82,
+      "eval_samples_per_second": 104.723,
+      "eval_steps_per_second": 6.551,
+      "step": 57344
+    },
+    {
+      "epoch": 3.36,
+      "learning_rate": 0.00020425323740515426,
+      "loss": 0.3163,
+      "step": 61440
+    },
+    {
+      "epoch": 3.36,
+      "eval_loss": 0.418425053358078,
+      "eval_runtime": 32.815,
+      "eval_samples_per_second": 104.739,
+      "eval_steps_per_second": 6.552,
+      "step": 61440
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 0.0001757916101204877,
+      "loss": 0.3099,
+      "step": 65536
+    },
+    {
+      "epoch": 3.58,
+      "eval_loss": 0.42424410581588745,
+      "eval_runtime": 32.8877,
+      "eval_samples_per_second": 104.507,
+      "eval_steps_per_second": 6.537,
+      "step": 65536
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 0.00014835075511133623,
+      "loss": 0.3014,
+      "step": 69632
+    },
+    {
+      "epoch": 3.81,
+      "eval_loss": 0.4214063882827759,
+      "eval_runtime": 32.7528,
+      "eval_samples_per_second": 104.938,
+      "eval_steps_per_second": 6.564,
+      "step": 69632
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 0.00012230813460340284,
+      "loss": 0.2922,
+      "step": 73728
+    },
+    {
+      "epoch": 4.03,
+      "eval_loss": 0.41899624466896057,
+      "eval_runtime": 32.874,
+      "eval_samples_per_second": 104.551,
+      "eval_steps_per_second": 6.54,
+      "step": 73728
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 9.802197743091277e-05,
+      "loss": 0.2824,
+      "step": 77824
+    },
+    {
+      "epoch": 4.25,
+      "eval_loss": 0.4261378347873688,
+      "eval_runtime": 32.9867,
+      "eval_samples_per_second": 104.193,
+      "eval_steps_per_second": 6.518,
+      "step": 77824
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 7.582635142582842e-05,
+      "loss": 0.2763,
+      "step": 81920
+    },
+    {
+      "epoch": 4.48,
+      "eval_loss": 0.41689732670783997,
+      "eval_runtime": 32.8378,
+      "eval_samples_per_second": 104.666,
+      "eval_steps_per_second": 6.547,
+      "step": 81920
+    },
+    {
+      "epoch": 4.7,
+      "learning_rate": 5.602656815333096e-05,
+      "loss": 0.2705,
+      "step": 86016
+    },
+    {
+      "epoch": 4.7,
+      "eval_loss": 0.41673606634140015,
+      "eval_runtime": 32.9093,
+      "eval_samples_per_second": 104.439,
+      "eval_steps_per_second": 6.533,
+      "step": 86016
+    },
+    {
+      "epoch": 4.92,
+      "learning_rate": 3.889114457390541e-05,
+      "loss": 0.2632,
+      "step": 90112
+    },
+    {
+      "epoch": 4.92,
+      "eval_loss": 0.4199689030647278,
+      "eval_runtime": 33.1245,
+      "eval_samples_per_second": 103.76,
+      "eval_steps_per_second": 6.491,
+      "step": 90112
+    },
+    {
+      "epoch": 5.15,
+      "learning_rate": 2.4664146067361558e-05,
+      "loss": 0.255,
+      "step": 94208
+    },
+    {
+      "epoch": 5.15,
+      "eval_loss": 0.42629772424697876,
+      "eval_runtime": 32.7944,
+      "eval_samples_per_second": 104.804,
+      "eval_steps_per_second": 6.556,
+      "step": 94208
+    },
+    {
+      "epoch": 5.37,
+      "learning_rate": 1.3536751160186934e-05,
+      "loss": 0.2515,
+      "step": 98304
+    },
+    {
+      "epoch": 5.37,
+      "eval_loss": 0.42379850149154663,
+      "eval_runtime": 32.9581,
+      "eval_samples_per_second": 104.284,
+      "eval_steps_per_second": 6.523,
+      "step": 98304
+    }
+  ],
+  "max_steps": 109800,
+  "num_train_epochs": 6,
+  "total_flos": 4.5697706840457216e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-98304/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:908dc25e857dbdefbfe009b9ed0b992ce31760b393bf814f450b0d3c701c2397
+size 3579

config.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"

 {
+  "_name_or_path": "JammyMachina/elec-gmusic-familized-model-13-12__17-35-53",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54af5d8875e2c2fd3cc37c56d33cad185fa27c7098ef23bdcb9ec77ecf847f0e
 size 105666297

 version https://git-lfs.github.com/spec/v1
+oid sha256:8611b00fb559665ca26e68dae93dfb4ebdf3717ac3a1f548409581450a0a18a4
 size 105666297

tokenizer_config.json CHANGED Viewed

@@ -1,4 +1,6 @@
 {
   "model_max_length": 1000000000000000019884624838656,
   "tokenizer_class": "PreTrainedTokenizerFast"
 }

 {
   "model_max_length": 1000000000000000019884624838656,
+  "name_or_path": "JammyMachina/elec-gmusic-familized-model-13-12__17-35-53",
+  "special_tokens_map_file": "/root/.cache/huggingface/hub/models--JammyMachina--elec-gmusic-familized-model-13-12__17-35-53/snapshots/fbba9d2ac598a2e0fbec338593aceff49347aff4/special_tokens_map.json",
   "tokenizer_class": "PreTrainedTokenizerFast"
 }

trainer_state.json CHANGED Viewed

@@ -1,249 +1,15 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.998776009791921,
-  "global_step": 4284,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.0004997680752030479,
-      "loss": 2.6834,
-      "step": 256
-    },
-    {
-      "epoch": 0.36,
-      "eval_loss": 1.4117382764816284,
-      "eval_runtime": 33.374,
-      "eval_samples_per_second": 102.984,
-      "eval_steps_per_second": 12.884,
-      "step": 256
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 0.0004928342476863796,
-      "loss": 1.2147,
-      "step": 512
-    },
-    {
-      "epoch": 0.72,
-      "eval_loss": 0.7461662292480469,
-      "eval_runtime": 33.3586,
-      "eval_samples_per_second": 103.032,
-      "eval_steps_per_second": 12.89,
-      "step": 512
-    },
-    {
-      "epoch": 1.08,
-      "learning_rate": 0.0004765136929861552,
-      "loss": 0.7591,
-      "step": 768
-    },
-    {
-      "epoch": 1.08,
-      "eval_loss": 0.5787664651870728,
-      "eval_runtime": 33.4962,
-      "eval_samples_per_second": 102.609,
-      "eval_steps_per_second": 12.837,
-      "step": 768
-    },
-    {
-      "epoch": 1.43,
-      "learning_rate": 0.0004514372800836444,
-      "loss": 0.6031,
-      "step": 1024
-    },
-    {
-      "epoch": 1.43,
-      "eval_loss": 0.5438796281814575,
-      "eval_runtime": 33.4433,
-      "eval_samples_per_second": 102.771,
-      "eval_steps_per_second": 12.858,
-      "step": 1024
-    },
-    {
-      "epoch": 1.79,
-      "learning_rate": 0.0004185743345533933,
-      "loss": 0.5457,
-      "step": 1280
-    },
-    {
-      "epoch": 1.79,
-      "eval_loss": 0.5130022168159485,
-      "eval_runtime": 33.3724,
-      "eval_samples_per_second": 102.989,
-      "eval_steps_per_second": 12.885,
-      "step": 1280
-    },
-    {
-      "epoch": 2.15,
-      "learning_rate": 0.00037919516940552946,
-      "loss": 0.5108,
-      "step": 1536
-    },
-    {
-      "epoch": 2.15,
-      "eval_loss": 0.5051754713058472,
-      "eval_runtime": 33.3675,
-      "eval_samples_per_second": 103.004,
-      "eval_steps_per_second": 12.887,
-      "step": 1536
-    },
-    {
-      "epoch": 2.51,
-      "learning_rate": 0.0003348219812967476,
-      "loss": 0.4851,
-      "step": 1792
-    },
-    {
-      "epoch": 2.51,
-      "eval_loss": 0.47963660955429077,
-      "eval_runtime": 33.4622,
-      "eval_samples_per_second": 102.713,
-      "eval_steps_per_second": 12.85,
-      "step": 1792
-    },
-    {
-      "epoch": 2.87,
-      "learning_rate": 0.00028717001021074106,
-      "loss": 0.4644,
-      "step": 2048
-    },
-    {
-      "epoch": 2.87,
-      "eval_loss": 0.475009560585022,
-      "eval_runtime": 33.3614,
-      "eval_samples_per_second": 103.023,
-      "eval_steps_per_second": 12.889,
-      "step": 2048
-    },
-    {
-      "epoch": 3.23,
-      "learning_rate": 0.00023808123707320163,
-      "loss": 0.4477,
-      "step": 2304
-    },
-    {
-      "epoch": 3.23,
-      "eval_loss": 0.4738583564758301,
-      "eval_runtime": 33.4759,
-      "eval_samples_per_second": 102.671,
-      "eval_steps_per_second": 12.845,
-      "step": 2304
-    },
-    {
-      "epoch": 3.58,
-      "learning_rate": 0.00018945318221170977,
-      "loss": 0.4328,
-      "step": 2560
-    },
-    {
-      "epoch": 3.58,
-      "eval_loss": 0.4598933756351471,
-      "eval_runtime": 33.4184,
-      "eval_samples_per_second": 102.847,
-      "eval_steps_per_second": 12.867,
-      "step": 2560
-    },
-    {
-      "epoch": 3.94,
-      "learning_rate": 0.00014316555694705608,
-      "loss": 0.4204,
-      "step": 2816
-    },
-    {
-      "epoch": 3.94,
-      "eval_loss": 0.4571586847305298,
-      "eval_runtime": 33.4525,
-      "eval_samples_per_second": 102.743,
-      "eval_steps_per_second": 12.854,
-      "step": 2816
-    },
-    {
-      "epoch": 4.3,
-      "learning_rate": 0.00010100760358947337,
-      "loss": 0.4107,
-      "step": 3072
-    },
-    {
-      "epoch": 4.3,
-      "eval_loss": 0.4567428529262543,
-      "eval_runtime": 33.4087,
-      "eval_samples_per_second": 102.877,
-      "eval_steps_per_second": 12.871,
-      "step": 3072
-    },
-    {
-      "epoch": 4.66,
-      "learning_rate": 6.460893250304736e-05,
-      "loss": 0.4021,
-      "step": 3328
-    },
-    {
-      "epoch": 4.66,
-      "eval_loss": 0.45427900552749634,
-      "eval_runtime": 33.4427,
-      "eval_samples_per_second": 102.773,
-      "eval_steps_per_second": 12.858,
-      "step": 3328
-    },
-    {
-      "epoch": 5.02,
-      "learning_rate": 3.5376529722851576e-05,
-      "loss": 0.3974,
-      "step": 3584
-    },
-    {
-      "epoch": 5.02,
-      "eval_loss": 0.44895419478416443,
-      "eval_runtime": 33.38,
-      "eval_samples_per_second": 102.966,
-      "eval_steps_per_second": 12.882,
-      "step": 3584
-    },
-    {
-      "epoch": 5.38,
-      "learning_rate": 1.444037008740992e-05,
-      "loss": 0.3904,
-      "step": 3840
-    },
-    {
-      "epoch": 5.38,
-      "eval_loss": 0.4500817358493805,
-      "eval_runtime": 33.3223,
-      "eval_samples_per_second": 103.144,
-      "eval_steps_per_second": 12.904,
-      "step": 3840
-    },
-    {
-      "epoch": 5.74,
-      "learning_rate": 2.60973820398705e-06,
-      "loss": 0.389,
-      "step": 4096
-    },
-    {
-      "epoch": 5.74,
-      "eval_loss": 0.44959455728530884,
-      "eval_runtime": 33.4849,
-      "eval_samples_per_second": 102.643,
-      "eval_steps_per_second": 12.842,
-      "step": 4096
-    },
-    {
-      "epoch": 6.0,
-      "step": 4284,
-      "total_flos": 5.103180613869896e+17,
-      "train_loss": 0.6478969901661022,
-      "train_runtime": 51304.5286,
-      "train_samples_per_second": 42.803,
-      "train_steps_per_second": 0.084
-    }
-  ],
-  "max_steps": 4284,
-  "num_train_epochs": 6,
-  "total_flos": 5.103180613869896e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": null,
+  "global_step": 0,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
+  "log_history": [],
+  "max_steps": 0,
+  "num_train_epochs": 0,
+  "total_flos": 0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0206a7605fed29c8321de91dfcf793fb6150f09dc4e519e1121bb6e0b17b29fc
-size 3515

 version https://git-lfs.github.com/spec/v1
+oid sha256:908dc25e857dbdefbfe009b9ed0b992ce31760b393bf814f450b0d3c701c2397
+size 3579

training_args.json ADDED Viewed

	@@ -0,0 +1,109 @@

+{
+  "output_dir": "models/elec-gmusic-familized",
+  "overwrite_output_dir": true,
+  "do_train": false,
+  "do_eval": true,
+  "do_predict": false,
+  "evaluation_strategy": "steps",
+  "prediction_loss_only": false,
+  "per_device_train_batch_size": 10,
+  "per_device_eval_batch_size": 8,
+  "per_gpu_train_batch_size": null,
+  "per_gpu_eval_batch_size": null,
+  "gradient_accumulation_steps": 1,
+  "eval_accumulation_steps": null,
+  "eval_delay": 0,
+  "learning_rate": 0.0005,
+  "weight_decay": 0.1,
+  "adam_beta1": 0.9,
+  "adam_beta2": 0.999,
+  "adam_epsilon": 1e-08,
+  "max_grad_norm": 1.0,
+  "num_train_epochs": 6,
+  "max_steps": -1,
+  "lr_scheduler_type": "cosine",
+  "warmup_ratio": 0.0,
+  "warmup_steps": 200,
+  "log_level": "passive",
+  "log_level_replica": "passive",
+  "log_on_each_node": true,
+  "logging_dir": "models/elec-gmusic-familized/logs",
+  "logging_strategy": "steps",
+  "logging_first_step": false,
+  "logging_steps": 4096,
+  "logging_nan_inf_filter": true,
+  "save_strategy": "steps",
+  "save_steps": 16384,
+  "save_total_limit": 5,
+  "save_on_each_node": false,
+  "no_cuda": false,
+  "use_mps_device": false,
+  "seed": 42,
+  "data_seed": null,
+  "jit_mode_eval": false,
+  "use_ipex": false,
+  "bf16": false,
+  "fp16": true,
+  "fp16_opt_level": "O1",
+  "half_precision_backend": "cuda_amp",
+  "bf16_full_eval": false,
+  "fp16_full_eval": false,
+  "tf32": null,
+  "local_rank": -1,
+  "xpu_backend": null,
+  "tpu_num_cores": null,
+  "tpu_metrics_debug": false,
+  "debug": [],
+  "dataloader_drop_last": false,
+  "eval_steps": 4096,
+  "dataloader_num_workers": 0,
+  "past_index": -1,
+  "run_name": "models/elec-gmusic-familized",
+  "disable_tqdm": false,
+  "remove_unused_columns": true,
+  "label_names": null,
+  "load_best_model_at_end": false,
+  "metric_for_best_model": null,
+  "greater_is_better": null,
+  "ignore_data_skip": false,
+  "sharded_ddp": [],
+  "fsdp": [],
+  "fsdp_min_num_params": 0,
+  "fsdp_transformer_layer_cls_to_wrap": null,
+  "deepspeed": null,
+  "label_smoothing_factor": 0.0,
+  "optim": "adamw_hf",
+  "optim_args": null,
+  "adafactor": false,
+  "group_by_length": false,
+  "length_column_name": "length",
+  "report_to": [
+    "wandb"
+  ],
+  "ddp_find_unused_parameters": null,
+  "ddp_bucket_cap_mb": null,
+  "dataloader_pin_memory": true,
+  "skip_memory_metrics": true,
+  "use_legacy_prediction_loop": false,
+  "push_to_hub": true,
+  "resume_from_checkpoint": null,
+  "hub_model_id": "JammyMachina/elec-gmusic-familized-model-13-12__17-35-53",
+  "hub_strategy": "every_save",
+  "hub_token": "<HUB_TOKEN>",
+  "hub_private_repo": false,
+  "gradient_checkpointing": false,
+  "include_inputs_for_metrics": false,
+  "fp16_backend": "auto",
+  "push_to_hub_model_id": null,
+  "push_to_hub_organization": null,
+  "push_to_hub_token": "<PUSH_TO_HUB_TOKEN>",
+  "mp_parameters": "",
+  "auto_find_batch_size": false,
+  "full_determinism": false,
+  "torchdynamo": null,
+  "ray_scope": "last",
+  "ddp_timeout": 1800,
+  "torch_compile": false,
+  "torch_compile_backend": null,
+  "torch_compile_mode": null
+}